Angewandte Datenwissenschaft - 5 : Modellierung und Vorhersage | Kumaran Ponnambalam | Skillshare

Playback-Geschwindigkeit


  • 0.5x
  • 1x (normal)
  • 1.25x
  • 1.5x
  • 2x

Angewandte Datenwissenschaft - 5 : Modellierung und Vorhersage

teacher avatar Kumaran Ponnambalam, Dedicated to Data Science Education

Schau dir diesen Kurs und Tausende anderer Kurse an

Erhalte unbegrenzten Zugang zu jedem Kurs
Lerne von Branchenführern, Ikonen und erfahrenen Experten
Eine Vielzahl von Themen, wie Illustration, Design, Fotografie, Animation und mehr

Schau dir diesen Kurs und Tausende anderer Kurse an

Erhalte unbegrenzten Zugang zu jedem Kurs
Lerne von Branchenführern, Ikonen und erfahrenen Experten
Eine Vielzahl von Themen, wie Illustration, Design, Fotografie, Animation und mehr

Einheiten dieses Kurses

20 Einheiten (4 Std. 40 Min.)
    • 1. Über angewandte Datenwissenschaft

      8:12
    • 2. Arten von Analytics

      12:08
    • 3. Arten des Lernens

      17:16
    • 4. Ergebnisse und Fehler analysieren

      13:46
    • 5. Lineare Regression

      19:00
    • 6. R Use Case : Lineare Regression

      18:01
    • 7. Entscheidungsbäume

      10:42
    • 8. R Use Case : Entscheidungsbäume

      19:36
    • 9. Naive Bayes Klassifikator

      19:21
    • 10. R Use Case : Naive Bayes

      19:12
    • 11. Random

      10:31
    • 12. R Use Case : Random

      18:47
    • 13. K bedeutet Clustering

      11:53
    • 14. R Use Case : K bedeutet Clustering

      16:24
    • 15. Verbandsregeln Mining

      11:30
    • 16. R Use Case : Association Mining

      13:11
    • 17. ANN und SVM

      4:35
    • 18. Auspacken und Boosten

      11:27
    • 19. Dimensionality

      7:28
    • 20. R Use Case : Erweiterte Methoden

      17:18
  • --
  • Anfänger-Niveau
  • Fortgeschrittenes Niveau
  • Fortgeschrittenes Niveau
  • Alle Niveaus

Von der Community generiert

Das Niveau wird anhand der mehrheitlichen Meinung der Teilnehmer:innen bestimmt, die diesen Kurs bewertet haben. Bis das Feedback von mindestens 5 Teilnehmer:innen eingegangen ist, wird die Empfehlung der Kursleiter:innen angezeigt.

262

Teilnehmer:innen

--

Projekte

Über diesen Kurs

Dieser Kurs ist Teil der "Applied Data Science Series" auf SkillShare von V2 Maestros. Wenn du den gesamten Kurs durchlaufen möchtest, melde dich bitte für alle anderen Kurse an und gehe in der angegebenen Reihenfolge durch.

Dieser Kurs konzentriert sich auf Modellierung und Vorhersage. Verschiedene Algorithmen für überwachtes und unüberwachtes Lernen werden untersucht. Anwendungsfälle werden für die wichtigsten Arten von Algorithmen dargestellt.

Triff deine:n Kursleiter:in

Teacher Profile Image

Kumaran Ponnambalam

Dedicated to Data Science Education

Kursleiter:in

V2 Maestros is dedicated to teaching data science and Big Data at affordable costs to the world. Our instructors have real world experience practicing data science and delivering business results. Data Science is a hot and happening field in the IT industry. Unfortunately, the resources available for learning this skill are hard to find and expensive. We hope to ease this problem by providing quality education at affordable rates, there by building data science talent across the world.

Vollständiges Profil ansehen

Kursbewertungen

Erwartungen erfüllt?
    Voll und ganz!
  • 0%
  • Ja
  • 0%
  • Teils teils
  • 0%
  • Eher nicht
  • 0%
Bewertungsarchiv

Im Oktober 2018 haben wir unser Bewertungssystem aktualisiert, um das Verfahren unserer Feedback-Erhebung zu verbessern. Nachfolgend die Bewertungen, die vor diesem Update verfasst wurden.

Warum lohnt sich eine Mitgliedschaft bei Skillshare?

Nimm an prämierten Skillshare Original-Kursen teil

Jeder Kurs setzt sich aus kurzen Einheiten und praktischen Übungsprojekten zusammen

Mit deiner Mitgliedschaft unterstützt du die Kursleiter:innen bei Skillshare

Lerne von überall aus

Ob auf dem Weg zur Arbeit, zur Uni oder im Flieger - streame oder lade Kurse herunter mit der Skillshare-App und lerne, wo auch immer du möchtest.

Transkripte

1. Über angewandte Datenwissenschaft: Hey, willkommen zum Kurs sind Datenzeichen mit unserem Dies ist Ihr Lehrer, Cameron Parnham gehören aus Video Mastro's Let's Go Through und verstehen, worum es bei diesem Kurs geht. Das Ziel des Kurses ist es, Studenten zu ausbilden, um vollwertige Datenpraktiker zu werden. Daher konzentrieren wir uns darauf, Menschen zu Praktizierenden zu machen, die in Ereignisdaten ausführen können, da das Projekt von Anfang an Daten bis hin zur Transformation, Laden in ein endgültiges später unser Ziel und dann Durchführung von Organanalysen auf schließlich Erreichen einiger Geschäftsergebnisse aus dieser Analyse, was tun Sie Was Sie, indem Sie diesen Kurs nehmen, ist Sie verstehen das Konzept und die Konzepte der Datenzeichen, Sie verstehen die verschiedenen Phasen in der im Lebenszyklus von einer Data Science -Projekt entwickeln Sie Fähigkeiten, um unsere ANDI nutzen zu können, sind in allen Phasen von ANALITICO direkt von explorativen Datenanalyse bis hin zur Direktive pro Stunde. Es dauert bis zum Modellieren der Zehe. Schließlich die Vorhersage mit maschinellen Lernalgorithmen lernten die verschiedenen Data Engineering-Tools und Techniken über die Datenerfassung und Bereinigung von Daten auf Transformation Daten. Erworbene Kenntnisse über den Freund Machine Learning Techniken auf auch lernen, wie Sie sie verwenden können und vor allem, dann können Sie sie zu einem vollwertigen Data Science Praktiker werden und wer kann sofort beitragen Daten aus dem realen Leben. Wissenschaftsprojekte nichtzu erwähnen, dass Sie dieses Wissen zu Ihrem Interview bringen wollen , damit Sie eine Position in Data Science bekommen können. Terry war diese Praxis, die wir dieses besondere Ding von Theorie gegen Praxis, Daten, Zeichen, Prinzipien, Tools und Techniken berühren wollten Praxis, Daten, Zeichen, Prinzipien, Prinzipien, . Bild aus verschiedenen Schildern und Ingenieurdisziplinen. Nein, sie kommen aus Informatik, Informatik , Information, Information, Terry Wahrscheinlichkeit und begann Sticks, künstliche Intelligenz und so eine auf theoretische Studie von Daten Zeichen es konzentrieren sich auf diese wissenschaftliche Grundlage und Argumentation aus den verschiedenen Mission Learning Gardens. Es konzentriert sich auf den Versuch zu verstehen, wie diese Mission Salgados Arbeit in einem tiefen Sinn lernen kann, um Ihre eigenen Algorithmen auf zu entwickeln. Entwickeln Sie Ihre eigene Implementierung dieser Algorithmen, um einen echten Ball Probleme vorherzusagen. Nur einer wohnt in viel weg in unseren Gleichungen und formell über Entbehrungen und Argumentation. Während der Pakt ist auf der Spitze spät an einem Teil der Daten, Wissenschaft konzentriert sich auf ein Spiel die Werkzeuge, Prinzipien und Techniken, um Geschäftsprobleme zu lösen bekommen den Fokus auf den Versuch, vorhandene Techniken und Werkzeuge und Bibliotheken zu verwenden auf wie Sie diese nehmen und ein Spiel sie wirklich Probleme zu arbeiten und kommen mit Geschäft verdient. Dieser konzentriert sich auf ein angemessenes Verständnis der Konzepte und Kenntnisse darüber, was die Tools und Bibliotheken zur Verfügung stehen, wie Sie diese Tools und Bibliotheken verwenden können, um reale Probleme zu lösen . Dieser Kurs konzentriert sich also auf die Praxis aus späteren Zeichen, und deshalb heißt es Applied Data Science Neigung der Kurse. Diese Datenwissenschaft ist ein transdisziplinäres Thema, und es ist ein komplexes Thema. Es geht nicht vor allem um drei technische Bereiche, auf die man sich konzentrieren muss. Es gibt also Mathematik und Statistiken, die Mission Learning ist. Und es gibt Programmierung auf diesem Kurs ist darauf ausgerichtet. Wissen Sie, Programmierung orientiert sich an bestehenden Software-Profis. Es ist stark auf Programmierung und Lösungsaufbau fokussiert. Es hat begrenzt und verlangte erforderliche Explosionsbelastung. Die Mathematik und Statistiken auf sie deckt Überblick Off Machine Learning Konzepte gibt Ihnen artikulieren Verständnis davon, wie diese maschinelles Lernen alle bewacht sie Bücher. Aber der Fokus liegt auf der Verwendung des vorhandenen Tools zur Entwicklung der realen Welt Lösung. In der Tat, 90 95% andere Arbeit, die später Wissenschaft Zeit. Nur tun in der realen Welt ist die Praxis der Datenwissenschaft. Nicht wirklich, Terry, von größerer Wissenschaft und dieser Kurs ist bestrebt, die Dinge einfach und sehr leicht zu verstehen. Also haben wir das definitiv sehr einfach gemacht. Wir haben uns von einigen der komplexen Konzept ferngehalten. Entweder haben wir versucht, den Ton nach unten Diese komplexen Konzepte sind einfach von ihnen ferngehalten , so dass es leicht für das Verständnis für Menschen aller Ebenen aus Wissen im Bereich der Datenwissenschaft macht . Es ist also eine Art von einem großen Krankenschwester Kurs. Wenn ich sagen darf, dass die Kernstruktur es geht durch die Konzepte des größeren Sinnes zu Beginn, was genau ist ihre zugeordnet? Wie funktioniert Data Science? Es untersucht den Lebenszyklus der Datenheiligen mit ihren verschiedenen Lebenszyklusstadien. Es geht dann in einige Grundlagen der gestarteten Sticks, die für die Durchführung von Datenzeichen erforderlich sind. Es geht dann in unsere Programmierung. Es Frage nach vielen Beispielen, wie Sie unsere Programmierung für verschiedene Phasen in Data Science Projekt verwenden würden . Die verschiedenen Stufen in Daten gesendet verletzt Data Engineering, Teil Aufwand. Welche anderen Dinge, die Sie normalerweise dort tun, die eine der Best Practices im Bereich der wellenförmigen Daten entwickeln, deckt es diese Bereiche ab. Schließlich gibt es den Modellierungs- und Predictive Analytics-Teil, in dem wir in die Mission Learning oder Gott Adams einbauen . Wir betrachten auch Endo und Anwendungsfälle für diese maschinellen Lernalgorithmen, und es gibt auch einige fortgeschrittene Themen, die wir ansprechen. Schließlich gibt es ein Ressourcenbündel, das als Teil dieses Kurses kommt, und dieses Ergebnisbündel enthält grundsätzlich alle Datensätze. Die Daten reichten das Beispielgericht Beispiel Mantel auf jene Art von Dingen, die wir tatsächlich als Teil dieses Kurses unterrichten, der in den Beispielen behandelt wird, alle von ihnen sind im Ressourcenbündel angegeben . Also kenne ich nicht das Ressourcenbündel, das alle Daten enthält, die Sie benötigen, und alle Kernbeispiele , die Sie benötigen, damit Sie dieselben Dinge selbst experimentieren können. Richtlinien für Studenten, das Fasten dieser Zehe verstehen ihre Daten. Saints ist ein komplexes Thema. Es braucht erhebliche Anstrengungen, um es zu verstehen. Stellen Sie also sicher, dass, wenn Sie stecken bleiben, überprüfen und entlasten Sie die Videos und Übungen tut. Er rief Hilfe aus anderen Büchern über Landempfehlungen und Supportforen an. Wenn Ihre Anfragen 1000 Bedenken tun, und das ist eine private Nachricht, und das ist eine private Nachricht,haben wir diese Frage gestellt, und wir werden wirklich glücklich sein. Toe reagierte das so schnell wie möglich. Wir sind ständig bemüht, unsere Kurse zu verbessern, daher ist jede Art von Feedback, das Sie haben, willkommen. Bitte geben Sie Feedback durch private Nachrichten sind zwei E-Mails am Ende des Kurses . Wenn Sie den Kurs mögen, geben Sie eine Rezension. Bewertungen sind hilfreich für andere neue potenzielle Studenten, um diesen Kurs zu nehmen und Maxim Disc diejenigen von anderen zukünftigen Kursen von We Do Mastro zu erwarten , wollen wir das einfach für unsere Schüler Beziehung mit dem anderen zu machen. Wir tun Master-Kurse sind Kurse auf Data Science konzentriert, wirklich ein Themen im Grunde, Technologien, Prozesse, Werkzeuge und Techniken der Daten Heiligen auf. Wir wollen unsere Kurse so weit wie möglich autark machen, nicht wahr? Also, was das bedeutet, ist, wenn Sie ein bestehender, wir tun Master Student sind, werden Sie sehen einige Inhalte und Beispiele in allen Kursen wiederholt. Wir wollen uns zu einer Vision machen Also, anstatt das zu sagen, irgendein Punkt in dem Kurs? Okay, Mädchen, sieh dir despotisch an wie andere Kurse. Registrieren Sie sich für den anderen Kurs und erfahren Sie mehr darüber. Wir wollen uns lieber auf diesen Kurs selbst konzentrieren. Bewahren Sie zwei Dinge im selben Kurs auf. Es sei denn, das andere Konzept ist ein riesiges Konzert. Das selbst von separatem Kurs. Wir wollen nach Indien sie als Teil dieses Kurses selbst. So können Sie einige Inhalte sehen, die in allen Kursen wiederholt werden. Schließlich hoffen wir, dass dieser Kurs Ihnen hilft, Ihre Karriere voranzutreiben. Also viel Glück. Glückliches Lernen auf Bleiben Sie nicht in Kontakt. Vielen Dank. 2. Arten von Analytics: Beeilen Sie sich. Willkommen. Zehe die Sitzung auf einem Rauschgift und Vorhersagen. Das ist dein Lehrer, Cormorant. Hier in diesem Abschnitt werden wir über eine Menge von der Mission lernen Dinge sprechen. Haben Sie verschiedene maschinelle Lernalgorithmen für die Durchführung von Predictive Analytics verwendet? Nur zwei für eins. Sie sind die Konzepte, die Bean expletiv sind. Wir gehen ein Gesicht in dieser besonderen Sex-Session werden ein wenig komplex sein. Wir haben uns abgeschwächt. Sind die Komplexität von diesen Algorithmen Asthma Nur möglich für einfaches Verständnis. Allerdings, wenn Sie handeln, fühlen sich verwirrt sind, wissen Sie, fühlen Sie sich stecken. Bitte gehen Sie durch die Präsentationen 17 und zögern Sie nicht, andere Referenzen zu verwenden. Entweder im Web sind Bücher, Toe Kreuz überprüfen unsere unser Kreuz validieren diese Konzepte, weil sie, im Allgemeinen ein wenig schwer zu verstehen sind . Also, aber wir haben so viel wie möglich abgeschwächt. Ich hoffe, diese ganze Sitzung ist sehr hilfreich für Sie. Gehen Sie weiter. Was Sie hören wir immer über ANALITICO Analytics Analytics auf der ganzen Welt, und jeder spricht über Analysen. Aber die Frage ist, was genau sind diese Analysen, über die wir sprechen? Alex natürlich alles, ist natürlich alles,was du mit Daten machst. Schauen Sie sich die Daten nicht in verschiedenen Formen an und versuchen Sie dann, Rückschlüsse zu ziehen und einige Aktionen zu ergreifen . Aber es gibt eine Reihe von Arten von Analysen, die Sie ständig hören würden. Also, nur um sicherzustellen, hier verstehen wir alle, was sind die verschiedenen Arten von Analysen, die heute existieren , gibt es im Sprachgebrauch, der erste Schritt eines anderen Texas namens deskriptive Analytics zu diesem ist nur das Verständnis was passiert ist. Das ist eine grundlegende Berichterstattung. Und wann immer Sie einen Bericht haben, der herauskommt, schauen Sie sich den Bericht an und sagen: Okay, Okay, ich sehe, das ist gestern passiert. Gestern haben wir einen Verkauf gemacht, weißt du, 1000 Dollar. In dieser Woche haben wir einen Verkauf von 10.000 Dollar gemacht. Die heutige Leistung im Vergleich zum letzten sprechen. Waas bewegte sich um 10%. Das ist nur diese Deborah. Es ist nur zu sehen und zu sehen, was genau passiert ist, die nächste Ebene eines anderen Texas namens exploratory Analytics, wo Sie versuchen, zu erkunden und herauszufinden, warum etwas passiert. Also gestern sehen wir, dass Okay, gestern habe ich einen Verkauf von $1000 gemacht, was 10% mehr ist als letzte Woche Also warum gab es eine 10% ige Umsatzsteigerung? Was war es? Denn in Geschlecht, Lester Day wie war ein Urlaub alle Wasit, weil ich hatte einige Marketing los gestern weil von denen gab es einige Erhöhung unserer war nicht wichtiger, Wasit, weil überprüft meine neue Safe kam von War es von meinem Web? War es von Online-Verkäufen, wie es aus meinem Shop war? Sagt Wasit aus einer bestimmten Region, wie war es meistens vom Rest von uns? War der Osten der Nutzer uns? Also warum genau etwas passiert ist, wo genau etwas passiert ist, ist das, worum es bei Explorer behandelten Analytics geht. Inferential start ist inferential analog Texas Der Versuch, ein Borden und ihre Population aus einer Stichprobenpopulation zu verstehen , bezieht sich hier auf alle. Nehmen wir an, ich versuche, Krebspatienten in den USA zu analysieren USA , wenn ich diese Analyse mache, kann ich nicht Daten über alle Patienten sammeln und versuchen, an ihnen zu arbeiten. Vielmehr nehme ich eine Stichprobe dieser Population ein paar Sätze in 100 oder 200 Patienten versuchen, es sei denn sie und sobald ich einige Erkenntnisse bekommen, nehmen Sie diese Erkenntnisse und extrapolierte das bis zum Ende ihrer Bevölkerung. Also versucht es, eine Population aus einer Probe zu verstehen, in der diese immer passiert, in der Regel wenn Sie Drogen testen Ihr getestetes Medikament an einer Probe von Menschen auf, dann ist das ein Gewinn. Aber Sie stellen sicher, dass es eine schöne Mischung aus unseren Archiven von Menschen hat, wie , wissen Sie, Menschen aller Altersgruppen, Menschen aller Ethnien, gleichen Prozentsatz von Männern und Frauen. Und dann sagst du nur die Doug und dann: Weißt du was? Dieses Medikament funktioniert besser bei Männern als bei Frauen. Also haben Sie sich nur eine kleine Stichprobe angesehen, aber Sie nehmen das nur, um die indische Bevölkerung zu extrapolieren, die als Inferenzanalyse bezeichnet wird . Die nächste Ebene ist die Predictive Analytics, die wir in der Dale in dieser Sitzung über Predictive Analytics sprechen werden, ist über die Vorhersage, was passieren wird. Wir versuchen vorherzusagen, dass wir vergangene Daten verwenden werden, um Beziehungen zwischen verschiedenen Features zu verstehen , sind Variablen und diese Daten zu verwenden, um vorherzusagen, was in der Zukunft passieren wird . Carcelle Analyse und kausale Analyse ist, wo Sie versuchen, herauszufinden, was passieren wird wenn Was, wenn ich eine Variable ändere? Wenn ich eine Variable ändere. Wie wird es sich auf die andere Variable auswirken? Angenommen, zum Beispiel. Im Marketing haben wir Brief an Dinge, die ich Preis habe, habe ich Rabatt auf Töchter haben, also habe ich Preisrabatte auf den Gesamtumsatz und ich versuche zu verstehen, wie meine Gesamtverkäufe Auswirkungenhaben Preisrabatte auf den Gesamtumsatz und ich versuche zu verstehen, wie meine Gesamtverkäufe Auswirkungen , die angeblich reduziert die Änderung der Preis auf mein Produkt kaufen, wissen Sie, $20. Wie wird es sich auf meine Gesamtsummen auswirken? Ist was passiert, wenn ich einen Rabatt von 30 Person geben? Ich wollte nicht die Verkäufe beeinflussen, die ich auf Art von Lagen für Baby eine Platten aus diesem Konflikt 30% 40% 50 Personen. das auf meinen Gesamtumsatz aus, wenn ich diese Rabatte Wie wirkt sichdas auf meinen Gesamtumsatz aus, wenn ich diese Rabattemache? Dies wird kausale Analyse der letzten Sache genannt. Wir hören weiter, ist das, was wir Deep Analytics nennen. Deep Analytics ist wirklich kein Typ. Es ist nur ein Begriff, der im populären Paradigma verwendet wird. Denn es ist der Einsatz von fortgeschrittenen Techniken, um große und mehrtägige so staatliche Vermögenswerte auf tief in der Arktis beteiligt verstehen . Sie kennen alle diese anderen, über die wir gesprochen haben, Sie wissen, es wird in allen zusätzlichen exploratorischen inferential Predictive in Castle Art von Analyse . Im Allgemeinen ist Deep Analytics wie eine erweiterte Analysestufe, die Sie tun. Schauen wir uns an, was drei explodierte. Habe ich gelandet. Es ist und explodiert in. Analects ist einer der ersten Schritte, die Sie tun. Sobald Sie Ihre Daten in Form auf diesem Hauptziel aus dem d. A bekommen , ist es, die Prädiktoren und Ziele im Datensatz zu verstehen. Sie möchten verstehen, wie die Prädiktoren aussahen, wie die Ziele aussahen. Was sind die Beziehungen zwischen den Prädiktoren auf den Zielen? Wie waren unsere Prädiktoren mit einem Ziel korreliert? Wie wollte ich, dass jeder der Prädiktoren miteinander korreliert? Sie versuchen, die Beziehung zwischen diesen Variablen zu betrachten und zu verstehen, wie wenn eine nach oben geht, die andere auch nach oben geht. Aber wie man geht nach oben, die andere nicht nicht betroffen, die sind. Sie versuchen, diese Beziehungen zu verstehen. Wenn du eine Idee machst. Es wird verwendet, Muster Eingang aufzudecken, die wieder Beziehung zwischen diesen Variablen verschiedenen Variablen ist. Es wird verwendet, um Schlüsselvariablen zu identifizieren und unerwünschte Variablen zu beseitigen, die Sie auf typische aussehen. Ein großartiger Vorteil, der hereinkommt. Es gibt, wie 20 verschiedene Variablen und es gibt ein Ziel auf Sie wollen O stellen Sie sicher, dass Sie auf diese Raubtiere schauen und sehen, welche anderen, die stark mit dem Ziel korreliert sind, auf dem diejenigen, die keine Korrelation mit dem Ziel am. Was möchten Sie tun, ist, wenn Sie eine bestimmte Variable sehen, die keine Korrelation mit dem Ziel hat. Wenn Sie sie beseitigen wollen, werden Sie sie nicht beseitigen. Warum willst du sie beseitigen? Denn selbst wenn wir diese Variablen an einen maschinellen Lernalgorithmus übergeben, wird die Mission, die den ganzen Garten lernt, einfach ignorieren. Aber es muss viel Zeit und Ressourcen aufwenden. Der Mission-Lernalgorithmus muss Zeit und Quellen damit verbringen, an diesen Variablen zu arbeiten und Muster zu verstehen, was bedeutet, dass es mehr Zeit mit mehr CPU-Leistung, mehr Speicher und dergleichen braucht , damit es ausgeführt wird . Plus, wenn Sie keine Verwendung einer Big Data, sagte Leno. Riesige Daten sagten, dass Sie dies auch speichern müssen und sich gefragt haben, wo Tabellen in den Daten in einem Datum im Datenspeicher und solche Sachen, so dass Sie all diese unerwünschten Cast beseitigen können, wenn Sie Voraus herausfinden. Wenn einige unerwünschte Variablen vorhanden sind, möchten Sie sie nur entfernen. Es wird verwendet, um unsere Spieler zu erkennen. E d. A. Wird auch als ein großartiges Werkzeug verwendet, um herauszufinden, ob die Daten einige Spieler auf besser enthält . Willst du sie beseitigen? Sind nicht Es ist ein auch eine erzählte Zehe, Farid es, wenn die vorherige Datenbedingung verarbeitet mögliche Fehler. Wenn Sie also eine Menge Datenverarbeitung durchführen, können Sie eine schnelle Edie auf den Endergebnissen durchführen, um zu sehen, dass die Daten in Ordnung sind. Was meinen Sie mit Daten? Sieht OK aus ist, dass als ein Datenaufnahmeprozess keine Fehler hat, aufgrund derer er eingeführt hat . Einige unerwünschte Daten sind. Als er versuchte, etwas Datentransformation durchzuführen, hat es etwas und so etwas durcheinander gebracht. Also können Sie diese Art von Analyse mit einem D A und das ist ziemlich einfach und unkompliziert, um es herauszufinden. Angenommen, Sie machen einen Tag Transformation. Angeblich tote Daten kommen in verschiedenen Formaten und Sie versuchen, all diese Daten in einen richtigen ehemaligen zu konvertieren und aus dieser Logik könnte eine andere haben, wegen der es immer die Toten zu Toten bringt. Also in Sachen, die das eigentliche datiert haben, haben meine Put-Daten eins gemacht. Wenn Sie eine sofortige Analyse machen, wird unser Bürgermeister von Tag Art einer 80-Analyse Ihnen sofort sagen. Okay, all die Tage, die hier. Also, was ist mit den Daten passiert? So können Sie zurückgehen und sich die Daten auf DSI ansehen. Warum Dinge nicht passieren, wie es erwartet wird, wurde es verwendet, um Annahmen zu testen, und ich Parteien ist so, dass Sie normalerweise eine Menge von der Annahme haben, dass Sie eine Hypothese machen, die Sie machen, was passiert. Nehmen wir also an, als Ihre Verkäufe letzte Woche um 10% gestiegen sind und sofort reden die Leute. Aber ich denke, die Verkäufe stiegen, weil wir gute Agra Keller sind, denke ich, die Verkäufe stiegen, weil eine bestimmte Region viel besser. Also Leute beginnen, diese Annahmen sind Hypothese auf e. D. A. ist ein guter Weg zu gehen und zu überprüfen und zu validieren des iPod. Es ist wahr, als ein gültiges und warum, genau gesagt und Dinge, die passiert, die Werkzeuge für e. D. A. R. Die Werkzeuge, die wir bereits gesehen haben, dass wir als Teil von unserer Klasse. Eso Korrelationsmatratzen sind eines der wichtigsten Werkzeuge für z. B. A. Wir werden das in allen unseren Anwendungsfällen verwenden, um zu sehen und zu verstehen, wie die Daten wie Box-Plots aussehen , sagt Ihnen die Variationen in der Daten, die eingehen. Verstreute Grundstücke. Streudiagramme entfernt, können Sie die Beziehung zwischen zwei Variablen analysieren. Die Hauptkomponentenanalyse hilft Ihnen, zu verstehen. Hauptkomponenten. Analyse ist ein automatisierter Weg, um Ihren Tagessterben zu betrachten, wobei die sehr Variablen mit hoher Vorhersehbarkeit und Wegwerfen von Variablen mit geringer Vorhersehbarkeit. Es ist also ein guter automatisierter Weg, auf Wonder Daten eliminiert. Hist o Gramm, natürlich, Geschichte. Gramm wieder sind eine große wartete Blick eine Daten und verstehen tiefe Trends und Muster. Vielen Dank 3. Arten des Lernens: Hi. In dieser Sitzung werden wir uns ansehen, was hinterhältige Arten von Missionslernen im Allgemeinen sind, worum es bei maschinellem Lernen geht. Sie haben etwas davon gesehen, wenn wir die Data Science-Konzepte durchlaufen. Versuchen wir also, einige von ihnen zu wiederholen. Die Daten enthalten Attribute, die eine Menge von Attributen für diese Attribute enthalten. Grundsätzlich sind Showbeziehungen Korrelation zwischen den Entitäten. Wenn Sie also Daten betrachten, gibt es Prädiktor, dass es Ergebnisse beim Betrachten der Daten gibt. Sie können sehen, wie eine Variable die andere Variable beeinflusst, zu lernen, dass der Prozess des Lernens über das Verstehen ist. Diese Beziehungen sind Korrelationen zwischen diesen Entitäten. Das nennt man uns generell Lernen, zumindest in diesem Begriff der Data Science. Lernen bedeutet, die Beziehung zwischen diesen Entitäten auf Mission Learning zu verstehen, ist Verwendung eines Computers, um dasselbe zu tun. Mission Drehen wird mit einem Computer, um die Daten automatisch zu analysieren und lernen, über die Beziehungen und geliefert D entsprechende Grizzles Lernen und Mission Learning. Das ist, was es bedeutet, wenn es um Data Science Sprachkenntnisse geht. Wenn Sie Mission Learning auf Daten durchführen , werden in der Regel ein Modell in Rechnung gestellt. Ein Modell ist nichts anderes als eine Definition aus den Beziehungen zwischen den verschiedenen Attributen. Das Modell ist nichts anderes als eine Definition oder eine Erklärung. Runter von den Beziehungen. Ein Modell kann jede Schöpfung sein, insbesondere Fliegen, wie Sie eine Variable von der anderen entwickeln können. Ein Modell kann eine Entscheidungsstruktur sein. Es gab einen Baum, der mit einer Entscheidungsstruktur für diese Variablenwerte angezeigt wird. Wie können Sie am endgültigen Ziel ableiten, damit Modelle in einer Reihe von Phasen gebaut werden können? Und das werden wir im Rest der Klasse sehen. Und Mörtel können entweder für die Gruppierung von Daten verwendet werden, so dass Sie Modell verwenden können, um ähnliche Daten zu gruppieren . Sie können versuchen, Modelle zu verwenden, um ähnliche Kunden zu gruppieren. Ähnliche Produkte zusammen sind, können Sie Modelle verwenden, um ein Ergebnis vorherzusagen, bevor wir in Mission gehen . Das Lernen haben wir bereits gesehen, dass wir nur versuchen, Rate hier zu schaffen. Missionen verstehen nur Zahlen, und Sie werden wissen, dass Textdaten konvertiert werden müssen. Die neuen medizinischen Repräsentationen für maschinelles Lernen Zehe Arbeitsmissionen verstehen keinen Text auf. Wir müssen eine Menge Verarbeitung von Text durchlaufen, um Text in eine numerische Expo zu konvertieren, und wir sind Expo zu konvertieren, numerische Darstellung für Missions-Lernalgorithmen, um sie zu betrachten und sie funktionieren zu lassen . Also müssen Zahlen verwendet werden. Ich meine, selbst wenn Sie eine Klassifikation wie ausgezeichnet, gut und schlecht verwenden , müssen sie in eine Zahlenpräsentation umgewandelt werden. Wenn Sie also Daten in kategoriale Daten umwandeln und sie als kategoriale Daten verwenden, wandelt das Missionslernen von Gott intern sie als numerische Darstellung um. Also, wenn Sie sich fragen, ich gebe kategoriale Daten da drin. Aber dann sind die kategorialen Daten markiert. Insbesondere wird Leggett als Faktordaten so etwas für die Mission Lernalgorithmen markiert, um sie zu verstehen. Boolesche Variablen sind Indikatorvariablen, die eine andere Sache, die Sie Indikatorvariablen erstellen sind boolesche Variablen sind Dummy-Variablen waren, wenn Ihre Bewertungen ausgezeichnet, gut und schlecht. Sie konvertieren sie in die neuen Indikatorvariablen, normalerweise in minus eins mit Werten von Null auf eins, wenn Sie Documentum-Metriken erstellen, denn wenn Sie viele Textdokumente haben, konvertieren Sie sie in ein Dokument Term Metriken und verwenden sie für -Analyse. Lassen Sie uns nun verstehen, dass Arten von Lernen gibt es zwei Arten von Lernen, die als überwachtes Lernen und unbeaufsichtigtes Lernen bezeichnet werden. Wenn Sie sich fragen, was bedeutet das Wort Supervise? Gibt es einen Vorgesetzten, der da sitzen wird und dem Auto das Geld erzählt, Dinge wie das? Es gibt nichts dergleichen. Der Unterschied zwischen überwachtem Lernen und unbeaufsichtigtem Lernen besteht darin, dass in der Super-Abfall Lernen, das eine Zielvariable ist. Sie versuchen, eine bestimmte Variable anzusprechen. Sie versuchen, eine bestimmte Zielvariable vorherzusagen, wie Sie versuchen, Umsatz vorherzusagen. Sie versuchen vorherzusagen, ob eine Person Krankheit hat oder nicht, so gibt es eine Zielvariable auf neu. Die externe Person gibt diese Zielvariable an. Das ist also die ganze Aufsicht. Tun Sie das. Es ist also nichts Komplexes da. Sie sagen nur, was die Zielvariable ist, und das ist, warum es überwachtes Lernen in unbeaufsichtigtem Lernen heißt, es gibt keine Zielvariable. Vielmehr haben Sie sich nur die Attribute angesehen und dann versucht, sie zusammenzufassen. Sie versuchen, Gruppen aus fünf oder Gruppen oder 10 zu erstellen, wenn Sie versuchen, sie zu gruppieren. Basierend auf den Attributen. Angenommen, Sie verfügen über Daten, die als 100 Attribute nicht visuell inspizieren und gruppieren können. Vielmehr gibst du sie einer Mission. Lernen wird sie schützen, was geht und analysiert die Daten und sieht, wie Welche dieser Proben sind sie angestiegen? Die Daten sind näher beieinander und kommen auf und sagen, Okay, das sind die verschiedenen Gruppen iPhone basierend auf Ähnlichkeit in Werten. Jemand, den ich von unschätzbarem Wert bin, bedeutet, wie sie im selben Land gehören. Sie sind das gleiche Geschlecht. Sie sind dieselbe Altersgruppe. Es versucht also, Ähnlichkeit zwischen den Dingen zu finden und versucht, sie zusammenzufassen. So werden Beobachtungen gruppiert nach ähnlichen durch DVDs ausgestellt werden. Entität ähnlich. Dies kommt wieder aus Daten und Ähnlichkeit kann ah sein, off Diese Entitäten sind typischerweise, Sie wissen, ihre distanzbasierten Werte. Wie sie abstandsbasierte Werte angeordnet wurden, ist der Abstand zwischen den Werten. Wie, sagen wir, es gibt eine Person A mit Alter 15 Person mit 8 16 Der Abstand zwischen den Werten ist nur 15. Minus 16 ist eins. Wenn es eine andere Person gibt, deren Alter 25 in der Ferne zwischen 15 und 25 Jahren 10 So ähnlich D basiert auf der Entfernung. Mit anderen Worten, Hoffnung fern sind, wie weit entfernt sind diese Werte voneinander entfernt. Offensichtlich 16 weniger sind näher an 15 als ein Wert 25. Also 16 ist viel ähnlicher 15 als der Wert 25. Das sind also entfernungsbasierte Werte. Unsere Anwesenheit oder Abwesenheit eines Wertes ist eine Art S r nichts. Also, wenn zwei Menschen beide männlich sind, dann sehen Sie die n Ismael Art einer Indikatorvariable wird immer ja sein, wie Kampf tun. Wenn die Person weiblich ist, dann wird dieser Wert Null sein. Das Vorhandensein oder Fehlen eines Wertes kann auch verwendet werden, um ähnliche zu verstehen. Was sind die Arten des unbeaufsichtigten Lernens? Die 1. 1 wird Clustering genannt, wobei die Idee ist, nur basierend auf Daten zu gruppieren. Die zweite wird Association Rules Mining in Assoziation genannt. Hat Mining Ihre Zeit, darüber zu sprechen, wie die Dinge zusammen verwendet werden? Nein. Wenn das klassische Beispiel ist der Markt Korb, wo Analyse, wohin Sie gehen und herauszufinden, in einem Supermarkt, welche Elemente zusammen gebracht werden? So ist das ähnliche T hier in Bezug auf ihre Verwendung in Bezug auf das Kaufmuster. Ähnlich zu hören ist, wie sie in der kollaborativen Filterung miteinander verbunden sind. Sie versuchen wieder, ähnlichen Tag zwischen Menschen zu tun, sind ähnlich wie zwischen Elementen, die auf wieder verwenden Sie es. Sie versuchen, ähnliche Kunden an einem klassischen Beispiel der kollaborativen Filterung zu finden, ist wenn Sie Zehe erstaunliche Punkt com gehen, Sie versuchen zu analysieren und herauszufinden, wer sind. Die ähnlichen Benutzer sind die Menschen, die versuchen, ähnliche Dinge zu tun. Was für ähnliche Dinge sie tun. Sie gehen und schauen sich die gleiche Art von Produkten an. Sie kaufen die gleiche Art von Produkten, die die ähnliche Art von Kommentaren geben, so dass eine ähnliche Leute. Das sind also die drei Arten des unbeaufsichtigten Lernens. Wir werden jeden dieser Typen später in der Klasse erkunden. Im Falle des Super-Müll-Lernens versuchen Sie, eine unbekannte Attribute vorherzusagen, auch als Ergebnis basierend auf bekannten Attributen bezeichnet werden. Angenommen, Sie haben eine Daten, die drei Elemente hat. Es gab vielleicht vier Artikel über das Alter. Nehmen wir an, das ist das Alter des Kunden, der Preis des Produkts und ob der Kunde durch nicht, und dann ist dies, wenn Sie haben, Sie haben es und der Pastor übergeben, dass Sie alle drei der Variablen kennen. Dann, was Sie tun werden, war, dass Sie ein Modell bauen, das vorhersagen wird, ob der Kunde wird kaufen oder nicht basierend auf dem Alter des Kunden auf dem Preis des Produkts. In Zukunft wissen Sie also nicht, ob der Kunde nicht kaufen wird oder nicht. Aber Sie werden wissen, das Alter des Kunden und den Preis des Produkts, so dass Sie versuchen, vorherzusagen, ob der Kunde kaufen wird nicht auf die Werte außerhalb des Alters auf der Stelle des Produkts basieren . Die Modelle werden unter Verwendung von Trainingsdaten erstellt, so dass Trainingsdaten die Daten der Vergangenheit sind, wo Sie über die Ergebnisse Anti Prädiktoren wissen . Man lernt immer von der Vergangenheit später und dann. Das Modell wird dann verwendet, um die zukünftigen Ergebnisse vorherzusagen, wo Sie nur die Prädiktorvariablen kennen , wissen Sie, OK, wer ist mein Kunde? Was Künstler Attribute, aber ich weiß nicht, ob er es kaufen oder nicht, aber ich möchte eine Vorhersage machen, ob dieser Kunde kaufen wird nicht platzen, auf dem ich einige geschäftliche Maßnahmen ergreifen würde. Die ganze Idee, eine Vorhersage zu machen, besteht also darin, einige geschäftliche Maßnahmen zu machen. Also, was ich bin, welche Art von Geschäftsaktion es sein könnte, ist, dass ich versuchen könnte, etwas Marketing oder Verkauf Pitch für diesen Kunden zu tun . Ich bin Prediger des Kunden. Machen Sie einen Anruf, senden Sie ihm eine E-Mail. Wenn ich weiß, dass der Kunde eine höhere Neigung zum Kauf hat, dann ist ein Kunde, der sich nicht um das Produkt kümmern wird, die Arten von betreuten Lernen zu einem von ihnen sind farbige Regression. Im Falle der Regulierung, Sie versuchen, auf Verbündete und über kontinuierliche Ergebniswerte zu finden. Im Falle von Klassifizierungen versuchen wir, Klassen zu finden. Im Falle der Regulierung, versuchen Sie, Werte vorherzusagen, wie das Alter einer Person vorherzusagen oder den Preis von etwas Produkt, den Gesamtwert von etwas, den Fall von Klassifikationen. Sie versuchen, eine Klasse oder eine Gruppe vorherzusagen, zu der eine Person gehören könnte. Typischerweise beginnt es mit den binären Klassifikationen wie der Brunnen, der Kunde, durch unsere wird keine Kunst kaufen. Es kann mehr wie eine gute, schlechte, sehr gute, gute, schlechte Art einer Klassifikation sein. Außerdem können Sie versuchen, vorherzusagen, ob das wir gegangen sind. Bankkunden sollten ein Goldkunde oder ein Silberkunde oder ein Platin Kunde auf der Grundlage verschiedener Dinge sein, wo seine Attribute, Sie wissen über die Kunden. Das sind alle überwachten Lerngegenstände. Also, was ist der Prozess aus? Super Müll Lernen. Das betreute Lernen hat einen großen Prozess. Bitte verbringen Sie einige Zeit damit, zu verstehen, wie dieser Prozess funktioniert. Um den Prozess zu beginnen, haben Sie historische Daten Vergangenheit Daten. In der Tat sollten Sie eine deutlich große Menge an Daten verwenden. Ein paar Vorhersagen müssen eine große sein Also schauen Sie sich alle Daten der Vergangenheit, größere Variabilität Prädiktorwerte auf das Ergebnis. Werte wie Blick auf die Vergangenheit Daten haben Sie Attribute von einem Kunden Attribute von einem Produkt und dann, ob ein Verkauf getätigt wurde oder nicht, das sind frühere Daten. Das erste, was Sie tun, ist, dass Sie diese Daten in den Trainingssatz auf einem Testset teilen. Die Aufteilung der Daten ist zu groß. Hebel verwendet, getan mit einigen Zufallsmechanismus, einige Zufallsgeneratoren und zufällige Aufteilung. Die Idee der Verwendung einer zufälligen Split ist, dass, wenn Sie einen Raider in einem Training und Testdaten ausbreiten , sagte, es sollte Körper Trainingsdaten und die Prüfung der Staub behalten, die individuell die Eigenschaften der behalten sollte historisch später. Was ich damit meine, soweit in den historischen Daten vermutet, sagen wir 30% Rabatt auf die Kunden tatsächlich das Produkt gekauft haben. Also das Verhältnis zwischen dem, was uns ist, nicht durch seine 30 zu 70, wenn Sie eine Trennung zwischen dem Training und Daten zu tun, sagte das Training anted. Interessante Datensätze sollten einzeln das gleiche Verhältnis von 30 zu 70 oder ein ähnliches Problem von 30 zu 70 haben. Das ist, was man einen richtigen Streifen auf nennt. Dies ist nicht nur für eine Variable. Sie fühlen, sagen wir, von 10 verschiedenen Variablen im Datensatz. All diese Variablen müssen irgendwie dasselbe zeigen. Es sollte seine Muster behalten. Der einzige Weg, wie Sie wissen können, was Sie ihre Muster behalten müssen, ist die Verwendung eines Zufallszahlengenerators , denn welche Datensätze werden in das Training gehen, das ich sagte. Welche Datensätze werden in den Testdatensatz gehen, sobald Sie die Trainingsdaten spucken, ist, dass Darm behauptet hat, dass Sie den Trainingsdatensatz nicht für den Lernprozess verwenden würden. Was ich mit den Lernprozessen meine, die Sie die belastenden Daten übergeben, sagte Toe Mission Lernalgorithmus auf diesem maschinellen Lernalgorithmus kommt auf baut ein Modell und Rechnungen oder das Modell. Also lassen Sie uns sagen, dass Sie einige kontinuierliche Daten übergeben. Es erstellt ein Modell, das gedruckt werden kann wie eine Gleichung oder ein Entscheidungsbaum. Also möchte ich ein Modell bauen. Wie testen wir das Modell? Wie stellen Sie sicher, dass das Modell gut in Vorhersagen ist? Modell ist gut vorherzusagen, was es voraussagen soll, ist, dass ich den Testdatensatz verwende. Also spiele ich das Modell auf dem Testdatensatz. Denken Sie daran, dass der Test, der es tatsächlich tut, bereits das Ergebnis bekannt ist. Aber ich versuche auch zu wissen, verwenden Sie das Modell, um Welcome vorherzusagen. Also jetzt habe ich einen prognostizierten Wert auf den tatsächlichen Wert. Was ich dann tun kann, ist, dass ich den vorhergesagten Wert mit dem tatsächlichen Wert verdichten und dann herausfinden kann, wie genau meine Vorhersage ist, damit ich den vorhergesagten Wert mit dem tatsächlichen Wert bekämpfen kann . Versuchen Sie herauszufinden, wie gut meine Vorhersage ist, dass der Testprozess genannt wird. Also habe ich nicht in Ordnung geschaut, wie gut ist meine Vorhersage ist, dass wirklich eine große oder ist nicht eine große und dann kann ich eine Entscheidung treffen, wieder gehen zu lassen. Dies ist ein ländernächtlicher Prozess bereits. Also schauen Sie sich das Ergebnisjahr an, dann gehen Sie zurück, optimieren Sie Ihren Lernprozess. Wie behandeln wir meinen Lernprozess, ist, dass ich einige Variablen eliminieren könnte. Ich könnte einige neue Variablen hinzufügen, die ich versuchen könnte. Einige Techniken wie das Erstellen von Indikatorvariablen versuchen, zentrieren und skalieren und sehen Wenn mein Modell besser funktioniert, könnte ich verschiedene Missionslernalgorithmen für dieselben maschinellen Lernalgorithmen ausprobieren . Ich kann die Parameter optimieren, um zu sehen, ob es meine Vorhersagen verbessert. Es gibt also einen iterativen Prozess. Sie gehen durch, bis Sie kommen mit einem zufriedenstellenden Niveau von Vorhersagen. Was ist ein zufriedenstellendes Niveau? Es hängt vom Anwendungsfall ab. Es gibt keine globalen Formeln zu 80% wie gut auf 90% ist gut. Es hängt davon ab, welche Art von dir Angst du hast. Dann, sobald Sie haben ah sind einigermaßen zuversichtlich, dass mein Modell gut ist. Dann wird es mein letztes Modell. Sobald ich ein endgültiges Modell habe, wenn neue Daten in Daten kommen, wo ich die Prädiktorvariablen kenne , aber ich kenne das Ergebnis nicht. Unsere Zielvariablen. Wenn die neue Tochter kommt, spiele ich diese neuen Daten. Also das endgültige Modell und dann verwenden Sie es, um meine Vorhersage zu tun, dann ist diese Vorhersage Ihr tatsächliches Ergebnis. Sie können versuchen, mehrere Modelle auch, Manchmal können Sie zeichnen, als mit einem Modell. Möglicherweise haben Sie einen ganzen Modellsatz und probieren Sie mehrere Modelle aus und sehen Sie dann, welches funktioniert. Besser sind manchmal vielleicht , fünf verschiedene Modelle,die aus fünf verschiedenen Algorithmen bestehen und dann eine Abstimmung als toe nehmen Welches Ergebnis kommt am meisten aus diesen Modellen? Es gibt viele Kombinationen, die Sie tun können, die wir später in der Zukunft sehen werden. Danke. Schulung, Investitionen, Daten. Ah, nochmal, nur zu überprüfen, was wir gerade gesehen haben, was wir gerade über historische später gesprochen haben, enthält sowohl Prädiktoren als auch Ergebnisse. Sie teilen die Daten in Training und Testen Daten Trainingsdaten werden verwendet, um das Modell zu erstellen und dann ihre Ernährung zu testen verwendet wird, um das Modell auf Wie testen Sie es ist, dass Sie das Modell auf Trainingsdaten spielen. Sie prognostizieren das Ergebnis kompakt, das Ergebnis mit dem tatsächlichen Wert. Und so messen Sie die Genauigkeit. Die Punkte zu den Best Practices für Training und Testen besteht darin, dass Sie in der Regel eine Aufteilung von 70 30 durchführen . Also, wenn Sie 100 Datensätze 70 die Autos gehen, um das Training Set und 30 Datensätze oder die Prüfung sagte, und Sie müssen zufällige Auswahl von Datensätzen zu tun, um die gleiche Art off Daten verteilt auf beiden Datensätze zu halten . Wir würden den Tag tun, diesen Trainings- und Splitting-Test in unseren Anwendungsfällen, natürlich, so dass Sie sehen können, wie genau das getan wird. Dieses Land schließt also die Diskussion über die Arten des Lernens ab. Danke. 4. Ergebnisse und Fehler analysieren: hoch in diesem Abschnitt werden wir darüber sprechen Wie bekämpfen wir die Ergebnisse aus unseren Super-Möglichkeiten? Lernübungen darüber, welche Art von Führungskräften während dieser Übung möglich sind. Wenn Sie also gehen, wenn Sie die Ergebnisse aus unserer Trainings- und Testübung vergleichen möchten, ist das, was Sie bauen, eine Verwirrungsmatrix. Ich weiß nicht, warum sie es eine Verwirrungsmatrix genannt haben, aber das ist, was Sie bauen. Wie wird die Verwirrungsmatrix aufgebaut? Ist es das, Clark, Vorhersagen gegen die tatsächlichen Werte für den Nachlass zu machen? Er Also bauen Sie im Grunde ein Modell mit den Trainingsdaten, die dann gesagt wurden, und verwenden Sie das gegen die Testdaten, die Zehe tatsächlich das Modell testen. Dann plotten Sie diese Verwirrungsmatrix, in der die tatsächlichen Werte aus den Ergebnissen die Zielvariablen hier als Spalten dargestellt werden. Die Werte. In diesem speziellen Fall ist es kein Anlageergebnis. Es ist ein wahres Fallout. Falsches Ergebnis. Vielleicht versuchen wir, Patienten vorherzusagen, die eine bestimmte Krankheit haben, also applaudierten die tatsächlichen Werte. Fragen Sie Spalten. Ihre wahre oder falsche auf dem, was Sie vorhergesagt haben, ist Teil der Hostels rosier, wahr oder falsch. Also versuchen Sie, die tatsächlichen Stooge-Vorhersagen zu vergleichen. Und dann füllen Sie diese spezielle Tabelle als toe Wie maney tatsächlich richtig getrennt. Wie maney Istwerte? Sie haben falsch vorhergesagt. Das nennt man also als Verwirrungsmatrix. Die Verwirrungsmatratze sagt Ihnen die richtigen Vorhersagen und die falschen Vorhersagen. Was siehst du darin? Hier diagnostiziert werden die richtigen Vorhersagen über Ihre vorhergesagte Wahr, so wahr und falsch wie falsch. Die, die Sie hier sechs und neun sehen, sind falsche Vorhersagen. Also, wenn Sie tun, ah, Testen Übung, nehmen Sie einen Tag, nehmen Sie Ihr Modell und spielen auf den Testdaten. Dann erstellen Sie diese Verwirrungsmatrix, um zu verstehen, wie genau Ihr Algorithmus ist. Und dieser sagt Ihnen deutlich, variieren Barriere. ganze Garten läuft schief. In diesem Fall ist es nur wahr oder falsch, Aber manchmal tat es. Dies könnte später sogar kategorisch sein wie ausgezeichnete, gute, sehr gute zusätzliche Dinge wie diese. Also schaut ihr euch an, ihr wisst schlecht. Genau. Das läuft schief. Wie ist es? Ist es Mai Es kann schief gehen, ob in Begriffen aus manchmal was passiert ist, wäre es falsch vorauszusagen, die alle falsch als falsch. Aber manchmal kann es sein, Wahrheit vorherzusagen, da auch falsch wie diese hoch sein könnte. Dies könnte niedrig sein, so dass diese Art von Unterschieden passieren wird. Und Sie können einen tieferen Blick auf diese Konversionsmetriken werfen, um zu verstehen, wie Ihre Vorhersagen funktionieren. Diese Vorhersagen können natürlich natürlich Mobbing sein oder sind Klassen. Und wir würden beide Arten von Konversionsmetriken als Teil unserer Fallstudien sehen. Also, was sind die verschiedenen Prognosetypen? Wenn es also um die Verwirrungsmatrix geht, die in Begriffen verhaftet werden, die im Rialfeld verwendet werden, hättest du viel über,weißt du, falsche Positive und wahre Positive gehört weißt du, , vor allem im medizinischen Bereich. Diese Begriffe werden nicht sehr verwendet. Lassen Sie uns also versuchen, zu gehen und zu verstehen, was das sind. Wenn Sie also auf den Tisch auf der rechten Seite schauen, sehen Sie, was die wahre positive Truppe Asa tun ist richtig. Positiv. Das nennt man ein wahres Positives. Ihre Korrektur wahr hier steht für die Genauigkeit und positiv ist im Grunde das Ergebnis Saison hier. Ein wahres Positiv ist Ihr richtig vorhergesagt. Die wahre hier, falsch negativ ist etwas, das ein wahrer Ihr Prädiktor als Fall ist, so dass die für dies ist, was ein falsches Negativ genannt wird. Dann haben Sie ein falsches Positiv, bei dem etwas falsch ist und Sie nicht falsch vorhersagen können , dass dies wahr ist und dann wahr negativ ist, dass eine korrekte Vorhersage negativ ist. Wenn Sie sagte wahr in dem Freund, es bedeutet, dass es richtig Vorhersage ist. Wenn Sie sagen, fällt in der Front, es ist eine falsche Vorhersage. Also dieser andere Begriff, den ich verwendet, um jede dieser Boxen auf diesen Boxen zu verteidigen, spielen tatsächlich eine sehr wichtige Rolle, wenn Sie Prognoseergebnisse diskutieren. Wahr, positiv und wahr. Negativ ist natürlich, natürlich, dass Sie wissen, das sind diejenigen, die erwartet werden, aber Sie müssen sich auf falsche Positive und falsche Negative konzentrieren. Mehr, um die Genauigkeit Ihrer Vorhersagen zu verstehen. Bisher ist es positiv. Warum, warum es falsch ist, Positiv und falsch negativ sind wichtig ist, dass es manchmal darum geht, was akzeptabel ist und was nicht akzeptabel ist. Manchmal, abhängig von Ihrem Anwendungsfall, Falsch-Positive sind OK, aber falsche Negative sind nicht in Ordnung in einem anderen Feld von falschen Negativen sind OK, aber falsche Positive sind nicht in Ordnung. Zum Beispiel, im medizinischen Bereich, versuchen Sie, einige Tests zu machen, dann versuchen Sie vorherzusagen, ob der Patient eine Krankheit hat oder nicht? Ah, falsch negativ im medizinischen Bereich ist kritisch, was bedeutet, dass jemand eine Krankheit hat. Das eigentliche ist wahr, aber tatsächlich ist hier wahr. Aber du versuchst, uns falsch zu machen. Also hat jemand wirklich eine Krankheit. Ein neuer Vorhersage-Algorithmus wird als falsch prognostiziert. Nun, das ist inakzeptabel. Sie wollen keine falschen Negative. Das bedeutet, dass Sie nicht jemanden behandeln werden, der eine Krankheit hat und das kann wirklich tödlich sein . Bisher sind so viele Bohnen im medizinischen Bereich nicht akzeptabel. Vergangene Fehlalarme sind akzeptabel. Okay, jemand hat keine Krankheit. Es sagt voraus, dass die Person, die jemals Krankheit in Ordnung ist, nehmen Sie diese Person als Patient, in der Regel werden Sie mehr Tests machen und herausfinden, okay. Der Typ hat keine Krankheit. Das ist in Ordnung, aber falsche Negative sind nicht akzeptabel. Farce war möglicherweise nicht akzeptabel? Nein. Im gerichtlichen Gefühl, Sie wissen, was das bedeutet, dass jemand nicht jemand ist ein Anspruch gewesen. Und Sie sagen voraus, dass jemand eine große getan hat, und das ist wieder CD ist, Sie wissen ,dass , Sie eine unschuldige Person als Verbrecher vorhersagen, diese Art von Schutz wieder, nicht akzeptabel. Es hängt also vom Anwendungsfall ab, welcher akzeptabel ist, für welchen man nicht akzeptabel ist . Einige Formeln sind einige Verwirrungsmetriken Mavericks, die Sie ständig hören, auf denen Sie im Data Science Sprachgebrauch viel verwenden würden. Sind diese also Fasten Genauigkeit? Wie stelle ich sicher, dass ich eine Vorhersage erhalten kann? Ist im Grunde genommen wahr, positiv und wahr negativ. Das sind meine aktuellen Produktionen geteilt durch die Gesamtzahl der Proben. Also haben Sie alle von ihnen sind Probe, dass die Zählung von der Anzahl der Proben, richtig? Also sagte er, wahr positiv plus troll negativ. Sie wurden von allem anderen getroffen. Truppe sind immer noch bluster, negativ durch plus durch sie zu entwickeln. Bitte kommen Sie alle diese Formeln in Erinnerung, denn wenn Sie die Interviews gehen, diese anderen Fragen, die sie normalerweise stellen Sie Sensibilität ist, wie Was? Wie gut sind Sie in der Vorhersage der wahren Positiven? Also, wenn Sie sagen, Empfindlichkeit als wahr positiv, sie waren durch wahr positiv durch falsche Negative, Empfindlichkeiten über diese Spalte. Dann kommt Spezifität. Spezifität ist an Bord der falschen Spalte, also sind Sie anders. Unter zu negativ hier und das Tragen von zwei negativen plus Farce positive Besonderheiten über diese falsche Farbe. Dann kommt die Position. Präzision ist über diese Spalte auf der Der Spaziergang zerstört das wahre, was wahr positiv ist. Ein sehr schlechtes Prue positiv plus falsch positiv. Dies sind also die verschiedenen Formel, die verwendet wird, um die Genauigkeit aus zu definieren. Ihre Vorhersagen haben typischerweise gesagt, dies sind einige Dinge, die Sie normalerweise in Interviews finden, die Sie diese Art von Fragen gestellt haben. Produktions-Bearbeitungen. Also, welche Art von Editoren erhalten Sie in Vorhersagen? Es gibt zwei Arten von Fehlern, über die Sie sich Sorgen machen möchten. Einer von ihnen wird Bias genannt und der andere wird Varianten genannt. Was also Voreingenommenheit von uns ist, passiert, wenn die Modelle sich auf bestimmte Aspekte der Vorhersagen hinweisen, während andere ignoriert werden. Was machen Sie es schief, wenn dies eine kleine komplexe Erklärung ist? Lassen Sie mich Ihnen ein schönes Beispiel geben. Angenommen, Sie haben es getan. Sie sind tragisch versuchen, das Alter einer Person vorherzusagen, okay auf dem Wasser. Und wenn Sie versuchen, tatsächlich einen Test zu machen und versuchen, ein Alter der Person vorherzusagen und versuchen, den Unterschied zwischen der Vorhersage und dem tatsächlichen zu finden, werden Sie sehen, dass der Unterschied immer irgendwo um minus fünf liegt. Der Unterschied ist immer wie minus vier minus drei minus vier es versuchte zu überspringen ist tatsächlich in Richtung dritter minus phi Bereich schief. Also alles zurückhaltend vorhergesagt, um das Minus verblassen, der Unterschied ist immer um minus phi. Das nennt man Voreingenommenheit. So sehen Sie, hier ist ein Beispiel von uns in der Bibel. Du siehst, dass in Sachen, die das Ziel treffen und der Spiegel immer süß ist. Die Worte eines Endes. Es ist immer um diese minus Phi Minor sechs Bergleute für eine Art von Sache. Varianten sich hingegen beziehensich hingegenauf die Stabilität eines Modells. Sind, wie genau sind in der Nähe. Es versucht, immer vorherzusagen, was ich meine wieder mit einem sehr interessanten, das gleiche Beispiel aus dem Alter sagen , wenn es versucht, das Alter vorherzusagen. Was ist der Fehler? Der Fehler könnte hier überall auf dem Platz für eine Nacht minus Feuer die nächste Person kämpfen zu verdrängen, und das ist ein Leckerbissen und es gibt eine minus sechs und die andere ist überall über den Ort, so dass heißt Variante und in der Grafik auf der rechten Seite , sagte, Sie sehen, in einem Vergleich von dem, was hoch von uns und niedrig von uns und was ist hohe Villians und niedrigen Gehorsam, Ich möchte wirklich in der unteren linken Ecke sein, wo es niedrige Käufer und geringe Varianz hoch, wie Sie sehen, das Ganze hat, wie verzerrt auf ein Ende Varianz. Auf der anderen Seite sieht man eine hohe Verbreitung. Es gibt eine Verbreitung der Vorhersage, die geschieht, während im Fall von niedrigen Käufern und Bibliothekaren wieder, gibt es Verbreitung. Aber die Verbreitung dieser um die Mitte. Aber Sie haben hohe Käufer und hohe Varianz die Streuer gegen niedliche, die hohe Verbreitung und hohe Schiefe, die geschieht. Also Käufer und Varianten sind zwei wichtige Aspekte, die diskutiert werden, wenn Sie versuchen, sehr zu diskutieren ist maschinelles Lernen Algorithmen und wie gut diese Mission Lernen unbewacht sich selbst. Es gibt gewisses maschinelles Lernen auf der Hut, ähm, das tendenziell hoch von uns ist. Das habe ich dann Variante. Also, das sind Dinge, die Sie für Arten von Fehlern achten möchten, die Luft während einer Vorhersage der bewachten konfrontiert sind . , Das erste,was ist in der Probe in der Probe. Es ist passiert. Was ist in den Stichproben? Sie gehen bauen ein Modell und super Müll lernen. Dann verwenden Sie das Modell auf dem Trainingsdatensatz selbst. Sie bauen also ein Modell auf denselben Daten auf und bauen das Modell aus. So werden Sie spielen das Modell auf dem gleichen später Said Sie das Modell gebaut aus, so spielen Sie das Modell auf den Trainingsdatensatz auf DSI. Wie viel dieses Modell die Daten vorhersagen kann, aus denen es aufgebaut ist. Idealerweise, da das Modell aus den Trainingsdaten aufgebaut ist, sagte es sollte sehr genau auf dem Trainingsdatensatz selbst auf sein. Letzteres ist mein Hemd wie im Musterbrief. Also gehen Sie für das Modell s High-End-Beispielfehler. Das ist etwas wirklich Schlimmes, das vor sich geht, ist, dass es nicht genug Signale in den Daten oder so etwas gibt, weil Athleten zumindest, sollte das Modell den Trainingsdatensatz genau aus Beispielfehler vorhersagen im Grunde alles andere. Also, wenn Yamada List verwendet, um auf einem neuen Datensatz wie ein Testdatensatz vorherzusagen, wirklich sind , sagte Abdullah. Was ist der Bereich, den Sie in Bezug auf die Vorhersage der Istwerte erhalten, die Musterbrief über Fuß abgerufen hat , ist ein Konzept, das sich auf eine Situation bezieht, in der es sehr niedrige Beispielbuchstaben, aber sehr hoch ist , außerhalb der Stichprobe Brief. Was das bedeutet, ist das Modell, wenn Sie versuchen, vorherzusagen, verwenden Sie das Modell ein hübscher Zug bekommen einen Satz selbst. Es geht nicht sehr später allein. Aber wenn Sie versuchen, vorherzusagen, die neuen Daten sagten, es ist sehr schwer, wie sehr hoch. Das bedeutet, dass sich das Modell durch das Training unschuldig überholt hat. Wenn Sie sich das ansehen, Daten sagten die Daten, wie Signale gut, eine gute Signale und die Daten, die nicht rauschen. Es hat auch eine Menge Lärm in Bezug auf off. Es zeigt einige falsche Muster, falsche Trends, und dann versucht das Modell, sich zu sehr in die Trainingsdaten anzupassen. Stellen Sie es Modelle Bord der Signale und das Rauschen. Aber was passiert, wenn man zu einem neuen Date geht? Ich sagte, dass der neue Datensatz nur die gleichen Signaleigenschaften behalten würde, aber es kann nicht das gleiche lesen. Das sind schöne Eigenschaften. Also, wenn es versucht, auf die neuen Daten vorherzusagen, dass sie der Araber sind, den du bekommen wirst, ist ziemlich hoch. So nennt man es darzubringen. Es hat sehr, sehr gut in sehr niedrigen Beispielfehlern und sehr hoch aus der Probe Fehler. Und das ist etwas, das passiert, wenn die Daten, die Sie verwenden, sehr klein sind, Sie vielleicht haben Sie nicht genug Menge an Daten, um alles zu charakterisieren, was in der realen Welt geschieht . Zweitens ist der Trainingsdatensatz keine Reflexion von der Situation, die Sie vorherzusagen versuchen . Zum Beispiel würden Sie Daten über Ihre Telefonkunden nehmen und dann versuchen Sie vorherzusagen, wie Ihre Webzellen aussehen werden. Also, wenn die Muster aus Telefonverkäufe und Web-Verkäufe sind unterschiedlich, offensichtlich das, was das Modell, das auf Ihrem Handy Datensatz gebaut wird, wird nicht Ihre Vibration vorhersagen , Ich sagte sehr genau. Das sind also der Grund. Tut das das was? Einige der Gründe, warum Sie über alles, was passiert, wenn Sie versuchen, eine Mission lernen Vorhersagen zu tun Vielen 5. Lineare Regression: Hallo. In diesem Vortrag werden wir über den ersten Missions-Lernalgorithmus diskutieren, der als lineare Regression bezeichnet wird . Regressionsanalyse ist eine sehr beliebte und sehr alte gereifte und eine sehr verwendete Methode, wenn es darum geht, die Beziehung zwischen zwei Variablen zu analysieren, sind tatsächlich mehrere Variablen. Also eine weitere Regressionsanalyse. Das Ziel ist es, eine Gleichung zu bauen. Die Gleichung, bei der der Prädiktor als y auf dem Rest betrachtet wird. Sorry, das Ergebnis wird als Y betrachtet, und alle Prädiktoren gelten als das X auf. Dann versuchen Sie, das Y mit den Eiern mit dieser Gleichung vorherzusagen. So versucht es, den Wert von abhängigen Variablen von unabhängigen Variablen mit einer Beziehungsgleichung abzuschätzen . Die Beziehungsgleichung ist das Modell in der nahen Regression. Wenn Sie also Modellierung in linearer Regression durchführen, versuchen Sie, nichts als eine Gleichung zu erstellen, die die Beziehung zwischen der abhängigen Variablen von unabhängigen Variablen erklärt , die hier das Ergebnis, Variablen und unabhängige Variablen sind die Prädiktorvariablen. Es wird in der Regel verwendet, wenn sowohl die abhängigen als auch die unabhängigen Variablen kontinuierlich sind. Also alles ist Zahlen, und beide sind zusammenhängende Zahlen. Also, das ist eine Regressionsanalyse ins Spiel kommt, wo Sie versuchen, eine Zahl vorherzusagen anstatt zu versuchen, Klassifizierungen in der Regressionsanalyse durchzuführen, müssen Sie toe. Betrachten Sie immer etwas, das als „Guthness Off Fit“ bezeichnet wird, wie gut die Regressionsanalyse wie gut die Gleichung die Beziehung zwischen dem Prädiktor auf den Zielvariablen erklärt . So werden wir sehen, wie diese gute Nüsse aus für Test abschrecken, wie Sie auf diese Güte angeboten zu sehen, überprüfen, wie gut ein Modell, dass diese Regressionsanalyse war. Beginnen wir mit dem zu verstehen, was eine lineare Gleichung ist, die Sie vielleicht bereits haben, ist in dieser Art von linearen Gleichungen in Ihren Mathematikunterricht, entweder in Ihrer Schule oder in Ihrem College. Eine lineare Gleichung ist also etwas, das die Beziehung zwischen zwei Variablen mit einer Gleichung erklärt . Betrachten wir also, dass X eine unabhängige Variable ist. Und warum ist die abhängige Variable? Sie können die Beziehung zwischen X und mit einer Gleichung namens y gleich Do al für X plus Beater erklären . Warum ist die abhängige Variable die Ergebnisvariable? Unsere Zielvariable X ist die unabhängige Variable sind die Prädiktorvariable auf. Sie können jede Frage schreiben, wo Warum gleich Zehe Alfa X plus B auf mit ihnen Bestimmung der richtigen Werte für alle Fine Schlägel. Sie können vorhersagen, warum, indem Sie die Werte aus verwenden. X Alfa wird die Steigung genannt, die die Alphas als Neigung bezeichnet, da es sich um alle physikalischen Zehe Weg um X handelt, ist die Formel, die sie normalerweise verwenden, eine Zahl auf ist. Wenn Sie sich das Diagramm auf der rechten Seite ansehen, sehen Sie, dass dies eine Linie ist, die die Neigung der Linie von X beim Abschneiden der Linie abschneidet, ist bitta sein bindet den Wert aus y, wenn X gleich Null ist. Wenn Sie also X gleich Null in der Meereserstellung setzen, wird in dem Moment, in dem Sie X gleich Null setzen, das Ich finde, dass das X Null wird. Warum hat er den Schläger angerufen? Sobeih bindet den Wert, wo die Linie im Trizeps, der weiße Zugang so Störung auch. Wenn Sie also das Erstellen eines linearen Regressionsmodells verdorken, versuchen Sie so ziemlich, die Werte von Alpha und Beta zu finden, weil Sie X I bereits nur von den kühnsten Werten von Alphen Beater kennen . Sobald Sie die Werte von Alpha und Beta kennen, können Sie weiß bestimmen. Wenn Sie also ein Modell erstellen, geht der moderne Bauprozess in die Daten und versucht, die Werte von Alpha und Beta zu finden, die eine Zeile passen. Lassen Sie uns eso Sie bereits wissen, was eine Gleichung jetzt ist, wie verwenden wir dieses Konzept, um diese Modellbildung in Mission Learning zu tun ? Es nennt sich das Konzept, das eine Verbindung anpasst. Also, was ist ihre Grundlage? Die Linie, sagt es, ist hier, angesichts einer Streuhandlung, warum Was ist ein Sex fit? Eine gerade Linie durch die Punkte, so dass die Summe der Quadrate der vertikalen Abstände zwischen den Punkten auf der Linie, wie viele müssen. Also, was genau sagt diese spezielle Zeile? Angenommen, Sie haben zwei Variablen X und Y. Nehmen wir an, Überalters und lassen Sie uns Airways Gewicht, und dann zeichnen Sie einfach diese Handlung und dann plotten diese Punkte in diesem Handwerk zu den Punkten werden wie überall sein. Das Ziel, eine Linie zu passen, ist es, eine Linie durch den Plotpunkt zu zeichnen, eine gerade Linie durch die Punkte zu zeichnen, so dass. Also, was ist das so? Dass es sagt, versucht, die Entfernung zu finden. Der vertikale Abstand zwischen jedem Punkt und der Länge, denn ich habe versucht, den vertikalen Abstand zwischen jedem Punkt auf der Linie zu finden. Jetzt wird diese Entfernung später positiv oder negativ sein. So Squire jeder von solchen Maßnahmen. So einige der Squire jeder dieser Maßnahmen und summieren Sie es, dass die Summe der Quadrate aus vertikalen Entfernungen genannt wird . Die Suche nach vertikalen Entfernungen schräg sie und dann etwas. So ist das Ziel jetzt in diesem bestimmten Satz von Punkten, Sie führen jede Tötung, Sie können eine Linie wie diese zeichnen. Du kannst so online gehen wie dieser Zug. Du kannst gerne klappern, wie auch immer du willst. Aber das Ziel ist es, eine Linie zu zeichnen, so dass diese einige von Squires der vertikalen Entfernung der Summe der Quadrate der vertikalen Entfernungen ist der niedrigste mögliche Wert. Wenn Sie also wie fünf Linien durch diese Punkte zeichnen und versuchen, die Summe der Quadrate aus vertikalen Entfernungen zu finden , ist das Ziel niedrig. Nehmen Sie die Linie, die diese Summe der Quadrate von vertikalen Entfernungen hatte, ist die niedrigste sind die minimalen meisten Wert. Also, das ist, wie Sie eine Linie durch die Punkte ziehen Offensichtlich, wenn Sie sagen, dass die Summe der Quadrate aus vertikalen Entfernungen ist viele, Mutter Linie wird Art weg Reisen durch die gesetzten Punkte fast durch die Mitte. Das ist oben. Du bekommst eine Schlange. Es gab die Entfernung zwischen den Punkten, und die Linie wird minimiert. Also noch einmal, werfen Sie einen Blick. Zeichnen Sie eine Linie durch die Art von Punkt. Suchen Sie den vertikalen Abstand zwischen den einzelnen Punkten auf der Linie auf. Stellen Sie sicher, dass ich eine Linie so zeichne, dass dieser Abstand eine Art Mini feucht zur besten Linie gleich den geringsten Residuen ist. Rezept-Erträge in der Integration ist nichts, aber sie sind einige von Quadraten, einige von Squires. Der vertikale Abstand wird das Rezept Mädchen genannt, weil ich die Presidio Sache, die nicht immer noch sie sind noch nicht zugeordnet sind, was Sie sehen werden. Der Rest Deal. Der Unterschied, den der Rest der Welt bedeuten würde, weil die Linie tatsächlich Ihr Modell ist. Auf den Punkten sind die tatsächlichen Werte. Der Unterschied zwischen dem Modell und den tatsächlichen Werten sind Art der Residuen. Die beste Linie ist also die Linie, in der der Präsident Anrufe am wenigsten Sie sich daran erinnern können , dass Land an jede Art von Punkten angepasst werden kann. Es ist nicht notwendig, dass diese Punkte wie fast in die Spur fallen müssen. Die Punkte können überall sein und Sie können immer noch, Liebling, Liebling, Die einzige Sache ist, dass, wenn wir so tun, wenn die Punkte überall auf dem Platz sind, die Linie ist kein guter Prädiktor für unsere rote Änderung der Punkte. Das ist also etwas, das wir im nächsten Licht sehen werden. Was wir hier finden, ist, dass diese Gleichung die Gleichung für diese Länge der Linie, die Sie durch diese Art von Punkten dieser Linie ziehen elften Gleichung. Wo, warum er alle für X plus B rief. Nun, diese Gleichung wird der Prädiktor aus dem Weg. Diese Gleichung wird zum Modell, mit dem Sie die Werte von X Alfond Beta verwenden können, um festzustellen, warum Sie beim Erstellen eines Modells im Grunde die Werte von Alfond Beta herausfinden. Nun nehmen Sie dieses Modell und Sie haben neue Daten. Die neuen Daten werden Ihnen X So unser Spiel X in das Modell geben. Sie haben bereits Alfond Beta im Modell verfügbar und dann können Sie, sobald Sie diese Gleichung haben , so ziemlich finden, was der Wert aus. Warum ist Güte dran? Wie wir über gesprochen haben? Wie finde ich, ob die Linie ein guter Prädiktor von den Punkten ist, die Sie etwas messen, das uns genannt wird . Güte drauf. Das ist eine Maßnahme namens Are Square. Unser Quadrat ist ein Maß, das einfach die Summe der Quadrate abnimmt. Wir sprachen über die Summe der Quadrate aus den Entfernungen ist es R quadriert ist eine Formel für die mehr als das, aber es verwendet diesen Restwert, um zu finden, wie gut Angst, Linus. So einige sind quadriert ist ein Wert, der von 0 bis 1 geht. So hat es einen eigenen Bauernhof. Wir werden nicht darauf hineingehen. Typischerweise ein maschinelles Lernalgorithmus, wenn es das Modell gibt, Ihnen auch das r Quadrat für die moderne geben . Also die Sache ist, r quadratischen Wert, je höher der Wert, desto besser s Sie sind fit an der Unterseite. Hier haben Sie drei. Viele drei Sätze von Daten und Sie sehen für jeden von ihnen, jedoch, ist, dass r quadriert wie so die 1. 1 Sie sehen, die Kiefern sind fast fallen in der Linie auf dieser hat eine Gleichung. Auch, warum er die 10,97 x plus 4,0 Punkt +18 auf seiner R quadriert genannt hat, ist 0,95 ziemlich hoch, sehr nahe an einem jetzt. Die Punkte in der zweiten Handlung, sehen Sie, sind irgendwie weg von der Linie ein wenig. Sie fallen immer noch in der Linie, aber irgendwie schwankend weg auf diesem r Quadrat ist wie 10.74 und die 3. 1 Sie sehen, dass die Punkte überall auf dem Platz sind. Auf diese, unsere Punktzahl diese 10.24 So offensichtlich bedeutet es, dass die Punkte fallen Art von fast in Länge. Dann fragen Sie, was es anders ist. Auf dieser Linie höher zu sein, wird ein sehr guter Tag sein. Dominica sind sehr gutes Modell für die Vorhersage Y x und Frau, denn warum wir sagen, dies ist jetzt, Wenn dieser Punkt diese Punkte näher sein werden, toe diese Linie. Alle neuen Daten, die in einem neuen Wert von X kommen, werden wir auch einen neuen Wert von X und Y werden auch fast in der gleichen Zeile fallen. Wenn der Trainingsdatensatz und der Produktionstag tut, dass die gleichen Eigenschaften haben , so dass, wenn Sie diese Gleichung Platz gesetzt haben, Ihr wird definitiv ein Ausweichen ein viel höheres Niveau vorhergesagt, dann haben Sie etwas in der dritte Graf, wo die Punkte überall auf dem Platz sind, kommt ein neuer Punkt gemacht hier irgendwo hier unten auf. Sie nur wenige voraus, warum die Weisen wieder nicht so genau sein werden? Wenn die Punkte selbst gehen, um überall auf der Platte Platz sein? In diesem Fall passt ein lineares Modell nicht. In der Tat ist der Grund, warum Sie es als lineare Moral sagen, dass Sie in der Lage sein sollten, die Punkte in einer geraden Linie zu passen . Und das ist nur möglich, wenn die Punkte schon fast in einer geraden Linie fallen. Denken Sie daran, dass Sie immer wechseln können und sagen, dass es dort nichts ausmacht. Es muss nicht sein, dass die Punkte alle ins Meer fallen müssen. Gerade Linie können Sie immer mit der Linie, aber Sie müssen unsere Quadrat verwenden, um herauszufinden, wie gut aus einer Passform dieses bestimmte Modell ist. Höhere Korrelation bedeutet in der Regel eine bessere Passform. Wenn man sich den Korrelationskoeffizienten zwischen zwei Variablen anschaut, wenn der Korrelationskoeffizient zwischen den beiden Variablen höher ist und die Punkte der Knorpel in der Koalition so hoch sind,ist unser Trupp Wenn man sich den Korrelationskoeffizienten zwischen zwei Variablen anschaut, wenn der Korrelationskoeffizient zwischen den beiden Variablen höher ist und die Punkte der Knorpel in der Koalition so hoch sind , wird auch Stellvertreter hoch sein. Also, in dem Moment, in dem Sie Explorer tun, haben Analysten gemacht und Korrelationskoeffizient verwendet , können Sie sehr gut sagen, dass Sie eine dieser Variablen mit Gather finden können, indem Sie Lee in der Nähe der Regression 10 Big will toe multiple Regression. Was ist Multiple Regression? Aber es gibt mehr als eine abhängige Variable, die verwendet wird, um Sorry vorherzusagen. Wenn mehrere unabhängige Variablen vorhanden sind, gibt es mehrere Prädiktoren, die verwendet werden, um eine abhängige Variable vorherzusagen. Dies ist hauptsächlich die Verwendung, weil Sie es sind, Sie werden kaum eine Situation haben, in der es nur eine Prädiktorvariable gibt, die normalerweise eine Anzahl von Prädiktorvariablen aufweist und Sie eine Zielvariable haben. Nun, in diesem Fall dehnt sich die Gleichungen so aus. Also, warum ich die Beta anrief, die der Abfangabfang ist, wird immer noch da sein, plus Alpha eins plus x eins plus Alfa Do plus X zwei. Was sehen Sie hier ist, dass Alfa One Alfa Dough, Alfa drei Alle diese werden zu den Koeffizienten für jede nach Prädiktorvariable. Also für jeden Druck, der jemals in der Lage ist, haben Sie ein Verbot. Also, wenn Sie Live-Aggression in diesem Fall tun, werden Sie den Wert der Beta aus dem Interesse an den Koeffizienten zu bestimmen. Für jede der Prädiktorvariablen ist dies höchstwahrscheinlich der Anwendungsfall. Die einzige Sache ist, dass, wenn Sie einen Bruder auf einem Grundstück wollen, es muss auf einem multidimensionalen Grundstück gezogen werden, nicht ein zweidimensionales Blut auf es ist sehr schwierig,, Sie wissen schon, mit Ihren Verbündeten sind sogar zeichnen diese Art von ein mehrdimensionales Los. Wenn diese bestimmte Sache drei Schaden ausgewählt hat, nicht vier Dimensionen, ist das Ziel immer noch, dass Sie möchten, dass Zehe eine Linie eine gerade Linie durch dieses mehrdimensionale Diagramm ziehen , so dass die Entfernungen minimal sind, so dass die Herzpunktzahl ist hoch. Der gleiche Prozess der Vorhersage hält gut. Acid ist in einer einzigen unabhängigen Variable auf die gleiche Weise, wie Sie Ask verkabelt verwenden, dasselbe, wo Sie Alfa und Beta bei Drohnenmorden finden. Wenn Sie mehrere Prädiktoren sind, haben unterschiedliche Prädiktoren unterschiedliche Auswirkung auf die abhängige Variable. Wenn Sie also Korrelationsanalyse durchführen, werden Sie sehen, dass verschiedene unabhängige Variablen verschiedene Prädiktorvariablen unterschiedliche Korrelationskovisionen haben . Je höher der Korrelationskoeffizient ist, desto höher wird der Einfluss dieser unabhängigen Variablen auf die abhängige Variable auf diese Ebene normalerweise im Tal abseits der Koeffizienten widergespiegelt. Al Faraj al Fordo, Alfa Three Das höhere tut diesen Willen für die Alpha ein Alpha tut alle für drei. Sie werden meine Daten sind sie genau zeigen, wie viel diese bestimmte Variable ist? Die unabhängige Variable wirkt sich auf t abhängige Variable aus. Nehmen wir also an, wenn X man einen hohen Einfluss darauf hat, warum, Al, wenn ich ziemlich bedeutend wäre, wenn X uns sagen soll, nicht so viel Einfluss darauf hat, warum Al Fatah so etwas wie 10.0 sein wird . Also, wenn das Geld mit X auf den Wert des Insulinwerts spielen wird ein kleiner Wert, der nicht die Salve von warum erheblich beeinflusst, während wenn wir sagen, x eins als eine signifikante Auswirkung auf bis dahin, Alfa man wird deutlich groß Camper Toe al für Alphandery zu tun. Wenn Sie die Übungen auf Schauen Sie sich echte Daten. Wenn Sie anfangen zu betrachten, wie diese Koeffizienten aussahen, erhalten Sie ein besseres Bild davon, wovon ich spreche, indem Sie lineare Regression für das Missionslernen verwenden . So Mission Learning nehmen Dies ist eine sehr beliebte Mission Lerntechnik für kontinuierliche Daten Es ist. Dies ist eine der super Möglichkeiten Lerntechniken für die Vorhersage fortlaufender Daten. Die Prädiktoren und Ergebnisse werden US-Input auf dem Trainingsdatensatz zur Verfügung gestellt. So bauen Sie eine Trainingsdaten sagte, Sie geben die Prädiktoren und Ergebnisse an den L-Garten. Sie sagen, der Algorithmus in Norwich war ein Ziel Ihre Zielvariable, die Sie arbeiten, Variablen sind, und wenn die Daten analysiert werden, kommt es mit empörter Gleichung, dass Einwanderung nichts anderes als die moderne ist. Die dunkle lineare Gleichung des Modells, das Modell, das alles portiert Land Zeug, die Werte von den Koeffizienten für die Prädiktorvariablen, die Werte für die Abfänge Andi-Wert für R quadriert. Also geben alle von ihnen typischerweise Ausgabe aus, dass, wenn Sie verwenden, ich sie bewache, um lineare Regression durchzuführen. Der Koeffizient im Schnittpunkt bildet offensichtlich das Modell. In diesem Fall, diese Werte, die Sie gehen, um einen Spieler zu nehmen. Linear Rick. Gleichsetzen einer linearen Gleichung Wenn neue Daten auf R R. Squared gibt Ihnen einen Hinweis darauf, wie gut, Ah, Ah, modellieren Sie Ihre Geburt. So offensichtlich ist dieser Sterbliche in Indien, aber für die Vorhersage verwendet. Es war in der Regel schnell, um Modelle zu bauen. In der Einwanderung ist ein sehr altes und sehr beliebtes System, das für den Bau von Modellen verwendet wurde . Also schauen wir uns jetzt die jemanden Fellini Integration an. Was sind die Vorteile der Verwendung linearer Regression ist, dass es ziemlich schnell ist. Es war ziemlich schnell in Bezug auf das Bauen von Modellen. Es hat sehr niedrige Kosten in Bezug auf Speicherauslastung und CPU-Auslastung. Es war ausgezeichnet für die nahe Beziehung. Die Beziehung zwischen den vorhergesagten Planen auf dem Ziel ist linear, d. h. sie fallen alle auf diese gerade Linie. Es ist ausgezeichnet, und die Vorhersage dieser Art von Beziehungen auf sie ist verwandt, um genau für Land Nachrichten zu sein , sehr, aber es ziemlich genau, wenn die Wertsachen Luft weiter. Es gibt keinen anderen grundlegenden Algorithmus, der ziemlich gut ist, wie die lineare Regression. Aber was ist der Schuss, der von diesem Algorithmus kommt? Die Mängel sind, dass es nur für zahlreiche kontinuierliche Variablen verwendet werden kann. Es kann für sexuelle später verwendet werden. Es funktioniert nicht so gut für Klassen. Art von Daten wie männliche weibliche Art von Daten, die Sie datieren, muss kontinuierlich sein. Es kann nicht nichtlinear modellieren, sind pingelige Beziehungen. Das ist ein weiteres Problem mit. Es kann nicht wirklich sterbliche Nicht-Nachsicht. So ist es durch Wathiq und Modell begrenzt. Die Beziehung ist also nicht linear. Ja, das kannst du nicht tun. Es gibt andere Fortschritte unsere Bodenfortschritt-Regression Ich bewache Dems für Modellierung in oder nicht-lineare Beziehungen sind quadratische Beziehungen und Sachen wie das auf ihm ist sehr empfindlich, die out Schichten. Das ist also ein Problem. Zum Beispiel sahen wir in diesem Grundstück fast alle Punkte fallen in einer geraden Linie. Aber nehmen wir an, nur ein Punkt von irgendwo weit weg. Das wird passieren, wenn der eine Punkt weit weg ist. Diese Linie wird versuchen, sich zu neigen. Sie sind einfach zu auf unserem entfernten Platz, dass bestimmte Ausreißer Punkt. Auf diese Weise schraubt es. Es vermasselt die gesamte Gleichung. Es ändert die gesamte Koordinate, nur weil es diesen einen Punkt irgendwo weit entfernt auf der gesamten angepassten Linie gibt, also passen Sie diesen Punkt an. Es ist also besser, als Sie die Ausreißer beseitigen, bevor Sie mit dem Bau beginnen. Und in der Tat, Aggression Mord, und es verwendet. Es ist das älteste prädiktive Modellsystem oder Verbindungssystem, das in einer Vielzahl von Anwendungen verwendet wird. Überall dort, wo es eine kontinuierliche Datenprognose gibt, wird sie schon lange verwendet. Es ist also ein sehr beliebter Algorithmus, der für die Modellierung kontinuierlicher Variablen verwendet wird, insbesondere wenn die Beziehung zwischen ihnen lehnt. Danke. 6. R Use Case : Lineare Regression: Hi. Willkommen zu diesem Anwendungsfall für maschinelles Lernen in diesem. Wir werden über lineare Regression sprechen. Regel folgen also derRegel folgen also alle Beispiele, die Sie als gebrauchte Phrasen diesen Pfad. Und im Grunde wird es durch diese Abschnitte gehen, um zu erklären, was das Problem, das Sie zu lösen versuchen. Welche Techniken ich in diesem speziellen Fall verwendet habe, wie welche Techniken, die Sie in dem Datum zugewiesenen Partituren gelernt haben, hier in diesem Anwendungsfall verwendet werden , als über Data Engineering, Analyse, Modellierung und Schutz, Prüfung und Schlussfolgerungen. Sie haben eine PDF-Datei von der gleichen Sache, die wir hier als Teil des Ressourcenpakets sehen werden . So können Sie immer einen Blick darauf werfen und, wissen Sie, den gleichen Code nehmen, kopieren Sie den Code zu uns und spielen Sie mit dem Gericht herum. Mal sehen, was wir in diesem speziellen Beispiel tun werden. Die Problemanweisung hier ist also, dass Sie einen Eingabedatensatz mit Eingabedatensatz haben, ist eine CSP-Datei. Es enthält Daten über verschiedene Automodelle, Es gibt nur verschiedene Daten über verschiedene genannte Modelle. Und basierend auf diesen Daten werden wir ein lineares Modell erstellen. Wir kommen mit einer linearen Gleichung, die verwendet werden kann, um die Miles Burger Gallone für ein Modell vorherzusagen. Wenn Sie irgendwelche neuen Daten haben, die in kommt, können Sie die Daten über das Auto haben, und dann können Sie dieses Auto verwenden. Schleppen Sie diese Daten, um die mpg in diesem vorherzusagen. Die Techniken, die Sie für die Analyse verwenden würden, berechnen uns linear, wenn Bellini-Regression , die Multi sehr ist es, über die wir reden werden. Haben Sie Datenimputation auf? Wir werden auch variable Produktion machen, also lassen Sie uns weiter und sehen, was wir in diesem Beispiel tun. Also das erste, was natürlich immer beginnen, Sie natürlich immer beginnen,indem Sie Ihr Arbeitsverzeichnis setzen. Dann werden Sie diese Datei Auto mpg Punkt CS lesen. Wir in Schleppen diesen Datenrahmen genannt Auto-Daten, so dass der C SV wieder als Teil Ihres Ressourcenbündels verfügbar ist, so dass Sie einen Blick darauf werfen können . Das erste, was Sie sofort nach dem Laden wollen, ist heute, die Daten im Grunde zu inspizieren, also mache ich die Struktur von automatischen Daten und werfe einen Blick darauf, was gibt es? Das zeigt Ihnen also, was sind die verschiedenen Spalten in diesem speziellen Datenrahmen? Auf welche Art von Daten? Augen? Es ist kein Beispiel. Daten. Es hat also meinen Respekt, Garland. Welcher aus? Nur die Daten, die Sie voraussagen werden. Du wirst ein Modell entous bauen und eine Gleichung ausdenken. Es ist also eine Nummer. Okay, fair genug Zylinder im Auto. Es ist ein ganzzahliger Hof. Sieht gut aus. Die Verschiebung des Autos und Anzahl Not über ein halbes Auto aus dem Auto. Und es kommt ein vergangener Faktor. Und vielleicht brauche ich das vergangene Jahr, weil unser Sperber ein numerischer Wert ist. Möglichkeiten, die mir einen Durchgang eines Faktorfaktors zeigen, kommt nur dann, wenn es sich um einen nicht numerischen Wert handelt. Architektonischer Wert. Also werfen Sie einen Blick auf dieses und ein Beispiel, das sie menschlich gemacht haben. Siehst du dieses Fragezeichen? So Fragezeichen ist einer der Werte dafür, was bedeutet, dass Daten hier fehlen. Wir müssen etwas gegen die Miss India unternehmen. Dann kommt Gewicht sieht gut aus. Beschleunigung sieht in Ordnung aus. Das Modelljahr beginnt ab 1970 auf dem Namen des Martin. Dies ist eine Möglichkeit, die Daten zu betrachten. Jetzt werfen wir einen Blick auf die gleiche später auf eine andere Art und Weise, indem wir diese Zusammenfassung der Daten. Ich meine, es war jemand. Jeden Tag wird es mir für alle numerischen Werte geben, die Kartelle. Also schauen sie sich das Korporal an, sagt mir, ob die Wertebereiche in Ordnung sind, also ist mpg irgendwo zwischen neun und 46. Da ich also über Autos und typischerweise Autos auf meinem funkelnden zwischen neun und 46 Jahr weiß , sieht die Daten OK aus. Sieh dir so etwas wie Cylinder an. Es ist zwischen drei und acht. So gibt es eine seltsame ist von Theresa Industrie Zylinder macht Sinn. Ja, das haben die Autos. Angenommen, ich sah einen Wert wie minus 50 oder einen Wert wie 170. Ich wäre besorgt, weil das keine wirklichen Werte sind. Dies sind keine Werte für die Anzahl der Zylinder. Autos werden heute nicht so gebaut. So wie du anfängst, den Rest der Jungs anzuschauen. Verschiebung wie am selben Tag harte Kraft, die wir bereits gesehen haben. Es gibt ein Fragezeichen erkennen ist ein Faktor. Also müssen wir etwas Großes dagegen tun. Scheint irgendwie in Ordnung, Beschleunigung irgendwo zwischen 8 und 24 sieht gut aus. Das Modelljahr zwischen 1970 und 1982 sieht gut aus. So schauen wir uns die Daten von jemandem an, der groß ist und irgendwie sicher sein kann, dass Daten gut sind und es keine Junk-Daten gibt, die dort sitzen und so etwas. Dann wieder, Sie können auch einen Kopf von moderaten und sehen Sie sich die tatsächlichen Datensätze hier in. Die Top sechs Datensätze auf JAG sehen in Ordnung aus. Also kamen sie auf nur ein Problem, das ist, es gibt ein Fragezeichen, das für den harten Friseur da war. Wir werden etwas dagegen unternehmen. Also, was wir damit machen werden, wo immer die Frage, was auch immer die Herzsportdaten fehlen , wir werden sie durch den Mittelwert aus PS ersetzen, aber der Mittelwert basiert auf allen anderen Aufzeichnungen. Also, wie machen wir das? Das erste, was wir tun, ist, dass wir diese Spalte in eine numerische Spalte konvertieren. Es ist also eine Faktorspalte an diesem Punkt, wissen Sie, es gibt eine numerische Funktion gefragt, die Sie in neue Amerikaner in Richtung sie zurück in die gleiche Spalte umwandeln . Sobald Sie dies geschrieben haben, fragte numerisch diese Frage Marks tatsächlich als Aeneas umgewandelt werden. Das ist nicht verfügbar. Wenn du das tust, was? Und was ich tun werde, ist, dass ich den Mittelwert aus dieser speziellen Spalte berechnen werde, indem ich in diesem Kommentar einen Anruf mache , der meine Abschleppung im Krankenhaus ist. Und ich kann hier sehen, wie angeboren unsere Tochter wahr sein muss. Also eliminiert es alle angeborenen Spalten und für die restlichen Spalten wird es den Mittelwert berechnen und ich werde es auf Zehe verwenden, die zu diesem aufgestiegen sind. Also, was wir hier tun, ist, ich vergesse, dass ich nur auf die Kunst-Power-Spalte im Datenrahmen zugreife . Dann filtere ich es vier Zeilen, wo es sagt, dass das in einem Aus ist. Unsere Sportarten nehmen nur diejenigen, wo das Krankenhaus selbst überhaupt ist. Und dafür sage ich in der Mitte So fühlt es sich nur in diesen Spalten jene Aufzeichnungen, wo die Herzen Eigenschaften in einem und das wird durch das mich ersetzt. Jetzt wissen Sie, wieder, wieder, eine Zusammenfassung dessen, was ich dort getan habe, um sicherzustellen, dass alles in Ordnung aussieht Jetzt schauen Sie sich harte Macht an. Nun, wo wirkt Joe nicht mehr? Es gibt jetzt zeigen, wie alle Kartelle irgendwo zwischen 1 94 Art von Aussehen. Ok. Ich meine, das sind wirklich alte Autos. 1970 bis 1982. Also offensichtlich werden Sie nicht mehr Herzsporen wie 3300 oder 400 Blicke sehen. Gut. Sobald Sie diese Säuberung aus dem Weg bekommen, dann beginnen Sie eine Erkundung, diese Analyse, versuchen, einige Diagramme zu machen, um zu sehen, wie die Dinge miteinander verwandt sind. Also das erste Blut, das ich tun werde. Ich werde MPG nach der Zahl aus suchen. Schlank. Also lenke ich die Daten um die Anzahl der Zylinder ein Auto hat, und für jeden von ihnen mache ich ein Box-Plot gegen mpg. Das ist also der Commander. Verwenden Sie ein Sie g Plot Pick auseinander oder Daten in das. Ich gebe die Faktoren, Sie Zylinder und mpg. Und dann mache ich das mit Blackbox-Blut. Und ich habe die Farbe verwendet, die Tatsache schrecklich vom Zylinderfaktor von Zylindern ist. Und das ist es, was ich bekomme. Die Hypothese ist, dass je mehr die Anzahl der Zylinder, desto weniger wird es hart Sperber sein. Und Sie können sehen, dass hier für vier Zylinder die Herzen Barbiere enden irgendwo zwischen 25 35, aber dass die Anzahl der Zylinder erhöht, dass der durchschnittliche Hausvater immer runter kommt , sehen Sie das? Die Rangers bewegen sich nach unten, wenn die Anzahl der Zylinder zunimmt. Das gibt dir also eine Idee dort. Die Daten scheinen einige Muster zu folgen. Außerdem sehen Sie, dass es für 67 Dutzend acht Zylinder ein Haufen unserer Spieler gibt, die dort oben stehen. Also offensichtlich, was, 16 in ihrem Auto es gibt mir, wie, 35 MPG auf diesem ist wie ein 1970 bis 82 Modell. Es könnte also etwas Besonderes da sein. Sie können tatsächlich gehen und den Datenrahmen abfragen, um zu sehen, welche Karten genau dieser Bedingung entsprechen , indem Sie mit einigen Bedingungen erwerben, und Sie können tatsächlich sehen, welche Ihnen diese Art von Wohnung tatsächlich geben. Ich empfehle Ihnen wissen, Art von erkunden Sie mehr auf dem Daten-Player auf mehr Plan, machen Sie mehr Handwerk wie diese, so dass Sie wirklich ein gutes Bild von den Daten, die es gibt . Sobald ihr Töchter, dann geht ihr für die Korrelationen. Korrelationen zwischen den Prädiktorvariablen auf dem Ziel. Variable Ziel ist hier mpg auf. auch Sehen Sie sichauchdie Korrelation zwischen der Prädiktorvariablen selbst an, da im Idealfall Prädiktorvariablen untereinander keine Hi-Koordination haben sollten. Ich wirklich, sie sollten Nullkorrelation haben, also lassen Sie uns einen Blick darauf werfen. Jetzt nennen wir diesen Befehl namens Teil Start Panels, Auto-Daten, und lassen Sie uns sehen, was passiert. Also haben wir dies vorher gesehen, also die tatsächlichen Variablen, die Zielvariable ist mpg. Hier. Der Rest der Variablen sind hier auf den Quermetriken von diesen sind eigentlich die Kardashian-Bestimmung aufgereiht . Also schauen wir uns meine Ausgaben Gallone auf X Korrelation mit allen anderen Variablen an. Also gehen Sie eins nach dem anderen mit Zylindern minus 7,78 Guter eins. Gute Korrelation. Minus 8,0. Gute Korrelation. Mittel mit Krankenhaus wieder hoch mit großer auf Medium mit Beschleunigung, Modelljahr und Name. Eine Sache, die Sie bemerken, ist für Gewicht, Verschiebung und Zylinder. Die Korrelationskovisionen sind ziemlich hoch. Dann werfen wir einen Blick auf die Korrelation zwischen den Variablen und was Sie bemerken sind diese hohen Werte 0,75 Punkt 90.93 Und das geschieht zwischen Zylindern, Verschiebung auf Gewicht zwischen Zylinderverschiebung und Warten zwischen diesen 23 Variablen, scheint es eine hohe Korrelation zwischen diesen drei Variablen selbst zu geben. Und wenn ich tatsächlich eine Logik an unserer Stelle spiele, ähm, Domain-Wissen, werden Sie sehen, dass je mehr Disziplin dort, die Motoren, Ihre Verschiebung und mehr ein großartiger wird. Was das bedeutet, ist zwischen diesen drei Variablen eine Variable. Es ist ein Stellvertreter, sehr. Aber für die anderen beiden, sehr, aber für die anderen. Also, was Sie können, möchte ich wirklich, dass wir hier variable Reduktion tun können. Da Sie sehen, dass dies thes Prädiktorvariablen der hohen Korrelation, können wir beseitigen, um sie zu entfernen und nur eine, die eine Menge von der Kreuzung flussabwärts macht viel einfacher und Herr schneller. Das ist es, was wir als Nächstes tun werden. Also werden wir einfach dieses eine Arto Date machen. Unser Dollar-Verdrängung hat nicht insgesamt eine gewisse persönliche bestellt. Was das bedeutet, ist, dass es täglich diese Spalten aus den Daten an Bord gehen wird. Jetzt mögen Sie eine Zusammenfassung der Daten. Was siehst du hier? Sie sehen, dass diese beiden Spalten weg sind. Nun, Sie sehen nur mit sechs Variablen da drin. Ein Ziel, und der Rest ist Prädiktor. Jetzt, wenn Sie hierher kommen, was wir tun werden, ist das eigentliche Erstellen des linneischen Modells, auf dem tatsächlich das linneische Modell in seiner basierten Klassenfunktion namens schlaff erstellt wird. Dieser Conley braucht moderne. Rufen Sie einfach diese Funktion Elham auf dem ersten, was Sie uns sagen, Waters, dass Sie vorhersagen wollen, was Ihre Zielvariable sein wird. Und was sind die Prädiktorvariablen? Und das ist ein Dienstprogramm war ein mpg so vorherzusagen MPG. Der Hocker Sinus prognostizieren Meilen pro Garten durch den Satz von Kohlenhydraten. Also in diesem Fall habe ich einen Punkt Punkt bedeutet alles andere so vorherzusagen mpg durch alles andere. Sie können tatsächlich sagen, eine Spalte, die sie mpg von Krankenhaus vorhersagen. Ich kann sagen, vorherzusagen mpg von Herzen, Macht plus von acht. So etwas wie das. Ich kann Toe Variablen haben, sind ich kann alle Variablen setzen und dann sehe ich hier, welches Datum ich verwenden muss. Also werde ich diesen automatischen Datenrahmen minus sechs verwenden, was bedeutet, dass ich die Namensspalte auslebe. Da Name eine Textspalte ist, ist es es. Das lineare Modell würde keine Textspalte verwenden, daher benötigt es nur alle Variablen, um Zahlen zu sein. Es wird also ein anderes geben, wenn Sie ihm eine Textspalte übergeben. Also nehme ich gerade diese Textspalte heraus, die den Rest der Daten übergibt, wobei der Rest der Daten die Meile pro Gallone vorhersagt. Mit allem anderen kommt Organ gibt mir diesen milden Mörser. Das Führungsmodell ist für mich in einer Variablen verfügbar. Ich meine, das kann dann für andere Analysen verwendet werden. Dieses Modell kann für Vorhersagen verwendet werden. In der Tat können Sie diese Variable Toe-Datei speichern und dann die Daten und die Dateien wieder zurück im Speicher , so dass Sie ein Modell erstellen, speichern und es dann für die weitere Analyse verwenden. Ihr Schritt. Schau dir an, was dieses Modell eigentlich sagt. So sehen Sie, dass es eine Zusammenfassung von Elham durch einige sehr gut. Ähm, und das ist es, was es mit dem Fasten herauskommt, heißt es. Es sagt der Ruf, der ist, was befohlen Sie geben so das gleiche befohlen, nur wiederholt. Dann erzählt es Ihnen über das Rezept anderes in den Datenrückständen. Mädchen sind im Grunde wir über den rep ical Abstand zwischen der letzten Zeile und dem tatsächlichen Punkt gesprochen . Wir haben diese Zeilen gesehen. Und was ist die Entfernung auf dieser vertikalen Entfernung hier, sagt Ihnen, wie diese Entfernungen aussahen. Wenn ich also die vertikalen Abstände zwischen jedem Punkt in den Daten nehme, die zum Erstellen des Modells angegeben werden , also die eigentliche Linie, die das Modell erstellt hat, die Entfernungen ablegt, erhalten Sie diese Liste aller dieser Entfernungen. Und das ist das Kartell für diese bestimmte Liste von Entfernungen. So trinkt es irgendwo zwischen minus Punkt bezahlt 0.0.9 zu 40. So ist das Seltsamste. Denk dran, das ist nicht. Dies ist ein mehrdimensionales Diagramm. Das ist, als ob es fünf Dimensionen in diesem Gefängnis gibt, also stößt es durch all diesen Schaden. Es ist sehr schwer zu wissen, welche diese nutzen. Dann sagt es dir, was der Alfond-Anführer sind. Wir sprachen über die Gleichung whyy genannt Tau Alpha one x one plus alle vorwärts zwei x zwei xxx plus Beat eso Jahre The Alfond beta. Der Abfang ist der Wert der Beta. Also und er hatte die Abfangjäger minus einen Punkt Fein. Außer erfahrungsmäßig. Oben. Dann. Das sind alle Alpha eins Alpha. Das sind also alle Koeffizienten. Das ist also die Firma für das Krankenhaus. Dies ist die CO-Option für Gewicht. Die Stadtkoalition für Beschleunigung. Das hier ist für die Moderne. So erhalten Sie alle neuen Daten über, Sie wissen andere Dinge, aber Sie wissen nicht mpg. Jemand gibt Ihnen Daten darüber, ist mein Herz. Wofür? Das ist mein Weg. Das ist meine Beschleunigung. Und das ist mein Model. Hier, gib mir die Mass Spec Island, dass du diese Werte annimmst. Und du hast diese Formel gesagt. Also werde ich den Wert des Herzens Sperber nehmen und damit multipliziert, dann addiert mit diesem Dies plus das in diesen Ort dies in diesem und schließlich plus der Abfangs Alfa ein X ein Alfredo X zwei auf drei X Bäume. Es geht weiter und umso besser. Also hat diese Aereo Verys Koalition da draußen getan. Es ist alles ein böses lineares Modell für Sie Sobald Sie das Führungsmodell haben das nächste, was ein Blick auf diese. Was bedeutet meine sind quadratisch? Denn das ist, was ich Ihnen sagen werde, wie genau Ihr Modell auf dem r quadratischen Wert hier sein wird . Es teilt, dass bei dieser 0.809, die wirklich ziemlich hoch ist. Es ist also wirklich ein gutes Modell. Sie sollten die Daten, die Sie haben, genau vorhersagen. Okay, das Modell ist jetzt gebaut. Dann müssen wir einige neue Daten vorhersagen. Jetzt, nur für dieses Beispiel, werde ich nur die gleichen Daten mit dem Tag vorhersagen, an dem das Modell erstellt wird. Ich nehme die gleichen Modelldaten, die ich tatsächlich in Training und Test verbreiten könnte. Außerdem habe ich es in dem konkreten Beispiel nicht getan, dass ich die gleichen automatischen Daten nehme und sie mit diesem Modell vorhersage . Also versuche ich, am selben Tag zu arbeiten, auf dem das Modell basiert. Ich versuche zu sehen, was mein Musterbrief ist. Also vorherzusagen, dass dies der Befehl ist. voraus, dass ich es benutzt habe. Was? Sie verwenden dieses neue Dieses Modell auf diesen Daten wird mir einen Vektor namens Prädiktor zurückgeben . Also für jedes Gesetz in den Auto-Daten, wird es unseren Wert von mpg vorhersagen. Also, wenn der Operator hatte, wie, 100 stieg, dass 100 MPG-Wert zu gehen, um vorherzusagen, und das wird zu Ihnen in dieser vorhergesagten Variablen zurückkommen und dann, wenn Sie einen jemand der Praxis tun, gibt mir die Reichweite aller -Werte, die mit herauskamen. Nun, was Sie dann erstellen können, weil Sie den prognostizierten Wert mit dem tatsächlichen Wert darstellen können , da Sie den tatsächlichen Körper für Daten kennen. Sie können den prognostizierten Wert einfach mit dem tatsächlichen Wert darstellen und sehen, wie er aussieht. Idealerweise sind die Vorhersage und die Istwerte wirklich nah dran. Dieser Ausgang sollte wie ein gerades Bein aussehen, und so sieht es aus. Es sieht fast aus wie es fast eine gerade Linie, was bedeutet, dass die Vorhersagen wirklich gut sind. Eso das ist ein sehr Überprüfen Sie es auf diese Weise. Der zweite Weg. Die Kontrolleure Sie können eine Korrelation zwischen dem Prädiktor und Istzahlen gehen, aber angesichts ihrer Wanderung Istwerte, musste ziemlich nahe beieinander sein. Die Kardashian-Koalition sollte wirklich nah an einer DSI sein. Was Sie jetzt sehen, ist, dass die Koalitionskoalition tatsächlich 0,89 ist. Neun. Es ist also wirklich hoher Korrelationskoeffizient. Also das bedeutet, dass in Beispiel-Terroristen, wissen Sie, ziemlich klein, Sie müssen es auf neue Tochter versuchen und dann sehen, wie genau das funktioniert. Aber im Allgemeinen sind die R quadrierten Werte ziemlich hoch. Die Korrelation zwischen den vorhergesagten und tatsächlichen Augen hoch Oder, anderen Worten, die in der Probe Araber ist sehr niedrig, so sieht es irgendwie wie, Sie wissen, wirklich gutes Modell aus. So ist, wie Sie wissen, lineare Regression in unserem und wieder. Diese Datei steht Ihnen als PDF als Teil des Ressourcenpakets zur Verfügung. Also gehen Sie weiter explodiert mehr, Danke. 7. Entscheidungsbäume: Hallo. In dieser Vorlesung werden wir auf Entscheidungsbäume sehr beliebt und eine sehr einfache und sehr leicht zu erklären Mission Learning Technik. So ist es sehr beliebt, weil es sehr einfach ist und es ist sehr leicht zu verstehen auf leicht zu erklären, es macht meine Arbeit ziemlich einfach in diesem speziellen Kurs. Was also in einem Entscheidungsbaum passiert, ist, dass Sie wieder I-Variablen vorhergesagt haben und Zielvariablen haben. Sie verwenden die Prädiktorvariablen toe build im Entscheidungsbaum. Eine Entscheidungsstruktur wird erstellt, in der Sie die Werte der Prädiktorvariablen je nach den Werten der Prädiktorvariablen überprüfen , Sie Entscheidungen treffen. Auf dieser Grundlage treffen Sie schrittweise Entscheidungen, bis Sie erreicht haben, und das Blatt Norden, wo Sie tatsächlich vorhersagen, klassifizieren einige Daten. Wenn Sie also die Straße bauen, beginnen Bäume normalerweise bei der Wurzelnote auf. Nach und nach gibt es einige Zweige, die immer wieder an jedem Zweig kommen. Sie stellen immer eine Frage, machen einen logischen Vergleich basierend auf dieser Entscheidungsfindung und bewegen sich weiter. Und schließlich gibt es noch die Blattknoten, die euch tatsächlich die Ärzte präsentieren. Visage Einträge sind eine beliebte Klassifikation. Es wird hauptsächlich für Klassifizierungen verwendet. Es kann für kontinuierliche Daten verwendet werden, aber es wird hauptsächlich für Klassifizierungszwecke verwendet. Also wieder wird ein Trainingstag verwendet, um einen Entscheidungsbaum zu bauen, dass Baum selbst ihr Modell ist. Im Falle von Entscheidungsbäumen, dass drei ist das Modell auf Entscheidungsbaum. Grundsätzlich prognostiziert Briggs das Ziel auf. Dann verwenden Sie dieses bestimmte Modell auf, dann prognostizieren Sie für neue Daten. Also hier ist ein Beispiel aus einem Entscheidungsbaum auf der linken Seite, Sie haben Daten. Also haben Sie drei Variablen, die Alter und B m mein Alter und B m I. R U Prädiktoren sind. Und dann ist ein variabler Aufruf diabetisch. Ob Unterdrückung diabetisch ist oder nicht, ist drei Zielvariablen. Und für diese Daten werden wir einen Entscheidungsbaum auf der rechten Seite bauen. In diesem Fall beginnen wir mit einem Alter von mehr als 41 Jahren. Das ist also die erste Frage, die wir uns stellen. Ein größer als 41 auf verschiedenen ist ja. Dann gehen wir und treffen die nächste Entscheidung. Ist beom größer als 24? Wenn es Jahre ist, dann ist der Wert von seinem Diabetiker, warum, wenn nicht Abwertung Diabetiker ist nein. In ähnlicher Weise bauen Sie einen Baum auf der linken Seite auch und Sie sehen Nein und dadurch wird der Baum tatsächlich zu einem Modell. Also nehmen Sie an, Sie bekommen einen neuen Tag Punkt, dass Sie die Vorhersage jemand gibt Ihnen einen Agenten auf meiner Kombination sein . Stellen Sie die Frage. Ist dieser Patient umzulenkt? Soll das sein? Ich sage, das Alter der Person, die an der BME studieren soll, ist 40. Also gingen wir nicht diesen Baum, um die Vorhersage zu machen. Ist der Typ 30 bis 41 Jahre alt? No coming Diese Seite ist ausgewandert als 28. Ja, also kommen Sie in Sichtweite. Und ja, diese Person würde umleiten. So ist es ziemlich einfach, durch den Baum zu gehen und die Lösung zu finden. So wird der Baum selbst zum Modell auf. Anschließend verwenden Sie das Modell, um neue Daten vorherzusagen. Die Herausforderung beim Erstellen des Baumes Ist, dass in welcher Reihenfolge verwenden Sie diese Variablen? Wie gehst du schneller der Mann? Okay, ich sollte H Jahr in der Wurzelnote verwenden. Nicht ein mein Ich könnte uns einen anderen Baum mit den gleichen Daten bauen, aber ich beginne mit vielleicht einer Frage auf einem B und meinem Größerem als etwas auf. Dann nach b Frage auf b m I kann ich eine Entscheidung über das Alter treffen, aber durch die Verwendung verschiedener Variablen auf verschiedenen Sequenzen, so dass Sie in dieser Kombination können Sie Alter Western als B M I R verwenden Sie können einfach in meinem ersten Alter sein. Sie können verschiedene Bäume auf unterschiedlich bauen. Ist kann verschiedene Ebenen haben. Es hängt von der Komplexität der Daten ab, mit denen wir es hier zu tun haben. Die Daten sind ziemlich einfach, also sind es unter zwei Ebenen. Also zu versuchen, manuell billitteri ist nicht so einfach. So gibt es eine Menge komplexer, dass sich die beteiligten zum Glück, Missions-Lernalgorithmen an diese komplexe Stadt anpassen. Sie werden intern in ihrer Bibliothek herausfinden, die, als er zuerst verwenden sollte, welche Dame sehr Bus zu Ihrer zweiten basierend auf der Selektivität aus diesen Variablen und kommen mit einem optimistischen Entscheidungsbaum heraus . Sie machen sich also keine Sorgen über die Verwendung dieser Variablen. Also geben Sie einfach in diese Algorithmen die H B m I die Prädiktorvariablen und Wasser am Tag. Bauen Sie einen Entscheidungsbaum und kommen Sie ziemlich schnell heraus. Onda. Natürlich, wenn Sie etwas vorhersagen müssen, geben Sie einfach die Prädiktorvariablen und der Vorhersagealgorithmus, der gerade durch den Baum mit dem angegebenen Wert ging und kommt mit Harrison. Also nochmals zu wiederholen, was wir gesehen haben. Die Tiefe davon wird wirklich stark von der Reihenfolge beeinflusst, in der die Proteste für Entscheidungen gewählt werden . So manchmal können die Bäume wirklich groß enden. Manchmal sind sie wieder ziemlich klein. Abhängig von der Anzahl der Prädiktorvariablen, die Sie haben, werden die Bäume größere oder kleinere Zeichen mit der Parade Tanz aus hohe Selektivität gibt Ihnen in der Regel eine große schnell selbst wieder. Die Algorithmen finden sie für Sie, es sei denn, Sie sind niemand begierig, die Theorie hinter all diesen Algorithmen zu lernen . Du musst dich nicht wirklich um diese Dinge kümmern. Machine Learning Algorithmen natürlich, sie treffen automatisch die Entscheidungen über die Reihenfolge und Präferenz. Das ist also ein ziemlich einfacher und unkomplizierter Algorithmus für maschinelles Lernen. Sie sehen die Rechnung DCD verwenden und leicht zu erklären. Was sind also die Vorteile von diesen Entscheidungsbäumen? Erstens sind sie leicht zu interpretieren und zu erklären, warum dies gewohnt ist, um zu interpretieren. Erklären. Es ist eine große Sache ist, weil das Beispiel genommen hat, dass Sie ein maschinelles Lernen verwenden. Ich werde sie bewachen, um ein Modell zu bauen, das entweder den Kredit einer Person genehmigen oder ablehnen wird . Er ist eine Bank und jemand ein Ort, wo allein du ein maschineller Lernalgorithmus bist. Sehen die verschiedenen Attribute der Person an, die einen Kredit beantragt, und dann genehmigen oder lehnen Sie allein ab. Nun fragt die Person Sie, warum wurde meine Bewerbung abgelehnt? Dann können Sie tatsächlich leicht auf den Algorithmus schauen und ihm sagen, Okay, Okay, das ist der Grund, warum Ihr Ding abgelehnt wurde, weil es leicht für Sie ist, durch den Baum zu gehen und dann zu sagen, und welche Punktentscheidungen wurden auf Basis auf welche Attribute, die ihm zuschreibt. Nehmen wir an, die Zeitalter, das Einkommen ist die Vergangenheit der Gewerbebranche, die einen Einfluss auf seine Kreditwürdigkeit und Sie können tatsächlich in den Baum gehen und erklären. Okay, so haben wir eine Entscheidung getroffen. Es ist nicht möglich, diese Art von Dingen zu tun. Bei jeder anderen Mission wird ein Missionslernen sie möglicherweise mit linearer Regression bewachen, aber nicht mit so etwas wie Let's in. Neuronale Netzwerke sind Unterstützung Vektormissionen. Es ist nicht einfach für Sie zu erklären, warum sich der Algorithmus so verhalten hat, wie er es tat. Das ist also ziemlich wichtig. Ich würde VOCs sehr gut mit fehlenden Daten. Wenn Daten das über Häftlinge fehlen, dann nicht. Es ist okay. Es kann mit Insassen umgehen, und du gehst durch das. Es war empfindlich auf lokale Variationen. Was meinst du mit Becken? Eine andere lokale Variation ist, dass, wenn verschiedene Ranger aus, das Ziel hat ein anderes Phänomen. beispielsweise an, Nehmen wirbeispielsweise an,Sie versuchen, Alter vorherzusagen und bei der Vorhersage des Alters für das Alter von 21 bis 40 die es sich eine Weise verhält, es ist 21 bis 40 hat ein anderes Verhalten als das Alter für 40 bis 60 hat ein anderes Verhalten, passt sich selbst an. Also dieses Verhalten. Es wird also einen Baum bauen, in dem weniger als 40 Jahre alt ist und dann dieses Verhalten separat behandelt und Alter größer als 40 Jahre. Und schauen Sie sich dieses Phänomen separat an. Lassen Sie uns, wenn Sie etwas wie milde Aggression betrachten, es ist keine lokale Aggression der Einheit. Sie müssen sowieso eine gerade Linie durch alle Punkte zeichnen, also gibt es lokale Variationen. Die lokalen Variationen werden nicht angepasst. Seine in diesem linearen Modell, werden Sie sehen, wenn Sie eine Linie zeichnen und versuchen, etwas vorherzusagen, es wird entweder diese seltsame 21 bis 40. Sehr ein derzeit sind die 41 bis 60. Sehr genau, kann es sowohl vorhersagen, wenn sie beide unterschiedliche Art von Signalen haben, sind sie unterschiedliche Arten von Mustern haben . Aber Entscheidungsbaum nahm sich ziemlich schnell Zehe dieser Art von lokalen Mustern an. Und es ist natürlich schnell. Es ist ein sehr ziemlich schneller und baut den Entscheidungsbaum. So ist der Modellbau ziemlich schnell. Warum, schnell wie eine wichtige Sache ist, wenn Sie in Echtzeit diese Ihre Rechnung Modelle in Echtzeit machen, aus welchem Grund auch immer, dann ist die Dies ist einer der Vorteile, die die Mängel der Entscheidungsbäume sind. Es hat eine sehr begrenzte Genauigkeit. Genauigkeit ist nicht so groß mit Entscheidungsbäumen durch als Rechnungen sehr schnell von uns in Richtung variabler ist etwas Wert, wir haben bereits gesehen, welche Vorurteile in der Überresektion, So baut sich Bias ziemlich schnell auf nicht gut mit einem großen Anzahl der Prädiktoren. Wenn wir 40 oder 50 Prädiktorvariablen haben. Nachrichteneinträge funktionieren nicht so gut, weil es schwierig für sie wird herauszufinden, welche in der Lage waren, zuerst zu verwenden und welche in der Lage waren, zweite und solche Dinge zu verwenden ,die , typischerweise in Dingen wie Kreditgenehmigungen in Situationen, in denen es rechtliche Bedürfnisse, Entscheidungen zu erklären, so soll auseinander einige Partisanen Kreditantrag abzulehnen, geht diese Person und legt eine Klage, die sagt, dass OK, Ich wurde für nicht so gut abgelehnt. Kürzlich war ich von der Sucht war von uns gegenüber etwas. Dann können Sie Entscheidungsbäume verwenden, die sie schützen, um zu erklären, warum diese bestimmte Personen Anwendung abgelehnt wurde. So tut er es Vorteil nur in diesen rechtlichen Situationen und es wird für vorläufige Kategorisierungen viel von Zehnen verwendet . Es ist empfindlich auf lokale Variationen. Was es tun kann, ist zuerst diese lokale sehr zu verwenden, um Ihre Daten in zwei Sätze von drei Sätzen zu trennen . So wird es für eine Art Vorentscheidung verwendet, die unsere vorläufige Kategorisierung trifft. So teilen Sie die Daten mit einer Entscheidungsstruktur auf. Dann kannst du auf jedem der Spaltung gehen und, äh, ein anderes Missionslernen spielen, das sie so verrutscht bewacht. Man kann Algorithmus teilen. Do kann schlecht bewacht sie verwenden Be so können Sie tatsächlich mischen und beherrschen Algorithmen, wie Sie wollen. Und Entscheidungsbäume sind normalerweise irgendwo ein Freund in der Kette. Zuerst setzen Sie die Daten mithilfe von Entscheidungsstrukturen ein. Für jede der Split können Sie auf verschiedene Algorithmen anwenden und verschiedene Vorhersagen erstellen. Das sind also die Vorteile, Mängel und Verwendungen von Entscheidungsbäumen. Danke. 8. R Use Case : Entscheidungsbäume: Hallo. In diesem Vortrag werden wir uns einen Anwendungsfall ansehen und sind für Entscheidungsbäume auf. Wir werden für diesen einen Blumenstern-Blumen-Typen vorhersagen. Also die Eingabedaten sagten, dass Sie hier ist der weltberühmte irische Datensatz der Gebietsstatus , der 150 Proben enthält. Verschiedene Arten von großen dort. Drei Bänder unten da unten. Sentosa waren weltlich und Virginia auf für jede Probe. Sie wissen über die bessere Landschlacht mit CEPAL int und geschmeidiger Witz. Okay, also haben Sie 44 Ich führe Attribute sind vier Prädiktoren auf. Dann versuchen Sie, die Art des Mehls basierend auf diesen vier Prädiktoren vorherzusagen. In diesem Beispiel werden wir Entscheidungsbäume verwenden. Der Zusatz B hat eine Reihe von Algorithmusimplementierungen. In diesem Fall werden wir den Seepunkt für den 5.0-Algorithmus verwenden. Haben Sie die Trainings- und Testspaltung gemacht? Und wie nutzen Sie die Trainingsdaten? Sagte toe Build-Modell und die Testdaten, die das Modell testen. Wir werden auch auf Verwirrung schauen. Meine Tricks, wie man es benutzt. Die Daten dafür sind der Iris-Standard, sagte Irish Data. Das kommt als Teil von der sind aus der sind unsere Daten unsere Daten, die Sie haben. Also haben wir gerade in Schleppdatenrahmen namens Irisdaten geladen und dann lassen Sie uns beginnen, die Ideendaten zu inspizieren . Keine strukturellen Virusdaten. Sie sind ziemlich ähnlich in ihrer Zahl und Zahl Rangers aussehen. Die Art ist ein Faktor von drei Ebenen, mit Fotos über säkulare und Virginia. Wenn Sie jemanden oder Kämpfer betrachten, Daten die SEPA-Länge, Sie sehen die Reichweite einfach mit Talent und trennte gearbeitet. Dann endlich die Reden. Es gibt also 15. Es gibt gleiche Aufteilung zwischen Siedlern aus bestimmten, und Virginia in den Daten sagte, dass Sie wieder. Lassen Sie uns einen Kopf aus auf diesem Datum sind jetzt, das wird Ihnen wie und ein heute, das sieht aus wie ein ziemlich einfaches Zeug. Alles sieht in Ordnung aus, die bekannt sind. Sieht so aus, als gäbe es keine Spieler, die so aussieht, als gäbe es keine fehlenden Daten. Es gibt Datensätze scheint wirklich sauber zu sein. Es ist eine hohe Qualität, die kein Anderson da zu sein scheint. Sobald wir dodos. Lassen Sie uns beginnen, einige erkunden einen Vertrag, Talentless ist, weil wir gesagt haben, dass wir uns vier verschiedene Variablen ansehen werden. Spread war sehr hier. Das erste, was ich tun werde, ist, dass ich nur eine Frage aufwerfen werde, die Sie haben könnten. Welchen Weg von Grundstück Sie tun. Sie tun, wenn Sie alles tun können, was Sie wollen. Du meinst, du hast deine eigenen Annahmen und Dinge, die du hast. Sie können Ihre Annahme bestätigen und sagen, Okay, ich denke, das wird diese Erhöhung und so etwas erhöhen. Machst du deine Annahmen und fängst an, die Dinge zu verwischen? Eso In diesem Fall, das erste Blut, das ich tue dies besser gegen Blütenblatt mit und ich werde die Punkte nach der Art der Art der Art zu färben . Jetzt, mit besser verlängern priddle Bit gegeneinander und der Streifen der Art Farbe wollen Sie sofort bemerkt, wie die Trennung zwischen diesen drei Klassen geschieht. Kampf mit und vorherrschenden scheinen Zehe wirklich trennen die Klassen aus, was bedeutet, dass, wenn Sie nur wissen, okay, Pedal tritt. Sagen wir in diesem Fall zum Beispiel, zum Beispiel, wenn ich eine neue Blume habe und ich sage, dass sie uns vorherrschen. Lassen Sie uns zu Es kann nichts anderes als Sentosa sein, weil das Pedal und scheinen wirklich die drei Arten von Blumen zu unterscheiden und schien einfach passiert mit Aber die zerrissenen auch Santosa besonders wirklich Unterschied Virginia war krank. Die Farbe wird getestet. Weiter oben gibt es ein wenig überlagert, dass Sie hier sehen, aber so ziemlich durch das Londoner Pedal mit gut aussehen. Lassen Sie uns versuchen, das Gleiche zwischen CEPAL Säuglinge ein wenig auf, was Sie sehen, ist wieder ein kleines Problem hier, weil das, was Sie hier sehen, Santoso scheinen sich in einen Cluster getrennt haben , wenn Sie CEPAL und war eine einfache, aber versi Farbe und Virginia sind alle so geschmeidig vermischt, Mischung und geschmeidig Das schien nicht gute Indikatoren, durch die Sie diese drei Arten von Blumen trennen können , um mehr zu erkunden. Lassen Sie uns diese Box Handlung machen. Du wirst jede Variable, die du hast, mit einem Box-Plot machen. Das ist wie, wissen Sie, Brute-Force-Mutterteig nehmen jede Prädiktorvariable an der Türbox, Block nach Spezies. Also für jeden Prechter, sehr, aber schauen Sie, wie der Bereich von diesem Wert ist die Art der Art gegeben. Also gehen wir zu Pedal und Peddel Gewicht Kepal und dann trennen wir weiter. Wir werden hier mit vier verschiedenen Blöcken enden. Was Sie sehen, ist Paddellänge, wenn Sie Petulanz Sentosa farcical betrachten. In Algerien sind die Rangers wirklich unverwechselbar, nicht einmal wie Überlappung hier. Das ist also in diesem Bereich. Das ist nicht dieser Bereich. Und das ist auf der Straße. Was es Ihnen sagt, ist dort deutlich ausgeprägt? Ein anderes Wort Pedal und scheinen ein sehr guter Prädiktor durch nur zu wissen, dass Land Pedal Ende einer Blume, können Sie sofort sagen, ich denke, dies ist Settles sind ich denke, dies ist insbesondere die gleiche Sache. Irgendwie ein Ort, um Victor zu treiben. Außerdem sind sie irgendwie anders, aber ziemlich schnell gegeneinander. Kommen Sie nach unten, um zu trennen geliehen ziemlich ähnliche Pläne, außer dass vielleicht die Boxen sind wenig mehr Tick. Und das ist eine Menge, eine Menge, ein wenig mehr oder Läppen, die zwischen den Rangers geschieht. Nicht so, als hätte er das wirklich, wirklich wissen. Aber dieser Kerl überlappt Gilbert geschmeidig, was schlecht zu sein scheint, wissen Sie, es gibt überall Überlappungen, also nur durch das Wissen geschmeidig, aber ich glaube nicht, dass ich vorhersagen, alles über diese Blumenpackungen. Als Nächstes. Lassen Sie uns weiter mit Korrelationen und Korrelationen gehen kann tatsächlich unsere wiederholen, was Sie gerade gesehen und ausgebeutet Analysten. Lassen Sie uns also gehen und schauen Sie sich die gleichen vergangenen Startfelder an. Aber diese vier sahen hier die Ära Spezies. Künstlerkorrelationen mit allen vier. Sie sehen, dass bessere Land und Blütenblatt mit 40,95 und 0,9 63 wiederholt, was wir gerade gesehen haben. Dass dieser Wert wirklich trennt die drei Arten von Reden, was bedeutet, dass es eine hohe Korrelation zwischen der Art der Art und diesen Werten. Sie sehen also, dass 0,9 0,90 feuern. Hervorragende Korrelation zwischen diesen beiden Werten, die auch eine ausgezeichnete Korrelation zwischen besseren Land und Metal Gitarren ist . A 20.96 Das ist freundlich interessant. Sie könnten Straße oder eine oder Sie könnten nicht die Juden wählen. In diesem Fall werden wir keine variable Richtung tun, die wir können, wenn wir wollen. Zwischen Arten und CEPAL, Kreditgeber zeigen jemanden. Es Art off Medium, wissen Sie, Ebenen Ergänzungen scheinen anders noch zu geben, aber nicht auf der Ebene der fruchtbaren Land und Priddle Bit. Und schließlich, CEPAL. Mit diesem Minus für drei sahen wir, dass mit überall gekoppelt, so dass es nicht diese höhere Bedingung hat. Also, was Sie in den Daten gegen die Explosionsanalyse zu sehen, so diese Korrelation, können Sie sofort sehen, dass dieser Korrelations-Trainer in einer Zahl sofort sagen kann ob dieser Prädiktor ein guter Prädiktor ist nicht ein guter Prädiktor. Ziemlich einfach und unkompliziert für Sie sofort zu sagen, indem Sie nur auf diese eine Nummer schauen . Deshalb ist Carnation co Vision sehr gut verwendet. In der Tat, indem Sie nur den Korrelationskoeffizienten betrachten, können Sie sofort sagen OK, wir bauen einen Entscheidungsbaum. Der Entscheidungsbaum-Algorithmus muss entscheiden, was die Kopfnote sein wird. Was ist die sehr vorherzusagen Elfenbein. Aber es wird mit Stop-Entscheidungs-Box und es wird entweder Blütenblatt interpretiert werden weil das ist, was Ihnen wirklich hohe Vorhersage gibt, Buddy-Modellierung und Vorhersage, die wir wieder mit dem R-Paket teilen zwischen dem klaren zwischen dem Trainings- und Testdatensatz. , Also was machst du,was benutzt du dieses Kunst-Paket? Es gibt eine Bibliothek namens Carrot. Die Karte ist eine Bibliothek, die Ihren großen Funktionen des maschinellen Lernens seine internen Funktionen gibt . Rate des Missionslernens. Eine weitere Funktion, die es tut, ist es Ihnen die Möglichkeit gibt, einen Datensatz zu nehmen und sie zufällig in Training zu teilen , und der Testdatensatz darauf kann in der Art und Weise spucken, die angenommen wird, dass Sie versuchen, eine Klassenvariable vorherzusagen . Okay, in diesem Fall versuchen Sie, die Spezies von der jeweiligen Blume in der Klasse vorherzusagen. Variable hat Daten. Nehmen wir an, es gibt vier verschiedene Klassen. Vier verschiedene Klassen ereigneten sich in einem bestimmten Verhältnis zueinander in diesem Geschenk. Reden, wie drei Klassen sagten, überwacht Farbe und Virginia auf ihre fast im gleichen Verhältnis wie Einssein, um uns zu einem in der ursprünglichen Datensatz wollen . Wenn es versucht, die Daten zu sprinten, wird es sicherstellen, dass das Training und die Testdaten jeweils einzeln, immer noch die gleiche Art von Verhältnis haben. Es wird so gespalten, dass sowohl die Ausbildung sagte auf den Tests, die weiterhin das gleiche Verhältnis für diese besondere nach oben haben. Die Zielvariable. Also, was wollte Wie Sie es verwenden, ist, dass Sie von uns schreiben, rufen Sie diese Funktion namens Datenpartition erstellen und dass Sie es übergeben. Ich möchte eine Partition basierend auf dieser erstellen. Also sag es, das ist das Ziel, das ich benutzen werde. Es wird also dieses Ziel inspizieren und es dann im Verhältnis davon verteilen. So sehen Sie die Eigenschaften 10.7. Was bedeutet, dass Sie sagen, dass d spielen eine Suche würde 70% Rabatt auf die Daten haben. Also flippe ich aus und mache eine 72 Dreißigerjahre hübschere bei Lester. Rufen Sie an? Die vierte Minute wird mir einen Vektor zurückgeben. Also wird es es auf mich setzen. Diese Party. Froh, dass Victor auf. Was dieser Regisseur enthält, ist, dass die Zeilenideen die falschen Zahlen von der Rose sind die im Training sein sollten. Ist er tatsächlich gegangen und inspiziert? Was ein entrained ist, wird keine Zahlen enthalten. 1356 Es ist im Grunde gesagt, diese anderen diejenigen, die in den Trainingsdatensatz gehen sollten und welche Electra in diesem fehlt, sollte in tiefe Testdaten gehen. Dann verwenden Sie diesen, um das Training und das Testen zu teilen. Also erstelle ich diese neue Landgerichtsausbildung, indem ich diese Iris-Daten nur für die Straßen, die in der Einfahrt sind, ersetze . Dann kenne ich die Tests, indem ich dasselbe mache, wie Iris-Daten. Aber hier habe ich kleinere Zentrierung genannt, was jede Straße ist, die nicht in diesem speziellen Zug Vector wird in die Prüfung gehen . Jetzt. Ich spaltete mich in Spine sieben, das ist 70% so 70% der Hunderte der Roses 105. Also lassen Sie uns einen Diamanten glänzen in allen Trainings und Tests, Sie sehen, dass das Training 105 Rollen und Schicksale für die Videos hat. Außerdem, lassen Sie uns sehen, wie die Spezies mit nur meiner Zielvariable, weil ich diese Platte basierend auf dieser Zielvariable gemacht. Wie wurde diese Variablen zwischen Training und Test verteilt, sagte Gator. Sie werden sehen, dass es 35 35 35 wieder 111 Druck für den Zug hat behauptet, es war 15 15 15 wieder 1111 ist uns zu einem Verhältnis auf die Prüfung wollen, Daten sagten, es gibt eine Magie. Die dreijährige Datenpartition ist für Sie geeignet. Es macht die Dinge zufällig zur gleichen, während, um sicherzustellen, dass der Geist sicherstellen, dass das Verhältnis bleibt immer noch erhalten. Äh, so wissen Sie, indem Sie Testdaten einschalten. Jetzt, sobald Sie die Trainingsdaten haben, werden wir das Modell auf den Trainingsdaten aufbauen. Dann das Testen des Modells prognostizieren die Testvorbereitung Bewertung basierend auf dem getesteten. Also lassen Sie uns sehen, wie das funktioniert zuerst, ich begann mit der Bibliothek von C 50. Okay, das ist der Bibliothekar wird Ihr Gehirn-Talent mit Installationspaketen verwenden und dann den Raum geladen. Dann ist dies die Funktion, die ich C 5.2 genannt habe, die ich alle meine Prognose-Steckplätze oder Training weitergeben werde. Minus phi ist alle Spalten mit Ausnahme der Zielvariablen. Und dann ist Ihr Pass Metervariabel. Ich übergebe nur die Trainingsdaten sicher hier und baue das Modell. Sobald ich ein Modell gebaut habe, lassen Sie mich versuchen, eine Zusammenfassung des Modells zu machen, um herauszufinden, was da ist. Was ist das in diesem Modell? Also siehst du dir dieses Modell an, okay? Beginnen Sie mit dem Anruf. Gut gemacht, das ist eine Berufung gemacht. Und dann heißt es die richtigen 850 Fälle da drin und baute einen Baum darauf. Dann hier gibt es mir die tatsächlichen drei, die es so auf der obersten Ebene zeigt. Hier, das ist die oberste Ebene. Dies ist die zweite Ebene. Dies ist die dritte Ebene, die oberste Ebene der Reduzierung Patel Dot Land. Und es sagt ziemlich viel. Land führt oder nicht, er nannte die 1.9 es sagt, es ist alles geklärt. So hat es eine Entscheidung getroffen, die selbst. So treten die drei Haltestellen dort in weniger als einem Punkt in Sentosa. Dann nimmt er die andere Marke, die gepeitscht ist und größer als eine zeigt und in der man ein Sub entscheidet. Auch dann dauert es unter Zusatz, das ist auf ein wenig. So Pedal mit mehr als 1.7, heißt es, ist Virginia, aber Pedal mit weniger als gleich 1.7. Es wird eine andere Ebene brennen, eine andere Ebene wieder, mit Muster, nicht Land. Es trifft eine Entscheidung weniger als oder gleich fünf Land, in diesem Fall ist es Virginia Pedal und größer als 5.3. Tut mir leid, dass der andere, was die Farbe in diesem ist, Virginia ist. Das sind also die Redbirds. Es nimmt eine Notiz und nehmen Sie die Entscheidungen weniger als genial Wert größer als einige Wert. Dann zweigt es auf der Ja Seite und der neuen Seite, und dann wächst es den Baum weiter. Und das ist der Leckerbissen, der tatsächlich auf jede Nacktheit verwendet wird. Wenn Sie neue Daten über Sie haben, positionieren Sie die Werte aus Pedal und Peddel mit einfach mit Lyndon Supple Mit diesem sind die drei sind Dies ist die Bedingung, die ein auf den neuen Daten gespielt wird, um herauszufinden ob welche Art von Florida wird sein, und dann gibt es Ihnen, was der In-Sample-Fehler genannt wird, heißt, Sie haben den gleichen Nachrichteneintrag auf die Trainingsdaten selbst gespielt, und es hat eine Angelegenheit von 1,7%. Und das ist die Verwirrungsmatrix für die Trainingsdaten schlagen vor, dass Sie in den Spalten die tatsächlichen Werte aus den Klassen von Arten in den Zeilen geben , sind die Vorhersagen darüber wie viel die Vorhersagen und die tatsächliche Übereinstimmung sind, was miteinander. Also die Bagnall Sie hier sehen sind alle richtigen Übereinstimmungen, weil es Sentosa vesikulären Virginia auf den Säulen und sagte, Oh so Fahrrad bei Virginia in der Rose, die Spitze auf den Spalten sind im Grunde die tatsächlichen stieg oder die Vorhersagen. Der Dagnall wird die tatsächlichen Vorhersagen auf diesem einen und dem einen oder anderen sein, also hat es ziemlich genau vorhergesagt. Mit anderen Worten, es hat zwei Fehler aus 105, das ist ein Fehler, ein Prozentsatz von einem Punkt 9%. Und dann sagt es Attribute Verwendung, die geschieden sind, um zu reduzieren. So verwendet es die Spucke Atlanta überprüft für 100% der Rollen es verwenden Pedal aus, dass überprüft für 66% von denen. Es sieht so aus, als hätte er den separaten Lenton geschmeidig mit einem Gedanken nicht benutzt. So sieht Ihr Modell aus. Das ist also das Modell, das verwirrt wurde. Woher wissen Sie, dass Sie dieses Modell noch einmal testen? Verwenden Sie das Bibliothekszeichen auf Sie. Rufen Sie diese Funktion namens Vorhersagen auf und übergeben Sie es Das Modell. Das eigentliche Modell, das Sie verwenden müssen, um auf die Daten, die schuldig verwendet werden, um jedes neue Datum vorherzusagen, verabscheut , werde ich wieder von der gleichen Sache fallen. Unterstützen Sie erhalten eine neue Daten auf diese neuen Daten, hat nur vier Spalten und hat nicht die Reden Farbe. Sie erstellen einfach einen Datenrahmen aus ihm und übergeben ihn so genau wie folgt, wie Sie die Testdaten übergeben. Also nennen Sie diese Vorhersage wichtig mit Modicum testen. Es wird mit diesem Vektor für weit kommen, wo für jeden, wissen Sie, im Testdatenfreund, es wird einen vorhergesagten Wert haben. Also schauen Sie sich die Tabelle des vorausschauenden Wertes an und dann sehen Sie, dass es 15 Saitos US 17 Barmherzigkeit Farben und 13 Virginias gibt. So sieht der Tisch aus. Also das ist, was dieser Prädiktor Jetzt gehen Sie weiter, gehen Sie Ihre Verwirrungsmatrix auf die ganze Sache namens Es gibt wieder eine Funktion in Karotte namens Verwirrungsmatrix, wo Sie es den vorhergesagten Wert auf den tatsächlichen Körper übergeben. Eigentlich, der Test-Dollar misstrauisch. Wissen Sie, der Wert Ist-Werte. Also übergeben Sie es, der Wert aus prognostizierte ein aktuelles Ergebnis, und das wird mit dieser Forschung kommen Also das ist die Verwirrungsmatrix, und es kommt auch auf, aber eine Menge Statistiken. So wissen Sie, die Verwirrungsmatrix die Verweise auf die Spaltenreferenzen. Die tatsächlichen Werte sind unterschiedlich. Sentosa besonders Virginia. Die Vorhersage ist in der Rose wieder, sagte eine bestimmte in Virginia. Alles im Bagnall sind also die richtigen Vorhersagen. Sie können sehen, Sentosa setzt AR 15. Was ist dein farbiger Vertikal? 15. Virginia, Virginia 15. Und die Geschichten scheinen der einzige Fehler zu sein, der ihre so zwei Orte, wo die tatsächlichen Werte Virginia, es hat insbesondere vorhergesagt. Das ist der Bereich auf. Dann sind Sie die Gesamtstatistik. Die Hauptsache, dass Sie eine Flasche wollen, grenzt Theokratie an diese Vorhersage. So Genauigkeit ist 95% 950.956 oder 95%, was wirklich höhere Währung von diesem Algorithmus ist, der diese Vorhersage tut . Und es gibt andere Dinge wie es gibt einige statistische Dinge wie Vertrauen in 95% Vertrauen in Schwierigkeiten und P-Werte. Wir haben sie nicht gelernt. Wir wollen nicht auf diesen Punkt eingehen. Onda schließlich Dinge wie Sensibilität und Spezifität. Auch haben wir gesehen. Das sind also die Werte für sie. Also im Allgemeinen, so funktioniert Ihre Klassifikationen. Sie bauen Ihre Ausbildung auf, dass sie Daten 1.000.000.000-Modell auf den Trainingsdaten testen und prognostizieren auf dem Kolben. Nun, wir wollten nur niemand mehr Ebene eines Experiments. Wir sahen, dass bessere Land und Pedal würde eine hohe Korrelation auf. Wir haben gesehen, dass das Modell sie nur für die Entscheidung verwendet. Habe CEPAL int nicht auf separatem Witz verwendet, der nicht so hohe Korrelation hatte. Sagen wir, wenn die einzige Daten über CEPAL Fastenzeit geschmeidig mit nicht spröde und dann treten sie wie würde die Haltearbeit Oculus halten? Er wäre die Vorhersage. Lassen Sie uns hier ein Experiment versuchen. Aber ich werde nur mit CEPAL und geschmeidigen Witz und Arten und nur eine Panade Aufträge unter der Teilmenge der Daten auf wir wissen, dass CEPAL endon geschmeidig mit haben nicht diese hohe Korrelation Auf dann, auf diese, ich Ich werde tun Ausbildung, Testen, Modellbau und schließlich eindeutig. So wiederholen Sie die gleichen Schritte aufgeteilt wie Trainings- und Testdaten. Erstellen Sie dann ein Modell. Mal sehen, wie diese moderne sieht so aus, dass es nur eine separate verleihen ihnen geschmeidig. Was ist Adresse zu gehen mit diesen beiden Werten und Sie sehen einen Baum hier Zeppelin groß, weniger als 5,5 rot als 5,5 und wie dieser ganze Baum aussieht auf Schulden. Beispiel. Verhaftung 24.8. Nicht wirklich sehr hoher Fehler, weil wir wissen, dass die Korrelationen nicht so viel sind. Offensichtlich willst du so etwas rauskommen. Jetzt trainieren und testen Sie nicht und sehen Ihre Verwirrungsmatrix. Sie sehen, die Genauigkeit beträgt 0,6 oder 60% jährlich. Es wa swatted 3 95 Person, aber eine separate Landon Simple, aber nur bei 60 Person. Dies geht wieder, um die Tatsache zu zeigen, dass die Korrelationskoeffizienten Werte Ihnen sagen, wie würde eine Prädiktorvariable Liste nach dem Ziel? Und das sehen wir für einige wirklich hohe Prädiktorvariablen. Wir haben 95% für etwas, das moderate bis schwache Prädiktoren ist. Wir haben nur 60%. Das ist, Sie können sie vergleichen. Sie können einige Prüfungen durchführen und herausfinden, wie die, wie gut oder schlecht der Geist. Sehr Bolsa. Das ist also eine Entscheidungsbäume für Sie. Wie Sie sehen, der Entscheidungsbaum nicht tun, muss nicht alle verfügbaren Variablen zu verwenden, um vorherzusagen, es muss nur als Geld zu verwenden, um herauszufinden, welche, die verwendet werden sollte. Das ist also eine weitere einzigartige Sache über Entscheidungsbäume. Das ist alles, was wir für Entscheidungsbäume haben. Bitte. Gehen Sie, gehen Sie aus und versuchen Sie es noch einmal als pdf verfügbar. Die Datendatei steht Ihnen im Ressourcenpaket zur Verfügung. Also bitte gehen Sie aus und versuchen Sie Ihre Experimente mit den Daten und sehen, welche Art von Dingen Sie bekommen können . 9. Naive Bayes Klassifikator: Alles klar. In diesem Vortrag werden wir über die Kirchenschiffbasis sprechen, einen Missions-Lernalgorithmus. Benennen Sie Wege, maschinelles Lernen. Alle Garten basiert auf dem Basissatz in der Wahrscheinlichkeit basiert, und Statistiken über Basissatz ist ein Thema an sich. Es gibt, wie Bücher wurden auf der Grundlage hier allein auf Bewährungstheorie getan, kann auf eine Menge von realen Situationen angewendet werden . Also, aber für diese spezielle Klasse versuche ich, wirklich, wirklich zu , vereinfachen, basierend auf ihnen, um nur das zu bekommen, wie das unbewachte sie funktionieren soll . Also beginnen wir mit einer gewissen Wahrscheinlichkeit. So werfen wir, beginnen mit etwas namens Wahrscheinlichkeit, oft sogar ein auf jedem vant vorkommenden. Wir nennen es Wahrscheinlichkeit von AP oder Glauben, und das ist in der Regel zwischen Null r will es oder derjenige, wenn es sagt, Sie wissen, die eine ist Dies ist, Sie wissen, die eine der in der Regel zwischen 0 200%. Also lassen Sie uns mit so etwas wie wir die Fußball-Weltmeisterschaft Onda beginnen. Wir haben Argentinien und Deutschland spielen, und dann können Sie sagen, Was ist die Wahrscheinlichkeit, dass Argentinien die Weltmeisterschaft gewinnt, so dass auch ein wir sprechen ist die Wahrscheinlichkeit, dass Argentinien die Weltmeisterschaft gewinnt und dass es etwas sein kann Punkt für unsere 40% Chance auf Angelina. Der Gewinn der Weltmeisterschaft, zum Beispiel, kommt jetzt hier in der Basis hier, und wir sprechen über das, was als bedingte Wahrscheinlichkeit bezeichnet wird. Also, was ist bedingte Wahrscheinlichkeit ist, dass Sie über den Versuch sprechen, vorherzusagen und sogar eine gegebene, die gegeben werden, wie bereits aufgetreten. Also anstatt nur vorherzusagen, selbst sie alle eine Bucht selbst. Sie haben einige Vorkenntnisse von bestimmten anderen Dingen, die passiert sind. Angesichts der Tatsache, dass diese Dinge geschehen sind, wie ändert das die Wahrscheinlichkeit von diesem Tag? Also wieder, zurück nach Argentinien zu gehen die Weltmeisterschaft zu verbrennen? Die Wahrscheinlichkeit, dass Londrina die WM gewinnt, ist, sagen wir, 40% sind Punkt für. Aber nehmen Sie an, Sie wissen, dass Messi nicht im Spiel spielen wird. So haben Sie, was man als Vorgänger-, auch das ist bereits passiert. Lassen Sie uns Bild Missy wurde verletzt und er spielt nicht in der WM. Was ist die Wahrscheinlichkeit, dass Argentinier die Weltmeisterschaft passiert? Angesichts der Tatsache, dass Messi jetzt nicht spielt, wird das eine andere Wahrscheinlichkeit sein. Vielleicht 0,1. Unser Punkt auf nur 10 sind 20 Personen. Also, das ist Bucht. Was hier basiert, ähm, ist, dass alle ein Boot sind. Es versucht, eine wahrscheinlich ausgeschaltet auf Ereignis vorauszusagen, da bestimmte Ereignisse aus plötzlichen früheren Ereignissen bereits aufgetreten sind. Also ist dies die Formel für basierend um die wahrscheinlich off air gegeben werden. Also, was ist ein Gegebenes? Das bedeutet, dass die Wahrscheinlichkeit oft sogar ein auftretendes, dass B s bereits aufgetreten ist Die Wahrscheinlichkeit der Gartenarbeit ein Gewinn gegeben, dass Messi verletzt wird. Ein Mensch ist also schon geschehen. Und Sie wissen, dass wir vorgekommen sind. Und basierend auf, dass Sie versuchen, eine vorherzusagen Also was passiert, ist, wenn Sie versuchen, etwas vorherzusagen , Sie beginnen mit einem gewissen Prozentsatz und dann fragen Sie, Sie wissen schon, mehr und mehr Informationen über das etwas um dass sogar etwas bereits passiert ist. Etwas ist bereits passiert, dass sich die wahrscheinlich ändert, dass aus diesem Finale. Trotzdem, nehme ich mal wieder an. Wenn Argentinien und auf da Deutschland spielen das WM-Finale, Sie beginnen mit der Vorhersage, dass in Ordnung Argentinien Vince, die wahrscheinlich in der Eröffnung argumentiert haben 40%. Und dann während der meine bestimmten Dinge passieren, dann sagen die Leute das nicht immer, wenn während eines Matchs das Militär sagt. Okay, das erste Team, das erste Team, das ein Tor erzielte. Der Bigley hat ein Problem. Wir waren in dem Spiel, das 70% ist. Das ist eigentlich bedingte Wahrscheinlichkeit. Das Problem. Sie beginnen mit der Wahrscheinlichkeit, dass beide Teams eine gleiche Chance auf eine intime haben, die 50 50 ist. Aber sie sagen auch, wenn jemand das erste Tor genannt wird, dann sind sie wahrscheinlich weg. Der Gewinn steigt um X Prozent Rabatt. Jemand nennt die 1. 2 Tore. Die wahrscheinlich Veränderungen wie diese. Wenn jemand zur Halbzeit führt, ändert sich das wahrscheinlich so. All dies wird also bedingte Wahrscheinlichkeiten genannt. Sie versuchen, die Wahrscheinlichkeit einer Zukunft vorherzusagen, auch wenn ihr etwas anderes bereits eingetreten ist. Hier ist ein Beispiel, dass sie annehmen, dass es 100 Patienten gibt, die wahrscheinlich einen Patienten mit Diabetes im Allgemeinen haben. Die Gesamtwahrscheinlichkeit zeigt jetzt das Problem. Wir haben einen Patienten, der an Diabetes gestorben ist. Angesichts der Tatsache, dass das Alter des Patienten größer als 50 ist, was wir die vorherige nennen, auch bei einem Problem bei der vorherigen sogar passiert. Und das ist Punkt für. Sie also WennSie alsomehr über den Patienten wissen, die Wahrscheinlichkeit, dass dieser Patient Diabetes hat, nicht Diabetes. Ändern Sie sich weiter. Dies ist also nicht nur ein Tag, an dem Sie beginnen können, viele private Veranstaltungen zu haben, nicht nur eine. So ist das Alter eines Patienten größer als 50. Weißt du was? OK, das ändert die Wahrscheinlichkeit. Was davon Die Patienten ist größer als 50 auf Debatte ist größer als die keine £150 auf. Was ist, wenn Sie 1/3 Bedingung hatten, dass die Person eine Mahlzeit ist? Sie also immer einige vorherige Informationen über den Patienten kennen oder wie wir mich im Vorfeld nennen , ändert sich auch das. Die Wahrscheinlichkeit ist das Ergebnis, auf das Sie ausgebildet sind, vorherzusagen. Das ist es, worum es bei der gerade abseits der Basis geht. Ich bin nur, weißt du, wirklich, wirklich, wirklich vereinfacht, die ganze Welt basiert auf nur einer Folie. Nun, nächste Schritt auf der Zehenbasis Navy. Was heißt Bias-Klassifizierungen? Beim Missionserlernen geht es darum. Ist die Anwendung von der Basis tedium Mission Lernen so Nachbarn klassifiziert die Anwendung von der Basis. Es dauerte Mission lernen, einige Klassifikationen Prognosen zu machen. Die Zielvariable, die Sie in den Klassifizierungen vorhersagen möchten, wird zum geraden A alle vorhergesagten, in denen Sie versuchen, zu verwenden. Die Vorhersage wird die sogar sein wollen, eins zu sein. Also, worin wir sein wollen. Das ist also eine Ansichtskarte, Ihre Prädiktoren und Ziele zu den Nachbarn Klassifizierungen. Das Ziel wird sogar sagen, dass es Sie versuchen, auf alle Prädiktoren vorherzusagen wird vor. Trotzdem sind die Werte die Prädiktoren tatsächlich wie die vorherigen Gleichungen auf. Sie versuchen, vorauszusagen wahrscheinlich aus sogar eine wiederkehrende gegeben, dass sein. Wollen genug bereits aufgetreten sein. So haben Sie AH Kunden kommen in Ihrem Geschäft und Sie versuchen vorherzusagen, ob der Kunde wird, um Ihre Sachen zu kaufen, werden Sie wollen sein und nicht im Grunde das vorherige Problem. Das wissen Sie, schon niemand Kunde mag die Kunden ein Einkommen des Kunden, die Vorlieben des Kunden und solche Sachen. Also, zum Beispiel, wenn wir uns den Stall ansehen, den wir im früheren Beispiel geschaffen haben, wobei jeder mein und Diabetiker ist. Die Art und Weise, wie Sie geblieben sind, sind wahrscheinlich, dass Diabetiker gleich Dubai ist. Angesichts der Tatsache, dass die Alter 24 erstaunt 22 auf die wahrscheinlich, dass für die zweite Blockflöte wieder gleich. Dubai, da das Alter 41 BMX 36. Eine Sache, die Sie in eine basierte Klassifizierung tun, ist eine Menge im Gegensatz zu anderen Gärten, die nur kommen und sagen, OK, diese besondere Blockflöte eine RB oder verworfen Kleriker Aufträge ja oder nein. Es gibt Ihnen einfach die wahrscheinlich, dass etwas ein Ja ist und so wahrscheinlich da etwas. Es ist ein Nein. So gibt es Ihnen einen Wert von über. Es versucht tatsächlich, die Wahrscheinlichkeit vorherzusagen, wo jedes der möglichen Ergebnisse für die Zielvariablen die Zielvariable ist rein Verhaftungen sind nein vorherzusagen, es führt Sie. Was ist das Problem damit? Ja, tritt auf. Und was ist die Wahrscheinlichkeit, dass keine Arbeiter, wenn die Zielvariable etwas wie hohes Medium niedrig ist , es gibt Ihnen die wahrscheinlich für jeden von ihnen auf. Dann gehen Sie im Grunde auf die Auswahl, die bereits eine mit der höchsten Wahrscheinlichkeit ist, was ich für meine Vorhersage verwenden werde. Also, wie funktioniert Nachbarn alle Garten Buch es im Grunde Rechnungen tut Art aus einem Tisch. Diese Art aus einer Wahrscheinlichkeitstabelle, indem ich alle Daten durchgelesen habe, wie ich eine wahrscheinlich Tabelle wie diese erstellt hatte . Lassen Sie mich versuchen, diese Tabelle zu erklären. So ist diese Tabelle auf drei Spalten gebaut wurden versuchen, das Gehalt einer Person vorherzusagen. Dieses Gehalt ist die Zielvariable am Samstag ist zwischen Lektion für P und größer als Sie . Nur versuchen, vorherzusagen, ist diese Person Lohn Lektion von PK ein größer als von Zerfall auf der Vorhersage, nachdem Sie gehen, um unser Alter und Geschlecht zu verwenden. nun die Daten ansehen, die Sie sich den Trainingsdatensatz ansehen, erstellen Sie diese Tabelle in der Geraden. Wenn Sie diesen Tisch bauen, wie bauen Sie einen Stall? Sie beginnen zunächst, die Gesamtwahrscheinlichkeiten innerhalb des Trainingsdatensatzes herauszufinden. Also fängst du mit hier an. Die Ausbildung, die die insgesamt wahrscheinlich aus dem Ergebnis sein. Weniger als 50 Jahre Punkte auf Zahl endete in 50 geboren wird. Kämpfen. Dies basiert insgesamt wahrscheinlich auf dem Trainingsdatensatz. Angenommen, dass die Trainingsdaten dritten 200 Datensätze auf diesem einen Punktton hat. Wenn ich diebe, wahrscheinlich weniger weg als selbst des Verfalls. Es bedeutet 150. Die Kosten in gibt tatsächlich Gehalt weniger als Ausbildung, Daten sagten. Du kennst also schon das Ergebnis. Dies ist die Gesamtwahrscheinlichkeit. Insgesamt, wie viele Menschen sind weniger als vom Verfall? Wie viele Leute groß sind, hat nicht begonnen. Du bist das Gleiche für das Alter, jeden Bereich im Alter hier. Das sehen Sie also im Trainingsdatensatz. Wenn das, was wahrscheinlich ist, dass jemand Alter zwischen 20 und 30, die hier kommt, Point tun für ähnlich 30 bis 40.26 Sie das gleiche tun. Also für jede mögliche Klassifikation im Alter, finden Sie die Gesamt wahrscheinlich ähnlich, für jede mögliche Klassifikation von Geschlecht, die männlich und weiblich ist, finden Sie die allgemeine Wahrscheinlichkeit. Sobald Sie die Gesamtwahrscheinlichkeit gefunden haben, finden Sie die sogenannte Riesenwahrscheinlichkeit zwischen einem Prädiktor und der Zielvariablen Zehe. Was, wie die gemeinsame Wahrscheinlichkeit ist, was Sie in diesen mittleren Zellen sehen, Also sagen wir, Nehmen Sie diesen Punkt, um zu kämpfen. Der Punkt zu kämpfen ist die gemeinsame Wahrscheinlichkeit, dass Person Alter zwischen 30 und 40 auf dieser Person. Gehälter Lektion von PG, So Punkt, wenn ich wahrscheinlich, dass jemand Alter 30 bis 40 auf Gehälter von Ticket weniger als 50 k Das gleiche wertvoll die gemeinsame Wahrscheinlichkeit für alle diese Jungs. Also diese Mitte zu stieg, sehen Sie, sind die gemeinsamen Wahrscheinlichkeiten zwischen dem Ziel und den Prädiktoren. So finden Sie die allgemeinen Wahrscheinlichkeiten, und dann finden Sie die riesigen Rivalitäten einzeln. Alle von ihnen sind wahrscheinlich einfach nehmen Sie die Anzahl der Datensätze diese entspricht dieser Bedingung geteilt durch die Gesamtzahl der Datensätze. Das ist alles, was Sie wahrscheinlich finden, ist ziemlich einfach, unkompliziert. Gesamtzahl der Datensätze, in denen diese Bedingung ein Ort. Also, wenn sie sagen, Point trotzt, welchen Punkt zu kämpfen, ist es die wahrscheinlich für das Alter, und weniger als 50 Fälle nehmen im Grunde die Anzahl der Datensätze. Und mit den Vorräten waren sie durch die Gesamtzahl Afrika. Es ist ziemlich einfach und unkompliziert. Eine Sache, die Sie bemerken werden, ist, dass die einige dieser Wahrscheinlichkeiten immer derjenige herauskommt, so dass der insgesamt wahrscheinlich 0,752 Punkt, um die Gesamteigenschaft zu bekämpfen, immer eine gleiche Sache mit Geschlecht hervorgebracht 33 plus 330,6 auf wäre die gleiche Sache. Ein Ort für diese stieg auf diesen Straßen, so dass alle von ihnen werden so sein. Ordnung wird eins sein, weil es eine totale Armut aller möglichen Ergebnisse ist. Sobald Sie den Stall gebaut haben, ist es ziemlich einfach und unkompliziert für Sie, jede Art von Vorhersage zu tun. Und wie geht es Ihnen? Diese Vorhersage wird vorausgesetzt, wenn eine neue Vorhersage gemacht werden soll. U verwenden ur spielen die bedingte Wahrscheinlichkeitsformel, über die wir gerade gesprochen haben, die wahrscheinlich von einem gegebenen sein ist. Du siehst Caldo, die Wahrscheinlichkeit, in etwas etwas gegeben zu werden, so dass wir gerade im frühesten Bein über gesprochen haben . Also nehmen wir an, ich möchte vorhersagen, ob das Gehalt einer Geldbörse Wasser das Gehalt der Person weniger ist als für größere Flachland des Verfalls. Angesichts der Tatsache, dass ich weiß, dass bestimmte Personen im Alter von 25 so dass bedeutet Eigentum des Gehalts weniger als 50 K gegeben magische zu quantifizieren, Ich habe versucht, sowohl die Wahrscheinlichkeiten vorherzusagen, wahrscheinlich weniger als von nehmen 100 und 50 k gegeben, dass die Alterung rief 25 auf. Ich leihe mir nur die Informationen von diesem Tisch, steckte sie in ein Spiel. Ich spiele nur die Formel. Also was? Ich setze die Formel ein. Ich versuche, die Gesamt wahrscheinlich, dass jemand Gehälter Lektion zu Zerfall geteilt durch die Gesamt Wahrscheinlich, dass jemand Alter 25 ist. Also leihe ich sie nur aus Punkten von und kämpfen hier und dann 250.4 Hier leihe ich nur diese Werte könnte von dem Joint gespielt werden, wahrscheinlich ist, dass jemand Gehalt weniger und nehmen Sie eine Energie genannt 25 auf, die geliehen wird von diesem besonderen Sir und ich gehen einfach aus und berechnen den Wert. Also vervollständige ich sowohl die Werte und verdichte die Werte. Offensichtlich ist 0,9 toe höher als der Problemwert entfernt. Das bedeutet also, dass wir hier vorhersagen, dass das Gehalt der Person weniger als 50 K ist , wenn diese Prozent-ID 25 entspricht. Das ist also unser Name durch seinen Algorithmus Stimmen. Es baut nur zuerst diese bedingte wahrscheinlich Tabelle, auf der wir sahen, dann geht einfach ein Platz, diese bedingte öffentliche Tabelle. Wenn Sie also brauchen, wenn Sie neue Daten haben, geht es an einem Ort, an der Tabelle, den Zahlen. Sie rufen den Tisch an die Formel und kommt mit dem Ergebnis. Es findet ein Ergebnis für jede der Begrenzungen der Wahrscheinlichkeit für jedes der möglichen Ergebnisse, und dann entscheiden Sie, auf welcher Grundlage Sie wählen möchten. Also, was bedeutet? Lassen Sie uns durch einige der Vorteile von Namen kauft gehen. Es ist einfach und unkompliziert und schneller Gewinn. Es funktioniert gut mit netten und fehlenden Daten. Es ist wahrscheinlich als Ergebnis, was manchmal ziemlich hilfreich sein kann, weil, sagen wir, ich versuche, ja oder nein vorherzusagen. Manchmal ist es das 0,9. Das Problem, das wir haben, ist eine Wirbelsäule, und manchmal, warum Sie wissen, diesen Punkt zu Manchmal, ja, es ist nur Punkt Fifi und wiegen auf Noahs Punkt für den Kampf. Basierend darauf kann ich einige Entscheidungen treffen, wenn Nachbarn mir eine sehr hohe Vorhersage geben, dass jemand die Ergebnisse wahrscheinlich in 0,7 verwandt ist, kann ich einfach damit gehen. Aber wenn Nachbarn näher kommen, was ein 50 50 50 Art von einem Streifen, dann kann ich vielleicht einige zusätzliche Algorithmen verwenden, um mehr Entscheidung zu treffen, so dass ich diese Art von Positionen basierend auf dem Ergebnis von uns in der Nähe machen kann , weil ich bin die Wahrscheinlichkeit für jedes der möglichen Ergebnisse in anderen Algorithmen zu erhalten, aber es versucht nur, nur Ja oder Nein vorherzusagen. Ich weiß nicht, wie nah an einer Nasenart ist, aber in diesem Fall werde ich wissen, wie nah in No ist, Sir. Das ist also einer der Vorteile gegenüber Nachbarn Mängel wieder, er hat eine gute ASI begrenzt. Es erwartet, dass die Prädiktoren unabhängig sind, und das ist ein wichtiger. Der Grund Basis, der Name der Nachbarn Algorithmus wird Kirchenschiff genannt, weil es einige Namensannahmen macht. Und diese Namensannahme ist, dass die Prädiktoren völlig unabhängig voneinander sind. Die Annahme, dass die Basis, die Sie kennen, ist die vorherigen Ereignisse, über die wir gesprochen haben. Das B will mir, dass jeder von ihnen unabhängig voneinander ist. Mit anderen Worten, der Gesang Das B sollte mich nicht beeinflussen, Toby To sollte nicht in Bagby Baum, was bedeutet, dass ein vorheriges Ereignis unabhängig von dem anderen vorherigen Ereignis sein sollte, was bedeutet, wenn Sie nicht die andere beeinflussen auftretenden. Das ist, was eines der wichtigsten Dinge am Basenserum ist, dass die vorherigen Ereignisse voneinander unabhängig sind . Wann, wann, was Sie mit unabhängig voneinander meinen. Ist das angeblich eine Priorität? Wenn dieses Alter und der andere Prior und David Gewicht ist, hat das Problem in keiner Weise die Räumung beeinflusst. Das ist es, was es zu sagen versucht. Angenommen, Sie haben 1/3 waren in der Lage so etwas wie, Sie wissen, ihre Cholesterinspiegel. Nein, es kann möglich sein, dass Ihr Baby hat einen Einfluss auf den Cholesterinspiegel, so dass das Gewicht und der Cholesterinspiegel sind nicht wirklich unabhängig. Sie haben eine gewisse Menge an Korrelationskoeffizienten. Also, wenn Sie sagen, zu tragen sind unabhängig voneinander, bedeutet das, dass sie Korrelation sind. Koeffizient ist ziemlich niedrig. Das versuchst du zu sagen. Die unabhängigen Ereignisse des vorherigen sogar sollten keine Korrelation zwischen ihnen haben. Darauf nennen wir das Unabhängige. Keine Voreingenommenheit macht diese Unabhängigkeit Annahmen. Wenn Variablen also wirklich unabhängig voneinander sind, funktionieren neue Bison sehr gut. Aber wenn sie interne Abhängigkeiten haben, wird es nicht so gut funktionieren, und das versuchen wir mit der Aussage zu verstehen. Es ist wieder nicht gut mit einer großen Anzahl von numerischen Prädiktoren. Wenn Sie numerische Prädiktoren haben, müssen Sie Gebote tun, so dass Nachbarn nur gut mit Klassen für Prädiktorvariablen funktionieren . Also, wenn es numerische Variablen gibt, müssen Sie sie in Bins konvertieren, wie wir es für das Alter getan haben. Gerade jetzt bist du bekehrt. Wenn Sie eine kontinuierliche Variablen wie Alter haben, konvertieren Sie sie in acht Ranger 20 bis 30 30 30 zu 40. Also sind Sie die bauen sie im Schlepptau, bitte. Auf Binda Mendel Klassifikationen, in diesem Fall Barrys Name als Verwendung. Es wird typischerweise in der medizinischen Diagnose verwendet, weil Sie vorhersagen wollen, ob eine Person hat und der Caesar keine Krankheit hat. Also hier ist, wo zu wissen, beide er wahrscheinlich selbst das Board. Die Ergebnisse sind gut, denn wenn einige Sie versuchen, einen Patienten als Krankheit vorherzusagen oder nicht, wenn die Wahrscheinlichkeit von Lärm sehr hoch, dann ignorieren Sie den Patienten. Wenn die wahrscheinlich der Essen oder ziemlich nah beieinander. Dann unterwerfen Sie vielleicht den Patienten, diesen Test zu ficken oder so etwas, um mehr medizinische Analysen zu machen , damit dieser Mai-Name Laster ziemlich nützlich ist. Es ist Houston Spam-Filterung, um herauszufinden, ob eine bestimmte E-Mail Spammer-Schinken wieder ist. In diesem Fall, was sehr nützlich ist, ist diese Person altert Also, wenn der Spam-Filter kommt und sagt, dass die wahrscheinlich, dass diese E-Mail ist es ein Spam ist sehr hoch ist. Normalerweise der Algorithmus, in der Regel dieser Prozess, wird der Algorithmus, in der Regel dieser Prozess,diese bestimmte E-Mail beenden und sie überhaupt nicht an den Empfänger senden. Aber wenn Sie sagen, dass es mit einer SPAN-Vorhersage kommt, dass es eine 60% Chance ist, dass dies ein Spam ist, dann können Sie diese E-Mail an die Person senden. Aber es kann eine Notiz geben, dass Alexis dieser Kerl, diese spezielle E-Mail S pan sein könnte. Das ist also, wo Sie im E-Mail-Titel sehen werden. Okay, das ist die Markierung, die möglicherweise seine Familie ist, um ein Fragezeichen zu setzen. So werden diese Art von Entscheidungen über die Wahrscheinlichkeitswerte getroffen, die von den Spam-Filteralgorithmen durchgeführt werden und sie in der Nähe verwenden, ist dies zu tun. Es wird für Dokumentenklassifizierungen verwendet, um zu klassifizieren, sagen wir, Nachrichtenartikel im Schlepptau, ob ihre Artikel im Zusammenhang mit dem Sport Politik sind oder so etwas. Wieder kommt es mit dieser Wahrscheinlichkeit für jede der verschiedenen Klassifikationen, Shen ist wieder verfügbar, ziemlich nützlich. So gibt es so und dann schließlich, Sport-Vorhersage, wie ich sprach über den Versuch, das Ergebnis aus wieder auf der Grundlage bestimmter Gleichgewichte auftreten vorherzusagen , sind bereits auf diese wieder sehr nahe Stadt nützlich. Also wahrscheinlich, dass jemand ein Spiel gewinnen wird. Angesichts der Tatsache, dass sie erzielten das erste Tor sind gegeben, dass sie datieren und die Halbzeit all das bei Sportvorhersagen wieder, der Nähe Bias kommt in diesen Fällen ins Spiel. Danke. 10. R Use Case : Naive Bayes: Hi. Jetzt werden wir einen Anwendungsfall für unseren Namen Voreingenommenheit in unserem auf dem Anwendungsfall sehen, den wir uns ansehen werden , ist Spam-Filterung. Leistungsstark während ist eine sehr beliebte Aktivität, die auf jeder Art von Textdaten passiert. Es kann wie eine E-Mail später sein. SMS-Daten, Twitter tot. Ich weiß. Was auch immer es sein muss. Onda New Place ist einer der beliebtesten Algorithmen, die für die Spam-Filterung verwendet wird. In diesem speziellen Beispiel werden wir einen Datensatz haben, der eine abgesetzte SMS-Nachrichten hat. Es gibt so viele Nachrichten wurden vorklassifiziert, da beide Schinken Spam sind. Und mit diesen Daten werden wir ein Modell entwickeln, das mir helfen kann, Nachrichten nur als Hammerspanne zu identifizieren . Die Idee hinter Ihnen wissen, mit dieser Art von Analyse ist, dass ah, Schinken Nachrichten und Spam-Nachrichten. Sie unterscheiden sich, was Menschen in der Regel die verschiedenen Begriffe, welche Art von Vogel auftreten beleuchten . Die Ham Nachricht war eine Spam Assets Spam Nachricht. Regel haben Wörter wie, wissen Sie , Angebote, Geld bieten etwas, das mehr verkauft als hämmert es, und das ist, was wir werden sehen, die Techniken in dieser Verwendung verwendet Tore sind in der Nähe . Classifications Training und Testen Verwirrungsmatrix auf Das neue, was wir sehen werden, ist Text-Vorverarbeitung. Wie verarbeiten Sie Text und vorbereiteten Text auf konvertiert es in eine numerische Darstellung damit es von Missionslern-Algorithmen konsumiert werden kann. Wir beginnen damit, das Arbeitsverzeichnis zu setzen. Dann lesen wir diese Datei Anruf SMS Pam Shot, die als Teil des Ressourcenpakets verfügbar ist. Sie machen sich keine Sorgen Punkt CS wir und in diese SMS-Daten geladen. Die SMS-Daten sind derzeit vom Typ Schinken und Spannen. Wir stellen nur sicher, dass es aus dem Unterstützungsfaktor ist. Warum? Es ist keine Fabriken. Da wir geladen haben, dass eine Zeichenfolge zufriedenstellend genannt der falsche Verräter, haben die Zeichenfolge als Zeichen geladen. Ich habe das nur getan, um Ihnen zu zeigen, wie Sie diese Umwandlung machen, so wie es unseren Dollar-Typ datieren muss, Sie machen es zu einem Faktor. Sehen Sie sich nun die Struktur der Daten an. Sie sehen dort, 500 Beobachtungen Finder fuhr von zwei Spalten. Es gibt eine Art Spalte, die ein Faktor von Schinken und Spannweite ist. Und es gibt Textspalte, die alle X erweitern ist. Es war jemand von den Daten. Siehst du, es gibt 437 Handnachrichten. War ein sechziger Jahre Planungsentscheidungen. Leiter der Daten, eigentlich sozial. Sehen Sie die Nachricht und Sie haben schwierig Die Nachricht. Du siehst eine Menge Sachen, die dort vor sich gehen. Es gibt eine Menge der Zahlen und ihre Währungssymbole in der Menge von Satzzeichen ist und Zeug dort drin. Also, warum hat er einen Stier gelockt und verarbeitet? All diese für X klinsi erklären Sing in sind die beliebteste Bibliothek, die für die Textreinigung verfügbar ist Ist die Bibliothek namens PM Onda. Wir laden nur diese Bibliothek tm auf sie lädt auch den anderen Paketaufruf und ich werde sein, sobald wir die Berühmtheit laden, wir haben die Umwandlung, dass Textdaten wir in das, was eine Nachricht genannt wird Corpus dies und sie sind Text PM-Bibliothek arbeitet auf einem -Nachrichtenkorpus und es hat eine Funktion, um es zu konvertieren. So kannst du das so arbeiten. Du nennst diese erste Methode namens Director Source und dann nennst du diese Mutter Teppiche? So müssen Sie Prominente verwenden. Folgen Sie also einfach der Konvention und wandeln Sie dies in eine Nachricht um. Korpus an. Sobald Sie sich dann in ein Nachrichtenkorpus umwandeln, können Sie einen Blick auf die mitgebrachte Karte werfen. Baskins enthält die Verwendung dieser Funktion namens Inspect. Du siehst also, dass ich nur die harten fünf Nachrichten anschaue. Also jede Nachricht, die Sie sehen, 123 und es gibt Ihnen nur tatsächlich den Inhalt. Es macht viele Meta-Daten, die es in ihre Das ist, was dieses Objekt tatsächlich zeigt. Aber es gibt auch den Inhalt. Sobald Sie das haben, werden wir jetzt gehen und die Daten reinigen. Wir haben darüber gesprochen, wie Daten in der Präsentation zusammengeballt werden sollen. Also werden wir sie tatsächlich machen. Nun, auf Vater, gibt es Dysfunktion, die eine Karte genannt werden, die eine Menge von dieser Reinigung von Funktionen hat. Also diese diem glücklich oder vorbei an der eigentlichen Nachricht Teppiche. Und dann gibt es ein Barometer, das Sie übergeben, das als entfernte Satzzeichen bezeichnet wird. Dies wird also zu je mehr Sie über Satzzeichen auf der Ausgabe einer anderen Nachricht Teppiche, die wir sagen, toe diese bestimmte Variable genannt Refrain Teppiche und dann Sie wiederholt keine andere Verarbeitung wie Vergangenheit tun. Das nächste, was Sie tun, ist Leerraum zu entfernen und wieder sind sie alle jemals tun, wird der gleiche Schmerz mit den neuen Refrain-Teppichen als Eingabeparameter genannt . Und dann bekommt man etwas namens Asthma-Sache, genannt abgeschnittener Leerraum, der auf dem Leerraum in den Daten, die wir sind, entfernt. Und jetzt Zehe die verschiedenen Teppiche. Dann wissen Sie, Kleinbuchstaben Konvertierung, wenn es einen Feigling gibt, wird ein Inhaltstransformator gegen etwas in die PM-Bibliothek eingebautes. Rufen Sie es einfach mit GM-Karte und sagen Sie zu senken, dass Sie mit einem Kleinbuchstaben. Dann entfernen Sie die Zahlen im Text mit den entfernten Nummern. Dann entfernen Sie Stoppwörter, wo Sie sagen, OK, entfernen Werth auf was? Was ich verwenden möchte. Rufen Sie diese Funktion hier in Donley als Stop-Wörter auf. Es entfernt alle Stoppwörter. Dann möchten Sie einige spezielle Wörter als Sie wieder bewegen. Komfortable Wörter auf geben eine Liste von Wörtern, die Sie als C-Liste auf es entfernen möchten gehen Sie einfach entfernen Sie diese Worte aus allen Teppichen. Nun, wenn Sie damit fertig sind, lassen Sie uns eine Stunde nehmen erneut einen Inspektor über die Daten einholen, die erschreckend waren. Jetzt sehen Sie, dass die Daten viel mehr Erdnuss sind, als gäbe es keine Zahlen und solche Sachen . Die Räume sind draußen. Eine Menge Darts. RB Jetzt ist es viel sauberer. Sobald diese Daten auf diese Weise bereit sind, erstellen Sie dieses Dokument als Nächstes. Keine Metriken. Ein Dokument mit verrückten Picks besteht aus dem Dokument, das in eine Matte umgewandelt wird. Tricks sind totes Angebot, bei dem jedes Dokument Null ist und jedes Wort eine Spalte ist. Also jeder Dock Montag, Null und jedes Wort ist eine Spalte. Also nennen Sie dies nur wichtig, dann wandelt die auf ihren Teppichen in ein Dokument. Unsere Metriken? Nein, lass uns das tun. Ah, das Schau dir das Spiel des Dokuments auf Metriken an, die Dimensionen des Dokuments auf Metriken es, Josie, dass ich finde, es rollt jeweils das Eingabedokument darstellt, dass das Dokument hier ist tatsächlich die SMS-Nachricht auf. Dann die Spalten Es gibt unsere 2000 Spalten, so dass jedes Wort eine Spalte wird. So gibt es 2000 Spalten in dieser speziellen Angelegenheit Tricks. Das ist also nett. Eine andere interessante Sache, weil du so viele verschiedene So Maney-Spalten hast und sie auf jeder Mission sind zu lernen, dass alles gottverdammte braucht, um die ganze Spalte zu verarbeiten. Also kann es ziemlich müde sein... Also, was du jetzt tun wirst, ist, dass ich dieses Zeug nicht durchmache . Sie wollen sich nur auf Wörter konzentrieren, die mindestens 10 Mal in allen Untoten aufgetreten sind. Also nehmen Sie alle Dokumente, tun Sie ein Wort, zählen Sie für alle, machen Sie Rechnung, wie oft dieses Wort in diesem Finder-Dokumente aufgetreten ist. Und dann können Sie nur die Wörter filtern, die nur 10 Mal aufgetreten sind. Das ist also, was ich tun werde. Ich nenne diese Funktion namens Find häufige Begriffe in dieser DTL. Und ich übergebe den Perimeterwert 10 Was bedeutet, dass es mir nur die Liste der Zahlen geben wird, die mindestens 10 Mal in diesem und ihren Teppichen aufgetreten sind, und dann werde ich das als Eingabeverwenden , und dann werde ich das als Eingabe , diese Aufruf-Dysfunktion Liste zu tun. Was das mit ihm tun wird, wird wissen, gehen und beenden Sie bei diesem dunklen Dokument auf Matt Tricks für nur was? Was bedeutet, dass es die Spalten von reduzieren 1966 Die einzigen Wörter, die mindestens 10 Mal aufgetreten sind . Andi. Also, nachdem ich diesen Filter DDM, wenn Sie sich die Diamantchance des vollen Wächters ansehen, sehe ich diesen Finder und 59. So von 1009 166 die Säulen sind auf nur 15 in Kondomen mit dieser Art von wir wissen anständig, ehrenhaft. Also sind wir wirklich eine Menge von Daten gemacht, von denen Sie wissen, dass sie sehr spärlich sind. Und wir machen uns Sorgen und sind vielleicht nicht so nützlich im Signalisierungsprozess, weil Sie dieses Wort viel öfter vorkommen müssen , damit es Auswirkungen auf die Missions-Lernalgorithmen haben kann . So zuletzt. Nun, gehen Sie weiter, überprüfen Sie dieses große Dokument in Sachen. Sieh genau, wie es aussieht. Sie sehen die Dokumente als Rose auf den Wörtern auftreten als Spalten auf. Dann sehen Sie eine Firma Epochen Welches Wort? Wenn diese Welt Sagen wir den Anruf Nach Dokument 51 Zeit. Also setzen wir einfach den Code ist hier eins. Dies wird als Späre-Metriken bezeichnet, da , wissen Sie die Daten, wissen Sie, sehr dünn aufgefüllt sind. Ondas irgendwo, wo man 20 sieht, sonst ist alles niemand überall, vor allem eins. Und als sie es ausdruckten und die ganze Mataric beteten, tut mir leid. Ich habe viel gescrollt, um das nächste Stück zurückzubekommen . Also, sobald ich ein Dokument mit Metriken habe Okay, lass mich anfangen, nein zu tun. Einige erforschen es Redid Analyse. Eine andere Sache, die Sie mit Worten machen möchten, ist das, was eine Wortwolke genannt wird. Sie hätten diese Arbeitsbelastung oft gesehen, in denen Leute nur die Wörter plotten, die die Größe ausfallen. Das Wort ist abhängig von der Anzahl der Male das Wort tritt in diesem bestimmten Daten sagte Also werden wir das gleiche tun Forward Wolke. Also haben wir diese Bibliothek namens Word Cloud verwendet. Wir sagten, das Panel sagten wir der Pilot Entschuldigung. Der Pilot sagt Ihnen im Grunde, sie schneiden uns kam, um diesen Brauer Punktpfad als eine Reihe von Farbschemata verwendet werden . Ich wähle nur die Farbe der Haut, die auch dunkel genannt wird. Und dann werde ich Sie zuerst eine Wortkarte planen, wo ich Lee von den raffinierten Karpers auswähle, nur die Daten, bei denen der Typ ist, dass er Schinken genannt wird. Es ist nur die Dattelwörter wählen, wo der Typ, den er von Schinken nannte. Ich benutze die Refrain Teppiche, nicht das Dokument hat keine Metriken. Also schauen Sie sich das an und dann sagen: Schauen Sie sich nur Wörter an, die auf diesen fünf Mal auf aufgetreten sind, dann machen Sie ein Plotten. Das ist also die Handlung und kommt heraus, um gewählt zu werden, was typischerweise nach Handnachrichten und verwenden wurde. Wirst du jetzt Wache bekommen? Diese wurden viel vorkommen. Jetzt habe ich versucht, dasselbe zu tun. Die gleiche Wortwolke für die Spam-Nachrichten auf. Nun lassen Sie uns sehen, wie es aussieht, als gäbe es ein großes Wort namens Carl namens Scheint sehr häufig frei benutzt zu werden . Scheint sehr häufig verwendet Anspruch. So sehen Sie, dass es bestimmte Wörter gibt, die eindeutig in Spam-Nachrichten vorkommen, die es von der Art unterscheiden, wie Schinkennachrichten aussehen werden. Es ist so, wie Sie eine Wortwolke machen können. Das ist kaum eine andere. Weißt du, du kannst hier alle Korrelationen machen. Viele weitere explorative Datenanalyse hier in wegen der Art der Daten, die Sie haben ihre eigenen . Lex Petersilienblut da drin. So sind Sie sofort bekommen Tür Goodies Training und Testen Split. Wir gehen wieder zurück und benutzen die Bibliothek. Karotte auf. Dann werden wir die Datenpartition Bip 70 bis 30% auf. Wir werden eigentlich drei Arten von Daten in Schulungen und Tests aufteilen. Also haben wir zuerst ziemlich Rohdaten, die es so viel gibt, dass sie trainiert werden. Interessant. Wir verteilen die Teppiche im Schlepptau, Training und Besting auf. Dann verbreiteten wir das Dokument über meine Pausen in die Ausbildung und Prüfung des Parlaments die gleiche Methodik. So gibt es so viele Daten Refrain Carpers und gefiltertes Radium, wobei jeder von ihnen in Training und Test aufgeteilt wird. Das nächste, was wir tun werden, ist, dass wir Zahlen und die Faktoren umrechnen werden . Also ist die documenta wichtig, dass sie wie in ihren tatsächlichen Zellenwerten gebaut haben, die Zählung der Anzahl der Male, die das Wort in jedem Dokument auftritt, das wir jetzt in es konvertieren werden, ist unser Nein, unabhängig davon, wie oft Vogel tritt in einem Dokument auf. Wir sagen die Wasserkarte, ja oder nein. Und dafür werden wir eine Funktion namens Anaconda zählt konvertieren Kegel, in denen Jahre Sie eine Eingabe nehmen zu schreiben . Wenn diese Eingabe s Wert größer ist als Null besser getan 10 Also dann betrachten wir Wert größer als Null, was bedeutet, dass es egal ist größer als Null, , ob es fünf oder sechs oder 10. Was ist größer als Null. Sie haben einen anderen gemacht, machen es Null. Und dann wandle ich das in einen Faktor für die Verwendung dieses Befehls um. In diesem Fall wandle ich sie in ein Nein und Ja um. Also sage ich nur, dass das hier abziehe, nenne ich das Thema. Übergeben Sie es. Was? Die Ebene sagte, die Ebenen sind Null und eins und dann 01 R eine R Karte auf Nein und ja, so dass ihre Dunbar ist. Also, sobald ich diese con-Funktion gemacht habe, werde ich meine eine Plattierung verwenden, eine Spielfunktion, die jede Zeile oder jede Spalte in den Daten platziert wird. Also werde ich sagen, Ausbildung. Ich spiele das Training BDM auf Marge gleich Tür, was bedeutet, dass es auf jede Spalte die Concorde erstickt anwenden wird. Ich wende Kraft auf die Mentalmetriken des Schulungsdokuments an, dann auf das Testdokumentformat-Update und dann einen guten Nachfragezug und Test. Sobald sie ihnen eine Belastung bekommen und ihre tatsächlich wie mein Crixus testen können. Mein Platz ist, damit ich schneller arbeiten kann. Sind die Angelegenheiten in ein Datumsangebot Mit den gefragten unsere Daten, Freund, weil sie Rahmen tun, ist das, was sie alle haben. Die werden Eingabe ass auf, dann feuern. Was ich tun werde, ist, dass ich diesen Typ den tatsächlichen Typ hinzufügen werde, den wir vorhersagen werden, denn die Dark Montel Matters wird nicht die Art haben, nur die Textteil-Anstrengung aufzubauen . Also werde ich diesen Spaltentyp sowohl dem Trainings- als auch dem Testdatenrahmen hinzufügen. Das ist also die gesamte Verarbeitung. Ich weiß nicht Sobald ich das ganze Zeug mache, lassen Sie mich einen Blick auf diesen Datenrahmen die ersten Ranken in westliche Spalten werfen. Du siehst also, dass das die Rose ist. Dies ist der Trainingsdatensatz. Also hast du ein vermisstes Kind, weil sie zum Schreibtischdatensatz gegangen sind. Und dann haben Sie die Spalten, wie oft die Eckert. So sehen Sie, dass die Einsen und Nullen Art von Sache, jede durch Ja oder Nein ersetzt wird, weil aus der Verarbeitung haben wir mit diesen Daten gemacht. Also, wenn dies getan ist, dann ist es eine einfache Gebetshilfe, um das Modell zu bauen und vorherzusagen, mit der modernen , für die wir verwenden. Die Bibliothek rief jedes e 1071 Also auch 07 Minuten eine Bibliothek, die mir einen Namen von uns Funktion gibt . Also rief ich diese nahe gelegene US-Funktion auf, um ein Modell zu erstellen, an das ich alle meine Prädiktorvariablen übergeben habe . In diesem Fall sind die Prädiktorvariablen alle 59 Spalten, die ich im Datenrahmen habe, mit Ausnahme der 60. Spalte, die die Typspalte ist. Und dann bin ich bestanden. Was ist meine Zielvariable, die mein Typ ist. Das baut also mein Modell auf, dann werde ich mir was ansehen? Wie das Modell aussieht So haben wir darüber gesprochen, als wir uns die Präsentation über eine Voreingenommenheit über alle Wahrscheinlichkeiten und Bedingungen wahrscheinlich entwertet. Sie werden also tatsächlich auf dem Markt sehen. Der tatsächliche Wert begann herausgefunden. Zuerst ist der Anruf der Madonna ziemlich unkompliziert die erste, und dann wählte er Was ist mein A priori? Wahrscheinlich sind diese, die insgesamt insgesamt ist. Was wird das zwischen Schinken und Spam gespielt? Was ist ein Wahrscheinlich etwas ist ein Schinken ist 0,87 87 Person und Thomas 870.12% in den Trainingsdaten sagte, dies ist die Gesamtwahrscheinlichkeit. Dann bin ich eine one toe bedingte Wahrscheinlichkeiten, wo für jede Spalte für jede Spalte in den Daten. Es wird mir die Wahrscheinlichkeit geben, dass es ein Schinken oder eine Spanne ist. Also jede Spalte in diesem Fall ist jedes Wort, weil wir alle Wörter Spalten gemacht. So beginnen Sie mit dieser Welt alles und alles Werte, wo nirgendwo sonst in der Tabelle. Was ist also die Wahrscheinlichkeit, dass irgendetwas ist und weiß, ob das Dokument 1/2 ist und das auf die gleiche Weise 0,97 ergibt? Was ist die Wahrscheinlichkeit, dass alles ein Ja Wenn das Dokument ist ein Hammer an dieser Stelle, Toto, das gleiche wahrscheinlich das erste Mal. Wie hoch ist die Wahrscheinlichkeit, dass irgendetwas sein wird? Nein, Sie haben das Dokument, das Spam ähnlich für Ja. Sie sehen also alle Wahrscheinlichkeiten, die hier oben kommen und sehen, das wird immer zu einer addieren. Dies summiert sich zu einem. Also zuerst gibt es die allgemeine Wahrscheinlichkeit, dass etwas ein Schinken und etwas ist. Da ist ein Spam. Dann, wenn etwas ein Schinken ist, was ist die Wahrscheinlichkeit, dass irgendetwas sein wird? Nein. Wenn es irgendetwas wird ja sein, ist So haben Sie alle diese Ebenen sind wahrscheinlich, dass es baut. So sehen Sie diese Matratze für jedes Wort im jeweiligen Dokument. Das werden 59 Worte sein. Das wird wie 59 solche Dinge hier drin sein. Okay, das sind also die gesamten Karamat-Tricks, die es baut. Und mit dieser Matrix, es sind immer die Basisformel platziert, um herauszufinden, die tatsächlichen Fähigkeiten, die wir in der Präsentation gesehen . Jetzt gehen wir und gehen die Vorhersagefunktion intern vorhersagen Funktion wird tatsächlich berechnen. Diese Wahrscheinlichkeiten würden sagen, die Paradefunktion vorhersagen. Mit diesem Modell auf die Verwendung dieser Daten auf Sie werden kommen mit Vorhersagen auf. Dann verwenden Sie Verwirrungsmatrix toe, Tablette tatsächlich die Vorhersagen gegen die Istwerte und wie Sehen Sie, wie gut mein Modell gegen die Dustin Daten ausgeführt wird . Also Referenz Sie haben Schinken ein Bürger. Die allgemeine Verwirrung Matrix Hammond Span-Vorhersage. Es gibt nur sieben Fehler. Und hier, dass es sieben Spam, die tatsächlich anders als Schinken bekommen. Was das bedeutet, wäre, dass die sieben Spam-Nachrichten tatsächlich uns Schinken an die eigentliche Person geschickt werden würden . Und die Person wird nach Wegen schauen. Mein Stanford. Ich arbeite nicht. Gut. Das ist also Arbeit. Diese, wissen Sie, bedeutet also, jetzt schauen wir uns die Genauigkeit von 0,95% an. 90% stimmen zu. Sehr, sehr, sehr gute Genauigkeit für diesen Algorithmus. Was? Wir versuchen Pierre Andi zu hübschen, dass es das ist, was Sie so haben, wirklich? Was passieren wird, ist vorbei. Eine neue Nachricht kommt rein. Du wirst dich bekehren. Du wirst dieses Modell haben. Du wirst dieses Modell retten, diesen menschlichen Marsch dafür zu einer Art Kampf gegen Monreal Time. Wenn wirklich eine Nachricht kommt, werden Sie diese Nachricht in einen wieeinen Vektordaten-Freund konvertieren wie . Die gleiche Struktur, die D D von Hoden aussehen wie auf, dann übergeben, dass Zehe die gleiche Vorhersage Funktion. Es wird mit einer Vorhersage kommen, so in diesem Fall, aufhören zu kommen der Leicester Productions. Es wird mit einem Vektor kommen, weil Sie nur eine Nachricht raspeln. Und das ist, was Sie dann verwenden, um zu identifizieren, ob die Nachricht ein Hammer Spam ist. Auf dieser Grundlage haben Sie sich entschieden, haben Sie sich entschieden, es an den eigentlichen Posteingang zu senden. Sind dieser Markt, der Pam ist, oder was auch immer du willst. Also das ist eine wirklich, wirklich Schinkenspanne, Phil, die tatsächlich funktionieren würde mit uns in der Nähe. Danke. 11. Random: Hallo. In diesem Vortrag werden wir über Zufallswald sprechen. Eine weitere sehr nützliche Madird Mission Lernen Klassifikationen schlecht bewacht sie. So zufällig für uns ist einer der beliebtesten und genauesten Algorithmen, die für Missionslernen verfügbar sind . Es ist eines der beliebtesten in dem Sinne, dass, wenn Sie diese Daten Heiligen Wettbewerbe haben , dies ist einer der al Gärten, ein stummer, der sehr populär verwendet wird. Es ist eine unersättliche Angelegenheit, die verwendet wird, um Entscheidungsbäume zu bauen und mehrere, was eine unersättliche Angelegenheit und einfache Methode ist irgendwo, wo Sie nicht eine Entscheidung treffen. Du würdest eine Reihe von Entscheidungen treffen und dann ein Boot nehmen. Lassen Sie mich ein wenig mehr erklären. Angenommen, ich möchte einen Laptop kaufen und möchte eine Meinung darüber bekommen, ob ich einen Laptop kaufen soll oder nicht. Wenn ich nur weitermache, fragen Sie einen von einem Freund. Soll ich diesen Laptop kaufen oder nicht? Und er gibt mir eine Antwort, ja oder nein? Das ist eine Art grundlegender Entscheidungssitzung. So wird jeder Freund zum Model. Ich benutze nur ein Modell, um eine Meinung zu bekommen, und ich bekomme nur eine Antwort, die ja oder nein ist. Vielmehr, wenn sie gehen 10 von Matron hat, aber dass ich einen Laptop kaufen sollte oder nicht. Und dann bekomme ich 10 verschiedene Meinungen und mache dann einen Spaziergang zwischen diesem. Ok? Sieben dieser Leute sagten ja. Drei von diesen Leuten sagten nein. Also ja ist höher als nein. Also sollte ich gehen und diesen Laptop kaufen, der in Symbolentscheidung genannt wird. Du benutzt viele Leute. Menschen marschierten, Menschen, Gehirne. Das ist also in diesem Fall, was passiert, ist, dass zufällige Wald eine zusammengebaute, reife,auf Entscheidungsbäumen gebaut ist reife, . Jeder Freund hier ist eine Entscheidung. Baum auf unten für uns ist nichts anderes als eine Sammlung ofrece Deshalb ist es der Wald genannt weil es eine Sammlung von Bäumen so zufällig für uns ist. Was Sie tun, ist, dass Sie meine Personenmodelle erstellen, mehrere Entscheidungsstrukturen erstellen, denselben Entscheidungsbaum-Algorithmus verwenden, aber Sie erstellen mehrere Entscheidungsstrukturen. Sie werden sehen, wie wir diese mehrere Entscheidungsbäume später für Vorhersagen erstellen. Was Sie tun, ist, dass Sie tatsächlich jedes dieser Modelle verwenden. Angenommen, ich erstelle Finder Entscheidungsbäume. Ich bekomme Geldstrafe und Modelle. Ich benutze alle Finding-Modelle, um eine Entscheidung zu treffen, also bekomme ich 500 verschiedene Nieselregen. Also finde ich irgendwie heraus, ob ein Patient tatsächlich krank ist oder nicht. Ich bekomme Finder Antworten Ja und Nein. Dann nehmen sie ein Boot. Ich verstehe, wie maney beurteilen. Ich verstehe, wie Maney weiß, dass ich durchkomme, je nachdem, was der höchste ist. Daraus werde ich wählen. Sie stimmen also über diese Ergebnisse ab, um Ihre beste Antwort zu finden. Deshalb wird es eine instabile Methode genannt. Sie tatsächlich, in einer instabilen Angelegenheit, wenn Mission lernen, wenn Sie sagen, etwas ist eine im Sommer Angelegenheit, Sie haben in der Regel mehrere Modelle auf. Jedes Mal, wenn Sie versuchen, eine Entscheidung zu treffen, spielen Sie alle diese Modelle und nehmen Sie dann ein, was zwischen diesen mehreren Modellen. Also, wie dieser funktioniert, lassen Sie uns sagen, Sie haben eine Daten gesagt, die M Proben oder Embryonen enthält , und in Prädiktoren und sind in College dort in Spalten und Ambrose in dem Beispiel, das Sie X Falte bauen . Aber jeder Baum ist mit einer anderen Teilmenge von Daten gebaut, und das ist, wie es eine Möglichkeit von Ost drei große verschiedene. Wenn Sie die gleichen Daten aus einem Gebäude mit jedem Priester verwenden, werden alle Bäume gleich aussehen. Aber für jeden Baum übergeben Sie eine andere Teilmenge von Daten aus diesen M-Stichproben und in Prädiktoren übergeben Sie eine Differenzverzerrungsdaten an jeden Baum. Wie wird diese Substanz gewählt? Ihre Wahl zufällig. So haben Sie gerade aus diesen Embryonen ausgerichtet, und in Spalten werden Sie eine Subvention wählen, Afros und beste Teilmenge von Spalten zufällig. Und deshalb wird dieser Algorithmus für uns zufällig genannt, weil Sie einen zufälligen Mechanismus verwendet haben, um die Zeilen und Spalten für uns auszuwählen, weil Sie mehrere Treaster haben. Deshalb heißt es Random Forest. Zum Beispiel, wenn Sie jemals Daten gesagt haben, dass als 1000 Zeilen und Kampf Spalten, jeder Baum wird mit 700 Rose und drei Spalten gebaut, so dass Sie tatsächlich sind 103 einige 100 stieg und drei Spalten auf dann verwendet, dass Datensätze beim Militär. Jetzt müssen Sie sich keine Gedanken über das Schreiben von Code für die Auswahl dieser Zeilen und Spalten machen, weil ich zufällig für uns Implementierungen oder Bibliotheken gärten werde. Wir werden sie für dich tun. Das ist mehr für Ihr Verständnis. Manchmal können Sie in Bezug auf steuern wie, maney, Welcher Prozentsatz der Rose Sie wählen möchten und welchen Prozentsatz der Spalten Sie für jedes Thema wählen möchten drei Sie versuchen zu bauen. Aber meistens optimieren sie sich in Bezug auf diesen Wahlprozess die Datensubventionen verwendet, um einen Baum für die Produktion aufzubauen. Der neue Dodi wird an jeden dieser X Bäume weitergegeben und Sie erhalten X mögliche Ergebnisse. Und dann stimmen Sie ab. Sind unter diesem ex mögliche Ergebnis zu sehen, dass Sie wissen, welche ich kaufen möchte. Also, zum Beispiel, wenn Sie Ja oder Nein auf schützen, dann wird jemand ein Produkt kaufen oder nicht auf Sie. Bill hat die Bäume gefeuert. Du wirst 3 50 Wege und Hunderte von Pinos bekommen und dann weißt du, dass 3 50 größer ist als Hunderte von B. Also gehe ich mit der Entscheidung ab. Ja, Das ist also wie die Vergabe von Entscheidungen mehr Demokratie Art von Entscheidungsprozess, dass Sie ein Spiel. Das am meisten gefundene Ergebnis ist die allgemeine Vorhersage, dass Sie so zufällig für uns tun werden, ist es, mehrere Bäume mit einer Teilmenge von Daten zu bauen, die nach dem Zufallsprinzip ausgewählt wurden und Sie dann Wann immer Sie vorhersagen müssen, Sie im Grunde durchlief die Vergabe Mechanismus, um eine Entscheidung zu treffen, und das ist Ihre ultimative Vorhersage. Also, äh, jemand für zufälligen Wald? Schauen wir uns an, was sind die Vorteile? Einer der Vorteile ist, dass sehr präzise ist. Jeder Baum wird mit einer anderen Teilmenge von Daten erstellt. Was das bedeutet, ist viel von dem Schönen, das es in den Daten gibt. Gut eliminiert Onley ihre Prozessstütze richtige mögliche Signale immer, Sie wissen schon, in dieses Modell eingebaut. Es macht also Spaß, sehr genau zu sein, und es war effizient mit einer großen Anzahl von Prädiktoren. Es spielt keine Rolle, ob Sie 40 oder 50 Leute sind. Es tut, wenn man bedenkt, dass jeder Baum eine Teilmenge von Prädiktoren wählt. Die Anzahl der Prädiktoren, die Sie für einen bestimmten Baum wählen, ist in der Regel dieser Chor außerhalb der Anzahl tatsächlich verfügbaren Prädiktoren. Eso Angenommen, Sie sind vier Beschützer. Jeder Baum ist mit zwei gebaut. Aber nehmen wir an, Sie haben, sagen wir, 16 Prädiktoren. Was? Es ist ruhig genug. 16. Vielleicht etwas wie vier rechts, so dass Sie nur vier Prädiktoren für jedes der erstellten Themen halten, so ist es ziemlich einfach und flexibel in Bezug auf die Anpassung an eine große Anzahl von Prädiktoren. Ein weiterer großer Vorteil von Zufall für uns ist, dass es vollständig parlays Kräuter, auch dass jeder Baum unabhängig gebaut wird. Der Wiederaufbauprozess kann wie mehrere CPU verwendet werden. Sie können alle populär laufen, bauen die Bäume und dann können Sie alle Ergebnisse wieder sammeln. So ein Ort mit, wenn Sie Prognosen tun, können Sie alles lernen, was Sie Vorhersagen parallel zu jedem der Bäume, die mit mehreren CP-Verwendung erstellt werden , dann sammeln Sie die Ergebnisse zurück. Also in diesem sehr ist voll Paddel Izabal, können Sie einige parallele Verarbeitungstechniken verwenden, um die Dinge wirklich zu beschleunigen. Damit weiß ich für uns, dass es auch sehr gut mit fehlenden Daten ist. Die Vorteile dieser Gentry ist die individuelle Entscheidung Bäume auch die Wörter zufällige Wälder erschossen kommen angesammelt ist, natürlich, es ist sehr Zeit und zu Quelle verbrauchen Ihre Doppel finden Sie die Bäume statt eines. Das wird also viel Zeit in Anspruch nehmen, wissen Sie, es sei denn, Sie selbst wenn Sie Partner Crossing spielen und so etwas. Es wird viel Zeit in Anspruch nehmen, für kategoriale Variablen von uns könnten noch existieren, wenn die Ebenen unverhältnismäßig sind. Lassen Sie uns das erklären. Was meinst du mit den Ebenen sind unverhältnismäßig. Angenommen, Sie versuchen, Ja oder Nein vorherzusagen. Also gibt es Ebenen ja oder nein in dieser bestimmten kategorialen Variablen, die Zehenwerte sind . Ja oder nein? Das sind, was wir Levels nennen. Also im Trainingsdatensatz sagten die Trainingsdaten, wenn Sie, wie, 50 SS und 40% Prozent, 50% wissen das als gleichen Anteil. Angenommen, das trainierte hat es, dass 95% Rabatt auf den Wert Ja sagte. Nur 5% der Werte sind nein, das ist unverhältnismäßig. Wenn Sie diese Art von unverhältnismäßigen Daten haben, die gesagt werden, wo einer der Klassentypen die anderen Klassen in diesem Fall dominiert, dominiert das Weiß wieder. So viele Modelle, die Sie auf dieser Art von Daten aufbauen, werden uns gegenüber diesem speziellen y kaufen . Also alles, was Sie, wenn Sie möchten, 95% nicht 5%? Nein, in den Trainingsdaten, das Modell, das Sie bauen mit immer er Vorhersage Ja, die ganze Zeit. Dass Sie riskieren würden, gibt es, wenn die Genauigkeitsnummer, die mit diesem Zeug Produktion herauskommen wird , sehr groß sein wird, weil angenommen, Sie haben 95% Ja, und 5%? Nein. Im Spiel in den Trainingsdaten wird der gleiche Anteil auch in den Testdaten vorhanden sein. In den Testdaten nehmen Sie also an, alles als Ja vorherzusagen. Sie erhalten immer noch 95% Genauigkeit, weil Sie 100 Datensätze von ihnen sind. 95 sie werden ja sein. Sie gehen einfach und blind vorhersagen, alle von ihnen zu sein Ja, Sie erhalten immer noch 100% Genauigkeit im Anwesen. Das Problem gibt es, wann immer das noch passiert, es wird nicht empfindlich auf diesen Noah groß sein. Das sind also Orte, an denen man vorsichtig sein muss. Eine der Techniken, die in der Regel angewendet hat, wenn die Niveaus ungeeignet sind, ist die Daten, die gesagt, dass er verwendet wählen Sie einen Datensatz aus den Trainingsdaten. Ist das, wo die Ebenen fast gleich sind? Wissen Sie, wir brauchen 100 Datensätze und 95 Domar es und fünf oder nein, anstatt nehmen 100 Karten nur nehmen 20 Datensätze mit Bränden und 15 Sorry mit Finale und 15 Jahre oder so, dass wir hatten einen gewissen Anteil erreicht. Es gibt nur wieder Ausgabe. Ist Ihre Verwendung eindeutig ein großer Satz von Daten, so dass Sie keine Art von Vorhersagefehlern erhalten . sind also einige der Herausforderungen, denen Sie begegnen werden, wenn Sie diesen Anteil haben, es gleicht Werte ab. Dies wird in der wissenschaftlichen Forschung viel und wissenschaftliche Forschung Zehe wissenschaftliche Forschung verwendet, der Ort. Aber Sie sind nicht wirklich besorgt über, wissen Sie, beschleunigen Sie die Vorhersage, unsere Geschwindigkeit des Modellbaus, so dass Sie glücklich gehen und es Wettbewerbe nutzen können. Viele Wettbewerbe verwenden jetzt für uns einen anderen Ort, wo Genauigkeit die wichtigste Geschwindigkeit ist . Unser Geist der Produktion ist nicht wieder. Das gehört dir. Es wird auch in der medizinischen Diagnose verwendet, um vorherzusagen, wenn ein Patient, wie Sie wissen, Sicard in der Arktis, diese Art von Schutz Entscheidungsfindung wieder. Ich hatte kein für uns. Sehr hoch. Sie schaffen sehr zeitaufwändig. Das ist der demokratische Zufall für uns. Vielen Dank 12. R Use Case : Random: Hallo. In diesem Vortrag werden wir uns unseren Anwendungsfall für zufällige für uns ansehen, aber nur potenzielle Kunden das Problem ausleihen. Wir haben versucht, die Bereiche zu lösen, in denen wir eine Bank haben, und diese Bank hat eine Reihe von potenziellen Kunden Liste, eine Liste von Kunden, eine Liste von potenziellen Kunden, die nach wollen. Das ist also, es wird nach diesen Kunden für einen Bankkredit gehen, vielleicht die Kunden, die daran interessiert sind, einen Bankkredit zu nehmen. Also werden diese Jungs eine Liste von Kunden nehmen und anfangen, die Kunden irgendetwas anzurufen . Hey, wir rufen von dieser Bank an. Sie sind in die Bank investiert. Jetzt haben sie all diese Sachen, Lassen Sie uns sagen, 1000 potenzielle Kunden. Aber was sie von uns denken wollen. Möchte ich gehen und jede mögliche Person unseren Teig nennen? Ich möchte diejenigen Kunden finden, die eine hohe Wahrscheinlichkeit haben, in einen tatsächlichen Kunden umgewandelt zu werden . Mit anderen Worten, ich möchte nur diejenigen wählen, die wahrscheinlich eine Dienstleistung nach unserem Willen durch ein Darlehen von mir kaufen oder einen Kredit von mir nehmen, und ich möchte mich nur auf diese Liste von Menschen konzentrieren. Also was? Ich werde das tun. Ich werde ein Modell bauen. Das wird voraussagen, wenn, weil, wenn ein potenzieller Kunde wird ein tatsächlicher Kunde für Bankkredite werden. Also habe ich diese Daten. Welche Techniken? Ich wollte in diesem speziellen Beispiel verwendet werden, dass wir zufällige Waldtraining verwenden und Verwirrungsmetriken testen werden . Wir werden Indikatorvariablen machen. Gewinnen bei variabler Reduktion sind wir mit dem besagten Arbeitsverzeichnis beginnen auf. Dann gibt es einen Tisch. Wir werden diesen Kampf namens Bankpunkt-CSP in diese Bankdaten einlesen. Dies hat tatsächlich, wie 17 Variablen es als gebrechlich. Es tut Informationen über frühere Kampagnen, die die Menschen von lief gegen die Menschen mit uns Informationen unsere vorherigen Kampagnen. Also nehmen sie eine Liste von einem Tropfen potenzieller Kunden basierend auf früheren Kampagnen , die sie fertig sind, und versuchen dann, diese Kampagne für ein neues Camping zu filtern und zu sehen, dass reichere Kunden aus alten Kampagnen gut genug für das neue Unternehmen wäre . Welche Daten haben sie also über die Kunden? Ist, dass sie Alter haben, Job moderato Staat macht Bildung die vier, so dass sie ein früheres Darlehen mit diesen Leuten auf, ob die ausgefallenen auf das Darlehen sind nicht welche Art von Gewalt sie haben. Die Kredit Gewalt Haben sie Wohnung oder nicht auf? Aber sie haben Darlehen früheren Kredit oder nicht. Außerdem gibt es eine Kontaktinformationen mit ihnen. Wie haben sie sie kontaktiert? Ist es Handy oder eine Menge Telefon unser Telefon? Wie viele Tage, wo sie Art von Kunden mit der Bank? Welcher Montag? Eigentlich wurde Jordan ein Kunde. Ähm, Dauer. Ich glaube, es ist eine Laufzeit des Darlehens. Die Dauer des Darlehens, die sie genommen haben, welche Art von Kampagne gesendet wurde, wird gegen sie gestellt. In der Regelhaben Banken Kampagnen wie E-Mail-Kampagnen,Webkampagnender Telefonkampagnen und die Konferenz in der Regel von Heidi. In der Regel haben Banken Kampagnen wie , E-Mail-Kampagnen,Webkampagnen Das sind also die Ideen der Kampagnen. Und dann, wo es irgendwelche früheren Unternehmen getan haben, die gleichen Leute zu umarmen, bevor diese Kampagne durchgeführt wurde, und wenn ja, wann wurde eine vorherige Kampagne durchgeführt? Was war die vorherige Kampagnenidee und was war das vorherige Kampagnenergebnis? Schließlich haben Sie diese ja oder nein, das ist, wenn sie lieben Randy letzten Camping gegen diese Kunden tat dieser Kunde tatsächlich allein genommen sind nicht. Das sind die Daten. Wir haben, wie 17 Variablen in den Daten. So gibt es ein Ziel sehr bauen weg. Und der Rest wird alles ziemlich Staub sein. Werfen wir einen Blick auf das. Jemand von der Bank. Empfangene Daten. Die Daten sind sauber. Alter zwischen 19 und 87 Stellen. Okay. Management, Techniker mit blauem Kragen, Familienstand. Geschiedene Mary Single. Ok, Bildung ist ausgefallen. Ja oder nein? Nur Balance. Okay, es gibt einen Saldo namens minus 3313, aber es ist möglich, dass sie manchmal über Bezahlung oder so etwas. Es ist in Ordnung. Wohnen ist kein Kredit. Sie nahmen allein ja oder nein. Und sie haben ähnliche Dinge für alle anderen Perimeter. Und sie sind niedrig, irgendwie. Okay. Und schließlich in den Daten gesagt, es gibt etwa vier. Kämpfen Sie zu einem Kunden, von denen 4000 von ihnen A nein. Und finden Sie die Eso mehr Inspektion der Maria auf der Bank. Habe ich dann gerade auf den Kopf geschaut? Dann? Okay, Don sieht irgendwie in Ordnung aus. Die gleiche Datei steht natürlich Ihnen natürlichim Ressourcenpaket zur Verfügung, so dass Sie sich die Daten genauer ansehen können. Mehr Daten? Viel mehr. Okay, was wir jetzt tun werden, ist, dass wir weitermachen. Sehen Sie sich die Korrelationskoeffizienten an. Also wolltest du in die Bibliothek schauen. Psych, die Bibliothek. Psych. Wir werden uns etwas ansehen, das als Par Start Panels bezeichnet wird. Keine Teile-Start-Panels geht auf den Fuß hängen. Es dauert eine lange Zeit, wenn die Anzahl der Variablen groß ist. Also werde ich die Daten in zwei Sätze aufteilen. Ich werde mir die 1. 8 ansehen. Wir haben 16 Prädiktorvariablen. Das erste Mal wird auf der Erste-Hilfe-Prädiktor Variablen gegen das Ziel auf Kerl suchen wird eine weitere Pass Start-Panels für die verbleibenden tun. So dass es irgendwie leicht funktioniert. Und dann die Blutsorte von Lebensmitteln in einer Zahl im Rahmen, werde ich mich einfach in zwei ausbreiten und sie Schritt für Schritt machen. Also schauen wir uns das an. Warum ist die Variable, die ich vorherzusagen versuche? Und hier sind die Korrelation co Visionen auf was sehen Sie? Einheitlich verwendete Kunst. Alle Prädiktorvariablen sind schlecht. Miners über sieben minus eins oder kaufen toto oder vier Es ist kaum etwas, was uns aus irgendeinem Sinn hier, denn alle Bric Variablen sehen ziemlich schlecht gegen White. Jetzt gehst du runter und machst dann den Rest der Jungs 9 zu 17 und dann wieder nur Dauern in einen vernünftigen Korrelationspunkt für Ruhe wieder. Es gibt einen 0,0,1 Punkt zwei. Das ist alles sehr klein. Es gibt ein minus 0,13 Typischerweise sind sie alle sehr klein auf das, was Sie haben. Nein, in geschlechtslos, was wir nennen, haben wir eine abgesetzte Woche Prädiktoren. 20 Jahre, sagte Williams von sehr schwachen Prädiktoren. Es ist möglich, dass eine Kombination von ihnen tatsächlich stark wird. Wenn Sie also eine Reihe von E-Erstellern haben, bedeutet dies, dass einige der grundlegenden Algorithmen, wie neue Käufer, Entscheidungsbäume sind möglicherweise keine guten Ergebnisse liefern. Auf diese Weise müssen wir gehen. Das Symbol zählt wie zufällig für eine Solar. Hat er zufällige Waldarbeiten an den Set-off Wirklich schwache Prädiktoren? Das erste, was wir tun werden, um einige Variablen zu beseitigen, die wirklich, wirklich niedrig sind , wie sehr nahe Zehe, nur weniger als 0,1. Wir werden nur diese Variablen wie Standard-Gleichgewicht beseitigen, Damon-Kampagne. Wir nehmen nur die Daten, eliminieren sie. Nehmen Sie nur die restlichen Spalten und erstellen Sie diese neuen Daten, Sir. Rufen Sie neue Daten auf. Aber es gibt kein Größeres. Hat nur so viele Variablen. Deshalb habe ich die Zielvariablen zerstört. Und wir betrachten nur jene Variablen, wo die Berechnung, wie Sie wissen, größer als 0,1 mehr als 10%. Also nach diesem foltrigg, schauen wir uns vereinbart. Tritt wieder auf. Die Datenart von Alles ist wahrscheinlich. Okay, es ist sehr flüssig. Sogar sehr niedrig. Vorhersagen sind, damit ich nicht sehe, wie das hier weitergeht. Dann werden wir ein paar Datentransformationen durchführen. Als Erstes werden wir dieses Gebäude machen. Wir werden in der Zeit in den Rangers sein. Das ist also das erste, was wir tun werden. Haben auf das Alter und die Rangers geschnitten. 1 2022 44 bis 60 und 60. 200 auf dich. Ersetzen Sie einfach das orginale Alter mit diesem neuen Biegealter auf. Was dann? Du wirst das tun? Wir werden Indikatorvariablen für den Familienstand erstellen. Also ist dies eine Ukraine Indikatorvariable neue Variable genannt zu erstellen ist vielfältig und dann eine Bedingung, wenn sonst unsere neue spätere Dollar Ehe und sagen gleich geschieden, wenn ehelichen gleich vielfältig ist, dann setzen Sie eine andere Port Null. All dies wird dann zu Indikatorvariablen auf. Nachdem Sie diese Indikatorvariablen erstellt haben, löschen Sie das Orginal. Meine Writer-Variable sieht nun an, wie die neuen Daten aussehen. So haben Sie das Alter jetzt zu einem Faktor von vier Stufen 1 bis 2020 40 und dann haben Sie keine Newbury, aber ist geschieden ist Single und es ist verheiratet und alle von ihnen sehen Sie Nullen und Einsen. So viel zur Datentransformation. Für ein Teil gibt es keine Explosion bei einigen explorativen Daten. Analyse aus. Wie warum Sie sein können, wie weiß Trend gegen verschiedene andere Variablen. So kennen Sie diese Handlung für Gehäuse gegen warum und dann Kontakte gegen die Art des Kontakts gegen Weg. Dann machen Sie Box-Plots der Dauer gegen Wege und die PD gegen Recht. Und mal sehen, wie diese gemacht werden. Also hier sehen Sie Gehäuse kein Publikum gegen Kunden. Das Gehäuse hat keine Art von hat einen Einfluss aus. Da ist noch mehr. Ja, auf der wenn Gehäuse ist nein, was bedeutet, dass jemand kein Haus hat und ihre Tendenz, einen Bonus zu nehmen. Ich möglicherweise die Oppo, was mehr Sinn macht. Und Sie sehen auch, dass die Art des Kontakts aus irgendeinem Grund, Sonoran Telefon haben Iris als der unbekannte Grund. Vielleicht ist ein Signal kein Signal, das wir nicht kennen, als diese anderen Plots der Dauer gegen. Warum die SS normalerweise eine große Draht-Anbetung hat, dann weißt du, es ist irgendwie, du weißt schon, flak, wo das irgendwie aus weiß an der Box ist. Aber alle von ihnen haben, wissen Sie, hohe Spieler, also wissen wir wirklich nicht, was passiert. Sie sehen also, dies ist ein Beispiel, aber es gibt Ihnen nicht viel Vertrauen während des explodierten Reprozesses. Schau dir die Art aus dem Handwerk an und dann siehst du nicht wirklich zuversichtlich, dass ich in der Lage sein werde eine Art von guter Vorhersage zu machen, dass seit der Regierung nicht gerade und sagen, Hey, das ist wirklich gut. Es gibt keinen Weg zum Modellbauprozess, der ein großer Liefercharakter ist. Dann mache ich das Training und Testen Split die Musik erstellt eine Funktion, um die Trainingsdaten zu erstellen und Daten zu testen. Dann schauen Sie sich die Diamantchance jeder an. Wenn ich mit Variablen anfange, werden sie sich in diesem 3165135 Sex-Verhältnis aufteilen. Und sie, natürlich, haben die s und keine Teilung in gleichen Zahlen unter dieser Arbeit erstellt eine Partition. Am besten für Sie, wenn Sie mit dem Modellerstellungsprozess fortfahren. Es gibt eine Bibliothek, die für uns zufällig genannt wird. Nein, ich werde es benutzen. Und wenn Sie ihre Installation fehlen, die installierte Pakete auf Hat die Bibliothek nicht? Es gibt eine Funktionskultur, und für uns, die ich anrufen werde und es gibt keinen Wald wird mit What ist meine Zielvariable von all meiner Prädiktorvariablen aufgerufen . Warum also sagt dot bedeutet, dass es vorhergesagt wird, warum alles andere auf den Daten verwendet wird, die es verwenden wird , der Trainingsdatensatz ist, den das Training einen Freund gemacht hat und das Modell so herauskommt . Schauen wir uns an, wie das Modell aussieht. Also machen Sie ein Modell, und dann ist dies das Modell, das Sie hier sehen. Das erste, was natürlich, ist der Anruf, der hier gegeben wird. Dann schaut es an, welche Art von Burnham. Für uns ist es eine Regression der Klassifikation. Es ist eine Klassifikation. Zufällig für uns. Die Anzahl der Bäume, die es versucht hat, zu glauben, dass es behandelbar ist. 500 verschiedene Bäume, die Anzahl der Variablen, die in jedem Split-Historie verwendet werden. Was bedeutet, dass wir über die Verwendung einer Teilmenge von Spalten gesprochen haben und die Teilmenge aus stieg für jede Abhandlung. Die Rechnung eins, dieser jagt für jeden Baum hatte drei Säulen verwendet. Es gibt also völlig, was wir gesagt haben. Es gibt etwa acht Spalten oder so etwas. Entschuldigung. Es gab 12 Spalten auf den Spalten 2012 für jeden Split oder jeden Leckerbissen Build, den Sie im Baum verwendet haben . Dann gibt es mir, gibt Ihnen den Beispielfehler, der Sie versuchen, mit dem Modell vorherzusagen, auf dem es auf den gleichen Trainingsdaten gebaut hat . Es gibt mir den in Beispielfehler. Hübsch? Sie sehen, dass die meisten besonders der s-Teil nicht zu diesem ziemlich hohen Fehler im Beispielteil gehen . Hallo, Erin. Das Beispielteil bedeutet nicht, dass das Modell schlecht ist. Also wollen wir auch sehen, was das aus Musterbrief ist? Auch. Dann haben Sie diesen Befehl namens Wichtigkeit des Modells, was bedeutet, dass es mir die Wichtigkeit von den verschiedenen Variablen geben wird, die übergeben werden . Und hier gibt es Ihren Wert. Das sind also die verschiedenen Variablen, die ich die Prädiktorvariablen hatte, und hier ist ein Wert, den es seinem College Jeannie Wert auf je höher der Wert gibt, wichtiger ist, dass bestimmte Variable assoc Dauer der höchsten 1 bis 24 3 Tage ist nächste 52. Früher ist 28 Art von sieht OK. Dies ist, wie die Bedeutung der Märtyrer-Liste kommt dann zum Testen Teil, wo wir tun werden , und tun die Vorhersage Teil angeboten. Also werde ich diese Funktion aufrufen, vorhersagen, vorhersagen das Modell auf den Testdaten geben, und es kommt mit einem Vektor aus den tatsächlich vorhergesagten Werten und den besonderen Werten von nos und ja heraus. Und dann, natürlich, ich gehe und mache meine Verwirrungsmatrix auf dann sehen, wie die Ergebnisse aussehen, wie es kommt mit einer Genauigkeit von 0,89 80 Namen Person Genauigkeit, die sehr gut aussieht. Die großen zugeben, wenn es auch ein wenig mehr auf Inspektion Sehen Sie nicht, was passiert. Nase oben Es gibt Schauen Sie sich die meine Diagnose ist es 1168 weiß auf ja. Einmal gesagt, weiß ich, dass ich richtig vorhergesagt wurde. Nur 30 wissen nicht, dass sie falsch vorhergesagt werden. Aber wenn man sich die Jahre anschauen wollte 42% der s rep Reiter richtig auf 149 Jahre wurden falsch vorhergesagt. Also, obwohl die insgesamt aggressiv sieht gut, was Sie sehen, ist, dass die s nicht vorhergesagt wird. Dass eine gritty sie sind mehr Fehler bei der Vorhersage ja, nur 40 Tür richtig vorhergesagt ist der Rest der SS als nein vorhergesagt und warum dies geschieht . Warum würdest du eine hohe Genauigkeit sehen, wenn das mein Texas so schlecht aussieht, weil aus der unverhältnismäßigen Anzahl von s und Nase im In-? Der ursprüngliche Datensatz in den ursprünglichen Daten sagte, dass wir gesehen haben, dass wir auf die Spaltung im Test-Gate bei den Testdaten zurückgehen , die 1002 100 auf nur Hunderten von grundlegenden CSS weiß . Das ist sie sind die meisten Leno und 90 zu 10 Druck auf, wenn Sie diese Art von einem Verhältnis haben. Selbst im Trainingsdatensatz, was passieren wird, ist die modernistische neigen dazu, sich die sehr unverhältnismäßige Größe zu verneigen eso diesem Fall, das Modell X geheilt gesalzen das keine Teil In diesem Fall, da es eine sehr hohe Anzahl von weiß, es wird sich verzerren und beginnen, alles vorherzusagen, wie weiß, wann es sein kann. Ja. Das ist also ein Problem, das Sie haben werden, wenn Sie da sind In Ihren Daten hat die unverhältnismäßige Anzahl von diesen Klassen. Eine Möglichkeit für Sie, hier zu tun ist, wissen Sie, die Anzahl der Nase in den Trainingsdaten zu reduzieren sagte. Aber fühlen Sie sich im Begriff, das zu tun? Dann schauen Sie sich wirklich ein großes Angebot von Daten an, mit dem Sie beginnen. Das ist also eine Möglichkeit, die Sie hier tun können. Aber Sie sehen, die Spieße geschieht einfach, weil die Klassen, die Art Schlösser, Sie haben eine unverhältnismäßig. Als er sich die Ideen anschaute, sagten die Daten, dass die Klassen gleich waren. Das sind die Vesikuläre, die Virginia schlecht Einssein wollen, dass wir eins hier ist, wie Nacht ist wie neun ist 21 Also, deshalb haben Sie vielleicht diese Art von Problemen. Das ist also, wo Sie gehen. Probieren Sie verschiedene Dinge aus. Probieren Sie verschiedene andere Algorithmen aus, versuchen Sie, die Daten beim Abfüllen, Boosten zu filtern und zu sehen, was diese Art von Dingen hilft. Du machst sie. Es gibt noch ein Experiment, das wir sehen werden, nachdem wir diese Vorhersage gemacht haben, was ist? Wir sahen, dass es gebaut 500 Bäume, aber für den Bau jeden Baum, Es hat eine Menge Arbeit zu tun, weil es eine Rechnung Bäume finden hat. Aber die Frage ist, brauchst du wirklich Bäume finden? Wie kann ich das gleiche Maß an Genauigkeit mit vielleicht 100 100 Bäumen erhalten? 10 Bäume bekämpfen Bäume. So Teig, dass, weil es, die wieder auf den Datensatz abhängt. Du hast, Dennis, das ist wirklich gut. Sie haben nur dazu geführt, dass weniger Bäume benötigt werden. Aber sie sagten, dass er schlecht war. Sie brauchen mehr Anzahl von Bäumen. Also, Vater, was? Ich werde das tun. Ich werde so sein, als würde ich durch diese Schleife gehen, wo was ich tue, ist, dass ich die Werte durchlesen werde , die 50 wollten. Also werde ich Bäume von 1 bis 50 bauen und ich nenne das gleiche mit dem Zufallsprinzip für uns. Und ich habe diese Variable namens Eintrag übergeben , der mir sagt, wie viele Bäume und unveränderlich standardmäßig 500 ist. Aber ich sage nur, Tja, auf seine 1 bis 50 Uhr. Dann versuche ich für jeden Baum, der gebaut wird , die Genauigkeit zu finden. Also, was ich tun werde, ist, dass ich hier alles in einer Zeile mache, aber im Grunde dasselbe. Sowohl ein Märtyrer, der die Kreditfunktion verliert, dann nennen Sie die Verwirrungsmatrix. Und die Bestätigung meiner Taschen gibt mir tatsächlich ein Datenobjekt, das ich abfragen und die Gesamtgenauigkeit finden kann , was ich hier aufnehme und es dann zu diesem speziellen Vektorauto Oculus e. Ich will das tun. Ich werde nur die Genauigkeit planen. Also werde ich die drei Spare auf der X-Achse auf der Genauigkeit auf der Y-Achse plotten wie Sie sehen, wie die Genauigkeit an den drei Standorten steigt auch steigt. Also, was Sie hier sehen, ist, dass vielleicht die drei Seiten von ST zu mit niedrig drei so niedrig ist. Aber Omurbek, wie vier, es beefs sofort nahm etwas wie, Sie wissen, 0,89 als 90 und dann gibt gehen irgendwo so. Aber denken Sie auch daran, dass dies eine unverhältnismäßige Anzahl von Klassen hat, so dass auch diese Gesamtborsten beeinflussen könnte. Das ist also eine Möglichkeit. Aber wann immer Sie verwenden, fand sie für uns. Es ist gut, diese Art von Übung zu tun, um herauszufinden, wie viele Bäume Sie wirklich bauen müssen , weil es keinen Sinn, Feuer unter Bäumen zu bauen, wenn alle in einem Tag genug Ländern oder sogar 50 Bäume, um gute Vorhersagen zu machen, weil jeder Baum wird Sie mehr Ressourcen in Bezug auf CPU und Speicher kosten. Dies ist also ein Blick auf zufällige Wälder. Ich weiß, für uns ist eine ziemlich große Angelegenheit, wenn Sie niedrige Prädiktoren und so haben, aber dann achten Sie auf die Menge an Zeit, die es um diese Algorithmen braucht. Andi, der beste Weg, das zu kontrollieren. Wie Sie wissen, finden Sie heraus, welche Anzahl von Bäumen uni wirklich, wirklich haben. Der Build für den angegebenen Datensatz und das angegebene Modell. Vielen Dank 13. K bedeutet Clustering: Hi. In diesem Vortrag würden wir uns ansehen, was wir nennen, da k Clustering bedeutet. Clustering ist also eine unbeaufsichtigte Missionslerntechnik, bei der das Ziel Clustering darin besteht, Gruppendaten zu hosten. So kam es in Clustering die beliebte Methode der Gruppierung von Daten in Substanz. So können Sie einige Daten in Gruppen von drei Gruppen gruppieren sind Sets aus vier. Basierend auf der Ähnlichkeit zwischen den Daten, wie wissen Sie, die Ähnlichkeit zwischen der Rada ist im Grunde durch die Ähnlichkeit aus den Variablen. Es gibt also keine anderen Prädiktor- und Zielvariablen hier. Alles, was Sie als Bruch ihrer Variablen betrachten können, auf die wir in ähnlicher Weise aussehen, zwischen den Werten der Prädiktorvariablen darauf hingewiesen, dass meine, wie diese Gruppen gezüchtet werden sollten . Also in Edo kam in Clustering. Angenommen, Sie haben in Beobachtungen sind in Ihren Daten gestiegen und unveränderliche Zoran kam Spalten Neue Daten sagten, Sie haben sie nicht in K-Cluster gruppiert. Wie wachsen Sie sie zu K-Clustern, ist, dass Sie so gruppieren, dass jede Beobachtung oder jede Zeile schließlich in den einen und einzigen Cluster gesetzt wird. Also, wenn Sie auf jeder Rolle gestiegen zu sagen, stellt einen Kunden und dann kam Euro in Gewahrsam. Sie gehen und erstellen K-Cluster und K kann wie fünf oder sechs oder was auch immer Wert sein, und Sie am Ende erstellen, dass viele Anzahl von Clustern und jede Zeile sind jeder Kunde ist Aufstieg ein ein und nur ein Cluster und das heißt K bedeutet Clustering. Wie würde Brooks so in,wissen Sie, wissen Sie, kam in Stress, Sie kümmerten sich um einen M-dimensionalen Raum. Also M ist die Zahl aus Variablen Spalten sind. Sie haben die Ukraine einen M-dimensionalen Raum und zeichnen alle in diesem Raum basierend auf den Werten aus der Variablen. Also bluten Sie jeden Punkt in diesem Raum und dann tun Sie Clustering, indem Sie Wasser genannt uns Distanzmessungen zwischen den Punkten. In diesem n dimensionalen Raum messen Sie also den Abstand zwischen den einzelnen Punkten auf und verwenden dann diesen Abstand, um die Daten zu gruppieren. Im nächsten Leben werden Sie sehen, wie genau kam in ekelhaft ist mit einem Beispiel meine Leute getan , die Arten von Entfernung meine Aktien sind verfügbar und wissen, wie Sie den Abstand zwischen Punkt A berechnen und Punkt B Und einige Beispiele sind die euklidische Entfernung. Euklidische Entfernung ist, die Entfernung zu finden, wie gefragt, die Krähe fliegt. Aber da Manhattan Distanz in meinem Schuppen ist, ist es wie eine Schritt-für-Schritt-Art von Distanz, und es gibt auch eine Reihe von anderen Distanzmaßnahmen zur Verfügung. Aber die am häufigsten verwendete Maßnahme ist die euklidische Entfernung. Es ist genau so, als würde man eine gerade Linie zwischen zwei Punkten ausprobieren und damit den Abstand zwischen den Punkten messen . Souders Clustering-Arbeit. Also lassen Sie uns gehen, um sie Schritt für Schritt zu schleppen. Die erste Stufe Luft ist auf getan. Wenn Sie sich den ersten Block ansehen, nehmen wir an, dass die Daten gesagt werden. Wir sprechen darüber, es hat nur zwei Spalten, so ist es ein zweidimensionaler Raum einfach für Sie zu visualisieren. Dort haben wir nur einen zweidimensionalen Raum in Betracht gezogen. Es gibt also nur zwei Variablen in dieser speziellen Sache. Ich habe eine X-Achse und die Y-Achse an. Ich begrüße nur die Punkte hier. Angenommen, das vielleicht, wie nur Alter und Gewicht auf. Vielleicht, dass ich jeden Patienten, den ich habe, basierend auf ihrem Alter und Gewicht in jedem dieser Punkte. Alle grünen Punkte hier repräsentieren einen Patienten, und das ist so, dass sie applaudierten. Jetzt möchte ich diese Daten im Schlepptau Zwei Cluster gruppieren, damit ich eine beliebige Anzahl von Clustern auswählen kann, die ich dafür möchte. Aber in diesem speziellen Beispiel werde ich mich nur für Cluster entscheiden. Also werde ich nur ein Jahr niedriger Klasse sinken, und dann werde ich anfangen zu blockieren. Also, wie starte ich ein Clustering Die erste. Die erste Stufe, die ich mache, ist, dass ich einfach zufällig Punkte wähle. Ich nenne sie schickte Drogen. Aber das erste Mal, wenn ich den Zentrist wähle, benutze ich sie einfach zufällig. Also habe ich einfach zwei Punkte irgendwo in diesem speziellen Diagramm. Ich wähle nur , diese beiden Punkte hier, aber ich kann überall wählen, wo ich will und die Algorithmen typisch Juden. Was zum Zufallsprinzip? Ein Punkt ist, sobald ich einen Punkt gewählt habe, war das nächste, was ich tue, dass ich den Abstand von jedem Punkt Zehe gemessen habe, den jeder Zentriker, der diesen bestimmten Punkt einnehmen sollte . Ich misse den Abstand zwischen diesem Punkt und Dissens, Troy. Und dann wieder, dieser Teil in diesem zentralen für jeden Punkt, werde ich diesen Prozess wiederholen, um zu finden, dass es zwischen jedem Punkt und isst und Stamm absteigt . Was soll ich dann tun? Ich Assane jeden Punkt auf die neuen Verhaftungen und versuchen, eine vernünftige jeden Punkt zum nächsten zentral. Also am Ende dieser Aufgabe ist jeder Punkt ein Heiliger, ein Satz, du weißt schon, Punkte. Diese speziellen blauen Punkte werden also gesendet, dass diese zentrale und dann die roten Punkte an entfernte Try Now gesendet werden. Dies wird zu Ihren Clustern für etwa eine aus Clustering. So Klassenring passiert in vielen Runden. Die erste Clusterrunde Dies sind Sie Cluster. So haben Sie die roten Punkte weit für die Bildung direkter Cluster und die blauen Punkte, die den blauen Cluster bilden . Also, das ist um eins jetzt, was machst du in braun, wenn du die Cluster gebildet hast? Nein. Suchen Sie das Zentrum jedes Clusters oder der Mitte direkt neben jedem der Cluster. Wie der Weg das Zentrum richtig finden ist, finde ich einen Punkt innerhalb des Clusters so , dass der Abstand von jedem der Punkte innerhalb des Clusterzehen, den das Zentrum Roy zum Mittelpunkt neigt , minimal ist. Derselbe Stamm hat so angerufen, dass die Entfernung. Aber jeder Punkt im Cluster zum Mittelpunkt zu sein, ist das Minimum. Also in Bezug auf es ist, dass Sie versuchen, das wahre Zentrum von dieser bestimmten Gruppe von Punkten zu finden . Also, wenn ich das wahre Zentrum von diesem bestimmten Satz von Punkten finde, lande ich hier die Nachrichten und versuche es. Also sind die Sentras tatsächlich von diesem ursprünglichen Ort umgezogen. Machen Sie den neuen Standort. Jetzt sehen Sie, dass dies die Zentristen sind. Weißt du, was jetzt passiert? Wir gehen und wiederholen den Prozess. Ich wiederhole den Prozess der Suche nach dem Abstand zwischen jedem Punkt Zehe einander zentral. Also wiederhole ich den Prozess, jeden Punkt jedes der zentralen Rechte zu finden und dann jeden Punkt auf die nächste zentrale zuweisen . Nun, wenn ich das noch einmal mache, was passieren wird, ist, dass einige der Punkte sich zwischen Clustern bewegen. Zum Beispiel, dieser blaue Punkt hier sind Sie spät gehörte zum blauen Cluster, jetzt würde in den roten Cluster verschoben werden. Ähnlich, einige Punkte, die ich in der roten Cluster hören haben keine blauen Cluster in der Mitte rechts bewegt den Dissens zwischen den Punkten und dem zentralen Austausch als Ergebnis, einige Punkte bewegen würde in einem Cluster zum anderen sein. Nein, ich habe einen neuen Cluster aufgestellt. Und für diesen neuen Cluster, was mache ich noch einmal? Gehen Sie und suchen Sie New Central. Es ist wieder auf, versuchen, die Entfernung Michelle zu finden und wieder versuchen, Aufstiegspunkte wieder. Also gibt es dieses besondere Ding, um Abstand zwischen dem Punkt und dem Duft zu finden, schreibt die Suche nach einem neuen Cluster auf. Dann das Zentrum außerhalb des Clusters zu finden, wiederholt sich immer wieder. Und dieser Prozess geht weiter für in Iterationen. Und wann hört diese Iteration auf? Dann bewegt sich dieser Punkt nicht mehr zwischen Clustern. Es hört auf, wenn das zentrale stabil geworden ist. Sie bewegen sich nicht mehr und dann bewegen sich die Punkte nicht zwischen den Clustern. Es tut diesen Ort, an dem der Clustering-Prozess zum Stillstand gekommen ist, und das ist, wo Sie die echten Cluster bekommen. In diesem Fall sind die Punkte wirklich nicht auseinander verteilt. In ein paar Iterationen haben Sie also in das Endergebnis gelangt, dass die Leitkurse und die Punkte manchmal wissen Sie, wenn die Punkte sich alle miteinander vermischen, kann es viel mehr Iterationen dauern. Bevor Sie am Ende mit den echten Thrustern kommen, gehen nicht alle Clustering-Algorithmen typischerweise bis zum Ende. Sie würden in der Regel nach einigen X Anzahl von Iterationen stoppen. Sie haben einige interne Maßnahmen, durch die sie herausfinden, wann der Clustering-Prozess ist irgendwie optimal abgeschlossen sind. Und dann hielten sie an diesem Punkt an. Aber das ist der grundlegende Mechanismus, in dem Spiel in Clustering funktioniert, finden Sie die Mitte rechts, aufsteigende Teile der zentralen rechten und dann kein Bereich senden sie. Und dieser Prozess geht weiter. Das ist also Ihr Clustering-Prozess. Wie kam es in Clustering-Bücher? Vorteile von K bedeutet also Clustering. Kompakt? Oh, es gibt andere Arten von Clustering, wie hierarchisches Clustering. Es gibt andere Varianten von K bedeutet, dass Clustering verfügbar ist, aber viele von ihnen arbeiten normalerweise mit. Weißt du, die gleichen Konzepte. Was sind die Vorteile von K bedeutet Clustering ist, dass es schnell ist. Es ist eine Vision für eine große Anzahl von Variablen Luft Okay, es kann auch sein, wenn es 20 oder 30 Variablen und Bereich kam in Clustering kann gut funktionieren . Es ist erklärbar. Sie könnten Ergebnis, erklärt, warum es Punkte der Zustimmung zu diesen Clustern in der Regel basiert. Und ich bin ziemlich leicht erklärbar. Mängel ist, dass Sie wissen müssen. Okay, ein Freund. Wenn wir also eine Gruppe von Daten haben, wie lesen Sie sie? Der Verstand, wenn die hübsche blieb die Anzahl der Wert von K. Woher wissen Sie, dass diese bestimmte Gruppe Daten sagte, ich habe tatsächlich drei logische Gruppierungen von biologischen Gruppierungen von vier logischen Gruppierungen? Ich weiß nicht, dass unser Freund. Du musst es also wissen. Ok. Vorher für Sie. Dodo kam in Clustering. Eine Möglichkeit, dies zu überwinden, besteht darin, Clustering für alle Arten von Werten durchzuführen. Wie nehmen Sie den gleichen Satz von Dando 23456 Art von Clustern auf Sind Sie nicht, dass Sie versuchen etwas zu finden, das uns genannt wird? Du kennst die Distanz. Das, was die Trennung zwischen den Clustern genannt wird, die durch die einige off Squires Art off Logik gemessen wird. Sie würden sehen, dass, wenn wir das Beispiel tun, der Anwendungsfall für kam in der Strukturierung. Du tust das immer wieder und dann ziehst du Wasser nannte uns eine Kurve dafür. Fragen Sie ein paar von Squires an. Wo immer es in mir in der Kurve ist sehr gut ein Verstand, dass bestimmte Clustering abgeschlossen ist . Wir werden dieses Beispiel sehen, wenn wir uns den Anwendungsfall anschauen, wie ich mich im Cluster finden kann. Die anfänglich gesendete richtige Position hat Einfluss auf die tatsächlich gebildeten Cluster. Wissen Sie, wo immer Sie diese Darts setzen, ein Freund, manchmal tun sie frei in der tatsächlichen Größe und Form des Schiffes der Station. Manchmal, was passiert, ist, wenn die Punkte sind, die die sieben Schuhe beginnen und versucht, eine andere Position beginnen. Der Punkt bedeutete tatsächlich am Ende in verschiedenen Clustern. Die Initialen haben also einen Einfluss auf die gebildeten Cluster. Das ist also ein Schuss, der kommt. Es gibt andere Clustering-Ausstrahlung, die diese Art eines Mangels an, aber behauptet, Clustering von vorher bezieht sich viel auf diese anfängliche zentrale. Wenn die Eltern zu nahe beieinander sind, dann wird die Einheitsklassen Form von den Initialen beeinflusst und versucht, die verwendet wird. Es wird in der vorläufigen Datengruppierung dort oben verwendet. Viele Male, benutzerdefinierte kann wie eine vorläufige Gruppierung der Rate verwendet werden, die ich zuerst Gruppe, dass sie sterben drei oder vier Cluster und dann beginnen, Mission Learning oder einzelne Cluster und sehen wie sie sich verhalten. Manchmal wird es wie eine vorläufige Clustering-Technik verwendet. Es wurde für die sanfte Gruppierung von Daten wie jede Art von Daten verwendet, wie Dokumente Gruppierung, Suche nach Gruppen von Dokumenten und solchen Sachen. Gruppen von Website-Suchen, Suchtext, Dinge wie diese. Es wurde auch für geografische Clustering verwendet, wo Sie die lange Länge haben und wie, dass Sie die Builds fragen und dann verwenden, um logische Gruppierungen von Daten zu finden, so dass Sie einige wahre Zentren und wahre Gruppen von Daten in der Job Graphic eingerichtet. Es gibt also einen weiteren Missbrauch von Gaming-Clustering. 14. R Use Case : K bedeutet Clustering: Hallo. In diesem Vortrag werden wir uns ansehen, wie wir gehen können. K bedeutet Clustering. Andi kam in der Strukturierung. Wir wählen ein Beispiel für automatische Daten. Wir versuchen, das Beispiel besonders einfach zu halten, damit Sie leicht verstehen und visualisieren können, wie dieser Clustering-Mechanismus genau funktioniert. In diesem Anwendungsfall enthalten die Importdaten Autos, Informationen über Autos auf einige technische und Preisinformationen über sie. Das Ziel dieses Problems ist es, sie in vier Cluster in den vierten logischen Gruppen zu gruppieren . Basierend auf diesen Attributen sind die wichtigsten Techniken, die wir hier verwenden werden, k bedeutet Clustering und Zentrierung und Skalierung. Wir beginnen mit der Data Engineering Analyse. Wir beginnen mit dem Laden und Verständnis der Daten sicher. Also sagten wir, das Arbeitsverzeichnis auf wir laden diese Kunst oder Daten nicht sehen uns, wir Datei aus dem Ressourcenpaket auf. Schauen wir uns an, wie diese Attribute für diesen Datensatz aussehen. Wir beginnen mit der Marke aus dem spezifischen Auto, die Kraftstoffart, die Aspiration, ob es Standard sind Turbo, die Anzahl der Türen, die Karosserie, die für Tür zu Tür umwandelbar ist, die Art der Dr Allradantrieb für freundliches Gewehr wird unsere Luft fahren Will fährt Dinge wie das. Die Anzahl der Zylinder, harsh power rpm, mein Sporn Stadt mpg für Stadt mpg für Autobahn auf den Preis, wir werden diese Daten aus Gruppe die Autos in vier Cluster verwenden und dann werden wir sehen, wie es eine Mine? Die ideale Zahl von Clustern, um so wieder einen Blick auf den jemand der Daten zu werfen, sehen Sie? Okay, der Typ des Brennstoffs. Weißt du, alle sehen ziemlich gut aus. Sie können auf jeden Fall einen Blick auf diesen Datensatz werfen und sogar andere Algorithmen für diesen Datensatz ausprobieren Kopf aus den Daten zeigt Ihnen die wie die Tochter Es sieht so aus, als ob es hier keine Reinigungsanforderungen zu geben schien. Eines der ersten Dinge, die Clustering-Anforderungen sind, ist, dass das Clustering alle numerischen Werte im gleichen Bereich befinden muss . Andere Möglichkeiten, wie Clustering ist ein Clustering basiert auf entfernten Maßnahmen auf für diese Zehe passieren. All die numerischen Daten, die Sie in diesen Daten sehen, sagte, was Dinge wie die PS rpm, mein Bein pro Stadt Kilometerstand pro Gallone Autobahn auf Preis, sie alle sollten im gleichen Bereich sein. Sie sehen, dass unser Sport zwischen 48 Toast ist zu tun. Unsere PM ist in den 4000 bis 6000 Bereich Preise. Jemand, den Sie kennen, im Bereich 50.000. Wir müssen sie alle dazu bringen, in den gleichen Bereich zu gehen. Was machst du? Das heißt, Wir tun Zentrierung und Skalierung. Also für die Zentrierung und Skalierung, gibt es eine Angelegenheit, die verfügbar ist Anrufskala. Also vorbei an diesen numerischen Variablen, die die Spalten 8 bis 12 Toe sind, auf denen der Zustand ist. Dann erhalten Sie eine Skalennummer, verwenden Sie dann die Skala. , aber um die ursprünglichen Spalten zu ersetzen 8 12 Wer ist die Autodata? Komm schon. 8 12 Ersetzen Sie das Original später durch den Skalierungswert. Und jetzt schauen wir uns die Zusammenfassungen an und sehen, wie die Zusammenfassungen wie die PS Drehzahl aussahen. Alle von ihnen sind zwischen einigen. Richtig, aber von minus bis plus drei Bereich, können Sie das minus 40,0 minus 2 bis 3 sehen. Der Preis ist auf minus eins gesunken. Bevor Sie sehen, dass die Skalierung passiert ist. Skate, Senden und Skilling hat sie alle so weit wie die gleiche Brücke gebracht. Also das sind die Daten, die Sie haben und dann, was Sie tun werden nervös Machen Sie einige explorative Datenanalyse zu sehen, Sie wissen, es gibt unsere Spieler gibt jede Art von Fehlern, die gibt es die Daten? Also werden wir die Anzahl der Box-Plots machen. In der Regel werden wir Box-Plots für jeden Wert machen, der da ist. Das ist nicht, dass wir hier nichts vorhersagen werden. Es gibt keine Prädiktorvariablen. Wir versuchen nur zu sehen, welche Art von Wertebereich für jede der Daten haben würde . Auch, HB rpm, meine Sporen, Avellan City, mpg Autobahn und der Preis Wie die Rangers können sich jetzt vorstellen, dass, da wir zentriert und skalieren alle von ihnen, wir können sie tatsächlich Seite setzen Basis und tatsächlich schauen, wie sie Art der Skalierung, weil sie alle jetzt in der gleichen Skala Ring sind. So sehen Sie, dass, wie hart Macht muss aber alle von ihnen sind in der Box Teil Art aus suchen. ich nicht in allen von ihnen aus Spieler in Preisen verbreiten. Viele unserer Spieler, tatsächlich in Preisen. Vielleicht gibt es einige kostspielige Modelle drin, , und wir wählten unstreitbar mehr aus Schichten Es ist in. Es gibt viele. Eigentlich könnten wir vielleicht die Wachstumssache. Was wir hier tun wollen, ist, dass wir versuchen, sie in Cluster zu gruppieren. Aber wenn Sie Clustering tun, wie Clears kann ein Problem zu schaffen, weil unsere Spieler irgendwo weit weg am Tag beginnen, ihre eigenen kleinen Cluster, ihre Liebe zu bilden . Das wird es sein. Wenn ich versuche, vier Cluster zu machen. Es gibt eine möglicherweise diese out Ebenen beeinflussen Sie, die eine dunkle irgendwo weit weg ist, magisch erstellen Sie seinen eigenen Cluster auf. Nehmen Sie den Rest der Cluster-Studienpunkte, um zu beginnen. Die Punkte erhalten nur dann drei Cluster, um sich selbst zu gruppieren. Diese Art von allen Klassen könnte also das Clustering-Problem nachteilig sein. Aber da wir so viele Spieler haben, sehen Sie, dass viele von ihnen da sind. Es ist okay für uns, ihre Spieler zu behalten und zu sehen, wie das Clustering herauskommt. Wenn Sie tatsächlich am Ende sehen, dass das Clustering mit anderen Worten nicht so gut ist. Wenn Sie diese Cluster erstellen, betrachten wir die Anzahl der Mitglieder in jedem der Cluster, die herauskommen. Wenn Sie ein oder zwei sehen, haben Klassen nur sehr, sehr wenige Cluster. Vielleicht liegt das vielleicht an unseren Spielern. Dann möchten Sie vielleicht zu Ihren Daten zurückkehren und ihre Spieler bereinigen und erneut versuchen, Clustering zu versuchen , wenn all diese maschinellen Lernalgorithmen ausprobiert werden. Eine andere Art von Sache. Du bist das Ich zu spät, indem du Modifikationen machst, um zu sehen, welche du das Beste rauskriegen wirst . Gehen wir zu den eigentlichen Flut-Gebäuden. Fasten, das ich tun werde, ist nur so, dass es für uns leicht ist, in einer zweidimensionalen Handlung zu visualisieren . Lassen Sie uns versuchen, diese Cluster mit nur zwei Variablen zu bauen. Also nur für visuelle isierung, sic in der Arktis deutlich sehen diese Punkte auf einem schönen, um Blut zu demonstrieren. Ich werde deine sprechenden 100 Samples sein, nur um wirklich sowohl die harte Leistung als auch den Preis zu schaffen, um vier Cluster zu erstellen, nur damit du das Schnell kennst, einen Blick werfen und sehen, wie genau das Clustering funktioniert und wie es aussieht wie die einzigen 100 Proben auf nur PS und Preis. Also habe ich die Bibliothek namens Klasse verwendet. Die Klassenbibliothek hat eine Funktion für K bedeutet Clustering in der Caymans-Clustering ist es wichtig, Ihren zufälligen Sitz einzustellen. Also die Ausgangsposition von den Clustern, der Initiativteil der Klassen Weg sprach eine Grenze während der Vorlesung dort zufällig gewählt. Also die Zufallszahl verwendet es einen Zufallszahlengenerator im Grunde die Systeme Zufallszahlengenerator , um eine Zufallszahl auszuwählen und diese Cluster gekühlt. Wenn Sie also wiederholbare Ergebnisse wünschen , also jedes Mal, wenn Sie dieses Gericht ausführen, möchten Sie mit der gleichen Art von Clustern enden. Dann sagten Sie die Samen explizit, so dass diese ernsthafte immer Zehenschuhe verwendet, die Initialen und versuchen Positionen auf dann diese Initialen und versuchte Positionen. Sobald sie gleich sind, wird dieser Mining-Clustering-Prozess auch der gleiche sein. Es gibt Chancen, wenn das Meer nicht zu gehen, können Sie das versuchen. Außerdem ändert es tatsächlich die Initialen und versuchte Position, die tatsächlich die tatsächlichen Gruppen von Cluster beeinflussen könnte , dass eine Farm, wenn der Tag, der sich nicht trennt, dass sehr gut intern logische Gruppen. Es ist also immer gut, den Samen einen Freund einer bestimmten Zahl zu setzen, so dass die Initialen und die versuchten Positionen immer gleich sind. Und wir werden wählen und Teilmenge der Daten, die die 1. 100 Zeilen und Spalten aßen und gespielt kommen gut auf. Dann werden wir nur sagen, die A k bedeutet auf diese Daten und erstellen vier Cluster sehr einfach. Und dann sagst du Cluster an. Dies wird Ihnen die tatsächlichen Informationen über die Clusterform geben, daher bedeutet K Clustering. Dies gibt Ihnen tatsächlich das Vertrauen des Flughafens mit vier Clustern der Größen 14 45 28 13. Ja, es gibt vier Cluster mit jeder dieser Größen gefunden, was ziemlich in Ordnung ist, und alle Klassen haben einige gute große Mitglieder. Wenn eine Klasse wie ein Mitglied ist, fragen Sie sich vielleicht, warum das ein Ausreißer irgendwo draußen ist, der Ihren Clustering-Prozess beeinflusst. Das ist 14 15 28 30 und sieht gut aus. Das Clustering bedeutet, dass dies die Mittel der Barriere des Clusters sind. Gesendete Rechte sind Art von Blick, es ist eigentlich Augusta geschickt rechts diese Punkte, die Sie hier sehen, sind die Mittelpunkte von Ihren Clustern und dann gibt es Ihnen den Clustering-Sieger , der für jeden der 100 Datensätze ist. Da drin. Sie sagen Ihnen, welcher Cluster dieser Datensatz zum Krankenhaus gehört. Ein Gefäß schneller. Gott gehört zum zweiten Cluster. Kendrick sind blockiert. Der erste Cluster Terror, Zimmerei, der zweite Cluster. Also gibt es nur. Du hast das geschickt, stolz darauf zu gehören. Und dann kommst du zu Fuß und tust, was man uns nennt, die Summe der Quadrate von Clustern. So kommt es mit einem Bauernhof lokal zwischen einigen nicht von der Gesamtsumme der Quadrate gesquired. Was das bedeutet, ist nur zu zeigen, wie viel es Ihnen sagt, wie viel Koalition es innerhalb des Clusters gibt . Mit anderen Worten, Sie wollen viel Kohäsion innerhalb des Clusters und sehr weniger Kohäsion zwischen Clustern zu wiederholen, Sie brauchen viel Koalition innerhalb eines Clusters auf sehr weniger Kohäsion zwischen den Clustern auf dem besten Weg zu Maßnahmen ist diese landwirtschaftliche Gesetz, das kommt mit der Zahl war ein Prozentsatz. Je höher die Person Tage, desto besser ist der Clustering-Prozess. Das ist also eine Farm erlauben. Ich will nicht tief in das hineinkommen. Aber was Sie wissen müssen, ist im Grunde, dieser Wert ist ein Bereich zwischen 100 und je höher der Wert, desto besser ist der Clustering-Prozess oder 87 ist wirklich ziemlich guter Wert. Also, jetzt, wo wir nur auf zwei Variablen gruppiert Ah, lassen Sie uns versuchen, weiterzumachen, geplottet und sehen, wie es aussieht, so werde ich die Luke auf der x-Achse der Preis auf der Y-Achse auf. Ich werde jeden Punkt mit der Art des Clusters mit dem Cluster färben, auf dem Columba gefunden wird , auf dem ich nur den Punkt des Punkttyps verwende, ist ein dunkler Und dann sage ich, dass die Größe des Punktes zu und dann zu dieser Handlung füge ich den Cluster hinzu zentriert auf als lila. Also, was Sie hier sehen, ist OK. Das Haus hat Jahr die Preise hier auf dann die Cluster veröffentlicht. Jeder Cluster ist Farbe anders in der zentralen, dass Cluster all dieser Dreiecke, die Sie dort sehen. Das sind also die Cluster-Form, Sie können sehen, dass es sich schön in vier Sätze gruppiert hat. Das ist also Clustering erklärt, aber nur zwei Variablen für Sie. Nein, lassen Sie uns gehen und tun das Clustering für alle Daten auf für Clustering mit allen Daten. Welches Clustering benötigt nur numerische Daten. Was ich also tun werde, ist für die 1. 8 Spalten, ich werde sie in numerische Variablen umwandeln. jedoch Konvertieren Siejedochin numerische Variablen, schlagen vor, dass ich diese Variable durchlaufen werde. Ich will acht und dann sagen, Auto hat ausgeschaltet. Ich rief als numerische Reihenfolge Daten aus, also werde ich jeden von ihnen in eine numerische Daten lesen auf dann. Nun, die Art, wie jemand dieser Daten jemand von diesen Daten, die Sie sehen, dass alles eingeben kann, wurde in eine zahlreiche gleiche int umgewandelt. Also, wo es Text-Off-Faktoren gibt, wird es in seine I-d-Form umgewandelt. Wissen Sie, ich d haben wir diese Idee im Namenskonzept? Das wandelte sich also in den neunziger Jahren. Alles ist jetzt welche Nummer? Sobald Sie alles bekommen, tun Sie diese Nummer. Ehemalige. Jetzt gehen Sie und Clustering auf den Rest der Daten. Also tun Sie okay. Minuten Clustering auf Bestelldaten an jeder Tür auf. Okay, ich wähle hier nur die aus fünf Spalten dort die 7 bis 12 jemand zu 12 Variable dort drin , um die Variablen zu begrenzen, die Sie tatsächlich für alle gesammelt haben könnten. Aber in diesem Beispiel konzentrieren Sie sich nur auf die 7 bis 12 Spalten nur auf sie, die Cluster aus erstellen. Also das gibt mir wieder Cluster und die Cluster und versucht erneut ,da Sie hier wie 12345 Variablen hier drin haben , . Es gibt also eine fünfdimensionale Sache, die auf dem Cluster kommt, die geschickt schreibt, da draußen über die Laune ist nicht so gut auf 60% ist immer noch irgendwie gut und okay, das ist die Art von Vertrauen, wie es für mich tut. Das sind also unsere Kaimane. Clustering funktioniert. Sie können eine andere Größe und verschiedene Variablen ausprobieren und sehen, wie eindeutig mit dem Vertrauensproblem für sie halten wird . Eine der größten Herausforderungen bei der Gaming Strukturierung ist herauszufinden, wie viele Cluster habe ich wirklich in den Daten, die ich habe? Ist es voll in diesem Zelt? Ist es 10? Ist es nur, wie maney logische Cluster das tut Diese Daten wuchs tatsächlich pinto und Sie da Spiel statt String ein Prozess ist, bei dem Sie die Anzahl der Cluster als vorherige Eingabe angeben müssen . Es ist schwierig für dich, das zu finden. Die einzige Möglichkeit, das herauszufinden, besteht darin, den Clustering-Prozess mit vielen Nummern außerhalb des Clusters mit einem anderen Clusterwert auszuführen . Also versuchen Sie Cluster ein Cluster zwei Klassen, drei Cluster für und dann tun Sie, was genannt wird, wie Sie sich diese Summe der Quadrate Wert auf es gibt etwas genannt uns und treffen, dass es zu nehmen hat. Also, was braucht das? Fragen? Nimm. Werfen wir einen Blick auf das Ich. Also habe ich diese Funktion. Was Dysfunktion im Grunde tun wird, ist, dass es wird Zehe Tran kam in Clustering für Sie wissen, dass dieser zu Ende. Also 1 bis 15 wird überall versuchen, den ganzen Weg von einem Cluster zu 15 Tester eins nach dem anderen auf jedes Mal, wenn es diesen Clustering-Prozess macht , wird es kommen finden, dieses Wasser wird die Schwindel aus dem Cluster genannt, die ein Teil ist aus dem Clustering-Prozess. Also geht es um die Pflicht Clustering und bekommen dies in uns Wert darauf, es wird dies in seinem Wert gegen die Anzahl der Cluster zu plotten . Also, was passiert? Nein. Also hier sehen Sie die Anzahl der Cluster hier und dann, wenn ich es tue, kam mein Clustering auf. Ich bekomme den Zeugenwert vom Cluster-Objekt und ich plodite ihn hier. Dieser Graph sieht normalerweise so aus, aber benutze einfach entweder Es beginnt das innerhalb seines Wertes von wo sehr höher als dann gerade eines Geistes wirklich nicht Und dann irgendwo braucht es ein Knie. Es dreht sich also irgendwo von Süden zum besten. Das ist also, wo wir uns nennen. Irgendwelche. So schien es genommen zu haben und mich auf diesen Wert von drei. Also, was das bedeutet, ist, wo immer es zu mir führt. Also was? Was sagt uns diese Art von sagen? Wenn Sie die Anzahl der Cluster zuerst erhöhen, beginnt es immer mehr logische Gruppierung. Also in uns wird anfangen, drastisch fallen zu lassen, sobald es diese logische Gruppierung erreicht hat. Danach erstellen Sie nur künstliche Splits. Und das ändert das zwischen uns nicht so sehr. Sie sind dis Handel künstliche Verbreitung, Also, wenn Sie auf Jahr schauen, bis der Wert von drei Tropfen wirklich glatt, wirklich groß. Und dann hier dauert es und ich bin Schweine geht nach Osten, also von Süden und geht nach Osten. Dies ist der Punkt, an dem danach jede andere neue Costa, die geschaffen wurde, optimistischere Cluster sind . Was nützt Gerechtigkeit? Drei ist die ideale Anzahl von Clustern. Drei ist die optimale logische Anzahl von Clustern, die dieser Datensatz hat. So finden Sie die logische sind optimale Anzahl von Clustern in einem bestimmten Datensatz. Das ist also unser kam in Clustering-Arbeiten. Es ist sehr mächtig für jede Art von Gruppierung, die Sie gruppieren können, wie unsere Dokumente können Sie Kunden basierend auf ihren Attributen gruppieren, ist ein Financer hat eine Vielzahl von Funktionen auf, wie Sie sehen, dass so sehr einfache Funktionen Das macht seine Verwendung sehr, sehr einfach und einfach. Vielen Dank 15. Verbandsregeln Mining: Hallo. In diesem Vortrag werden Sie auf das, was wir nennen uns Association sabbert Bergbau, die eine beliebte Clustering-Techniken in der Regel in einer Menge außerhalb des Einzelhandelsgeschäfts verwendet. Also, was ist Assoziation Puppen? Bergbau in Verein Hat Bergbau? Sie versuchen, Dinge zu finden, die typischerweise zusammen vorkommen. Es gibt einen Satz Elemente bei einer Reihe von Dingen, die in der Regel zusammen auftreten. Sie versuchen, die Dinge zu finden, die am häufigsten zusammen aufgetreten sind. Zum Beispiel, in einem Supermarkt Sie versuchen, Artikel zu finden, sind Lebensmittel, die häufig zusammen gekauft werden , wie Milch und Eier, Brot und Käse, oder Brot und Marmelade, Dinge die sehr häufig zusammen gekauft haben. Warum willst du sie finden? Der Supermarkt möchte vielleicht die zusammen gekauften Artikel in der Regel zusammen lagern , so dass, wenn jemand etwas kauft, es für sie leicht ist, andere Dinge zu kaufen, die sie auch kaufen wollen. Es wird auch verwendet, um betrügerische Transaktionen zu finden. Also was? Warum haben wir dich verschwendet? So zu finden fruchtbar und Transaktionen ist, dass es bestimmte Muster, die betrügerische Transaktion auftreten . Angenommen, ich habe wie 50 Variablen über Transaktionen werden Kartentransaktionen erstellt, die geschieht, betrügerische Transaktionen haben in der Regel ein Muster, dass es Dinge wie ihr Alter gibt . So und so und dann kennen Sie den Ort unverschämt oder in der Tageszeit und so weiter. So Dinge, die häufig zusammen auftreten, werden mit Assoziation Rosenbergbau identifiziert. Es wird auch für das getan, was häufig Mustermining genannt wird. Was ist häufig Teil auf Mining ist es, dass, wenn Sie sich die Daten ansehen, die gesagt werden, lassen Sie uns einen Blick auf die Daten werfen Patienten gesendet, es gibt bestimmte Dinge, die zusammen auftreten, wie wenn Spalte 1 als Wert X Spalte einen Wert von hat. Es gibt also einige Beziehungen zwischen dieser Kolumne, die immer dann passieren, wenn jemand weniger als 30 Jahre alt ist. Es wird auch angerufen, dass sie keinen Diabetes haben. Es ist auch Telefon, dass sie in Chemiker sind, weniger als 50.000. Es hat auch festgestellt, dass so etwas wie dieses, so dass Sie sehen, dass, wenn ein Ereignis ein bestimmter Wert in einer Spalte auftritt, andere Spalten für diesen Datensatz ähnliche Art von Werten haben. Sind sie immer zusammen auftreten. Es ist also Ideen, Dinge zu finden, die gemeinsam vorkommen. Und wann immer Sie eine solche Herausforderung haben, ist Assoziationsregeln Mining die Lösung für diese Art von Herausforderung. Es wird auch verwendet, um das nächste Wort es zu finden. Nehmen wir an, wenn Sie sich die Suchmaschinen ansehen und voraussagen wollen, was das nächste Wort ist . So fangen Sie an, ein Wort und den Chirurgen zu tippen und prognostiziert Ihnen die nächste mögliche Art von Wörtern , die auch aus der Assoziation kommt. Drew ist viele, wahrscheinlich, weil Sie versuchen, auf Assoziation, um Sie daran zu erinnern, die Daten, um Wörter zu finden , die häufig zusammen auftreten. Also, wenn jemand anfängt zu tippen, immer als die Vorhersage von Garten wird einfach, So geht es und schaut auf die Partituren aus den Wörtern, die nahe beieinander sind, und dann werden sie Sie auffordern. In der Tat, wenn Sie dort eingeben, ist die Zeichenfolge, die Sie durchsuchen möchten, eine der Clusteringtechniken, die eine Annahme Assoziationsregeln Mining tut, dass sie davon ausgeht, dass alle unsere Daten kategorisch sind, muss kategorisch alle Daten kategorisch sein, nicht kontinuierliches Wort. Die Arbeit. Also müssen Sie Kandidaten ausarbeiten, konvertieren sie zwischen kategorischen Daten, so dass neue medizinische Daten. Sie müssen sie mit den Biegungen und solchen Sachen konvertieren, bevor Sie es an die Assoziationsregeln Mining weitergeben können . Es wird auch im Volksmund als Markt-Korb-Analyse bezeichnet. Wenn Sie das wollen, es im Einzelhandelsgeschäft im Volksmund verwendet. Wenn Sie führen Verein tut Bergbau, es wird mit einem Satz von Künstlern genannt Assoziationsregeln kommen, und diese Vereinsregeln können dann für das Unternehmen verwendet werden, und lassen Sie uns sehen, was diese Assoziationsregeln sind in der nächsten Lichter. Die Importdaten sagten, dass Kühe in, wenn Sie Assoziationsregeln machen Mining ist eine andere Art von einem Datensatz in der, wenn Sie auf Marktkorb-Transaktionen schauen, die Anlage, wenn eine Assoziation tut Bergbau All Guard, ähm, nimmt als Eingabe von Datei, die Transaktionen hat. Jede Spur enthält Airtran-Abschnitt auf in dieser Transaktion ist möglicherweise eine Transaktion 80 Elemente, die in der Transaktion aufgetreten. So typischerweise wird es aussehen, wie diese Transaktion hat man Brot, Käse, Milch Transaktion zu US Apple X Joghurt, die die Importdaten toe nicht löst. Ah, Jahr im Garten, sahen wir aus wie eine Transaktion 90 getrennte Komma, dann eine Liste von Elementen, die, nach der Transaktion, können Sie auch verwenden, dass für Textdaten, die sagen, es ist eine Tüte von Wörtern Daten. Also für jedes Wort, das da ist, kommt man mit, was man eine Sack von Wörtern oder Schlüsselwörtern in diesem bestimmten Dokument nennt . Angenommen, Sie versuchen, eine Gruppe als gesetzt gesetzt aus Nachrichtenartikel. Sie können die Schlüsselwörter im Nachrichtenartikel groß machen und das als Ihre Worttasche bilden. Und das wird wie eine Transaktion ausgesehen. Und das ist es, was dann als Importzehen gegeben wird. Der Assoziationsregeln Mining-Algorithmus. Also, wenn es um Luft geht und es gibt eine Reihe von Metriken sind Maßnahmen, die ich verwendet habe, um zu messen wie diese häufig auftretenden Elemente zusammen auftreten. Es gibt einige Maßnahmen, mit denen Dinge geladen werden. Was sind diese Maßnahmen? Starter explodieren. Sagen wir nb die Anzahl der Transaktionen in Ihrem Datensatz. Let X. Warum sind das die einzelnen Gegenstände des Tages so? Vielleicht Versuche wie in einer Milch oder Butter oder Eier Der X Preis, die die einzelnen Versuche im Datensatz sein . Was passiert dann? Es gibt eine Maßnahme, die als Unterstützungsmaßnahmen bezeichnet wird. Wie häufig und Kombination von Elementen August in das Defizit so Unterstützer, wie häufig eine bestimmte Kombination von Elementen es vielleicht eine Nacht um toe Elemente, mehrere Elemente es in dem Datensatz auftritt Die Unterstützung von X gleich zählen Transaktionen mit Dex entwickelt von zur Unterstützung von X y, wo X und Y aufgetreten sind, nahm es. Das ist die Anzahl der Transaktionen mit X und Y geteilt durch n, so dass Sie den Support messen . Die nächste Maßnahme heißt Confidence Confidence Mesure. Die erwartete wahrscheinlich, dass warum auftreten würde, wenn erhöht so auftritt. Dies ist die Assoziation wahrscheinlich so jedes Mal, wenn X auftritt. Was ist die Wahrscheinlichkeit, dass y alle Fußball, während wie sie zusammen auftreten? Das Vertrauen von X Warum gegeben Excell jedes Mal, wenn X auftritt? Warum tritt auch die Formel für ihre Unterstützung von X Komma y entwickelte basierte Unterstützung X Wir haben bereits die Unterstützung berechnet und das ist vorbei. Sie berechnen Konfidenzvertrauen aus Warum X auch eine Unterstützung von X Komma y geteilt durch separate Affix aufgetreten ist. 1/3 Mission heißt Aufzug, um meine Anteile zu heben. Wie viel mehr Times X und warum eine enge zusammen Damn erwartet. Es ist also, als gäbe es eine Erwartung, die ich im Durchschnitt nicht mag. Ich meine, sie können nicht zusammen gehen. Wie oft passiert es noch? Und dieser Aufzug ist Computer für Warum, angesichts X ist das Vertrauen von X gegeben y so Vertrauen? Wir kennen bereits die Formel David. Basis Unterstützung aus. Und so misst der linke. Wenn Sie also zumindest von Transaktionen zu einem Airmall-Garten gehört haben, wird es für alle Kombinationen von Daten berechnen, unterstützen, Vertrauen und gelebt. Und dann wird es Ihnen äußere Regeln geben, die Regeln, bei denen Sie typischerweise die höhere Unterstützung und höchste Zuversicht haben. Das sind diejenigen, die als die obersten Regeln herauskommen. Es gibt Ihnen in der Regel alle Kombinationen und alle Regeln und dann alle Maßnahmen. Aber es ist in der absteigenden Reihenfolge der Unterstützung und des Vertrauens sortiert. So wird es Sonderpreise, wenn mehr, was ein Element verflucht und andere auch auftreten. Also, wenn man sich die ganze Ausgabe von Luft anschaut, ähm, kann man diese Art von Hypothese eine Entscheidung treffen, die auf dem etwas basiert, wie wenn Brot gekauft wird. Milch wird 33% der Zeit gekauft. Wenn Indien tritt in einer Tüte von Wörtern wie in einem Mädchen 20 Personen-Dollar in. Das ist also, Ah, die Regeln, die sich auf einem Tiergarten ergeben, würden aussehen. Und Sie würden mehr davon sehen, wenn Sie sich den Anwendungsfall ansehen. Das Ziel oft Ahram Algorithmus. Wenn Sie ein Haar auf meine Bewachten drehen, um, geben Sie ein Mindestmaß an Unterstützung und ein Minimum an Vertrauen, das heißt, Sie sagten Al, bewacht sie zu gehen und kaufen weg. Finden Sie alle Regeln sind alle Kombinationen, die auftreten, die eine minimale Unterstützung von X hat, sind mehr auf einem Minimum Unterstützung von der minimalen Vertrauen, warum sind typischerweise, sagen Sie unterstützen diesen Punkt an einem, und Vertrauen ist 10.3, so dass es gehen, um für alle Transaktionen suchen. Aber die minimale unterstützte Spined ein tritt mehr als 10% der Bank auf. Es ist Sie, Gott segne, Sie wissen, Spieler, Spieler, und mit der Unterstützung und Vertrauen Ebenen, die Sie versuchen, zu niedrigeren Unterstützer oder zu wenig Vertrauen zu geben , und Sie sind die Liste der Elemente, die sind etwa 50.000. Es gibt einen Ramallah, der Adam für immer laufen wird. Es kann die Speicherprobleme auslaufen, die Sie kennen, Abstürze und solche Sachen. Sie möchten also immer auf einer niedrigeren Ebene für Unterstützung und Vertrauen beginnen und die Anzahl der Regeln sehen , die generiert werden. Wissen Sie, manchmal ist die Anzahl der Regel in der Regel wahr zu wenig, weil es gibt, die selbst nicht so häufig vorkommende Kombinationen hat. Dann können Sie langsam die Support- und Konfidenzniveaus erhöhen, bis Sie ein wünschenswertes Niveau von der Anzahl der Regeln erhalten . Aber beginnen Sie immer auf einem hohen Niveau. Lassen Sie das Vertrauen von 3% oder so etwas und gehen Sie weiter nach unten eine häufige Identität als Element Set. So die Ausgabe aus und Airmall Garten ist, was wir nennen die häufigen Elemente sagte Dinge, die häufiger gehen, wo die Unterstützung größer ist als die minimale Support-Level zur Verfügung gestellt. Also haben Sie den Umfang gegeben. Ich möchte auf all die häufigen ich selbst, die ein Support-Level von X oder mehr haben, schauen. Es wird gehen, um die Analyse zu machen und kommen mit den Ergebnissen für diese spezielle Analyse. Nun, viele von ihnen, die für ein Aramis verwendet wird, was der a-priori-Algorithmus genannt wird. So macht es seine Magie intern undare Typischerweise gibt es eine Implementierung aus der Luft. Ähm, ich bete, dass alle sie in der Sprache des Charles Use Bildungslernens bewacht haben. Und dann übergeben Sie es an diese Algorithmusliste von Transaktionen. Sie stellen die Support-Level und die Konferenzebene bereit, und es wird zurückkommen und Ihnen die festgelegten Regeln geben Häufig auftretende. Und das ist so Aaron Bücher ein Zimmer war eine sehr beliebte Technik. Es wird viel in der Einzelhandelsbranche verwendet, um Dinge zu finden, die zusammen, wie wir darüber gesprochen haben , ist Houston für Betrugsschutz. Es wird in explodierten Analysten verwendet, angenommen, Sie haben 50 verschiedene, sehr persönliche 50Prädiktorvariablen, die versuchen, durch jede der Breda-Variablen zu gehen, um zu verstehen, wie sie miteinander arbeiten. sehr persönliche 50 Prädiktorvariablen, die versuchen, durch jede der Breda-Variablen zu gehen, um zu Eines der Dinge, mit denen du immer machst , du versuchst, die Autowahlen zu finden. Aber Korrelation, es ist ein Superliebhaber, wissen Sie, es ist eine globale Ebene Korrelation, aber es könnte einige mehr interne Muster geben, wo, wenn, wenn ein Überschuss an Wert von einem y s ein Wert von zwei, Diese Art von Nähe zwischen zwei Variablen Diese Art von Beziehungen können mit dem regierten Mining der Assoziation entdeckt werden . Wir werden auch ein Beispiel dafür im folgenden Anwendungsfall sehen. Vielen Dank 16. R Use Case : Association Mining: Hallo. In diesem Beispiel werden wir auf Assoziation Bohrer Bergbau suchen, in denen die Problemaussage ein Unfall ist , sagte Data. Auf In diesem Unfallsagte Data, sagte Data, Wir werden Assoziationsregeln Mining verwenden, um Frequent Pattern Mining Association zu tun tut. Mining wird auch für die Markt-Korb-Analyse durchgeführt, aber Sie kennen die Anzahl der Beispiele für Markt-Korb-Analyse, die Sie ziemlich viel im Web finden können . Viele dieser Beispiele existieren immer dann, wenn Sie dagegen sind und Beispiele für Regeln finden . Also entschied ich mich für ein weiteres Beispiel zu verwenden, um die Marktkorbfähigkeit und eine zusätzliche Fähigkeit zu demonstrieren , regelmäßige Daten in Marktkorb-Transaktionen auch. Also, wenn Sie sich Beispiele für Regeln ansehen, die Sie viel über den normalen Marktkorbfinden,wird , den normalen Marktkorb es ständig an Bord wie Milch und Eier und Butter zwanziger Jahre reden. Also versuche ich hier ein anderes Beispiel zu verwenden. In diesem Fall ist die Problemaussage, dass ich einen Datensatz habe, der Informationen über 1000 tödliche Unfälle mit 1000 tödlichen Unfällen enthält, und es gibt eine Reihe von Variablen, die mit diesem Unfall verbunden sind. Was ich versuche zu finden, da ich häufige Muster in diesem Unfall finden werde. Also werde ich herausfinden, welche Art von Bedingungen immer zusammen auftreten. Diese Daten, die Variablen, werden also die Variablen, wie die Bedingungen sein. Welche Art von Wetter gibt es? Welcher Wochentag ist das? Zu welcher Tageszeit ist es? Und ich werde feststellen, welche Art von Mustern typischerweise ein gutes zusammen, aber nur eine Variable mit gleichem Wert X Variable war, so schlecht gleich. Warum die meiste Zeit, also nicht gerecht zu werden. Patente sind das, was ich hier zu finden versuche. Die Techniken, die ich verwenden werde, sind Assoziationsregeln Mining sowie die Konvertierung zukünftiger Datenfigurendaten, die Tabellentyp von Daten im Korbdatenformat bedeuten. Die Daten, die ich verwenden werde, sind eine Datei namens Unfälle Punkt CS. Wir verfügbar in Ihrem oh so Schwindel ich geladen in dieser Variablen genannt Unfalldaten auf. Dann werfen wir einen Blick auf die Struktur, so dass es Ihnen für diese Kraft die erste Variable sagt, aber dass die Polizei war da, nicht die Schwere der Unfälle, die Anzahl der beteiligten Fahrzeuge, die Anzahl der Opfer der Wochentag. Die lokale andere Behörde Typ der Bezirk im Grunde glauben, der Unfall aufgetreten Art der Straßen, Geschwindigkeitsbegrenzung, Art der Kreuzung Fußgängerübergang Einrichtungen, Lichtverhältnisse, Wetterbedingungen, Straßenbelag Bedingungen unsere Bernardo Daten auf tat der Polizist war der Ort des Unfalls gewesen . Also versuche ich von hier aus zu finden, was sind die häufigsten Muster in diesem gesamten Datensatz? Ich hätte wirklich gehen und tun können, weißt du, können, weißt du, die anderen alles, was es gab, um ein Sondierungsangebot zu machen. Analysten versuchen manuell, jede Variable mit anderen variablen Korrelation zu vergleichen. Co-Option gibt Ihnen nicht diese Art von meinen neuen Dingen, die Korrelationskoeffizient gibt Ihnen mehr wie, Sie wissen, ein X erhöht den Weg, erhöhen auch mehr Art von einer Reihe Art von Sache. Aber da er versucht hatte, am häufigsten vorkommende Werte zu finden und welche Art von Kombination von Werten tritt am häufigsten auf, die Sie nicht von dieser Art von Analyse bekommen. Du brauchst so etwas, um nett zu sein. Finden Sie die am häufigsten vorkommenden Muster. Sehen Sie sich die Unfalldaten an, die Unfallindizes und ich habe Akzent. Ich möchte von einer großen Anzahl springen, und dann haben Sie alle anderen. Polizei wegen Schweregrad. Ziemlich unkomplizierte Daten. Hier drinnen sieht nichts laut aus. Also gehen wir einfach mit diesen Daten, die schon wieder da sind, machen den Kopf der Daten wieder. Ziemlich unkompliziertes Zeug. Das erste, was ich tun werde, ist, dass ich diese Daten umwandeln werde, die eine normale Tabelle in das, was wir die Markt-Korbdaten der Moschee nennen. Also, wie soll ich es in das konvertieren, ist das Ziel, das ich in das umwandeln möchte . Also werde ich in diesen CSP konvertieren, wo jede Regel eine Transaktion darstellt. Die Transaktionen haben eine Transaktion 91. Und dann ist das, was Sie den Marktkorb nennen, dann weniger als Artikel im Warenkorb. Die Art und Weise, wie ich diese Daten konvertieren werde, ist, sie in Namenswert pro so und Zeug in der Spalte zu konvertieren , die nur Polizei benennt. Ich wandle es in eine Polizeieinheit um. Er nannte einen Unfall pro Jahr gleich drei Anzahl von Fahrzeugen, gleich drei. Das ist also wie Artikel, das wird wie Gegenstände. Sie haben also einen durch Komma getrennten Wert der Elemente im Warenkorb. Also das ist Ah, Sie würden den normalen Tisch im Schlepptau in einen Marktkorb umwandeln. Ehemalige sind Aramark-Transaktion für viel Transaktion I d. Gefolgt von den Elementen Gleichgültigkeit, Aktion. Und diese Art von einer Bekehrung zu machen. Was ich habe, ist, dass ich in meinem eigenen Hof hatte. Also geht dieses Gericht grundsätzlich durch jede Reihe. So gibt es. Ich würde durch jedes Tief in den Daten lesen und dann, wenn die Rolle und dann welchen Preis, um diesen bestimmten Datensatz zu bauen . Und dann versucht es, jede Spalte in den Daten zu durchlaufen. Und dann trägt es den Namen gleich Wert Art von Sache auf baut die ganze Zeichenfolge. Wir bauen Sethi und ihre CSB Ablage Speicher auf arrangierten dann endlich diesen speziellen Kampf in den Korb. Also kümmert es sich um all dieses Komma. Es kümmert sich um die neuen Land-Charaktere und solche Sachen, so dass Sie diesen Code im Detail durchgehen können . Es ist nur regelmäßig CSC-Datei aus diesen Daten genannt. Also habe ich Ihnen gezeigt, wie die endgültige Form es aussah, und das wird in dieser Datei namens Unfall Basket Guard CSP jetzt ausgegeben gespeichert, die die regulären Daten in Marktkorbdaten umgewandelt wurden. Lassen Sie uns anfangen, einige Analysen zu machen. Für das Lesen von Transaktionen zur Analyse von Transaktionen gibt es eine Bibliothek namens Edel's Association Rules Library, die wir verwenden werden. Also laden wir diese Bibliothek auf, wir lesen unsere Transaktion, so dass, wenn sie nicht lesen, schreiben Transaktionen, es wird die Daten im Transaktionsvorwärtsformat erwarten, die Transaktion ist Ich d. gefolgt von der Liste der Artikel, die gerade gehen, um die Verbrennung in Unfälle hochgeladen zu wählen. Und sobald ich in Unfälle geladen habe, kann ich diese Kommandozusammenfassung von Unfällen machen. Es bläst mich nur zu jemandem der Daten, die von dieser Transaktion Stall gelesen hatten. Es sind also etwa 1000 Reihen drin. Das sieht er. Und was sind die am häufigsten vorkommenden Elemente, mit denen es beginnt. Das ist Gegenstand. Dieser Artikel nannte den Polizeibeamten eine angespannte genug versehentlich eine genannt, die in 902 Transaktionen oder 902 mal aufgetreten Dieses Muster aufgetreten. Der Einzelwert des einzelnen Partners ist aufgetreten. Gleiches mit den nächsten Anheuern. Die nächste Hoch Ja, Beamte, die Top 10. Sie können auch die gleichen Daten über das tun, was uns auf Elementfrequenzblock genannt wird, so dass ich nicht Frequenzdiagramm zeigt Ihnen die Top 10 Elemente oder Top 28 sie. tust du also. Ich weiß nicht Frequenz-Plot zeigt auf den Unfällen. Transaktion sagte, Nicholas Spannung zu stoppen. Zeigen Sie mir die Top 10, weil das Absolute mit mir Zeigen Sie mir die absoluten Werte Farbe da Grinsen auf horizontal Colotto grundsätzlich plotten die Handlung Arizona die anderen Möglichkeiten, wie es wird es vertikal plotten. Jetzt sehen Sie, was die am häufigsten vorkommenden sind. So beginnt es mit diesem toten Polizisten auf dem Tatort des Unfalls passiert und 900 Transaktionen und erzählt Ihnen die am häufigsten vorkommenden einzelnen Item-Muster. So Akzente, wenn wir Artikel einen Baum scheinen die höchsten zu sein, wurden typisch geschrieben. Die Sechs scheinen ziemlich hoch zu sein. Eine Anzahl von Verletzten entspricht der höchsten oder der höchsten Geschwindigkeitsbegrenzung. Die drei, die ein die höchste aus Ihnen wissen, dass keine andere Geschwindigkeitsbegrenzung hier auftaucht . Also fangen Sie an, sich hier anzuschauen, Sie beginnen, die Art von Mustern zu verstehen, die Sie in diesen Daten sehen. Nun, das ist nur, wissen Sie, einzelnes Element tagsüber, um nur auf einen einzelnen Artikel zu schauen und zu sehen, wie die Ecker als nächstes wollen Sie beginnen, die Kombination von Elementen, die zusammen aufgetreten sind, die Kombination von Bedingungen, die zusammenkamen. Lassen Sie uns also anfangen, das zu betrachten. Und dafür versuchst du herauszufinden, die Regeln innerhalb der Kreisregeln und die Regeln versuchten , mit diesem Befehl zu finden, das ein Gebet genannt wird, oder? A priori Du hast den Unfall weitergegeben. Dann sagst du ihm die Unterstützung und das Vertrauen, das du dir ansehen möchtest. Was du sagst ist nur diese Werkzeuge anzusehen. Finde nur diese Muster heraus. Aber die Unterstützung, die minimale Unterstützung dieser 0,1 auf dem Minimum Vertrauenswürdigkeiten 0.3 Wir schauten uns an, was die Unterstützung und Vertrauen Familie sind in der regelmäßigen Präsentation. Du wirst also nur diese ansehen. Wenn ich diese Werte ziemlich zu niedrig gebe, könnte der Algorithmus für einen Wurf gehen. Es kann nur für eine Spin gehen, weil es versucht, zu haben, es sei denn, zu viele verschiedene Dinge und dann wird es am Ende, du weißt schon, der Speicher und solche Sachen ausgehen. Sie möchten also mit Vertrauen in die Unterstützung auf einem sehr hohen Niveau beginnen und sich die Anzahl der generierten Regeln ansehen . Die Gesamtzahl der Regeln Generator ist Teil des Geschlechts. Es ist nicht genug. Dann lassen Sie die Unterstützung und das Vertrauen. Andere Wege 0.1 und Länder Art ziemlich gut typischerweise. Und je niedriger der Wert derer, die Sie geben, desto mehr Zeit wird dieser hier laufen, weil er mehr Anzahl von Mustern findet , weil Sie es mit sehr geringer Unterstützung und sehr wenig Vertrauen geben. Wenn Sie also wissen, dass die Rosen mir geben, sind Sie der Ausgang, wie die Werkzeuge, die ich darauf ausgeführt habe, die Ihre Sachen hier zeigen. Und dann, wenn die Straßen gegeben sind, können Sie tatsächlich sehen, was die Regeln sind, indem Sie tun und diese Inspektion über diese Regeln. Und so werde ich nur Regeln überprüfen. 1 bis 40 können Sie tatsächlich gehen inspizieren alle Regeln. Wenn Sie wollen, wird es mir in absteigender Reihenfolge eine Unterstützung und Zuversicht, Unterstützung und Vertrauen geben. Schauen wir uns an, wie das aussieht. Also der erste Satz von Regeln sind im Grunde die einzelnen Elemente Regeln Elemente, nur einzelne Elemente, die wir irgendwie schon sortieren. Also Reihentyp nennen wir die sechs als Unterstützung off Punkte und Fifi auf das Vertrauen in 60.75 Also, wenn es nur eine Nacht sie, diese Unterstützung und Vertrauen wird gleich sein und Aufzug wird immer eins sein. Dann beginnt die Geschichte im Mehrfachpunkt eins. also in diesem hier, Was bedeutetalso in diesem hier,wenn der Wochentag gleich trotzt Hat die Polizei Israel angeboten und der Verkehr gleich gesehen? Das passiert mit, äh, mit der Unterstützung von 0,1, das ist 10% der Transaktion. Hatte das auf das Vertrauen von 9 91 Person. Was das bedeutet, ist, wenn sie Fahrzeug gleich sind, wenn ich 91% des Zeitdatums Offizier am Ort des Unfalls rief er ein passiert. Also, was das bedeutet, ist, jedes Mal, wenn sie die sind, die wir gegen den Unfall trotzen könnten. Dieser Offizier konnte ich keinen Dax sehen und 91% der Zeit, dass du es liest, dann fängst du in mehr als mehr Muster an und sieh dir einen interessanten Teil an, der seit dem Jahr gemacht wurde , weißt du? Und schauen Sie sich das an, wenn die bessere Bedingung, die er angerufen hat, was ist vielleicht heißt es, ob auf einem schneebedeckten Wetterunfall. CVRD rief drei an. So diese schwere, hohe, schwere die Unfälle passieren in diesem spezifischen Wetterzustand, die sofort gibt Ihnen einige wissen einige im Inneren. Bis okay, schien diese Art von Wetter am problematischsten zu sein. Was das bedeutet, ist, dass, wenn dieses Wetter passiert, das mehr Sicherheitsvorkehrungen sein muss. Weißt du, das muss mehr Verkehrsvorsorge sein, als Dinge, die ich ergreifen muss, oder vielleicht an Orten. Aber diese Art von Wetterbedingung tritt auf. Sie müssen mehr Sicherheitsvorkehrungen haben, vielleicht keine Bahnübergänge oder Signale. Das ist Sache der Polizei, um es herauszufinden. Sie wissen, wie sie diese Unfälle minimieren können, indem sie etwas tun. Aber dieser gibt Ihnen einen guten Hinweis darauf, was dort passiert. Wir scheinen Schwere der Unfälle ziemlich hoch zu haben, wenn diese spezifische Bedingung passiert, so dass Sie beginnen, durch dies zu lesen und beginnen, einige interessante Partons zu finden. Aber Sie können dann treffen und dann beginnen, eine Entscheidung über uns Zehe zu treffen. Was willst du damit machen? Das sind also alle Partner, die Sie sehen, und das ist alles, was Sie tun Market-Korb-Analyse. Wenn Sie einen normalen Markt Korb als was getan? Dieses Wunder von Leicester Leicester? Wie Milch, Eier, Brot. Wie viele Transaktionen, die auf aufgetreten sind? Wir schauen uns die Kombination würde sagen, wenn Milch gekauft wird. Eier Brett, wie 90% der Zeit. Dinge wie das. Aber dieses Beispiel, wie ich sagte, Sie würden überall im Internet finden, wir schauen uns nur Beispiele für Euro an. Das ist es, was Sie finden. Also versuche ich, eine neue Beispielfreigabe zu verwenden, um Ihnen eine andere Erfahrung zu geben. Ich explodiere dieses Beispiel auf dem normalen Marktkorb. Auch im Web auf gehst du? Versuchen Sie, mehrere Support-Levels und mehrere Konfidenzstufen Sehen Sie nicht, wie sich dieser Algorithmus anders verhält. Das ist also für mein, was wir für die Assoziation haben. Sind die Miningmarktanalysen häufig? Parton Mining. Vielen Dank 17. ANN und SVM: Hi. In diesem Vortrag werden wir uns zwei fortgeschrittene Techniken des maschinellen Lernens ansehen, künstliche neuronale Netzwerke genannt werden. Andi unterstützen Vektormissionen. Jetzt werden diese beiden Techniken genannt, was ich Blackbox-Methoden nannte, und der Grund, warum sie Black Box genannt werden, ist wichtig, dass sie wie eine Blackbox aussahen , in der etwas Magie geschieht. Sie geben ihnen die Importdaten, und es tut magisch etwas und kommt mit den Vorhersagen. Es ist nicht so einfach sind einfach, Sie wissen, zu erklären oder zu verstehen, wie diese künstlichen neuronalen Netze funktioniert, sind die Unterstützung Vektormissionen arbeiten dort in der Regel einige solide Verständnis, einige aus Summen, Grundlegende Computer-Zeichen, Wissenschaft und Stiftung und Mathematik auf dann basierend, auf denen Sie verbessern und dann versuchen, zu verstehen, wie diese Arbeit. Die gute Nachricht ist jedoch, jedoch, dass diese wieder für Sie verfügbar sind, in bestimmten Bibliotheken für Übungszwecke implementiert wurden. Für Verwendungszwecke müssen Sie lediglich anrufen. Diese Bibliothek übergibt die spätere und sie werden die Magie für Sie tun. In dieser Vorlesung werden wir also nicht wirklich einen guten Blick auf die Körper werfen. Und Carl Adams dazu. Wir werden nur tun, und Sie alle hier, weil ich behaupte, dass es ziemlich komplex um zu versuchen, Thesen zu erklären, und nicht, dass es unmöglich ist, da Texan dafür zur Verfügung. Aber angesichts der Tatsache, dass es sich um komplexe Themen handelt, haben wir sie nur durchgeschüttet und uns einfach darauf konzentriert, wie wir sie in der Praxis einsetzen können. Künstliche Neurex-Netzwerke sind von Herzen inspiriert, wie das biologische menschliche Gehirn beschlagen, und es ist ein Black-Box-Algorithmus, der viel Zeit in Anspruch nehmen wird, um zu erklären und verstehen. Es hat sich in der künstlichen Intelligenz stark eingesetzt, wo die Dinge pingelig sind. Die Beziehungen von Fuzzy-Daten sind nicht immer korrekt, und sie werden nicht immer abgeschlossen. Es ist jetzt ein Grün, das in den Einsatz für Missionslernen erweitert wird. Es hilft bei der Entdeckung, keine komplexen Korrelationen, die in Datum I verborgen sind, die ähnlich wie das menschliche Gehirn funktioniert. Es hilft, ziemlich komplexe Korrelationen mit,wissen Sie, unvollständigen Daten und facettierten und pingeligen Beziehungen zu entdecken wissen Sie, , alle ihnen zustehen, denn es funktioniert sehr gut mit meinen C-Daten und funktioniert sehr gut mit variablen Beziehungen sind nicht so einfach zu verstehen, die Produktion Teil schnell aufzubauen. Das Modell ist langsam. Prognosen bauen schnell auf. Das Modell ist niedrig auf es ist sehr einfach. Teoh Wolf es. Es wurde in vielen Situationen der künstlichen Intelligenz verwendet, außer Missionslernen, wie das Lernen von Gesichtserkennung, Zeichenerkennung. Unser Gefühl, uns und so etwas Support Vector Missionen ist unter der Blackbox wichtig. Es ist wieder, das innere Funktionieren ist knifflig und komplex und schwer zu verstehen. nennt es eins von der Colonel Materie. Es gibt etwas namens Colonel Programming oder Colonel Mathematics, das all diese Dinge erklärt, und ich werde die meisten schützen, basierend auf dem, was Vector German Tree und Statistical Learning genannt wird. Terry nochmal, du brauchst einige Grundlagen von diesen Feldern, bevor du mit dem Fuß beginnst. Verstehen? Erkläre, welche Unterstützung die Missionen des Missionsrektors von Muktar leisten Es kann wirklich komplexe Beziehungen modellieren, und es ist sehr beliebt für die Verwendung in einer Mustererkennung wie Gesichtserkennung und Texterkennung in diesen Bereichen des maschinellen Lernens. Nicht wirklich in den Geschäftssituationen, aber in dieser Art von Mustererkennung Situationen ist, wo Support-Vektor-Missionen in der Regel verwendet werden und eine erfolgreiche Implantat-Anwendungen weiche Unterstützung Vektor-Missionen passiert in Biomet Informatics und eine große Zündung dieser Art von Bereichen. Und es wird sowohl für und oder Klassifizierungen und Regulierungsprobleme für diskrete und kontinuierliche Ergebnisse verwendet. So und sie sind auch ziemlich beliebt in diesen Bereichen in den Höhlen von Unternehmen. Auch hier sind diese in Bibliotheken implementiert verfügbar. Wir müssen nur die Variablen übergeben und Sie werden die Ausgabe im Zweifel bekommen, dann verwenden Sie die Ausgabe für Ihre Arbeitsunterstützung. Vektormissionen benötigen offensichtlich eine lange Zeit, um zu laufen, weil ihre komplexen, aber Vorhersagen sind ziemlich toll, wenn Sie Unterstützungsvektormissionen verwenden. Schon wieder Eso. Wir werden nicht in die Abteilung kommen. In diesem speziellen natürlich, denn das ist natürlich eher der Anfang . Aber dann gibt es eine Menge Material, das Ihnen zur Verfügung steht. Wenn Sie gehen, durch sie gehen und verstehen diese für die mehr Vielen Dank 18. Auspacken und Boosten: Hallo. In diesem Abschnitt werden wir über zwei Ensemblemethoden namens Bagging und Boosting sehen. Wir sahen bereits eine und Symbolmethode wie zufällige Wald und ähnlich wie zufällige Wald. Absackung und Boosting sind auch in Sambal wichtig, dass Sie gehen weiter, bauen Multi-Personen-Modelle mit dem gleichen Datensatz, und dann nehmen Sie ein Boot unter diesen Modellen, wenn Sie versuchen, den Unterschied zwischen Absackung und Boosting vorherzusagen ist wie das ist. Wie nehmen Sie den Datensatz dieses Gebäudes für jedes Modell, das Sie bauen, diesen Stoneleigh-Unterschied ? Und wir werden sehen, wie, genau ihre unterscheiden sich in Begriffen aus, die Daten sagten, dass ausgewählt wird, so dass es Bootstrap-Aggregierung genannt wird, und es ist eine und Symbol-Angelegenheit, und es verwendet immer eine Basis. Classifier basiert wie ein entfernter Bäume klassifiziert, werden durch eine Regression benannt. Es verwendet immer den basierten Algorithmus zur Verwendung dieses Algorithmus. Es wird mehrere Runden aus Training machen, und es wird meine Leute bauen. Modelle bei der Produktion werden mit jedem Modell durchgeführt, so dass, wann immer es Produktion getan werden muss, dass die Produktion mit jedem der Modelle durchgeführt wird. Wenn es also in Modellen gibt, die Sie Entwistle produzieren werden, dann nehmen Sie eine Abstimmung unter den Endergebnissen, um zu sehen, welches das beste Hören ist. Also ist die sehr Verwendung wählen Datensatz für jedes der runden sterblichen Gebäude, dass für jede Rundung Modell bauen auf der Ausbildung, die Sie bauen Gewässer genannt uns ein Bootstrap repliziert , Data sagte. Wie baust du einen Bootstrap? Repliziert eine Menge ist, dass, wenn die ursprünglichen Daten als M Beispiele PM Beispiele bedeutet AM-Nummer aus stieg gesetzt . Sie beenden die Stichprobenabläufe für die Daten auf für jede der Stichprobenrunde. Sie wählen ihn durch n Beispiele, so nehmen Sie an, Ihre orginal später sagte Ranken auf. Dann tun Sie Ende läuft aus dem Sampling. Nehmen wir an, Sie machen zwei Sampling-Runden in jeder Sampling-Runde. Sie wählen Mbai Ende, die 10 von Duke Fi Beispiele jeweils ist. Also machen Sie zwei Runden Probenahme und jede Runde der Probenahme. Sie erhalten fi Beispiele von Fotos. Dann setzst du diese beiden Sets aus Kämpfen zusammen, um die gesendeten Daten zu bilden. So hat der endgültige Datensatz auch die gleiche Anzahl von Zeilen, wie die ursprünglichen Daten sagten, außer dass dies eine Möglichkeit ist, dass einige Werte wiederholt werden können, so werden wir sehen, wie das in der nächsten Folie gemacht wird. Nehmen wir an, wir wollen Trainingskampf enden laufen, das heißt, wir wollen Training fünf Mal ausführen oder fünf Modelle auf einem Datensatz bauen, der besagt, dass sie tun, dass acht Datensätze hat. Also, wie machst du das für jede Runde? Wir wollten zwei Sätze von Probenahme, und das nennt man Sampling mit Ersatz. Warum geht es um das sogenannte Sampling mit Ersatz ist, dass, wenn Sie eine Stichprobe aus der Gesamtgesamtheit herausziehen , Sie die Stichprobe zurück. Also, wenn Sie das nächste Mal wieder Probe, diese Rolle, die Sie ziehen, desto früher kann tatsächlich wieder auftreten. Das ist das Wort „Probenahme mit Ersatz“. Und woher weißt du das? Wie sagen wir, für das Training Runde eins, die ich gefangen habe, ist für diese Aufzeichnungen sind ein Zehe acht. Also hat Nero Probenahme einen ausgeliehen. Sie wählen 14 fiserv in, wenn Sie wissen, Probenahme um Sie wählen 2467 So die gleiche Rose kann wieder auftreten, weil Sie tun Probenahme mit Ersatz Ihre Probe und ersetzen Sie sie wieder in den ursprünglichen Daten sagte. So erhalten Sie vielleicht die gleichen Werte zurück. Und dann fügen Sie Beispiel-Eins und Beispiel-Zehe zusammen, um die sogenannten Bootstrap-Replikate zu erstellen . Und wie Sie sehen können, werden einige der Proben wiederholt. Sie, wie der Rosenwald, wiederholten sich auf der Rose. Sieben. Es ist irgendwie wiederholt, und diese Farmen, Ihre Daten sagten für das Training um eins. Jetzt werden Sie unter Trainingsgelände gehen, um auf wiederholen Sie den gleichen Prozess, in dem Sie eine andere bekommen , um Proben zu setzen. Unter den beiden Wertsätzen bilden Sie wieder die Bootstrap-Replikation. Einige Werte können wiederholt werden, wie die Werte zu und der Wert sechs sind Repeater, und dann gehen Sie bauen einen Märtyrer schleppen So werden Sie wie folgt für den Bau von fünf verschiedenen Modellen wiederholen . Und wann immer Sie ein Produkt wollen, haben Sie die Daten an diesen fünf verschiedenen Modellen weitergegeben. Dann werden Sie eine Abstimmung über die man geben, welche Ergebnisse auftritt. Die maximale Anzahl von Malen, die Dinge nicht über Absacken sind, ist, dass es könnte bessere Ergebnisse liefern. Dann die Basis, klassisch, die Basis mit dem Basilikum Garten klassifiziert, die Sie in der Regel nur einmal laufen. Aber im Bagging, verwenden Sie den gleichen gut bewachten Emptor auf viele Male auf verschiedenen Datensätzen. Wenn basil bewacht, um, bietet Ihnen instabile Reserven, das heißt, Sie versuchen, den Algorithmus immer wieder am selben Datum auszuführen, behauptet es. Geben Sie immer andere Ergebnisse. In diesen Fällen ist das Abfüllen eine bessere Option, wenn Sie den gleichen grundlegenden Algorithmus verwenden und dann das Absackkonzept darauf spiele . Es hat eine hohe Ergebnisanforderung. Es dauert länger dank der Baumodelle, offensichtlich, weil es mehrere Modelle bauen wird. Und es gibt verschiedene Modelle in Bezug auf die Absackung verschiedene Implementierung von Beuteln zur Verfügung, und sie alle verwenden verschiedene basierte Klassifikator. Und hier sind einige Beispiele, wie fügen Sie eine Rückentasche Auto zurück Künstler mit Entscheidung Bäume zurück flexible diskriminieren Analyse. Es ist eine sehr flexible Diskriminierung. Die Analyse ist eine sehr harte lineare Regression auf. Dann spielen Sie zurück auf sie. Logistische Regression können Sie Absackungen tun. Es gibt ein anderes Modell durchschnittlichen neuronalen Netzwerk genannt. Das ist es. Es ist eine Variante Variante, harte Neuronennetze, auf die Sie bitte Absack anwenden, kein Daddy. Nein, der Algorithmus, der in der Welt verfügbar ist. Obwohl einige der Grundlagen gleich sind, gibt es eine Reihe von Varianten, die immer wieder herauskommen und herauskommen. Eine Menge Forschung wird in Bezug auf nach dem Versuch, neue verdienen Sie Ihre Ehre Wache Elemente auf diese sind in der Regel Varianten aus. Der Ursprung betrachtete sie, so dass Sie sehen werden, wie Tonnen dieser Algorithmen verfügbar auf Woher wissen Sie, welche ich zu ihnen bekommen werde? Es ist am besten für Ihre Verwendung. Der Fall ist einfach, indem Thailand nie verwendeten Algorithmus und sehen, ob der Algorithmus besser vorhersagt. So würden Sie sehen, dass viele davon Gärten sind. Aber mach dir keine Sorgen um einen von ihnen, denn alles, was du tun musst, ist den Algorithmus zu wählen und nannte ihn 1/3 mit den unteren Essern, und es wird Magie für dich tun. Als Nächstes wirst du uns ansehen die Verstärkung verstärken. Es ist auch sehr ähnlich wie Absackungen. Es ist eine instabile Angelegenheit. Der einzige Unterschied zwischen Bagging und Boosting ist, wie kommen Sie mit dem Datensatz für den Trainingsprozess, so dass es wieder mehrere Modelle erstellt wieder Produktion. Gibt es nicht mehrere Modelle und dann die Ergebnisse. Sie stimmen ab, um die endgültige Vorhersage zu liefern. In diesem Fall besteht der Unterschied darin, dass Sie etwas sagen, das Fades genannt wird. Essen Sie sich gegenseitig Probe. So enthält Ihr Datensatz eine Reihe von Aufzeichnungen auf jedem Datensatz wird ein Köder gegeben. In der Regel beginnen Sie damit, dass alle Datensätze ein Gewicht von eins auf sind und dann verwendet werden. Manchmal möchten Sie damit tun, wie Sie weitermachen und Modelle bauen, halten Sie die Raten von den Aufzeichnungen zu erhöhen. Wie erhöhen Sie das Gewicht aus Rekord? Sie können einfach ihre Wache duplizieren. Angenommen, Datensatz macht eine Pickard und Sie möchten das Gewicht des dritten Datensatzes einfach dupliziert erhöhen , was das bedeutet, ist nein. Sie enden mit neun Aufzeichnungen mit diesem speziellen Datensatz. Wenn es dupliziert wird, seine Werte die Werte aus verschiedenen Variablen in dieser Hinsicht erhalten höhere Köder Alter, weil es mehr Anzahl von Malen auftritt und in der Regel, dass die Mission beeinflussen. Lernen Sie alle Gärten viel Stimmung. So ist, wie Sie Art von erhöhen das Gewicht von einer bestimmten Rolle oder einer bestimmten Probe . So wie funktioniert ein, wie Horace Bait verwendet wird. Bist du das? Während Sie mehrere Runden von Vorhersagen machen, fragte ich, Fehlklassifizierung passiert, würden Sie nur das Gewicht von diesen falsch klassifizierten Datensätzen erhöhen. Woher weißt du das? Schauen wir uns im nächsten Leben an. Also wieder, hier gibt es mehrere Runden aus dem Training. Sie beginnen mit dem Gewicht von allen Datensätzen gleich im ersten Raum. Sie nehmen also keine Teilmenge an, Sie nehmen alles, was aufgetreten ist und alle Gewichtungen aller Datensätze gleich sind. Also mach weiter, baue dein erstes Modell. Sobald Sie Ihr erstes Modell erstellt haben, versuchen Sie, den in Beispielfehler der Modellrechnung zu finden. Was in Beispielbrief ist, versucht, das Modell zu verwenden, um den Trainingsdatensatz selbst vorherzusagen und zu sehen, wie viele der Datensätze falsch vorhergesagt werden. Wenn der Datensatz falsch vorhergesagt wird, bedeutet das, dass er nicht genug in dem Modell modelliert, das erstellt wurde. Also gehen Sie und erhöhen das Gewicht von diesen falsch klassifizierten Aufzeichnungen. Sie erhöhen die Rate dieser falsch klassifizierten Datensätze, wie ich bei einem Duplikat dieses Datensatzes sagte, und dann haben Sie jetzt einen anderen Datensatz mit einem neu hinzugefügten Datensatz. Nun wird an diesem Tag die Wüste zum Eingang für die zweite. Genug Modell. Nein, Sie gehen eine Modellierung wieder auf die neuen Daten sagte. Sie erneut SuchenSie erneutdas Beispiel. Fehler. Schließlich, Misclassified Ricard's dann erhöhen das Gewicht der am meisten klassifizierten Datensätze jetzt für etwa drei Runde für Runde Kampf gehen . Wenn diese Modelle also immer auf jeder Runde des zu erstellenden Modells erstellt werden, erhöhen Sie das Gewicht des falsch klassifizierten Datensatzes. Jedes andere Modell, das erstellt wird, verwendet also einen anderen Datensatz mit einem anderen Warten auf das Beste. Mit weniger roten Rekord sind Sie letztendlich mit einer Reihe von Modellen einmal im Jahr. Die Anzahl der Modelle. Der Produktionsprozess ist der gleiche wie das Beuteln ausgeführt werden. Sie durchlaufen mehrere Modelle, kommen mit der Arbeit an den Ergebnissen. Und dann gibt es deine endgültige Vorhersage. Die Dinge sind nicht, dass sie hohe Ressourcenanforderungen ähnlich wie Absackung haben, weil sie länger denkbar Morde unter diesem nehmen, weil Sie mehrere Modelle bauen, Das Gute daran ist, dass Sie eine abgesetzte Woche Lernende verwenden können. Wöchentliche Besitzer sind nichts anderes als große Prädiktoren. Sie haben eine Zahl einen ausgesetzten Prädiktor angenommen, Sie verlieren Ihre orginale Korrelationsanalyse auf Sie feststellen, dass die Korrelation für alle Prädiktoren schwach ist. Dies kann also eine gute Option sein, um zu versuchen und zu sehen, ob wir einen Satz dieser Woche Prädiktoren verwenden können , um tatsächlich mit dem starken Critter zu kommen. Also, wenn ein normaler Garten möglicherweise nicht für möglicherweise Boosting arbeiten kann tatsächlich mit arbeiten. Es ist also eine gute Sache zu versuchen, wenn die Vorhersage, wenn Sie sehen, dass die Korrelationskoeffizienten zwischen den Prädiktoren auf dem Ziel nicht so gut sind, führt Bias ein, denn wenn es Fehlklassifizierung gibt, gibt er großes Alter. Die Voreingenommenheit, die der Algorithmus ursprünglich auf der anderen Seite hatte, stieg also als Art von Videos auf. So gelingt es auch sehr gut. Und wieder gibt es verschiedene Implementierungen von diesen Algorithmen wie Booster-Klassifikationen , Bäume, Booster G A. M. Boost. Ein lineares Modell. Weißt du, Lumber of Arians aus diesen Algorithmen sind wieder verfügbar. Welches ist das Beste? Sie müssen versuchen und sehen, und Sie lernen im Grunde aus Erfahrung, wie Sie diese Algorithmen verwenden ? Danke. 19. Dimensionality: Hey, in diesem Vortrag werden wir uns ansehen, was man dimensionale Produktion nennt. Was ist also Dimensionalitätsreduktion und was sind Dimensionen? Dimension sind in diesem Fall nichts als Prädiktoren. Die Anzahl der Prädiktorvariablen, die Sie in den genannten Daten haben, sind das, was wir Dimensionen nennen. Aber wenn Sie eine Reihe von Prädiktorvariablen haben, haben wir eine Reihe von Problemen, die mit ihnen verbunden sind, weil, dass wir die Anzahl der Prädiktoren reduzieren wollen. Was sind also die Probleme mit zu vielen Prädiktoren? Es braucht viel mehr Speicheranforderungen, viel mehr Speicheranforderungen als mehr Suppe, die Sie benötigen. Die Zeit, die für die Mission benötigt wird, unsere Gärten zu laufen zu lernen, ist eigentlich viel mehr, wenn die Anzahl der Prädiktorvariablen mehr auf der Korrelation zwischen prognostizierten Künsten zwischen den Raubtieren selbst steht, nicht zwischen dem Prädiktor und Ziel. Ein Beschützer könnte eine hohe Korrelation haben, die mit einem anderen Bediener, was bedeutet, dass sie voneinander abhängig sind, dass tatsächlich Ihren Garten beeinflussen könnte . In der Regel möchten Sie die Prädiktoren. Haben sie sich nicht selbst geholt? Das sollte nicht diese Art von Korrelation sein. So entstehen diese Art von Komplexität. Es besteht eine Chance, zu passen, weil einige Prädiktoren mehr beeinflussen als die anderen Prädiktoren auf einigen maschinellen Lernen sie schützen, funktionieren einfach nicht gut, wenn es zu viele Prädiktoren gibt. Wie können wir also schon die Anzahl der Prädiktoren und welche Optionen stehen zur Verfügung ? Wenn ich würde, schon mit der Anzahl der Prädiktoren. Einige der Dinge, die Sie tun können, ist, dass Sie manuelle Auswahl verwenden können. In diesem Fall können Sie Domänenwissen verwenden. Weißt du, das Feld auf dir basiert, weil du das Gefühl kennst. Sie können bestimmte Dinge machen, und Sie können sagen, dass dies mein Ziel nicht beeinflussen wird. Zum Beispiel im medizinischen Bereich vorherzusagen, versuchen Sie im medizinischen Bereich vorherzusagen,ob jemand Diabetes haben wird oder nicht. Jetzt gibt es ein Attribut für den Patienten namens Höhe, und ein Arzt macht eine die Höhe. Ein halber Patient hat keinen Einfluss darauf, ob der Perser als Diabetes oder nicht. Das ist also Domain-Wissen. Also nutze dieses Domain-Wissen und spiele dieses Domain-Wissen und sag: Weißt du, was ich nehmen werde? Ich würde aus meinen Daten sagte, weil ich sicher weiß, wie hoch nicht meinen Cholesterinspiegel beeinflussen, aber Sie müssen aufpassen. Es könnte möglich sein, dass es tatsächlich eine Korrelation gibt und niemand wusste, dass berichtet. Das ist ein Risiko aus dem Versuch zu entfernen Spalten entfernt Variablen ohne angemessene Berücksichtigung zu haben. Zweitens betrachten Sie die Korrelationskoeffizienten zwischen den Prädiktorvariablen und dem Ziel, und Sie können diese hübschen Variablen werfen, die keine hohe Korrelation haben, einfach so ist das eine einfache Sache zu tun. Das ist eine Möglichkeit, Variablen basierend auf ihrer Korrelation mit der Zielvariablen auszuwerfen . 1/3 Sache ist, Entscheidungsbäume zu verwenden, und dann können Sie einfach entscheiden, bitte toe tatsächlich Prädiktoren auf von Ostern wählen. Wenn das Gespenst, wie maney Prädiktoren gibt, können Sie den Entscheidungsbäumen geben und versuchen, ein Modell zu bauen, obwohl Entscheidungsbäume schlechter machen oder viel Zeit mit vielen Prädiktoren nehmen, Zumindest kommt die letzte Straße mit Sie würden alle Viecher verwenden wollen. Sie kennen die Hälfte der T-Prater-Variablen. Der endgültige Entscheidungsbaum verwendet möglicherweise nicht alle Stiefel. Es könnte nur fünf oder 10 verwenden oder es wird nur genug Anzahl von Variablen auswählen, es gibt nur jene Variable auswählen, die eine hohe Korrelation R hohe Tendenz haben, das Ergebnis vorherzusagen , nur verwendet es, um einen Entscheidungsbaum zu bauen. Der Entscheidungsbaum kann Ihnen also einen Einblick darüber geben, welche Variablen sich gegenseitig befinden. Pretty hat tatsächlich hoch beeinflusst das Ergebnis, so dass Sie einen Entscheidungsbaum erstellen können , sobald Sie sich ansehen, welche der Entscheidungsbaum tatsächlich auf dann Onley Full Dario Data verwendet hat, sagte, dass dieser Satz von Variablen und dann andere Gärten verwendet , um endgültige Vorhersagen zu machen. Die andere, populärere wissenschaftliche Methode, die Ihnen zur Verfügung steht, um Dimensionalitätsreduktion zu tun ist die sogenannte Hauptkomponentenanalyse. In der Hauptkomponentenanalyse versuchen Sie, die Hauptkomponenten zu finden, die einen hohen Einfluss auf das Ergebnis haben . Dies ist also eine sehr wissenschaftliche Methode, die verwendet wird, um die Anzahl der Prädiktoren zu reduzieren. Eine vollständige Erklärung der ganzen Familie und des Konzepts ist, würde ich sagen, ein fortgeschrittenes Niveau des maschinellen Lernens an dieser Stelle, also werde ich nicht darauf eingehen. Aber es basiert auf Wasser, genannt Alterungsvektoren und Wirkstoffwerte. Dies beinhaltet eine Menge komplexer Matrix und umgekehrt meiner Tricks und Transporte einer Metrik Art von Sachen, die weitergeht, bevor Sie sich das einfallen. Glücklicherweise werden sie für Sie in den Bibliotheken implementiert, die die Hauptkomponentenanalyse für Sie durchführen . Also, was ist das Prinzip der com-Print-Analysen zu nehmen, Sie jemals Daten aus em Prädiktoren der PC gesetzt, es nimmt diese Menge von em Prädiktoren und wandelt sie in einen Satz von en Prädiktoren, ein anderes in Predictor eingerichtet. Jetzt schaut ihr euch dieses Ende an, sagt Künste voraus. Du bist nicht möglich für dich. Führen Sie einen einzigen Wert US A. Einzelne Spalte im Prädiktor Zehe eine einzelne Spalte im Ursprung Alien Raubtier. Es ist nicht möglich, in Konflikt zu treten. Es ist völlig transformiert und völlig diffus. Sie könnten einen neuen Satz von Werten erstellen, und ein neuer Satz von Spalten auf den neuen Prädiktoren ist im Grunde der richtige Prädiktor. Sie werden PC ein PC zu PC drei genannt. Die gute Nachricht, obwohl, ist, dass die specie ein pc to PC drei. Sie zeigen eine hohe Korrelation zur Zielvariablen, die der Bär ist. Das Ergebnis wird als erster Prädiktor erscheinen. P C eins wird die höchstmögliche Korrelation mit der Zielvariablen haben. Die 2. 1 wird nun die nächsthöhere Punktzahl wie und dritte wird nicht zulassen, dass die nächsthöhere Korrelation auf für jede Variable, die jeder Prechter, der auf dem PC kommt. Eine Punktzahl nannte uns, wie viel von der Variation im Endziel durch diese Variable erklärt wird . So kann PC 1 möglicherweise 50% der Variation im Finale des Ziels erklären. variable PC Auch kann möglicherweise weitere 20% Rabatt auf das Ziel erklären. Variable PC drei könnte weitere 10% der Zielvariablen erklären, daher verwenden wir einfach PC 12 und drei. Das insgesamt könnte 80% der Streuung der Zielvariablen erklären. Also was das bedeutet, ist, wer gerade die ersten drei oben für diese die richtige Kreditaufgabe ausgewählt hat und den Rest von ihnen ignoriert. Nur nicht verwendet Details, prognostizieren dunkle, und Sie fangen an, sie zu gehen und gehen Sie Ihre Mission lernen unsere Modellbauübungen so und modellgetriebene, Sie wissen schon, Modellbau Exzesse. Mit den roten Prädiktoren müssen Sie auch dasselbe tun, wenn Sie die Produktionsteile von Ihrem Missbrauch Stück hier finden, um die Konvertierung zu tun, um die Vorhersage zu machen, das neue Vorhersage fragte behielt ein ähnliches Niveau von Korrelation und Vorhersehbarkeit. So machen sie ein ausgezeichnetes Maß an Korrelation und sie sind in der Lage vorherzusagen, wann das Gute ist, sie gehen in abnehmenden Ebenen ab, wie stark sie die Zielvariable beeinflussen. Also gehen Sie nur weiter, wählen Sie die oberen X aus den neuen Prädiktorvariablen und verwenden Sie sie für Ihre Analyse. Wenn Sie sich den Anwendungsfall ansehen, den wir für dieses Modell haben, werden Sie sehen, wie das genau ist. 20. R Use Case : Erweiterte Methoden: Hi. In dieser Vorlesung werden wir uns die fortgeschrittenen Methoden ansehen, über die wir auf einem Beispiel-Anwendungsfall gesprochen haben , für den Fortschritt wichtig. Und dafür ist das erste, worüber ich sprechen möchte, dieses Karotten-Paket in unserem richtigen Paket ist ein sehr nützliches Paket, das Sie nicht haben, in dem Sie alle Missions-Lernalgorithmen mit nur diesem Paket dort ausführen können . Es bietet eine Reihe von Funktionen, die wir bereits gesehen haben. Es gibt Ihnen die Möglichkeit, sich zwischen Trainingsdaten und Testdaten zu verteilen. Es gibt Ihnen Dinge wie Pre Passing wie Hauptkomponentenanalyse und Skalierung und Zentrierung und diese Art von Aktivitäten auf das Wichtigste, was das aktuelle Paket tut, ist, dass es alle anderen Pakete Missionspakete genommen hat und schönen Wrapper um ihn herum, legen Sie einen Wrapper herum, so dass Sie unsere Funktion nur auf die gleiche Weise den Respekt aufrufen müssen, den er aus welchem Algorithmus Sie die gleiche Funktion auf die gleiche Weise verwenden möchten, unabhängig von der alten Wache, um, auf dem Algorithmus, Sie selbst verwenden möchten, wird ein Umfang Zehe. Diese spezielle Funktion, wir müssen nur den Parameterwert von Entscheidungsbäumen zu Nachbarn ändern. Und Sie bekommen Nachbarn, Sie ändern es einfach in einen anderen Algorithmusnamen. Es gibt dir den kleinen Garten, den du nicht die Nummer aussiehst. Wir sahen, dass all diese anderen Algorithmen, die durch jeden dieser Funktionsaufrufe erfunden wurden, unterschiedliche Möglichkeiten hatten , wie Sie die Funktion auf die verschiedenen Arten aufrufen können, in denen Sie die Pastor-Prädiktorvariablen für die Zielvariablen sind. Manchmal liegt es darin, dass sie innerhalb desselben Paradigmas sind. Draußen macht es etwas gut. Nur irgendwie jede Art von Verwirrung passiert dort, um zu hören, dass Sie nur die Nummer eins haben Dinge auf der Maschine zu tun. Lernen alle Garten selbst ist ein Para Meter. Angesichts der Tatsache, dass es den Missions-Lernalgorithmus als Umfang macht, was sind die verschiedenen Algorithmen, die er tatsächlich unterstützt? Und dafür können Sie gehen und schauen Sie sich diese Zugmodellliste auf, was Sie sehen, ist eine wirklich erschöpfende Liste von Modellen, die es unterstützt. Du hast bisher gelernt, was, vier Modelle und hier siehst du was? Ich weiß nicht oft so etwas wie 203 100. Also seien Sie nicht beunruhigt, indem Sie sich so viele Algorithmen ansehen und dann sagen: Oh, Oh, ich kenne nicht all diese Algorithmen. Denken Sie daran, dass alle von ihnen sind nur Varianten Varianten von dem, was wir bereits gesehen haben. Also sahen wir den Basalgarten. Lassen Sie uns Klassifikationen wählen, Bäume. Jetzt könnten all diese Algorithmen oder Implementierungen, bei denen Leute versuchen, die Basis auf Agata zu nehmen , versuchen, es irgendwie zu optimieren, es für etwas hier besser zu machen, etwas dort. Das sind unsere Leute. Was sie in ihrer Promotion forschen, wissen Sie, Stücke sind in der Universität. Sie entwickeln ständig neue Algorithmen für verschiedene Anwendungsfälle, aber sie verwendeten so ziemlich dasselbe grundlegende Konzept. Und da sie das FBI nur auf Praxis oder Theorie fokussiert hat, müssen wir nur wissen, dass die Algorithmen existieren und all die oder versuchen wir einfach diese verschiedenen Algorithmen und sehen, wie sie sich verhalten? Zum Beispiel haben Sie so etwas wie Klassifizierungsbäume. Hier schauen wir uns den Algorithmus an, der Bäume spart. Tut mir leid, ich hätte nicht hier arbeiten sollen. Sie sehen also, dass es Bootstrap-Klassifizierungsbäume gibt, die die Platte auf Klassifizierungsbäumen erhöhen . Dann siehst du das zufällig für uns durch Zufallsprinzip. Und es gibt einen anderen Baum die Statistiken Toshi Attic Grady in der Steigerung einer anderen Art von den C 4.5 Typ Bäume als logische Modellbäume. Du weißt, dass es verschiedene Arten von wirklich bewachten sie gibt. In ähnlicher Weise finden Sie für jeden Basilikum Wache sie. Sie sind wie 10 verschiedene Varianten von diesen basierten Algorithmen, also müssen Sie sich keine Sorgen darüber machen. Und ich werde Ihnen auch eine einfache Möglichkeit geben, mit der Sie alle ausprobieren und sehen können, welche für Ihren Anwendungsfall am besten geeignet ist. Mit diesen Buchstaben mehr als das Beispiel für fortgeschrittene Methode und Angst, werden wir uns Brustkrebsdaten ansehen. Was Sie hier haben, ist eine Reihe von Beobachtungen über einen Satz von Brustkrebspatienten gemacht, Beobachtungen und Diagnose, die auf sie die Werte der Diagnose durchgeführt hat, die herauskam . Und schließlich, der Wert, ob der Patient war gutartig oder gesund oder Mulligan ist, dass sie eine mögliche haben ist, dass es so auf diese Umfänge, die Sie versuchen, herauszufinden, ob dieser Patient die Krankheit haben könnte, sind nicht so. Die Techniken, die wir verwenden werden, ist, dass wir die Hauptkomponentenanalyse mit Training und Testen der Verwirrungsmatrix verwenden werden . Wir werden uns die Unterstützung des neuronalen Netzwerks mit Absackung von Emissionen ansehen und alle in einem Schuss veröffentlichen , weil wir das Karotten-Paket für all dies verwenden würden. All das Zeug gibt es zuerst geladene Datenpakete namens Brustkrebs Punkt CS Wir im Ressourcenbündel und Sie schauen sich die Daten auf, was Sie sehen. Es gibt 30 Türen verschiedene Variablen darin. Da ist also der Efeu , den wir einfach ignorieren können, die Idee vom Patienten, dann die Diagnose, die Ihnen sagt, ob es gutartige oder bösartige Bananen gibt. Okay, sie kennen die Krankheit nicht bösartig und sie haben die Krankheit. Und Sie haben 30 verschiedene Prädiktorvariablen da drin, wie Buddy-Medienbereiche, Stummheit Kompartiment. 30 verschiedene Prädiktorvariablen da drin, wie Buddy-Medienbereiche, Dies sind offizielle Untersuchung oder irgendeine Art von Untersuchung der Patienten und diese andere Mission Minze nimmt auf diese Patienten genommen. Also offensichtlich ist die Anzahl der Variablen hier riesig. Wir verlieren wieder jemanden der Daten, 30 verschiedene Variablen sehen irgendwie OK aus. Sie können es überprüfen und auf Ihr Ding, wenn Sie, wenn Sie Ihre Analyse tun Ähnlich, der Kopf nicht geben, die gleiche Mai Art von Sache. Daten sehen ziemlich einfach aus, außer dass es viele Variablen gibt. Gehen wir runter, machen die Berechnungen noch einmal. 30 verschiedene Variablen. Ich werde sie in einbrechen, 10 aufbrechen und versuchen, Analyse zu studieren. Also unter der Handlung, die zweite Variable, die die Diagnose gegen alle anderen ist, wie 3 bis 10 Variablen. Und sehen Sie, wie die Diagnose Korrelation mit dem Rest des Spiels hat. Also 0,70 Punkt 42,74 Art von mittlerer Zehe. OK, Art von Bereich Jetzt in machen Sie den nächsten Satz von 10. Also komm zurück zu 11 zu 20. Dies ist wieder Art Woking 33 Gesichter und Fifi sieht ziemlich OK, und dann wieder zurück als der Rest der Jungs wieder. Irgendwie. Okay, was machst du mit 30 verschiedenen Variablen? Sie müssen in variable Reduktion kommen. Sie können die frühe Methode durchführen, mit der Sie sie visuell untersuchen und herausfinden können, welche Variablen ich manuell entfernen möchte. Unser Ich kann die Hauptkomponentenanalyse verwenden. Die Hauptkomponentenanalyse ist wie Magie. Es wird mit einem neuen Satz von Variablen auf diesem neuen Satz von Variablen kommen verwendet werden, um die oder Satz von Variablen zu erklären. Wenn ich sage erklären, es bedeutet, dass es korreliert sind die Muster in der alten Mitte? Variablen werden in der neuen Variablen erfasst. Das hat also kein Muster. Die alten waren in der Lage, in dieser neuen Variablen zu erfassen, die durch die Verwendung eines alternden Victors und Agent-Werte auf der mathematischen, äh, die Planungssache,die da ist, getan und Agent-Werte auf der mathematischen, äh, die Planungssache, wird. Also, wie funktioniert dieser hier? Das erste, was Sie für die Hauptkomponentenanalyse tun, haben Sie die Fähigkeit. Die Daten erschrecken die Krebsdaten mithilfe der Skalierungsfunktion. Und dann gibt es eine Funktion namens PR ruhig. Hauptkomponentenanalyse auf den Maßstabsdaten. Also, wie viel anderer Komplex haben Sie über dieses Material aus diesen Algorithmen gesprochen ? Ja, ziemlich einfach, weil etwas bereits implementiert ist für Sie nur einen Lauf dieses Kommando PR Camp auf der Skala erfasst . Später erhalten Sie diese Daten aus genannt PC-Daten auf den PC Daten hat wieder eine abgesetzte Variablen, die die Muster in der ursprünglichen Menge von Variablen erfasst. Also, wie wär's mit denen? Sie haben genau die Dinge gefangen, lasst uns sehen. Aber du kennst eine Handlung der Spezies. Eine Daten. Dies sind die Variablen, die auf kommen. Es heißt PC ein PC zu PC drei, PC. Vier. Es heißt „Hauptkompetent“. Ein Prinzip kompetent zu 34 auf jeden off. Diese neue Variable erfasst die Muster über alle alten 30 verschiedenen Variablen. Erfassen Sie die Partner über alle 30 alten, sehr unterschiedlich. Aber so funktioniert es für jede dieser Variablen. Erklärt, dass sehr Varianzen in diesen alten Variablen in verschiedenen Ebenen. Der erste variable PC sieht also die Varianz, die er erklärt, ist wirklich hoch. Der nächste erklärt bis zu einem gewissen Grad, und ich möchte eine Erklärung. Jeder dieser neuen variablen Staub über die alten Variablen nimmt weiter so ab. Also der oben, der BC erklärt am meisten. Dann die nächste, dann die nächste. So etwas wie das. Jetzt brauchst du einen mit jemandem von BC. Das hast du getan. Du wirst sehen, wie viel von der Explosion wirklich passiert. So schauen Sie sich PC ein BZ an. Man erklärt den Vorschlag der Variante, die den PC erklärt. Einer erklärt Punkt für drei. Was es bedeutet, ist 44% Alter von den Mustern, die Sie in diesen alten 30 Variablen sehen, werden in dieser eine Variable allein das gleiche erklärt. Jetzt gehen wir auf PC zu 19% aus dieser variablen Variation, die Sie gesehen haben. Dieser alte Satz von 30 Variablen wird erklärt, dass eine Variable allein auf hier bei der Community-Personage . Es gibt also eine 44 44 44 plus 1963. Also, wenn Sie zum vierten sehr bluesy 80% der Varianten kommen, die sie in alten 30 Variablen sind, werden in diesen ersten 4 Hauptkomponentenvariablen erklärt. In nur vier Variablen erklären Sie also all das Muster, das Sie in diesen oder 30 Variablen sehen, die den magischen Tod auslösen, obwohl es die Anzahl der Variablen reduziert, die es immer noch X in der Lage war, 80% der Varianten zu erklären , die Sie siehe in diesen alten Variablen. Das sagt dir, dass ich die große nicht kenne. Du fragst dich, was mit 30 neuen Variablen herauskam dich . Ich weiß nicht, dass das Gehen alle 30 neuen Variablen auswählt. Wenn ich nur die Spitze für unseren Kampf bin, erklären Sie mir vielleicht nicht genug Variation. Das ist, was ich tun werde, ist, dass ich Dame sein werde, die ersten 3 Variablen allein nehmen und meine endgültigen Daten zu den ersten 3 Variablen allein machen werde. Also diese Variable Werte, die wieder nur Zahlen. Wenn wir die Werte überprüfen, werden Sie sehen, wie 1234 einige Zahlen und dort. Wählen Sie also die Varios aus, um einen neuen Datenrahmen zu erstellen, wählen Sie die ersten 3 Hauptkomponenten allein aus und legen Sie diese in den endgültigen Datenrahmen ein. Dann fügen Sie die Diagnose ist so, dass die Diagnose, diejenige, die vorhergesagt werden muss, oder die Zielvariable. So Aufstieg, dass auch für die endgültigen Daten, Jetzt tun Sie von par Start Panels und sehen, was kommt mit. Das erste, was Sie sehen, ist die Diagnose. Die Korrelation, die es tut. Es tut sehr hohe Korrelation mit PC man, weil, wie wir wissen, PC man ist in der Lage zu erklären, wie 44% der Muster auf, dass zeigt gute, Wirklich gute Korrelation zum Diagnosewert. Was? Was sehr wichtig ist. Am wichtigsten, um die Nullen hier zu sehen. Es gibt keine Korrelation zwischen d Prädiktorvariablen. Viele sind so, dass ist eine der größten Sache, die aus dem PC kommt, ist, dass als jede dieser neuen Variablen, die herauskommen, sie Korrelation Zehe die Korrelation zum Ziel haben. Sie erfassen die Muster in den ursprünglichen alten Variablen, aber sie haben keine Art von Korrelation untereinander. Also, das wieder Brilliant. Denn das hat tatsächlich viel in der Missionsmahnwelt, weil diese drei Prädiktorvariablen völlig unabhängig voneinander sind. Das ist also wirklich gut. Also sind wir nur drei Variablen waren ableto erklären. Die Muster, die Sie in der Diagnose sehen, wurden 30 ziemlich schnell in drei umgewandelt. Jetzt haben wir 13 zu 3 umgewandelt. Das nächste, was wir tun müssen, ist Modellierung und Vorhersage mit dem Karotten-Paket . Das erste, was Sie wissen, wo Sie das Paket laden. Dann werden Sie die Ausbildung und Tests zu tun verteilt 70 bis 30 ähnlich wie wir in dem anderen Beispiel Färben getan haben, Testen im Zug und dann gehen nach unten. wirst du wieder sehen. Die Spaltung zwischen dem gutartigen und bösartigen ist fast gleich 50 bis 1 49 Simmons, wir werden vier verschiedene Algorithmen verwenden. Was? Ich werde hier tun, ist, dass ich dieses Stück Gericht habe. Was? Dieses Gericht wird das tun. Es wird Modell, Bau und Vorhersage für jeden der vier Algorithmen und füreinander für unsere Gärtentun Bau und Vorhersage für jeden der vier Algorithmen und füreinander für unsere Gärten . Es wird die Zeit messen, die es brauchte, um ein Modell zu bauen und darauf auch die Genauigkeit des Modells vorherzusagen . Also werde ich wie ein Testjahr laufen, ein Vergleichstest hier zwischen all diesen vier Modellen, obwohl ich alle vier Modelle benutze, die Zehe die Brustkrebs-Sache vorhersagen. Ich sage voraus, ob die gutartige und bösartige Sache für den Brustkrebs, Ich werde vergleichen, wie diese Modelle gegeneinander. Werfen wir einen Blick darauf, was dieses Gericht tut. Erstens löschte A C gerade den Vektor von diesen Missionslernnamen. Also wähle ich nur die Steuer für jeden dieser Kranken, der sie bewacht hat. Also gibt es eine Rückseite des Gartens, das mein Schwein unseren Garten steigert, ein neuronales Netz Gesangswächter , ähm, ähm, und dann eine Unterstützungsvektormission. Eine große und diese Dinge, die ich aus dem aktuellen Paket, das wir hier gesehen, die eigentliche Ich werde sie bewacht Wert Sie als Paramilitärs in der zweiten Spalte verwenden . Das ist es, was ich von hier ausgewählt habe. Ich würde gerne für Gothams, das ist das gleiche Gericht. Sie können es wie alle anderen Algorithmen verwenden, und dann erstelle ich ein Endergebnis State. Ich sagte, dass ein Speicherdaten sagte, um die Endergebnisse zu erfassen. Dieser Datensatz wird also denNamen des Algorithmus, dieDauer und Genauigkeit haben , Namen des Algorithmus, die . Also werde ich durch diese rote Liste schleifen, sind Prognoseanalytiker, die 1 bis 4 für jedes der Mitglieder aus dieser Liste sind . Was ich als Erstes tun werde, werde ich sagen, OK, ich mache das nur. Ich habe einen Wert ausgeben, dann die Startzeit erfassen, die aktuelle Systemzeit, Bauen Sie das moderne. Also habe ich eine Funktion Coltrane Zehe, die ich das Ziel übergeben sagen alle Prädiktoren Datum Ich rief Ausbildung auf Ich sage Methode. Er nannte einen Was ist der Name der Methode. Das ist also eine Angelegenheit, die ich mit der Ausbildung meines Gedankens nenne, in der ich die Al Wache übergeben kann , um, Namen als Para Meter. Indem ich einfach den Gartennamen übergebe, kann ich verschiedene Algorithmen mit dem gleichen Zugwetter ausprobieren. Und das versuche ich hier zu tun. Also schaue ich nur durch diese Liste von Algorithmen und rufe sie eins nach dem anderen auf. Und warum bauen Sie dann ein Modell? Ich sage auf dem Modell Identische voraus. Die Verwirrungsmatrix auf dem Modell erfasst die Endzeit. Wo sind im Grunde herauszufinden, wie lange dieser, sagen wir, gefangen nimmt sagen wir, . Dann starte sie und ihre Zeit. Und dann befülle ich die Ergebnisse. Ich habe diese Ergebnisse, Nate. Nach Mnuchin, werden Sie nur füllen den Algorithmus verwendet die Gesamtzeit, die es gedauert 10 Minuten. Jedes Mal auf die Genauigkeit, die ich von der Verwirrungsmatrix bekomme, hat die Verwirrungsmatrix diese insgesamt, erinnern Sie sich, was wiederum das hat? Das erste Mitglied dieses gesamten Datenrahmens ist eine gute Genauigkeit. Wir haben uns gefangen und das Geld hat 100 gespielt. So Genauigkeit wird vorbei Punkt etwas kommen, was ich nur Montag spielen von 100 auf Drohnen aus zu tun. Das ist, was ich hier mache und Grizzles erfassen und ich führe dieses Gericht auf verschiedenen Algorithmen wird es anders erwärmen. Keine wirklichen unsere Häfen. All das ist Mist. Dann schließlich werde ich gehen und schauen auf die endgültige Ausgabe auf der Endzone läuft das Feuer Lord auf hier setzen. Ein Sitzalgorithmus ist der Typ des verwendeten Algorithmus. Die Dauer dauerte die Genauigkeit des Algorithmus. So sehen Sie, dass die FDA, die Unterstützung tatsächlich 80 Sekunden dauerte, um neun und 96% Genauigkeit auszuführen. Größte Zecke, die auf Sie ansteigt. Es dauerte zwei Sekunden, um auszuführen. Kam in 97% Genauigkeit fast gebrochen acht Sekunden. 97% auf SPM. Drei Sekunden, 94%. Sie wissen, Sie können gehen und versuchen Sie den Rest der Algorithmen und dann sehen Sie, dass Sie wissen, welche Art von Genauigkeit in der Regel an den Daten erhöht die in mehreren Angelegenheiten wie Absackung, Erhöhung Astralass Random Wald nehmen mehr Zeit. Neuronale Netzwerke werden auch viel mehr Zeit in Anspruch nehmen. Die Fastern, die Sie vielleicht wie etwas wie Entscheidungsbäume finden, sind eine Regression. Vielleicht umso schneller. Das ist also die ganze Leitungsarbeit. So können Sie das Karotten-Paket verwenden, um Vorhersagen zu machen. Es ist ein Paket, das alles kann, was Sie brauchen dieses eine Paket auf den Rest der Algorithmen, die wir hatten. Wir haben verschiedene Bibliotheken ausprobiert, nur um das Angebot willen. Wir hätten sie alle mit dem Karottenpaket selbst tun können. Und ich empfehle, dass Sie alle von ihnen auch mit der aktuellen Back-Agentur ausprobieren, wie es herauskommt . Und wir haben auch gesehen, wie die wichtigste kompetente Analyse die Anzahl der Variablen erzeugt, während alle Signale, die erforderlich sind, beibehalten wird. Das sind also alle fortgeschrittenen Methoden für Sie. Danke.