Twitter & Natürliche Sprachverarbeitung (NLP) für Anfänger | Engineering Tech | Skillshare
Drawer
Suchen

Playback-Geschwindigkeit


  • 0.5x
  • 1x (normal)
  • 1.25x
  • 1.5x
  • 2x

Twitter & Natürliche Sprachverarbeitung (NLP) für Anfänger

teacher avatar Engineering Tech, Big Data, Cloud and AI Solution Architec

Schau dir diesen Kurs und Tausende anderer Kurse an

Erhalte unbegrenzten Zugang zu allen Kursen
Lerne von Branchenführern, Ikonen und erfahrenen Experten
Wähle aus einer Vielzahl von Themen, wie Illustration, Design, Fotografie, Animation und mehr

Schau dir diesen Kurs und Tausende anderer Kurse an

Erhalte unbegrenzten Zugang zu allen Kursen
Lerne von Branchenführern, Ikonen und erfahrenen Experten
Wähle aus einer Vielzahl von Themen, wie Illustration, Design, Fotografie, Animation und mehr

Einheiten dieses Kurses

    • 1.

      Einführung

      1:11

    • 2.

      Text in numerische Werte mit einem numeric umsetzen

      4:31

    • 3.

      tf-idf zur Konvertierung von Text in numerische Werte

      4:11

    • 4.

      NLP und Erstellen eines Textsymbols

      10:07

    • 5.

      Auf ein Twitter anwenden

      2:21

    • 6.

      Twitter mit dem text

      5:37

    • 7.

      Erstellen eines Textsymbols mit PyTorch

      3:32

    • 8.

      Erstellen eines Textsymbols mit TensorFlow

      1:43

  • --
  • Anfänger-Niveau
  • Fortgeschrittenes Niveau
  • Fortgeschrittenes Niveau
  • Jedes Niveau

Von der Community generiert

Das Niveau wird anhand der mehrheitlichen Meinung der Teilnehmer:innen bestimmt, die diesen Kurs bewertet haben. Bis das Feedback von mindestens 5 Teilnehmer:innen eingegangen ist, wird die Empfehlung der Kursleiter:innen angezeigt.

65

Teilnehmer:innen

--

Projekte

Über diesen Kurs

Es gibt durchschnittlich 500 Millionen Tweets pro Tag! Menschen twittern zu verschiedenen Themen, Themen von der Politik, Sport über Filme bis hin zu fast jedem Thema unter der Sonne. Sentimentanalyse ist der Prozess der Feststellung, ob ein Text (Überprüfung, Tweet, Feedback etc.) positiv oder negativ ist. Sentiment-Analyse hilft uns, Kundenfeedback zu bestimmten Produkten oder Dienstleistungen zu erhalten. Es wird verwendet, um die allgemeine Stimmung der Öffentlichkeit an verschiedenen day Tagesgeschäften zu bekommen. Sentimentanalyse kann auch verwendet werden, um die Wahlergebnisse vorherzusagen.

In diesem Kurs lernst du folgendes

  1. Text in numerische Werte mit bag-of-words und tf-idf konvertieren
  2. NLP - stop Stemming, Tokenisierung
  3. Erstellen eines Textsymbols mit Hilfe von maschinellen a
  4. Export und Bereitstellung der Machine Learning
  5. Erstellen eines Twitter
  6. Fetching vom Twitter abfangen und Stimmung vorhersagen.

Voraussetzungen:

Du solltest Vorkenntnisse in Python und grundlegende Maschinelles Lernen haben – wie die Klassifizierung

Triff deine:n Kursleiter:in

Teacher Profile Image

Engineering Tech

Big Data, Cloud and AI Solution Architec

Kursleiter:in

Hello, I'm Engineering.

Vollständiges Profil ansehen

Level: Beginner

Kursbewertung

Erwartungen erfüllt?
    Voll und ganz!
  • 0%
  • Ja
  • 0%
  • Teils teils
  • 0%
  • Eher nicht
  • 0%

Warum lohnt sich eine Mitgliedschaft bei Skillshare?

Nimm an prämierten Skillshare Original-Kursen teil

Jeder Kurs setzt sich aus kurzen Einheiten und praktischen Übungsprojekten zusammen

Mit deiner Mitgliedschaft unterstützt du die Kursleiter:innen auf Skillshare

Lerne von überall aus

Ob auf dem Weg zur Arbeit, zur Uni oder im Flieger - streame oder lade Kurse herunter mit der Skillshare-App und lerne, wo auch immer du möchtest.

Transkripte

1. Einführung: Willkommen zu diesem Twitter-Sentimentanalyse-Kurs. In diesem Kurs wird das Abrufen von Echtzeit-Tweets von Twitter und Vorhersage Stimmung von Tweets mit natürlichen Sprachverarbeitung und Python maschinellen Lerntechniken. Wird zuerst die Klassifizierungstechniken verstehen und einen Text-Klassifikator erstellen , der jeden Text lesen und vorhersagen kann , ob das Gefühl positiv oder negativ ist. Sobald das getan ist, wird die Sterblichen für die Twitter-Sentimentanalyse zu erschöpfen. Dieser Kurs ist für jemanden gedacht, der Python Machine Learning und Wash bereits kennt , um zu verstehen, wie man Textklassifizierung macht und verschiedene NLP-Techniken zur Twitter-Sentimentanalyse anwenden kann. Wenn Sie völlig neu in Python und maschinellem Lernen sind, sollten Sie sich unseren anderen Kurs ansehen, der für absolutes Zeugnis entwickelt wurde. Also lasst uns eintauchen und loslegen. 2. Text in Zahlenwerte mit bag-of-words: Alle Modelle des maschinellen Lernens sind so konzipiert, dass sie mit numerischen Daten arbeiten. Wenn Sie numerische Daten haben, Agentengehalt wird hier angezeigt, dann können wir leicht ein maschinelles Lernmodell erstellen , das die Ausgabe für einen neuen Satz von Daten vorhersagen kann. Nun, wie wenden wir diese Technik an, um ihn Text zu klassifizieren? Zum Beispiel könnten wir Daten für ein Restaurant wie Dienstleistungen gut oder Ambiente wirklich schön, hart überprüft haben . Wir kategorisieren sie als positive oder negative Bewertungen. Wenn wir in der Lage sind, ein Klassifizierungsmodell basierend auf diesen Überprüfungsdaten zu erstellen, dann können wir vorhersagen, ob eine neue entfernen , zum Beispiel, Hauptgang war nett, ob es gut oder schlecht. Das Problem, das wir lösen müssen, ist, wie können wir das umwandeln? Nimmt Daten in numerisches Format auf. Dies führt uns zur natürlichen Sprachverarbeitung oder NLP. Es ist ein Bereich der Informatik, der sich mit der Interaktion von Computer- und menschlichen Sprachen befasst . Nlp kann verwendet werden, um Text oder Sprache zu verarbeiten. Eine der Möglichkeiten, nimmt in numerisches Format zu konvertieren, ist durch die Verwendung von Textbeutel Modell, das Sie Text darstellen, ist Tasche von Wörtern, ohne Berücksichtigung der Grammatik und der Reihenfolge, in der sie auftreten, aber halten Sie die Vielfalt, geben Sie höhere Gewichtung zu vergeben, wenn es mehr Anzahl von Malen in einem bestimmten Satz auftritt. Lassen Sie uns Tüte von Wörtern durch ein einfaches Beispiel verstehen. Wir haben drei Sätze. Service, gutes, schönes Ambiente, gutes Essen. Nun wollen wir sehen, wie wir sie im numerischen Format mit der Taschen-of-Word-Modellierung darstellen können . Lassen Sie uns alle Wörter ein Peering in allen drei Sätzen identifizieren. Das sind Service, gut, schön, Ambiente. Und jetzt sehen wir, wie oft jedes Wort in jedem der Sätze vorkommt. Der erste Satz Service tritt einmal auf. Also lasst uns einen einfangen. Nice kommt im ersten Satz nicht vor. Also lasst uns 02 einfangen. In ähnlicher Weise können Sie das für alle Wörter in allen drei Sätzen tun. Und dann können Sie eine Matrix von numerischen Werten erstellen. Schauen wir uns ein etwas komplexeres Beispiel an. Wir haben drei Sätze, und diese Sätze haben viele Wort sagt hier gezeigt. Die ersten Sätze dienen heute gut, dann ist das Ambiente wirklich schön. Dann ist der dritte heute für seinen Mantel und Salat ist schön. Wir erstellen ein Histogramm von Wörtern und erfassen, wie oft jedes Wort vorkommt. Wenn Sie einen Satz in ein numerisches Format konvertieren, nehmen Sie nicht unbedingt alle Wörter. Sie müssen die obersten Wörter finden und dann eine Matrix daraus erstellen. Es gibt verschiedene Bibliotheken für Sie, um Top 1000 oder 10 Tausend englische Wörter für Ihren Text auszuwählen und einen numerischen Vektor zu erstellen. Moment wollen wir versuchen zu verstehen, wie das Modell erstellt wird, indem wir diese einfachen Beispiele nehmen und dann harte Leistung vier oder fünf Watt auswählen. Wenn Sie mit der Arbeit an tatsächlichen NLP-Projekt beginnen, haben Sie Bibliotheken geliebt, die Ihnen helfen, die Wörter zu extrahieren und numerische Vektoren zu erstellen. In diesem speziellen Fall haben wir Wort-für-Wort-Zählung angeordnet, und lassen Sie uns diese fünf Wörter auswählen. Ist gut, schön heute im Dienst, die die meisten Male auftreten. Und lassen Sie uns diese Top fünf Watt wählen, die mehr Anzahl von Malen auftreten, und dann einen numerischen Vektor für unsere drei Sätze erstellen. So wie Sie hier sehen können, was Issachar zweimal für den dritten Satz. Hier ist der Wert also zwei hier. Für den Rest der Sätze kommt es einmal vor, so dass wir ein Jahr gefangen genommen werden. In ähnlicher Weise wird die Anzahl der Male , die jedes Wort in jedem Satz vorkommt, hier erfasst. Die Begrenzung der Sack-of-Wort-Modell sieht jedes, was die gleiche Bedeutung gegeben wird. Wenn Sie eine Analyse mit Text durchführen müssen, zum Beispiel, wenn Sie die Stimmung des Textes berechnen müssen, können nicht alle Wörter die gleiche Impotenz haben. Zum Beispiel werden Wörter wie nett eine höhere Bedeutung haben als heute, wenn es um eine positive Stimmungsanalyse geht. Schauen wir uns nun eine andere Technik an, mit der wir bestimmten Wörtern höhere Bedeutung geben können. 3. tf-idf zur Umwandlung von Text in Zahlenwerte: TF-IDF ist eine beliebte Technik, um Takes in numerisches Format zu konvertieren. TF-IDF steht für Termfrequenz und inverse Dokumentenfrequenz. Es ist dieses Modell gesetzt, wenn Ihr Wort häufiger in einem Dokument oder einem Satz auftritt, wird es mehr Bedeutung gegeben. Wenn jedoch die gleiche Reihenfolge in vielen Sätzen oder vielen Dokumenten auftritt, wird dem Wort weniger Bedeutung beigemessen. Schauen wir uns ein Beispiel an. Tf ist die Termfrequenz, h. die Anzahl der Vorkommen eines Wortes in einem Dokument geteilt durch die Anzahl der Wörter in diesem Dokument oder Satz. Zum Beispiel, wenn heute Essen ist gut und Gehälter Nizza. Das ist ein Satz. Dann ist die Termfrequenz dessen, was das Gute ist eins nach acht, weil das Wort gut einmal vorkommt und es insgesamt acht Wörter gibt. In ähnlicher Weise ist die Zielfrequenz von Wort 0s zwei mal acht, da das Wort iz zweimal vorkommt. Und es gibt richtig in Richtung. Also durch dieses Modell würde leicht eine höhere Bedeutung haben, als wir gut sind, weil es in diesem speziellen Satz mehr Anzahl von Malen vorkommt. Wenn jedoch in Richtung einfacher gemeinsamer Brunnenkresse mehrere Sätze Dokumente sind, wäre die Wichtigkeit geringer. Das wird also durch die inverse Dokumentfrequenz gesteuert, die als nächstes aussehen wird. IDF Inverse Document Frequenzen basierend auf dieser Formel berechnet. Log-Basis C, Anzahl der Sätze geteilt durch die Anzahl der Sätze, die das Wort enthalten. Auch hier müssen Sie sich nicht an diese Formel erinnern. Sie lieben Bibliotheken, die verfügbar sind, um TF- und IDF-Werte zu berechnen. Für jetzt, verstehen Sie die Konzepte. Schauen wir uns ein einfaches Beispiel an, um IDF zu verstehen. Stellen Sie sich vor, wir haben drei Sätze Dienstleistungen gut. Heute ist das Ambiente wirklich schön, und heute ist das Essen gut und solide ist schön. Wir wissen bereits, wie man die Häufigkeit verschiedener Wörter berechnet , die in diesen Sätzen erscheinen. Jetzt, um inverse Dokument Frequenz berechnen müssen Log-Basis C, Anzahl der Sätze zu tun. Das ist drei für alle Wörter geteilt durch die Anzahl der Sätze, die das Wort enthalten. Zum Beispiel, erleichtert ein Peering in allen drei Sätzen. Also im Nenner haben wir drei für jede als Log-Basis e, drei mal drei 0. Nun, das Wort Israel hat eine geringere Bedeutung, weil es sich um ein häufig vorkommendes Wort handelt. Ähnlich für Wort gut, es tritt vor. Und zu dokumentieren, Wenn wir Log-Basis e drei von zwei anwenden, wir erhalten einen sehr niedrigen Punkt für eins. Und dann können wir für alle Wörter berechnen. Der Dienst erfolgt nur in einem Satz oder einem Dokument, daher ist sein Wert 1,09. Um den numerischen Wert jedes Wortes zu berechnen, berücksichtigen wir sowohl TF als auch IDF. Multiplizieren Sie einfach TF, IDF, zum Beispiel, für was TAP ist 0,25 und IDF ist 0. In ähnlicher Weise können Sie TF-IDF-Wert für alle Wörter berechnen. Jetzt können Sie sehen, dass Wörter Bedeutung erhalten, basierend darauf, wie oft sie in einem Satz vorkommen und wie oft sie in allen Sätzen vorkommen. Im Gegensatz zu Tasche von Wörtern Modell, geben wir mehr Bedeutung auf die mehr Anzahl von Malen in einem bestimmten Satz auftreten, aber sie sind Listen ausgebreitet. Dies ist TF-IDF-Modell, mit dem Sie Takes in numerisches Format konvertieren können. Jetzt, wenn Sie diesen Text im numerischen Format haben, können wir dies zu einem maschinellen Lernmodell passen? Jedes dieser Wörter in einem textbasierten Klassifizierungssystem wäre ein Merkmal oder unabhängige Variablen. Und Ihre abhängige Variable wäre, ob das Gefühl positiv ist oder nicht. Das kann im numerischen Format dargestellt werden ist eins oder geo statt positiv oder negativ. 4. NLP Core und Aufbau eines text: Lassen Sie uns verstehen, wie Sie einen Textklassifikator mit den Techniken erstellen, die Sie gerade gelernt haben , wird auch einige der Kernkonzepte von NLP oder Natural Language Processing verstehen . Gehen Sie zu Google Collab und erstellen Sie ein neues Notizbuch. Wir nennen es Text-Klassifikator. Für die Verarbeitung natürlicher Sprachen stehen verschiedene Bibliotheken zur Verfügung. Wird unseren Text mit einer beliebten Bibliothek namens NLTK vorverarbeiten. Wird NLTK und einige der Kernkonzepte der Natural Language Processing verstehen , indem man sich einige Beispiele anschaut. Zuerst müssen wir NLTK importieren. Danach müssen wir NLTK-Bibliotheken herunterladen und alle Verbindlichkeiten herunterladen. Während es heruntergeladen wird. Schauen wir uns die Textdatei an, an der wir arbeiten werden, um NLP zu verstehen und einen Text-Klassifikator zu erstellen. Werde in diesem Restaurant Bewertung Daten suchen. Dies ist auf Kaggle und vielen anderen Orten online verfügbar. Dies ist Restaurant Neustart Daten und ob Kunden wie das Restaurant dot naught man bedeutet, dass sie wie haben Herren Schritt nicht wie. Sie können einige der positiven Sätze wie die Phrase sehen, wir sind gut. Das ist eine, die positiv ist. Wer würde nicht zurückgehen? Das ist ein negativer Satz, das ist eine negative Bewertung. Das ist also als 0 markiert. Also basierend auf diesen Daten müssen es Text-Klassifikator zu bauen, mit dem wir vorhersagen können, ob eine neue Sätze positiv oder nicht. Wir klicken auf die Registerkarte, um den Pfad dieser Datei zu erhalten. Wir brauchen Pandas, um die Datei zu laden. Also importieren wir zuerst numpy als np, dann Pandas als pd. Mit pandas read_csv wird diese CSV aus unserem GitHub-Repository gelesen. Wir haben einen Fehler erhalten, da dies nicht durch Kommas getrennt ist, tabulatorgetrennt ist, also müssen Sie dieses Trennzeichen angeben. Das Trennzeichen würde also tab sein und dann Beschichtung gleich drei erfassen, was bedeutet, dass doppelte Anführungszeichen ignoriert werden sollten. Sobald es in einen Pandas DataFrame geladen ist, können wir die Top-Datensätze sehen. Jetzt wird diese Restaurant-Werbung auf einen Pandas DataFrame geladen. In der Verarbeitung natürlicher Sprache entfernen wir einige der häufig vorkommenden Wörter See, obwohl sie uns vielleicht nicht sagen, ob ein Satz positiv oder negativ ist, aber sie würden Raum besetzen. Diese Worte werden als Stoppwörter bezeichnet. Und mit NLTK können wir alle Stoppwörter leicht loswerden. Es gibt ein anderes Konzept namens Stemming, mit dem wir Wurzelform von Wörtern ableiten können. Zum Beispiel, für beide, die beim Lauf laufen, können wir Wortlauf für total und total haben. Wir können insgesamt gearbeitet haben. Dass wir, wir begrenzen die Anzahl der Wörter in unserer Analyse. Lasst uns verstehen, wie das funktionieren würde. Zuerst werden wir Stopword-Bibliothek aus NLTK importieren. Dann werden wir porter stemmer importieren, mit dem Sie Route für die Wörter ableiten können, wird die stemmer Klasse instanziieren. Schauen wir uns nun unseren Datensatz im Detail an. Es ist 1000 Einträge, müssen durch diese angepriesen Einträge Schleife und entfernen Sie alle Stoppwörter und gelten Stemming und erstellen Sie ein Korpus von sauberer Technologie. Zuerst deklarieren wir eine leere Liste, die den Korpus des Textes enthält. Jetzt für i im Bereich von 0 bis Tausend werden wir eine Customer Review Variable deklarieren, die Daten für jede Zeile enthält, die wir mit der Datensatzüberprüfung I abrufen können. Als nächstes werden wir alle Stoppwörter loswerden und Stemming mit dieser Syntax anwenden. So erhalten wir alle Wörter, die es in der Kundenrezension gibt. Und wenn das Wort nicht in der englischen Stoppwort-Liste von NLTK-Bibliothek ist, wenden Sie Stemming an. Dann können Sie die Wörter verketten, um den Satz zurück zu bekommen. Und dann schließlich werden wir das an die Corpus-Liste anhängen, werden auch einige weitere Datenbereinigung durchführen. Wenn wir uns diesen Neustart ansehen, gibt es bestimmte Zeichen wie Ausrufezeichen, die wir auch mit Python loswerden können. Regulärer Ausdruck behält nur Alphabete in kleineren Großbuchstaben. Und Sie können das leicht in Python mit regulären Ausdrücken tun. Und die Syntax dafür ist so etwas. Sollte, sollte dies alle Zeichen loswerden, die kein Alphabet sind und auch alle Sätze in Kleinbuchstaben für Konsistenz konvertieren. Jetzt teilen wir den Satz auf Leerzeichen, um die Wörter abzuleiten. Die erste Zeile besteht also darin, alle Junk-Zeichen zu entfernen. Dann konvertieren wir die Sätze in Kleinbuchstaben und teilen sie nach Leerzeichen. Für jedes Wort. Wenn es nicht in Stoppwörtern ist, dann nehmen wir dieses Wort und wenden Stemming an. Und dann schließen wir uns der ganzen Uhr an, um den Satz zurück zu bekommen. Also lassen Sie uns es laufen und sehen Sie die Ausgabe. Wir müssen auch den regulären Ausdruck importieren. Das muss niedriger sein. sollten wir ein Korpus sauberer Sätze haben. Schauen wir uns die Werte an. Wir nehmen den ersten Satz ist, dass Sie sehen können, jetzt haben wir alle Punkte entfernt und der gesamte Satz konvertiert es in Kleinbuchstaben. Nehmen wir an, Akkordlinie sieben, die ein Index sechs ist. Sie können sehen, dass die Klammern entfernt wurden. Und auch alle Stoppwörter wie ein in den und anderen häufig vorkommenden Wörtern wurden entfernt. Und der Bändiger half uns, die Wurzelform jedes Wort abzuleiten. Schauen wir uns ein anderes Beispiel an. Dies ist also ein weiterer Satz, in dem Wörter in ihre Wurzelform geändert wurden. Beachten Sie, dass das Stammformular eine Bedeutung haben kann oder nicht. Aber dann würde uns das helfen, die Anzahl der Wörter zu reduzieren , so dass wir die Verarbeitung viel schneller machen können. Als nächstes lassen Sie uns die Sätze in numerisches Format mit TFIDF-Vektorschatz konvertieren. Scikit-Learn ist es TFIDF-Vektor Ägypten Klasse. Und wir können angeben, wie viele Wörter wir wollen, tau 01500 oder was auch immer Nummer. Unter Verwendung der mittleren DAF geben wir an, dass das Wort zum Leasingpreis vorkommen sollte , damit dies berücksichtigt werden soll. So können Sie Wörter loswerden, die sind. Schneiden selten mit dem Mittelwert df. Verwenden von max D, wenn Sie Wörter loswerden können, die häufig in allen Dokumenten vorkommen. So würde zum Beispiel MAX da 0.6 jedes Wort loswerden , das in mehr als 60% der Dokumente vorkommt. Als nächstes, mit dem vektorisierten oder wir können den Korpus zu einem numerischen Träger konvertieren. Lasst uns jetzt Takes drucken. Dies sind also die TF-IDF-Werte. Es gibt einige Werte ungleich Null, die in diesem Notizbuch nicht angezeigt werden. Lassen Sie uns einen Beispieldatensatz überprüfen. Und wir können sehen, dass einige der Wörter Werte ungleich Null haben. Also dieser Opfer ist eine zweidimensionale numerische tragen aus allen Sätzen in der Restaurant-Review-Datei erstellt . In diesem Datensatz, wie auch die abhängige Variable, die eine oder 0 enthält. Lassen Sie uns also eine abhängige Variable erstellen, y, die Daten für diese Spalte haben wird. Also erhalten wir alle Zeilen und die zweite Spalte, konvertieren sie in ein NumPy-Array. Und wenn Sie y drucken, können Sie alle Werte eins oder 0 sehen. Danach ist die Stapes, um maschinelles Lernmodell zu erstellen , das gleiche wie das, was wir früher für numerische Daten gesehen haben. Wir werden Zugtests durchführen, teilen, 80% Daten für das Training aufbewahren, 20% zum Testen. Verwenden wir die „K nie“ -Technik, um einen Klassifikator zu erstellen. So können Sie auch jede andere Klassifizierungstechnik wie vielleicht verwenden , die ein beliebter Klassifikator für textbasierte Daten ist. Lassen Sie uns nun mit dem Klassifikator vorhersagen. Lassen Sie uns die Verwirrungsmatrix ableiten. Wird nun die Eigenkapitalausgabe drucken. Als nächstes lassen Sie uns einen Beispielsatz haben und vorhersagen, ob er positiv oder negativ ist. Wir verwenden die gleiche Vektorfreizeit, um diesen Satz in numerisches Format zu konvertieren. Dies ist nun die TF-IDF Darstellung des Satzes. Danach können wir die Stimmung mit der Vorhersage Methode des Klassifikators vorhersagen. Also haben wir eine, die positiv ist. Lassen Sie uns noch einen Beispielsatz haben. Konvertieren Sie das in das TFIDF-Format. Jetzt prognostizieren Sie die Stimmung und wir sind auf 0. Das ist also ein negativer Satz. So können wir einen Text-Klassifikator erstellen, der verschiedene Sätze lesen und bestimmen kann , ob er positiv oder negativ ist. Nun, wenn jemand mit diesem Klassifikator vorhersagen will, würde er den Klassifikator benötigen. Sie würden auch die Siegesmaßnahme brauchen. Lassen Sie uns diese beiden Dateien in gebeiztem Format exportieren. Das ist also unser Klassifikator. Wir nennen es Text-Klassifikator. Und wir erstellen eine Pickle-Datei für dieses TF-IDF-Modell. Jetzt haben wir sowohl die Gurke Dateien und wir können aus der colab Umgebung herunterladen und es in eine andere Umgebung bringen, wo wir diese Schnalle Dateien verwenden können , um Stimmung von Text vorherzusagen. 5. Bewerben für ein a: Gehen wir zu Developer dot twitter.com und bewerben Sie sich für ein Entwicklerkonto. Das unterscheidet sich also von Punkt zu.com, den Sie möglicherweise haben. Pashtun konnte sich bei Twitter einloggen und dann zu ihrem Rechtsanwaltspartner tutor.com gehen. Klicken Sie auf Anwenden. Klicken Sie auf Für ein Entwicklerkonto beantragen. Ich fange an, akademische Forschung zu machen. Und geben Sie alle Ihre Details. wurde der Grund für die Erstellung eines Entwicklerkontos angegeben, das Ihnen Zugriff auf Daten gewährt. Epa hat die Fragen dieses Videos beantwortet. Klicken Sie auf Weiter. Lesen Sie die Allgemeinen Geschäftsbedingungen und klicken Sie auf Akzeptieren. Und reichen Sie den Antrag ein. Sie müssen zu Ihrem Postfach gehen und bestätigen, dass Sie sich beworben haben. Jetzt wird es mit der Anwendung geben und es genehmigen. Es kann ein paar Stunden oder bis zu ein paar Tage dauern. Und Sie erhalten eine E-Mail erhalten, dass Ihre Bewerbung zur Überprüfung eingereicht wurde. Sobald Ihre Anwendung genehmigt wurde, gehen Sie zu Developer dot Twitter.com. Klicken Sie auf das Entwicklerportal. Dann können Sie hier auf Apps klicken. Und du kannst das Nickerchen klären. Geben Sie ihm einen Namen, geben Sie ihm eine Callback-URL, die mit Ihrer URL identisch sein kann. Und andere Details. wird ein Stopp erstellt. Sie können zu Schlüsseln und Token gehen und Ihren Verbraucher-EPA- und geheimen Schlüssel erhalten , mit dem Sie zwei abrufen können. Es ist Sie können immer zurück zu den Apps und wählen Sie eine bestimmte App, und gehen Sie zurück zu den Tasten und Token Registerkarte, um die Schlüssel zu sehen. Und Sie können auch Region Teil des Durcheinander, setzen jemand kennt Ihre Schlüssel, dann können Sie sie immer lesen. Und Sie können Zugriffstoken und Zugriffsschlüssel generieren. Und Sie können diese Werte nur sehen, wenn Sudipto sie irgendwo kopieren und geben. 6. sentiment mit dem text: Lassen Sie uns nun zum Text-Klassifikator-Notebook auf Google Columbian gehen , laden Sie die Pickle-Dateien herunter, die wir in der vorherigen Ebene generiert haben. Zuerst müssen wir die Dateistabilität importieren. Dann können wir speichern Dateispeicher Download und geben Sie den Dateinamen in Gerichten, und laden Sie die BCL-Dateien schneller herunterladen Sie den Klassifikator. Dann laden wir die TF-IDF Modellierung wird die eingelegten Dateien in GitHub Repository hochladen. Lassen Sie uns nun ein neues Notizbuch für die Twitter-Sentimentanalyse erstellen. Wir werden das retten. Wir werden es nennen, als Drew keine Analyse verlangt. Dies ist ein neues Notizbuch, so dass die Pickle-Dateien hier nicht vorhanden sind. Wird sie aus GitHub-Repository kopieren. Verknüpfungsadresse kopieren. Dann erhalten Sie zuerst Punkt-TF-IDF-Modell, Verknüpfungsadresse kopieren, und dann den Text-Klassifikator. Nun wurden beide Dateien kopiert. Twitter-Stimmungsanalyse von einem Python Programm zu tun wird, um Haftung zu sein. Erste klinisch wichtige 3p. Dann müssen wir Forward-Variablen deklarieren, um den Consumer Key, Consumer Secret, Access Token und Access Secret zu speichern . Lassen Sie uns sie von unserem Entwicklerkonto kopieren. Wir wählen die App, die wir gerade erstellt haben, und kopieren diesen Schlüssel sezerniert und Zugriffstoken und Zugriff geheime und regenerieren diese Schlüssel. Nach diesem Labor können Sie diese Schlüssel nicht verwenden. Als nächstes schreiben wir diejenigen, die sich als Kern erwiesen haben, um Twitter mit dem Verbraucherschlüssel Verbrauchergeheimnis, Zugriffstoken und Zugriffsgeheimnis empört zu werden. Als nächstes deklariert eine APA-Variable mit einem bestimmten Timeout, angegeben 22. Timeout. Wenn es für 20 Sekunden keinen Tweet gibt, wird es Timeout. Als nächstes holen wir Tweets für einen bestimmten Text. Wird für Impfstoff holen, was ein beliebtes Thema ist. Jetzt erstellen wir eine leere Liste, um alle Tweets zu speichern. Und dann mit Standard-2pi-Akkord, können wir alle Punkt holen, die das einzige, was Sie beachten müssen, ist wie viele Tweets Sie holen wollen, haben hier 500 angegeben. Dies wird so lange laufen, bis es 500 Tweets erreicht. Sie können die Länge der Anzahl der Waren überprüfen, Phase zwei, die 500 ist. Sie können einige Probe zwei überprüfen, es ist auch, also sind dies einige echte Gitter, die die Leute gerade jetzt auf verdeckten Impfstoff twittern. Wie Sie sehen können, dass Tweet sagte Herr von Sonderzeichen wie cohosh. der Geschwindigkeit können wir Python verwenden, Relais, periodische let-expression, zwei Pins, die wiegen. Also haben wir nicht wirklich hingeschaut. Wir erhalten Tweets eins nach dem anderen, konvertiert sie in Kleinbuchstaben, werden alle John Zeichen entfernen. Sie können mehr über regulären Ausdruck lesen und verstehen, wie Sie mit verschiedenen Arten von Text umgehen. Wir können eine Probe nehmen, um nach der Reinigung zu essen. Schauen wir uns das mal an. Sehen Sie, dass es überhaupt gewonnen hat. Die Sonderzeichen sind verschwunden. Wir haben Videos Techniken gelernt, um die eingelegten Dateien bereitzustellen, wie riskante IPAs sind serverlose EPAs für dieses Labor, lassen Sie uns einfach Lord the pickle-Dateien auf zwei Variablen und verwenden Sie sie, um aktuelle importieren. Und wir haben unser TF-IDF-Modell auf eine andere Variable gesenkt. Lassen Sie uns zwei Variablen deklarieren, um positive und negative Tweets im Auge zu behalten. Als nächstes schauen wir auf die Twitter-Liste und die Verwendung von Klassifikator Punkt Vorhersage Methode wird Stimmung für jeden Tweet vorhersagen. Und vor der Anpassung muss der Klassifikator das TF-IDF-Modell anwenden, um es in numerisches Format zu konvertieren. Lassen Sie uns das laufen. Danach erhalten wir den positiven und negativen UIDCount. Mal sehen, wie viele positive, aber zwei, es ist auf Impfstoff, es ist 97 und dann 403 negative zwei. Das ist also die Stimmung des Textes, der für die letzten 500 Tweets analysiert wurde. 7. Erstellen eines text mit PyTorch: Lassen Sie uns jetzt verstehen, wie Sie Punkt-Text-Klassifikator mit Hilfe von Berührung zu erstellen. Wenn Sie neu sind, es dot-dot-dot Deep Learning zu kaufen, können Sie sich unseren anderen Kurs über maschinelles Lernen, Deep Learning Modellbereitstellung ansehen. Die Klammern für die Textvorverarbeitung und -bereinigung sind die gleichen, wie wir früher getan haben. Sobald Sie den Korpus erhalten Text haben, können Sie den TFIDF-Vektor Asia verwenden, um ein numerisches Array zu erstellen. Und danach können Sie trainieren Test Split mit scikit-learn. Danach verwenden wir Python, um einen Textklassifikator zu erstellen, anstatt ein Modell mit k-Nearest Neighbor Technik zu erstellen. Importieren Sie die erforderliche Haftung für die Berührung. Sie müssen x- und y-Variable in das Tensor-Format konvertieren. Eine Sache, die hier zu beachten ist, dass wir insgesamt 1000 Sätze im Korpus haben. Sie haben 467 Funktionen. Dies sind also die Vektorize, die bestimmen, dass unsere Eingabe-Knoten-Sites eine Eingangsgröße von 467 haben, da es 467 Watt oder Features in diesem Textkorpus gibt. Ausgabegröße wäre zwei, da Sie vorhersagen, dass die Stimmung positiv oder negativ ist. Nun, wir können es mit verschiedenen versteckten Größen versuchen. Lassen Sie mich mit 500 versuchen. Ähnlich wie im vorherigen Beispiel haben wir zwei versteckte Ebenen, haben drei vollständig verbundene Ebenen, Eingabe in ausgeblendet, versteckt bis ausgeblendet. Und dann hat er die endgültige Ausgabe gemacht. Die einzige Änderung hier ist also der Eingabegrößen-Handler versteckte Salbei. Die restlichen Schritte werden früher besprochen, um die Modellklasse zu definieren. Dann definieren Sie die Optimierung Ihrer Lernrate. Sagen wir mal 100 Epochen dieses Mal. Und jetzt trainieren wir das neuronale Netzwerk. Sie werden sehen, dass der Verlust minimiert wird. Und jetzt ist das Modell trainiert und bereit für die Vorhersage. Wir können vorhersagen, wie wir unsere früheren vorhergesagt haben. Lassen Sie uns einen Beispielsatz wird es in numerisches Format konvertieren. Und wir müssen diesen Satz in ein dichteres Format umwandeln. Danach können Sie mit der Python Modellklasse vorhersagen. Aus dieser Ausgabe können wir sehen, dass es ein positiver Satz ist, weil das zweite Element höher ist als das erste. Wenn wir einen anderen Satz ähnlich dem, den wir früher hatten, ein negativer Satz ist, dann wird die Ausgabe erhalten, in der das erste Element höher sein wird als das zweite. Das ist also ein negativer Satz. Jetzt können Sie das Wörterbuch exportieren und mit dem Tutoren Sentiment-Analyseprogramm integriert. Wenn Sie mehr daran interessiert sind, zu lernen, wie Sie durch Berührung Madelon bereitstellen, So erstellen Sie Risiko-GPAs aus Ihrem High-Touch-Modell. Dann können Sie sich unseren anderen Kurs zum Thema Machine Learning Deep Learning Modellbereitstellung ansehen. 8. Erstellen eines text mit TensorFlow: Lassen Sie uns nun verstehen, wie Sie einen Text-Klassifikator mit TensorFlow-Kameras erstellen. Sobald unsere Daten fertig sind, können wir ein TensorFlow-Modell erstellen. Ähnlich wie in den früheren Beispielen erstellen wir zwei versteckte Layer, und ein Ausgabe-Layer hat 500 Knoten in jeder versteckten Ebene und intensiven Loci. Während Sie den Eingabe-Layer nicht angeben müssen, da er dies automatisch aus den Eingabedaten ermittelt. Nun lassen Sie uns das Modell mit 100 Epochen trainieren. Worauf wurde das Modell trainiert? Kann den Verlust nehmen und, und nehmen Sie auch das Modell jemand. Jetzt können wir vorhersagen, wie wir früher für kN- oder Python Modelle vorhergesagt haben. Haben Sie einen Mustersatz. Konvertieren Sie es in numerisches Format. Dann mit TensorFlow model.predict Methode, prognostizieren Sie dies intim. Es ist 0,79. Es bedeutet also, dass es ein positiver Satz ist. In ähnlicher Weise haben wir für die andere eine sehr niedrige Zahl Exponenten Zelle minus 07. Das ist also ein negativer Satz. Jetzt können Sie speichern und exportieren dieses Modell und integrieren Sie mit obwohl Sentiment-Analyseprogramm. Wenn wir mehr daran interessiert sind, zu wissen, wie Risiken EPAs für TensorFlow-Modelle zu erstellen , wie ein TensorFlow-Modelle bereitzustellen. Dann können Sie sich unseren anderen Kurs zum Thema Machine Learning und Deep Learning Modellbereitstellung ansehen. Vielen Dank, dass Sie sich für diesen Kurs anmelden.