Natürliche Sprachverarbeitung mit Python

Data Science Rebalanced, Data Scientists

Erhalte unbegrenzten Zugang zu allen Kursen

Lerne von Branchenführern, Ikonen und erfahrenen Experten

Wähle aus einer Vielzahl von Themen, wie Illustration, Design, Fotografie, Animation und mehr

Erhalte unbegrenzten Zugang zu allen Kursen

Lerne von Branchenführern, Ikonen und erfahrenen Experten

Wähle aus einer Vielzahl von Themen, wie Illustration, Design, Fotografie, Animation und mehr

Einheiten dieses Kurses

- 1.
  
  Trailer zum Kurs
  
  1:47
- 2.
  
  Was ist NLP?
  
  2:10
- 3.
  
  Course und Tools
  
  1:37
- 4.
  
  Jupyter laden
  
  1:51
- 5.
  
  spaCy
  
  2:14
- 6.
  
  Python Bibliotheken
  
  0:39
- 7.
  
  Über die Daten
  
  3:52
- 8.
  
  NLP Bedingungen
  
  5:03
- 9.
  
  Textdaten vorverarbeiten
  
  12:09
- 10.
  
  Term
  
  9:47
- 11.
  
  Genannte Entity
  
  8:29
- 12.
  
  Teil des Wortzeichens und Dependency
  
  6:52

Anfänger-Niveau

Fortgeschrittenes Niveau

Jedes Niveau

264

Teilnehmer:innen

Projekt

Über diesen Kurs

Wenn du schon einmal lernen wolltest, wie du Textdaten mit Python analysieren kannst, ist dieser Kurs genau das Richtige für dich!

Leah ist Datenwissenschaftler an einem großen Finanzinstitut und entdeckt, dass es eine ernste Lücke zwischen den Fähigkeiten und Techniken gibt, die die Schüler in der Schule lernen und dem, was sie tatsächlich an der Stelle in der realen Welt brauchen. Sie wird mit ihrer Expertise die Grundlagen der natürlichen Sprachverarbeitung (NLP) beibringen.

Dieser Kurs richtet sich an aufstrebende Datenwissenschaftler und Programmierer, die ihr NLP-Wissen erweitern möchten.

In diesem Kurs lernst du:

NLP in der Branche
Text
Named
Termfrequenz
Dependency
Part-of-Speech Tagging

Du erhältst praktische Erfahrungen mit jedem Konzept durch die Analyse von 500 Amazon Home und Kitchen Produktbewertungen.

Während des Kurses wirst du in Python Codebeispiele mit einem Jupyter durchlaufen. Du wirst auch beliebte Bibliotheken wie Pandas, SpaCy und scikit-learn. verwenden. Für diesen Kurs sind keine Vorkenntnisse in NLP erforderlich, es werden jedoch ein funktionierendes Wissen in grundlegenden programming (Funktionen, für Schleifen usw.) und intermediäre Python empfohlen.

Musik von TimMoor von Pixabay

Triff deine:n Kursleiter:in

Data Science Rebalanced

Data Scientists

Kursleiter:in

Leah Berg and Ray McLendon are Data Scientists at a large financial institution and have over 15 years of combined experience. They have a passion for seeing people grow and become the best versions of themselves. When Leah and Ray graduated from university, they struggled at their first Data Scientist jobs and quickly realized that academia only told half the story.

While their degree programs placed a large emphasis on machine learning algorithms with perfectly cleaned and balanced data sets, they found the opposite true in the industry. Every problem they encountered required 90% of their time spent focusing on messy and imbalanced data sets, as well as the people generating those data sets.

Leah and Ray created Data Science Rebalanced to help data scientists new to the... Vollständiges Profil ansehen

Skills dieses Kurses

Entwicklung Programmiersprachen Python

Level: Beginner

Praxisnahes Kursprojekt

Nachdem du nun 500 Amazon Home und Kitchen Produktbewertungen analysiert hast, besteht deine Aufgabe darin, die review (d.h. das zusammenfassende Feld im Datensatz) zu analysieren und zu sehen, wie sie mit den Produktbewertungen vergleichen. Du musst die Zusammenfassungen vorverarbeiten (Hinweis: die Schritte können anders sein als in dem Kurs verwendet werden), term sammeln, benannte entity anwenden und Sprachausgabe / dependency durchführen.

Teile deinen endgültigen Code mit dem Kurs, indem du in den Abschnitt "Dein Projekt" hochlädst.

Kursbewertung

Warum lohnt sich eine Mitgliedschaft bei Skillshare?

Nimm an prämierten Skillshare Original-Kursen teil

Jeder Kurs setzt sich aus kurzen Einheiten und praktischen Übungsprojekten zusammen

Mit deiner Mitgliedschaft unterstützt du die Kursleiter:innen auf Skillshare

Lerne von überall aus

Ob auf dem Weg zur Arbeit, zur Uni oder im Flieger - streame oder lade Kurse herunter mit der Skillshare-App und lerne, wo auch immer du möchtest.

Transkripte

1. Trailer zum Kurs: Hallo an alle, Willkommen zum heutigen Kurs, der auf natürliche Sprachverarbeitung in Python ist. Mein Name ist Leah und ich bin Datenwissenschaftler bei einem großen Finanzinstitut mit etwa vier Jahren Erfahrung in meinem Kollegen Ray und ich wollten diese Videos wirklich machen, Ray und ich wollten diese Videos wirklich machen weil wir bemerkt haben, dass es eine große Lücke zwischen den Fähigkeiten, die Sie in der Schule lernen, im Vergleich zu denen, die Sie tatsächlich in der realen Welt benötigen. Daher konzentrieren sich alle unsere Videos auf die Verwendung von realen Datasets, reale Probleme und geben Ihnen auch die Fähigkeiten, die Sie benötigen, um diejenigen zu lösen, die sie nicht unbedingt in der Schule unterrichten. Also freuen wir uns sehr, Sie heute zu haben und hoffen, dass Sie hier bleiben. In der heutigen Lektion. Wir werden die Grundlagen der Verarbeitung natürlicher Sprache behandeln, einschließlich einiger Vorverarbeitungstechniken einschließlich einiger Vorverarbeitungstechniken und Teil der Sprach-Tagging Named Entity Recognition, Abhängigkeits-Parsing und Termfrequenz. Und Sie wissen vielleicht noch nichts davon, aber Sie werden am Ende dieses Videos ein Profi sein. Dieses Tutorial ist wirklich gedacht, um Anfänger freundlich zu sein. Wir werden von Anfang an mit Jupyter-Notizbüchern beginnen. Du wirst in der Lage sein, mit dem zu folgen, was ich tue und einige wirklich beliebte Bibliotheken wie Pandas, Spacey und Scikit lernen zu verwenden . Jetzt sind diese in der Data Science Community im Allgemeinen sehr beliebt, aber vor allem für die Verarbeitung natürlicher Sprachen. Die Daten, die wir für den heutigen Kurs verwenden werden, sind eine Reihe von mehreren tausend Amazon-Bewertungen. Ich habe mich für Amazon-Bewertungen entschieden, weil so ziemlich jeder etwas von Amazon bei 1 gekauft hat und höchstwahrscheinlich Ihre Rezension verlassen hat. Dies ist also ein wirklich vertrauter Datensatz für alle. Konkret werden wir einen Blick auf die Kategorie Haus und Küche werfen. Aber ich werde Sie auch mit dem Datensatz verknüpfen, aus dem ich das gezogen habe. Und Sie werden in der Lage sein, eine Reihe von verschiedenen Amazon-Kategorie-Bewertungen zu sehen, wie Tech AB , Make-up, so etwas. Und damit, lasst uns anfangen. 2. Was ist NLP?: Also im heutigen Kurs werden wir über natürliche Sprachverarbeitung oder NLP mit Python sprechen, ein wenig Hintergrund darüber, was NLP eigentlich ist. Es ist wirklich auf einem hohen Niveau, nur eine Möglichkeit für Computer, menschliche Sprache zu verstehen oder zu verarbeiten. Wenn Sie andere Kurse auf einer LP nehmen, können Sie den Begriff „Natural Language verstehen“ hören. Und einige Kurse machen den Unterschied zwischen der Verarbeitung natürlicher Sprache, da die Textdaten tatsächlich in eine Form zerlegt werden, die Computer sie verstehen können. Und dann ist das natürliche Sprachverständnis die Beziehungen zwischen Wörtern innerhalb des Satzes zu erkennen. Beziehungen zwischen Sätzen oder sogar Beziehungen zwischen den gesamten Dokumenten zueinander. Also ein paar Beispiele für NLP, mit denen Sie wahrscheinlich in Ihrem eigenen Leben vertraut sind. Oder unsere Nummer Eins, dein Amazon, Alexa. Viele Leute haben diese Geräte in ihren Häusern und Sie können eine Frage wie Alexa stellen, Was ist das Wetter? Und sie wird Ihnen eine Antwort geben, sagen, das Wetter ist derzeit 65 Grad in Pulsar. Also hinter den Kulissen, was Alexa tut, ist die Verwendung einer natürlichen Sprachverarbeitung oder eines natürlichen Sprachverständnisses , um in der Lage zu sein, Ihren Text oder Ihre Rede, die Sie tatsächlich gesagt haben, laut zu nehmen . Und dann wandeln Sie das in geschriebenen Text um und wandeln Sie es dann in etwas um, das Computer verstehen kann. Prozesse, die die Antwort erhalten und sie dann an Sie zurücksenden. Jetzt hat Amazon viel Zeit und Energie und Forschung dazu gebracht. Sie lassen wirklich alles super einfach erscheinen. Wenn Sie eine schnelle Frage stellen, erhalten Sie eine sehr schnelle Antwort, aber unter der Haube ist tatsächlich viel los. Ein weiteres Beispiel für NLP, mit dem Sie in Ihrem täglichen Leben vertraut sein könnten , ist ein vorausschauender Text auf dem iPhone. Wenn Sie damit nicht vertraut sind, beginnen Sie hier mit der Eingabe eines Satzes in Ihre Textnachricht. Und dann wird Apple versuchen, vorherzusagen, was Sie neben ihm sagen wollen, machen es einfacher, so dass Sie nicht wirklich alle Ihre Wörter eingeben müssen. Sie könnten einfach auf die Schaltflächen für das klicken, was Sie sehen möchten. Also in dem Beispiel hier haben wir getippt wollen Mittagessen zu nehmen. Wir werden das Jane schicken. Und dann gibt Apple uns einige kleine Emojis, die wir vielleicht wollen, um es mit ihm zu setzen, und auch einige andere Worte, die wir vielleicht auch dort aufnehmen wollen. 3. Kursübersicht und Tools: Im heutigen Kurs, wie ich bereits erwähnt habe, beginnen wir wirklich auf einem sehr anfängerfreundlichen Niveau. Also, wenn Sie nicht sehr viel über NLP wissen, das ist großartig. All das werden wir in diesem Kurs lernen. Und dann, wenn, auch wenn Sie nicht wirklich vertraut mit den Bibliotheksräumen, Ich kann nicht lernen und Pandas, Wir werden auch durch die gehen. Jetzt habe ich hier aufgelistet, dass Sie vielleicht etwas Erfahrung mit Python 3 haben möchten. Das ist wirklich nicht sehr notwendig. Wir werden Jupyter Notebooks benutzen. Du solltest also in der Lage sein, ganz einfach mitzuverfolgen, was ich tue. Aber ich werde einige fortgeschrittene oder mittlere Funktionen in Pandas verwenden, wie zum Beispiel appen-Anweisungen mit Lambda-Funktionen. Aber ich werde auch durch diese reden, wenn wir alles durchmachen. Die Themen, die wir im heutigen Kurs behandeln werden, unsere Vorverarbeitung Termfrequenz, unsere Vorverarbeitung Termfrequenz, Teil-of-Sprach-Tagging benannte Entitätserkennung und Abhängigkeits-Parsing. Jetzt sind dies nur wirklich die Spitze des Eisbergs, wenn es um die Verarbeitung natürlicher Sprachen geht. Denn wirklich für alle von diesen, können Sie einen ausgefüllten Kurs über sie haben, aber wir werden Ihnen hier die Grundlagen geben. Und dann sollten Sie in der Lage sein, Ihr Verständnis in realen Problemen anzuwenden , die Sie sehen, die Werkzeuge für den Kurs, den wir unsere Jupyter Notebooks verwenden werden. Wie ich schon sagte, ich werde dies über PyCharm laufen, übel, meine bevorzugte IDE, aber es wenige verwenden Anaconda. Das ist vollkommen in Ordnung. Solange du irgendwie ein Jupiter-Notizbuch betreiben kannst, ist das großartig. Und wie ich bereits erwähnt habe, die Bibliotheken, die wir hauptsächlich unsere Pandas, scikit-learn und SPAC verwenden werden. Und wieder, wenn Sie nichts über diese Bibliotheken wissen, ist das völlig in Ordnung. Du wirst heute lernen. 4. Ein Jupyter Notebook laden: Alles klar, jetzt werden wir anfangen, durch einen Code zu gehen , den Sie in Ihre Datei herunterladen sollten, das Jupiter-Notizbuch aus der Lektion, sowie den Datensatz, dass die Art und Weise, wie ich dies öffnen werde, durch PyCharm ist. Das ist mein bevorzugter Redakteur. Ich mag es im Allgemeinen nicht, Anaconda zu verwenden nur weil es nicht wirklich gut funktioniert, wenn Sie versuchen, ausführbare Dateien zu erstellen und traditionellere Softwareentwicklung zu machen. Also werde ich PyCharm verwenden, aber wenn Sie Anaconda oder Ihre Lieblings-IDE haben, das ist nicht einer von denen zu einer Last es auf Ihrem Computer. Fühlen Sie sich frei, das zu tun. Aber ich werde einfach ein Jupiter-Notizbuch öffnen, indem ich zum Terminal gehe und dann Jupiter tippe. Und was das tun wird, ist, das hochzudrehen. Sie sollten also in der Lage sein, dies in der IDE zu tun, die Sie verwenden, aber ich ziehe es vor, PyCharm zu verwenden. Okay, damit wir jetzt loslegen können, wo wir unser Jupiter-Notizbuch offen haben, habe ich hier eine Menge Text beigefügt. Dies könnte also wirklich ein eigenständiges Jupiter-Notebook mit diesen Hintergrundinformationen sein, aber Sie werden eine Menge davon durch die Folien bekommen , die ich in anderen Teilen dieses Videos spreche. Also oft könnte ich das überspringen, aber wenn Sie jemals zurückgehen und sich auf etwas beziehen müssen, sagen Sie, dass Sie vergessen haben, welche Tokenisierung dort etwas war, das Sie sich frei fühlen können um einfach in das Jupyter Notebook in diesen Textabschnitten zu schauen, Ich habe auch einen Link hinzugefügt, um PyCharm herunterzuladen. Wenn du das machen willst. Ich habe gerade die Community-Edition heruntergeladen, die kostenlos ist. Ich gehe zu diesem Link, nur um euch zu zeigen, wie das aussieht. Dies ist meine bevorzugte Entwicklungsumgebung, wie ich bereits sagte, aber ich weiß, dass viele Leute entweder Anaconda verwenden , weil es mit Python und all dem guten Zeug kommt. Oder VS Code und andere beliebte. Also wählen Sie, was auch immer für Sie funktioniert. Pycharm Community Edition ist kostenlos, also laden Sie es einfach herunter und installieren Sie es auf Ihrem Computer, wenn Sie damit spielen möchten. 5. Kurt: Wenn Sie nun völlig neu in der Verarbeitung natürlicher Sprachen in Python sind, haben Sie möglicherweise nicht von dieser Bibliothek namens spacey gehört. Was im Grunde ist, ist nur eine Open-Source-freie Bibliothek, die in der NLP-Use-Phase sehr beliebt ist. Viele Leute verwenden es für seine vortrainierten Pipelines, die als Modelle gespeichert werden. Die Art und Weise, wie er Dinge speichert, ist ein bisschen kompliziert. Es schmeckt ein bisschen daran, sich daran zu gewöhnen, aber wir werden es kaputt machen. Und im Überblick ist, dass wir einige Texte nehmen werden, um es in diese NLP-Engine zu setzen, die eine Menge Dinge hinter den Kulissen erledigt. Es wird unsere Worte für uns tokenisieren. Es wird einige Teil-of-Sprach-Tagging machen, einige Parsen benannte Entitätserkennung. Und wirklich können Sie auch Ihre eigenen benutzerdefinierten Schritte hinzufügen, wenn Sie möchten. Aber das ist hier nur ein Beispiel. Und sobald alles getan ist, spart sich im Grunde als das, was man DACA nennt. Und dann können Sie von dort innerhalb des Docks aus auf all diese Dinge zugreifen. Und es wird viel mehr Sinn machen, wenn wir durch das Tutorial tatsächlich gehen, aber das ist nur ein High-Level-Überblick für jetzt. Wie ich in den Folien erwähnt habe, werden wir eine Bibliothek namens SPAC verwenden, die für die Verarbeitung natürlicher Sprachen in Python sehr beliebt ist. Und eines der Dinge, die Sie hier tun müssen, ist zuerst ein Modell zu installieren, das Raum wird es verwenden. Sie haben kleine, mittlere und große Versionen von Modellen. Sie können auch Ihr eigenes Modell trainieren, wenn Sie möchten. Also für diese Demo werden wir das kleine englische Modell herunterladen , das auf Text aus Blogs, Nachrichten und Kommentaren geschult wurde. Ich werde zuerst ausgehen und Ihnen zeigen, wie diese Modelle in der SPAC-Dokumentation aussehen. So können Sie hier sehen, wir verwenden die English Core Web klein, und es gibt Ihnen ein wenig mehr Informationen über diese. Aber Sie können auch sehen, sogar mittel da draußen, groß und sie haben einige andere Versionen als auch. Es ist auch wichtig für viele verschiedene Sprachen. Wenn Sie also mit Daten arbeiten, die in einer anderen Sprache als Englisch vorliegen. Sie können hier rausgehen und zum Beispiel ein spanisches Modell herunterladen , wenn Sie das wollen. Also dieser erste Schritt hier, wo nur das Modell herunterladen. Und ich habe das bereits heruntergeladen. Es wird mir wahrscheinlich eine Nachricht geben, die besagt, dass ich es bereits heruntergeladen habe. Aber für Sie, müssen Sie wahrscheinlich durch den Download sitzen, der nicht zu lange dauern sollte. Ok. Es heißt also, dass ich es bereits heruntergeladen habe. Das ist völlig in Ordnung. Stellen Sie einfach sicher, dass Sie Ihre heruntergeladen wird. 6. Python Bibliotheken: Verfügen Sie über alle Importe, die wir für dieses Dataset und die Analyse verwenden werden. Also werden wir Pandas spacey, scikit-learn, ein Visualisierungstool namens Yellow Brick und auch die Pfadbibliothek verwenden . Wir gehen auch voran und laden das englische Modell von Spacey und beschriften es einfach als NLP, weil wir das später verwenden werden. Also werde ich all diese importieren. Wenn Sie dies zum ersten Mal ausführen, müssen wir wahrscheinlich auch alle diese Bibliotheken installieren. Also stellen Sie sicher, dass Sie das tun. Ich habe auch eine Anforderungsdatei beigefügt. Wenn Sie also PyCharm verwenden, können Sie Ihre eigene virtuelle Umgebung erstellen und nur eine Pip-Installation aus der Anforderungsdatei durchführen. Und es wird alles herunterladen, was Sie von dort brauchen. 7. Über die Daten: Als nächstes wollte ich ein wenig Hintergrundinformationen über diese Daten geben, die wir verwenden. Riesiger Schrei an Julian Macaulay an der University of California, San Diego, der diese Daten tatsächlich zusammensetzte. Er bietet eine Menge verschiedener Amazon-Bewertungen von 1996 bis 2014. Und für unsere Zwecke heute, was wir tun werden, ist nur eine Teilmenge von 500 Amazon-Bewertungen für Küche und zu Hause zu analysieren . Zusätzlich zu den Bewertungen, einschließlich Bewertungen, Text und Gesundheitsmodi, gibt Julianne uns auch einige Produktmetadaten, wie Beschreibungen über die Produktkategorie, Informationen, Preis, Markenimage und auch Links für den heutigen Kurs, werden wir nur auf die Review-Daten zu sehen. Dies wird also nur die Lesungen, der Text der Bewertungen sowie jede Hilfsbereitschaft Abstimmung sein. Also, wie viele Leute fanden diese Produktrezension hilfreich? Ich mag diesen Datensatz wirklich, weil die meisten von uns wahrscheinlich etwas von Amazon gekauft haben, irgendwann in unserem Leben. Und potenziell habe ich eine Rezension geschrieben. Das ist also vielen von uns sehr vertraut. Ich mochte diese Daten auch wirklich, weil es ein tolles Beispiel dafür ist wie Menschen wirklich schreiben oder durch Text kommunizieren. Und das wird eine Menge Tippfehler auf Sätzen enthalten, alle Kappen, um Emotionen, viele Ausrufezeichen und alles unter der Sonne, an das man sich so ziemlich denken kann. Während, wenn wir es mit irgendeiner Art von formalem Text zu tun hätten, würde nicht so viele dieser Fehler und mehr Emotionen, die Menschen im Allgemeinen in der Art und Weise verwenden, dass sie Produktbewertungen schreiben könnten. Also werde ich zu diesen Daten gehen und euch zeigen, was eigentlich da draußen ist. Kann sich frei fühlen, gehen Sie auf diese Website und werfen Sie einen Blick. Er enthält eine Tonne von verschiedenen Produktbewertungskategorien. Wenn wir uns nur auf den Haus- und Küchenbereich konzentrieren wollen. Aber wenn Sie sich Rezensionen für Bücher ansehen wollten, CBS Sports, nennen Sie es. Da draußen gibt es ein paar Daten. Und er gibt hier viele Informationen darüber, was diese Datensätze tatsächlich bedeuten. Also fühlen Sie sich frei zu gehen und lesen Sie diese in Ihrer eigenen Zeit. Julian war auch wirklich nett, uns ein paar Funktionen zur Verfügung zu stellen , um die Daten analysieren zu können, da sie im JSON-Format vorkommen. Und wir wollen es letztendlich in einen Pandas DataFrame bringen, um ihn etwas einfacher manipulieren zu können. Also hat er diese beiden Funktionen bereits für uns geschrieben. Eine, um den Dateipfad zu analysieren und dann tatsächlich einen DataFrame aus der JSON-Datei zu erstellen. Also werden wir voran gehen und diese Funktionen nutzen. Und dann lesen wir hier nur den DataFrame und nehmen dann eine Probe von 500 Elementen, diese Zufallsstatus-Option, können Sie das auf was immer Sie wollen. Aber wenn Sie das gleiche Dataset erhalten möchten, mit dem ich arbeite, lassen Sie dies einfach auf einem, aber das ist hilfreich für die Reproduzierbarkeit. Und so gehen Sie voran und führen Sie das aus. Und es wird ein wenig dauern, weil es tatsächlich etwa 0,5 Millionen Bewertungen gibt. Sie sind im JSON-Format. Und dann müssen wir diesen JSON analysieren, um den Pandas DataFrame zu erhalten, den wir wollen, um dieses Tutorial willen und die Dinge nicht super lang laufen zu lassen, werden wir nur eine Teilmenge von 500 davon nehmen. Und so lassen wir das für eine Minute laufen und kommen dann in einer Sekunde wieder. So sieht so aus, als wären wir geladen und schauen wir uns an, wie der DataFrame tatsächlich aussieht. So können Sie hier sehen, Pandas gibt uns diese eindeutige ID, dann haben wir diese Reviewer ID. Eine andere Idee, es sieht aus wie vielleicht für das Produkt, das Rezensent nennen ein Stück sagt uns, wie viele Leute fanden dies hilfreich gegen fand es nicht hilfreich. Der Text der Rezension, auf die wir uns in der heutigen Lektion konzentrieren, die Gesamtpunktzahl von fünf, die Zusammenfassung der Überprüfung und dann einige Spalten über das, was auf der Überprüfung ist, wird gemacht. So können Sie sehen, für hier haben wir wenige von 2013, viel von 2011. Aber diese Daten gehen bis ins Jahr 1986 zurück. 8. NLP Bedingungen: Wenn Sie also im NLP-Bereich beginnen, Sie wahrscheinlich anfangen, eine Menge Begriffe zu hören, die Sie noch nicht gehört haben. Ich weiß, vor allem, als ich anfing, war es ein wenig überwältigend, die verschiedenen Vokabeln zu hören, die er dafür benutzte. In diesem Kurs werden wir damit beginnen, alle diese Begriffe zu definieren und dann zu zeigen, wie sie verwendet werden. Zuerst werden wir mit Token beginnen, und Sie können sich dies als eine Gruppierung von Zeichen vorstellen. In diesem Beispiel werden wir Tokenisierung auf der Zeichenebene. Und das bedeutet, dass wir einen Satz nehmen in dem wir anfangen, mit ihr den Job vor 11 Monaten angeboten wurde , und jeden einzelnen Charakter zu nehmen und das zu einem Zeichen zu machen. Dies ist jetzt sehr hilfreich, wenn Sie kurze Texte wie Dateinamen oder im Beispiel der Daten haben, die wir verwenden. Aber das könnte der Titel einer anderen Ansicht sein. In diesen Fällen gibt es möglicherweise nicht genug Texte, um Ionen auf der Wortebene sehr gut token zu können, besonders bei Dateinamen. Oft werden Leute Unterstriche oder andere Arten von Zeichen dort einfügen , so dass wir uns nicht wirklich auf Leerzeichen trennen können. So oft kann es nützlich sein, es auf Charakterebene zu zerlegen und dann in andere Verarbeitungsschritte zu senden. Sie können auch Token auf der Wortebene oder einem Unigram machen. In diesem Beispiel nehmen wir den gleichen Satz und teilen ihn dann auf eine andere Weise auf. Also teilen wir es tatsächlich in das, was als Unigramme bekannt ist, die im Grunde als Worte ausdenken können. Also hier sind unsere Token, sie wurde angeboten, so weiter und so weiter. Jetzt können Sie Token auch in Gruppen von zwei als Vertiefungen gruppieren. Statt die Dinge nach Worten zu brechen, können wir zwei Wörter zusammenfassen. Das nimmt also unsere Strafe von ihr wurde vor 11 Monaten angeboten , um es in zwei Wortmarken zu zerlegen, ihr wurde der Job vor 11 Monaten angeboten. Bigrams sind auch sehr interessant, weil sie uns Positionsinformationen gegeben haben. So können wir sagen, in diesem Fall, unsere erste bigram, sie war wir können sagen, dass sie das erste Wort ist und war das zweite Wort. Das wäre anders, zum Beispiel, von einem Bigram namens war sie wäre das erste Wort oder das erste Zeichen und nicht und dann wäre sie der zweite Token. Jetzt ist dies in der Branche eigentlich als n-Gramm bekannt, und Sie können so viele Gruppierungen durchführen, wie Sie möchten. Bigrams wären also zwei Gruppen von Token zusammen. Sie können Trigramme für drei Gruppen von Tokens zusammen machen, so weiter und so weiter. Sie können diese Arten von Token auch auf der Charakterebene ausführen. So könnten wir SH und EW als Token gruppieren. Und wenn wir hier in den Code kommen, werden wir einige Beispiele sehen warum wir Unigramme gegen Bigramme verwenden möchten. Aber Token sind wirklich die Grundlage für die Verarbeitung natürlicher Sprachen. Sobald wir also all unseren Text in Token haben, können wir die Token als Dokumente gruppieren. Sie werden also Verbündete von Dokumenten hören. Und normalerweise, was Sie vielleicht als ein Word-Dokument oder ein Stück Papier oder so denken. Aber wirklich, wenn wir in der Verarbeitung natürlicher Sprache sprechen, ist ein Dokument nur eine Gruppe von Token. Also ein Beispiel dafür ist genau hier haben wir Dokument eins. Das war, dass ihr den Job vor 11 Monaten angeboten wurde. Pashas zu einem einzigen Satz, aber wir nennen es ein Dokument hier. Und dann im Vergleich zum Dokument, die beiden Mädchen gingen nach der Schule in den Park, sie sahen drei Eichhörnchen und Streifenhörnchen. Beachten Sie, dass das zwei Sätze es ist, aber insgesamt, dass als Dokument gruppiert wird. Jetzt könntest du dies mit mehr als nur Sätzen tun. kannst du tun. Zum Beispiel gruppieren Absätze diese zusammen. Sie können auch Seiten oder ganze Dokumente gruppieren. Von dort gehen wir noch einen Schritt hoch. Und wenn wir Dokumente zusammenfassen, wird das als Korpus bezeichnet. So können Sie sich ein Korpus als Ihre gesamte Gruppe aller Dokumente vorstellen, die Sie haben. Und ein Beispiel dafür nehmen wir die beiden Dokumente, die wir gerade in unserem letzten Beispiel gesehen haben, und sagen, dass wir sie zusammenfassen und das wird unser Korpus sein. Im heutigen Kurs werden wir also mit Amazon-Bewertungen arbeiten. Alle Amazon-Bewertungen werden unser Korpus von Dokumenten sein. Der nächste Begriff, den Sie oft in der Verarbeitung natürlicher Sprache hören werden, wird Vokabular genannt. Und Wortschatz ist wirklich nur die einzigartigen Token, die in Ihrem Korpus sind. Es ist also wieder ein Beispiel für ein Vokabular, das wir aus unserem Beispiel ziehen werden, dass wir gerade einen Korpus betrachtet haben. Und alles, was wir tun werden, ist die einzigartigen Token zwischen den beiden Dokumenten zu bekommen. Also habe ich all diese unten aufgelistet und Sie werden feststellen, zum Beispiel, dass in beiden Dokumenten angezeigt wird. Aber es wird hier als zwei einzelne Token innerhalb des Vokabulars aufgeführt. Einer mit einem Großbuchstaben und einer mit Kleinbuchstaben. Und das wird wichtig sein, wenn wir später über einige unserer Vorverarbeitungstechniken sprechen , so dass wir den Satz tatsächlich in Kleinbuchstaben schreiben würden . Und dann hätten wir nur eine Instanz davon. 9. Textdaten für die Vorverarbeitung: Lassen Sie uns über Vorverarbeitungsschritte sprechen. Es gibt eine Vielzahl von Vorverarbeitungsschritten, die Sie mit Ihren Daten durchführen können. Und je nach Situation verwenden Sie möglicherweise nicht alle diese Vorverarbeitungsschritte, über die ich sprechen werde, oder sogar in der gleichen Reihenfolge. Es hängt völlig von Ihrem Anwendungsfall und Ihren Daten ab. Einer der grundlegendsten Vorverarbeitungsschritte, die Sie durchführen können, ist Ihre Daten in Kleinbuchstaben. Dies stellt sicher, dass Groß- und Kleinschreibung keine Begriffsfrequenzen beeinflussen , sind Wortzählungen, die Sie tun. Also lassen Sie uns einen Beispielsatz nehmen. Sie wurde den Job vor 11 Monaten angeboten. Dies ist so geschrieben, wie wir es wahrscheinlich mit einem Großbuchstaben am Anfang des Satzes und dann eine Periode am Ende schreiben würden. Also, was wir diesen Satz als unser erster Vorverarbeitungsstub tun würden , wäre nur, um alles in Kleinbuchstaben zu schreiben. Also alles, was wir hier ändern, ist nur, dass Kapital als Kleinbuchstaben s zu machen. So, wenn wir Token identifizieren, wir zählen sie nicht mit einem großen S, mit einem Kleinbuchstaben s als zwei separate Token. Wir wollen, dass diese als das gleiche Zeichen erkannt werden. Jetzt möchten Sie vielleicht keine Kleinbuchstaben machen, wenn Sie möglicherweise mit Daten arbeiten, bei denen es echte Leute sind , die schreiben und vielleicht in Großbuchstaben schreiben , um eine bestimmte Stimmung auszudrücken. In diesem Fall möchten Sie möglicherweise nicht alles in Kleinbuchstaben schreiben. Möglicherweise möchten Sie die Wörter oder Token extrahieren, die in Großbuchstaben enthalten sind. Zum Beispiel ist der nächste Vorverarbeitungsschritt, den ich abdecken werde, das Entfernen von Satzzeichen. Genau so hört es sich an. Wir werden Zeichen wie Punkte, Ausrufezeichen, Fragezeichen entfernen . Also, wenn wirklich irgendeine Art von Interpunktion, der Grund, warum wir dies tun wollen, ist nur, unsere Daten ein wenig zu bereinigen , so dass wir diese Satzzeichen nicht als Token zählen. Wirklich, die interessieren uns wahrscheinlich nicht. Wir kümmern uns wirklich um die Wörter selbst innerhalb des Textes. Und so oft werden wir die in unserer Vorverarbeitung loswerden. Möglicherweise möchten Sie jedoch keine Satzzeichen entfernen, wenn Sie versuchen, Sätze innerhalb eines Dokuments zu trennen, diese in belassen, damit Sie dies als einen Satz sagen können, dies ist ein zweiter Satz, so weiter und so weiter. Also ein Beispiel für das Entfernen von Satzzeichen. Hier haben wir unseren gleichen Satz. Wir haben einen Zeitraum am Ende, um die Satzzeichen zu entfernen gehen, ist loszuwerden, dass. Und Sie werden im nächsten Satz sehen, dass wir keine Satzzeichen haben. Und ein anderer Schritt für die Vorverarbeitung, den Sie tun können, ist das Entfernen von numerischen Zeichen zwischen 0 und 9. Oft, wenn Sie mit Textdaten zu tun haben, möchten Sie Zahlen loswerden, weil sie nicht viel Wert bieten. Oft interessieren wir uns für die Wörter selbst und keine Zahlen. Aber es kann Situationen geben, in denen Sie Zahlen behalten möchten , wenn Sie mit Text zu tun haben, der viel Datum hat. Vielleicht möchten Sie diese in lassen, um zu erkennen, dass dieser Text aus diesem Zustand stammt. Hier ist ein Beispiel für das Herausnehmen von Zahlen. Wir werden nur 11 aus dem Satz entfernen, mit dem wir hier arbeiten. In diesem Schritt zur Textvorverarbeitung geht es um das Entfernen von Stoppwörtern. Und wenn Sie noch nicht in der Verarbeitung natürlicher Sprachen gearbeitet haben, Sie wahrscheinlich noch nicht gehört, was ein Stopwort ist. Wirklich, worauf es ankommt, sind nur unwichtige Wörter wie und für alles, was kurz ist und nicht wirklich viel Wert zu einem Satz bringt, sondern auch viel passiert. Wie darüber nachdenken, wie viel das Wort, das in der menschlichen Sprache verwendet wird. Wirklich, wenn wir sehen wollen, was die beliebtesten Wörter in einem Satz versuchen, herauszufinden, welche Art von Stimmung jemand ausdrückt. Das wird wahrscheinlich nicht viel Wert hinzufügen. Also oft entfernen wir diese. Also fragen Sie sich vielleicht, wie kommen Sie mit einer Liste von Stoppwörtern sind, was ist die Liste der Stoppwörter? Verschiedene Bibliotheken, die unterschiedliche Listen verwenden. Sie können also eine Bibliothek ausprobieren, die eine bestimmte Liste verwendet. Sie könnten eine andere versuchen, die eine andere Liste verwendet und einige andere Wörter, die die andere Sackgasse. Und Sie können auch Ihre eigene Liste von Stoppwörtern erstellen. Wenn Sie beispielsweise ein Dataset haben, das in Finanzdaten sehr spezifisch ist, und Sie keine Wörter wie Budget oder Knall einschließen möchten, werden solche Dinge wahrscheinlich in vielen Finanztextdaten angezeigt. Sie können ein Wörterbuch mit all diesen Wörtern einfügen und dann Python anweisen, diese ebenfalls zu entfernen und diese als Ihre Stoppwörter zu zählen. In diesem Beispiel sind die Stoppwörter, die ich verwende nur die typischen, die viele Bibliotheken verwenden. Also werden wir am Ende entfernen, dass sie war. Und so wird der Satz, den wir noch haben, vor Monaten angeboten. Der nächste Vorverarbeitungsschritt, den ich übergehen werde, ist das, was Tokenisierung genannt wird. Zu Beginn dieses Kurses haben wir über Token gesprochen und wie Sie Token erhalten können, die Wörter sind. Sie können Token tun, die Zeichen sind. Sie können wirklich jede Art von Token erstellen, die Sie wollen. Aber denken Sie nur daran, ein Dokument zu tokenisieren, als den Text in kleinere Einheiten oder Token zu trennen , wie wir zuvor gesprochen haben. Jetzt in diesem Beispiel nehmen wir unsere Zeichenfolge oder einen Satz angeboten Job vor Monaten, und dann teilen wir das nur auf Leerzeichen hier. Ich spalte es so, dass es Worte es ist. So haben wir am Ende einen Job angeboten vor Monaten, alle als kleinere Einheiten der ursprünglichen Saite. In der Verarbeitung natürlicher Sprachen werden Sie wahrscheinlich anfangen, über Stemming und Lemmatisierung zu hören. Und das sind Wege, Worte zu nehmen und sie in ihre ursprüngliche Form zu bringen. Diese Techniken sind ziemlich ähnlich mit einer leichten Nuance. Es stemmt eigentlich nur die letzten Zeichen eines Wortes ab , um zum Wurzelwort zu gelangen. Während Lemmatisierung tatsächlich Teile der Sprach-Tagging verwendet , um ein Wort in seine Route für IMA konvertieren zu können. Jetzt gibt es verschiedene Anwendungsfälle, warum Sie Stemming und Lemmatisierung verwenden könnten. Ich neige dazu, Lemmatisierung zu verwenden weil es die Wörter in ein lesbareres Format konvertiert. Mit Stemming haben Sie vielleicht ein Wort, das kurz vor den letzten Buchstaben liegt und Sie wissen nicht wirklich, was dieses Wort war. Und obwohl ich Lemmatisierung und Stemming bevorzuge, ist es erwähnenswert, dass es tatsächlich viel schneller ist, weil es nur die letzten Zeichen im Token abhacken. Während die Lemmatisierung eine Runde von Teil-of-Speech Tagging durchlaufen muss, kann möglicherweise eine Abhängigkeit parsen, um die richtige Lemma für das Token erhalten zu können. Ein Beispiel für das Abstammeln hier ist, das Wort Ärger zu nehmen und einfach den letzten Buchstaben E abzuziehen, um ihn in seine Wurzelform zu bringen. Jetzt können Sie denken, wie beunruhigend oder Probleme alt, diese würden alle in Schwierigkeiten verwandelt. Der TRO. Jetzt nimmt Lemmatisierung ein Wort basierend auf seinem Teil der Sprache und bringt es in seine Wurzelform. Es ist also ein bisschen lesbarer. Hier können Sie sehen, dass wir angeboten eine bekam umgewandelt in Angebot die gegenwärtige Form davon Arbeitsplätze bleiben die gleichen Monate. Wir haben nicht abgenommen die Säure bekommt nur zu seiner Wurzelform einen Monat und vor ändert sich nicht. Also das Endergebnis, wenn Sie sich erinnern, wo wir mit diesem Satz angefangen haben, wurde ihr der Job vor 11 Monaten angeboten. Wir bekommen tatsächlich Job Monat als unsere letzte Reihe von Token anbieten. Und das hilft, viele Wörter auszuschneiden, die uns nicht wichtig und wirklich auf die Bedeutung des Satzes zu kommen. Wir beginnen mit der Vorverarbeitung unserer Daten. Sie können absolut Ihre eigenen Funktionen schreiben, um alle diese Vorverarbeitungsschritte wie Kleinbuchstaben, Groove und Satzzeichen oder Zahlen, Stopwords, Tokenize und Lemmatized durchzuführen. Aber SPAC ist eigentlich wirklich nett und macht all diese basierend auf Token-Attributen, wenn sie viele verschiedene Attribute auf ihren Token haben. Und ich gehe zu diesem Link hier, wo Sie in der Dokumentation alle Attribute sehen können, die sie haben. Also können Sie für jedes Token sehen, ob Leerzeichen darin enthalten sind. Sie können sehen, um welche Art von Entität es sich handelt. Sie können die Kleinbuchstaben des Tokens sehen. Sie können die Form des Tokens sehen. Ich habe all diese unterschiedlichen Attribute. Also Spacey hat viele verschiedene Token-Attribute, aber die drei, an denen wir interessiert sein werden, um unsere Vorverarbeitung unseres Token durchzuführen. Diese Lemma, die uns die Lemma des Tokens gibt, Token Punkt ist Alpha, die Interpunktion und Zahlen aus dem Token entfernt. Und dann ist Token Punkt Stopp , der hier alle Stoppwörter in diesem Text entfernt, ich nehme nur das gleiche Beispiel, das ich in den Folien gegangen bin. So wurde ihr vor 11 Monaten den Job angeboten, indem sie die natürliche Sprachverarbeitung darauf anwendet, um sie als Dokument zu speichern. Und dann sagen wir, lassen Sie uns die Lemma für jedes Token im Dokument zurückgeben, solange es kein numerisches Zeichen ist und auch kein Stoppwort ist. Und diese Syntax, wenn Sie nicht vertraut sind, wird Listenverständnis genannt, was uns eine Liste der sauberen Token zurückbringt. Also führen wir das aus und drucken dann das Dokument aus. Wie Sie hier sehen können, wenn wir unser geräumiges Dock ausdrucken, sieht es so aus, als wäre nichts passiert. Es speichert im Grunde all diese Informationen hinter den Kulissen. Wir wollen tatsächlich sehen, dass die sauberen Texte Texte sauber ausdrucken. Und Sie können hier sehen, dass das, was wir übrig sind, genau wie wir in unseren Folien Beispiel hatten, wir sind nur mit den folgenden Token übrig. Bieten Sie einen Job vor Monat an. Dies ist also nur ein Spielzeugbeispiel, um zu sehen, wie das funktioniert. Aber was wir eigentlich tun wollen, ist tokenisiert und bereinigen alle unsere Bewertungen, die wir haben. Also schrieb ich heute eine Funktion namens vorverarbeiteten Text. Es nimmt ein SPAC-Docket ein und gibt dann eine Zeichenfolge zurück und ich gebe ein wenig Informationen darüber, was diese Funktion tut. Dies ist eine wirklich gute Praxis, die ich sehr vorschlagen würde, dass Sie die Gewohnheit haben, zu schreiben, was Docstrings genannt wird, um Ihren Code lesbarer zu machen und anderen zu erlauben, ihn leichter aufzunehmen. Und was wir hier tun, ist die Vorverarbeitung eines SPAC-Docks, indem wir es monetarisieren, alle Stoppwörter entfernen und dann nicht-alphabetische Zeichen entfernen. Und wieder nehmen wir ein SPAC-Doc ein, das eine Sequenz von Token-Objekten ist und zurück zum sauberen Text zurückkehrt, der eigentliche Code, den wir ausführen, ist derselbe Code, den ich oben hatte, außer was ich tue, ist anstelle von eine Liste zurückgeben, verbinde ich nur alle Token in einer einzigen Zeichenfolge zusammen. Dies macht es ein wenig leichter zu lesen. Also zuerst werden wir das NLP-Modell auf alle Überprüfungstext-Spalte anwenden. Und ich mache das über Pandas, bewerbe dich mit einer Lambda-Funktion. Wenn Sie nicht mit dem vertraut sind, was eine Lambda-Funktion ist, ist nur eine Inline-Funktion, wobei x hier unsere Variable ist. Also wende ich das auf alle Daten innerhalb des Überprüfungstextes an. Und ich sage, dass aus als eine neue Spalte namens Leerzeichen. Der Grund, warum wir dies sparen wollen, weil es eine Menge Rechenressourcen benötigt, um platzig laufen zu können , da es so viele Dinge hinter den Kulissen tut , dass wir dies immer und immer wieder referenzieren werden. Wir wollen sie nicht mehrfach berechnen. Speichern Sie das in einer neuen Spalte namens spacey doc. Und dann von dort werden wir an dem SPAC-Dokument arbeiten und diese Funktion anwenden , die wir gerade hier geschrieben haben vorverarbeiteten Text genannt. Wir werden das in diesem neuen Rezensionstext zu bereinigen Spalte speichern. Also werde ich das ausführen und es wird für diese Spalten gelten, unsere neue Spalte machen, und dann werden wir die Ergebnisse ausdrucken. Also lassen Sie uns ausdrucken, wie Spacey Doc aussieht. Dies sind nur die ersten fünf Zeilen unseres DataFrames. Also, was dies getan hat, ist tokenisiert, einige Named Entity Recognition hinter den Kulissen gemacht, Abhängigkeits-Parsing, viele Dinge. Und es zeigt uns nur, dass diese Token durch Kommas und Blending getrennt sind. Wenn wir die gereinigten Rezensionstexte ausdrucken, die wir zu unseren Originaltexten für diesen hier bekam ich die Box geöffnet und zu meiner Überraschung, basierend auf all unseren Vorverarbeitungsschritten, was wir übrig sind, ist offene Box, Überraschung, Schaufel, Griff, senden Sie so schnell wie möglich. Aber damit Sie sehen können, dass wir eine Menge von diesen Wörtern ausschneiden , die uns wahrscheinlich nicht wichtig sind. Sie passieren eine Menge in der englischen Sprache und wirklich auf die Worte, die einen Unterschied machen. Oder ich habe viel Wert auf diesen Satz gelegt. Also, so einfach macht er es, einen Raum vorverarbeiten. Aber wie gesagt, verwenden Sie abhängig von Ihrem Anwendungsfall und welchen Daten, mit denen Sie arbeiten, möglicherweise nicht alle diese Vorverarbeitungsschritte oder Sie tun sie tatsächlich in einer anderen Reihenfolge. Daher ist es sehr wichtig, über die Daten nachzudenken, die Sie haben und welche Art von Schritten Sie auf die Daten anwenden möchten, um sie zu bereinigen. 10. Term: Eine formale Definition der Termfrequenz ist also die Anzahl der Male, die Token im Korpus erscheint. Und wirklich, was das oft übersetzt, ist ein Wort Zählung zu tun, dass dies eine wirklich gute Möglichkeit sein kann, Daten zusammenzufassen. So haben wir zum Beispiel in unseren Daten Hunderttausende von Bewertungen. Wir haben keine Zeit, durchzusitzen und jeden einzelnen von denen durchzulesen , um eine Vorstellung davon zu bekommen, wovon die Leute reden. Wir könnten Termfrequenz tun, um zu sehen, was die beliebtesten Wörter oder Begriffe sind, über die Menschen sprechen. Und das könnte uns ein besseres Verständnis der Daten in sehr kurzer Zeit geben , anstatt Stunden zu verbringen, potenziell Tage durch jede einzelne Überprüfung zu lesen. Eine wirklich beliebte Möglichkeit, Termfrequenz zu tun, ist durch Scikit-Learn Count Vektorizer. Count Vectorizer ist wirklich nett, weil es die ganze Arbeit für Sie erledigt. Sie müssen nicht alle Ihre Tags durchlaufen, jedes Token durchlaufen, Konto für alle speichern. Es wird einfach alles in einem für Sie tun. Es gibt mehrere verschiedene Parameter innerhalb des Zählvektorizers, die Sie optimieren können. Und ich würde Sie ermutigen, zur Scikit-learn-Dokumentation zu gehen und sich diese selbst anzusehen. Aber weil sie beeinflussen, wie die Wörter gezählt werden. Aber die beiden, auf die wir uns heute konzentrieren werden, sind Stopwords und Engrammbereich für Count Vectorizer Stoppwörter. Sie haben ein paar verschiedene Möglichkeiten. Sie können entweder keine Stoppwörter verwenden. So haben Sie bereits Ihre Daten vorverarbeitet und Stopwords herausgenommen. Dies kann ein Fall sein, in dem Sie keine Stoppwörter verwenden oder wenn Sie tatsächlich Stoppwörter in Ihr Konto aufnehmen möchten. Also könntest du das auch tun. Sie können ihre integrierten englischen Stoppwörter verwenden, oder Sie können in Ihrer eigenen benutzerdefinierten Liste übergeben. Und dies könnte etwas sein, wo Sie bestimmte Daten zu einer bestimmten Branche haben und Wörter Popup haben, die nicht unbedingt in der gesamten englischen Sprache üblich sind, aber sehr spezifisch für Ihren Datensatz sind, für den Sie sich nicht interessieren. So könnten Sie eine Liste von denen übergeben, die ebenfalls entfernt werden sollen. Und Grammbereich ist ein wirklich leistungsfähiger Umfang von Zählvektorizer. Sie können übergeben, ob Sie nur Unigrams sehen wollen, es nur bigrams, unigrams und bigrams, Trigramme, wirklich bis zu jedem Bereich von n, die Sie wollen. Und das ist wirklich schön, weil es uns erlaubt, nicht nur zu sehen, welche Wörter wirklich beliebt sind, sondern auch anfangen, herauszufinden, welche Phrasen Menschen verwenden. Als nächstes kommen wir in eine Termfrequenz, oder Sie können sich das als Wortzähler vorstellen. Wie ich bereits sagte, haben wir insgesamt in diesem Datensatz etwa 0,5 Millionen Bewertungen. Und wir haben nur etwa 500 davon probiert. Das macht es also definitiv menschlich-freundlicher, diese durchlesen zu können. Sie können möglicherweise alle 500 durchlaufen, wenn Sie manuell möchten. Aber eine wirklich tolle Sache, die wir hier tun können, ist beginnen, einige Plots von welchen Arten Wörter oder Phrasen Menschen in diesen Bewertungen sprechen zu bekommen . Und um sie schneller zusammenzufassen, anstatt uns alle Bewertungen, die Menschen hinterlassen haben, manuell durchzulesen. Um dies zu tun, werden wir Count Vectorizer von scikit-learn verwenden. Count Vektorizer hat eine Vielzahl von Parametern. Ich werde zu diesem Link gehen und euch zeigen, wie das aussieht. Das ist also die Dokumentation von scikit-learn auf Count Vectorizer. Und Sie können sehen, dass dies alle Eingaben sind, denen Sie es geben können. So können Sie es sagen, wenn Sie möchten, dass es Kleinbuchstaben enthält, wenn Sie es wollen, wie Sie es tokenisieren möchten, ob das auf der Wort- oder Zeichenebene ist. Kann auch Stoppwörter und ein Token-Muster enthalten. Es gibt viele verschiedene Möglichkeiten hier draußen. Also fühlen Sie sich frei, durch diese zu schauen und mit einigen dieser verschiedenen Optionen zu spielen und zu sehen, wie sie sich auf die Daten auswirken. Aber heute werden wir uns nur wirklich auf die n-Gramme und die Stoppwörter konzentrieren. Die Art und Weise, wie wir Count Vectorizer von scikit-learn verwenden, ist, dass wir Count Vectorizer aufrufen. Und für uns werde ich alle Standardwerte belassen, außer dass ich sagen werde, lasst uns die englischen Stoppwörter benutzen. Und dann beginnen wir mit einem Engrammbereich von 11. Das bedeutet, dass ich nur Unigramme oder einzelne Wörter sehen werde. Und so speichern wir das als dieser Variablenz-Vektorizer ab. Und von dort an Vektorizer passen wir Transformationsfunktion. Und wir geben in unseren Rezensionstexten sauber, speichern Sie das als docs ab. Und wir können Vectorizer Dot Funktion Namen zu erhalten. Und das gibt uns die Funktionen. Und das bedeutet im Grunde, dass unser Wort für uns hinter den Kulissen zählt. Nun, wenn wir diese tatsächlich plotten wollen, können wir eine Bibliothek namens scikit-gelben Ziegelstein verwenden und diese wirklich leicht visualisieren. Also von scikit gelbe Pause, werden wir diesen Frequenzverteilungs-Visualizer aufrufen. Und wir werden in den Features, die wir gerade erstellt haben, sowie die Größe der Handlung übergeben , um dann passen wir auf, dass und dann endlich eine Show. Mal sehen, wie das aussieht. Hier können wir ein Diagramm der Frequenzverteilungen an den Top 50 Token aus unseren 500 Bewertungen sehen der Frequenzverteilungen an , die wir gezogen haben. Das oberste Wort wird verwendet, was wahrscheinlich sinnvoll ist, wenn Sie ein Produkt haben, werden Sie es verwenden. Also haben wir einige positive Worte wie Bein, gut, grau, um ziemlich positiv auszusehen. Und wir haben ein paar Worte wie Kaffeepannentasse hier unten. Und genau so konnten wir die wichtigsten Wörter zusammenfassen, die Menschen in ihren Amazon-Bewertungen für 500 Bewertungen verwenden. Sagen Sie jetzt, dass diese einzigen Worte nicht wirklich genug Informationen für uns sind. Nun, wir können tatsächlich tun, ist zurück zu unserem Vektorizer und ändern Sie den Engrammbereich von nur Unigrams, wir könnten einfach Bigrams oder zwei Wörter zusammen machen. Also, wenn wir diese Zelle erneut ausführen und dann wiederholen wird unsere Handlung sehen, an welchen zwei Wörtern Menschen zusammen viel verwenden. So können Sie sehen, dass wir eine einfache, saubere Edelstahlarbeit haben , tolle, einfache Hughes mit Antihaftbeschichtung. Und Sie können hier durchgehen und schauen Sie sich das in vielen von ihnen macht Sinn weil das Reich der Amazon-Produkte, die in diesem K Haus und Küche waren. Also Gusseisen, Edelstahl, all das macht Sinn. Spülmaschinengeeignet, sicheres Schneidebrett Ja, es ist wirklich interessant zu sehen, und Sie können irgendwie anfangen, darüber nachzudenken, welche Arten von Produkten Menschen potenziell von diesen Sets für Bigrams überprüfen? Jetzt können wir auch tun, dass Sie nicht nur Unigrams oder nur Bigrams machen müssen. Wir können sogar Unigramme und Bigramme zusammen machen. Also führen wir das Geräusch erneut aus, führen die Handlung erneut aus. Wir werden die Unigramme und Bigrams zusammen sehen. Aber es sieht so aus, als ob für diesen Fall die Frequenz der Unigramme tatsächlich höher ist als jedes der Bigramme. Deshalb sehen wir nur Unigramme auf diesem Grundstück. Aber auf jeden Fall interessant zu sehen, und Sie können auch Trigramme tun. Und mal sehen, welche Drei-Wort-Phrasen Menschen verwenden. So haben wir Sensor-Seifenspender und Antihaftbeschichtung. Dies wäre wahrscheinlich, dass es wie ein Charme funktioniert, aber die Vorverarbeitung, die wir getan haben, änderte es, um zu funktionieren. Wie können Sie hier durchschauen und sehen, was die Leute sprechen und potenziell welche Bewertungen auch die Leute verlassen. Zusätzlich zu welchen Arten von Wörtern oder Menschen sprechen, möchten wir vielleicht auch herausfinden, wie lange die durchschnittliche Bewertung ist, die Menschen verlassen. Um das zu tun, können wir tatsächlich unser spacey doc nehmen und einfach Lambda-Funktion machen, um die Länge davon zu erhalten, speichern Sie das, wenn das gesamte Token zählt, und dann einen Blick auf unseren Reviewtext sauber, um zu sehen, wie viele Token tatsächlich vom ursprünglichen Text im Vergleich zum sauberen Text gelöscht. Wenn wir das ausführen, erhalten wir zwei neue Spalten namens Token count all, was die Tokenzahl wäre, alle Token, die, und dann haben wir eine neue namens Token count clean, die die Token-Anzahl von die vorverarbeiteten Textdaten. Das nächste, was ich tun werde, ist, das zu plotten, indem ich die Wertzahlen von dort bekomme und dann nur ein Balkendiagramm mit dem mache , was unsere durchschnittliche Tokenzahl ist. So können Sie sehen, dass wir eine ziemlich große Auswahl an Links von Token haben. Um dieses Diagramm noch klarer zu machen, könnten Sie wahrscheinlich nur Dinge als Histogramm gruppieren, aber ich mache nur die genauen Zählungen. So können Sie sehen, dass wir die meisten unserer Bewertungen rund um unter 100 Token haben. Und dann haben wir hier einige Ausreißer, dieser hier, und dieser große hier draußen hat 739 Token. Also müssen sie wirklich jazzed gewesen sein, sind wirklich verärgert über die Produkte, die sie hatten. Ich vermute auf jeden Fall, wenn Sie Ausreißer hier bei längeren Bewertungen, aber ich würde sagen, sie neigen dazu, es sieht aus wie um die 30 bis 40 Bereich von Token, die eigentlich ziemlich kurz für Bewertungen. Und, aber denken Sie daran, dies ist die Anzahl aller Token, Satzzeichen Stop-Wörter, es, Mal sehen, was passiert, wenn wir tatsächlich die Token-Zählung auf der sauberen Spalte oder die vorverarbeiteten Daten tun , können Sie sehen, dass unsere Zählung oder Ausreißer drastisch von 700 und Token auf 271 gesunken. Sie können sehen, dass unsere durchschnittliche Anzahl von Token, die wir in unserer Rezension haben , tatsächlich etwa zehn bis 15 oder so ist, was wirklich nicht so viele ist, wie ich für eine Amazon-Bewertung denken würde. Wenn Sie sich nun Ihre Daten ansehen, sollten Sie sich alle Ausreißer ansehen und sehen, wie sie aussehen. Also werde ich nur einen Blick auf diese Rezension werfen, die 271 Vorprozess-Token hat , und ich werde die tatsächliche ursprüngliche Ansichtssteuer ausdrucken. Beachten Sie also, dass, da ich den Rezensionstext ausdrucke, dies tatsächlich dort sein wird, wo es die 700 oder so Token gibt. Aber man kann jemanden sehen, der wirklich viel über seine Gratschleifer zu sagen hatte. Und es sieht so aus, als ob sie tatsächlich mehrmals zurückkamen und ihre Rezension aktualisiert haben. Das war also nicht nur eine einzige Rezension ist eigentlich im Laufe der Zeit, was interessant ist. Sie können herumspielen und überprüfen, welche Sie für interessant halten. Vielleicht möchten Sie sich diejenigen ansehen, wo es am Ende nur 10 Token gab, drucken Sie diese auch aus. 11. Named Entity: Benannte Entitätserkennung ist ein äußerst leistungsfähiges Werkzeug in der Verarbeitung natürlicher Sprache , das es einem Computer ermöglicht, reale Objekte innerhalb von Texten zu identifizieren. Jetzt hat Spacey eine eigene Liste von Dingen, die er erkennt. Alles von bestimmten Namen von Menschen, Nationalitäten, Ländern, und wirklich viele andere Optionen. Und ich verlinken Sie mit ihrer Website, um das auch durchschauen zu können. Die Art, wie Spacey Entitäten erkennt, erfolgt durch ein vortrainiertes Modell. Das bedeutet, dass jemand durch eine kommentierte gegangen ist, eine Reihe von Daten beschriftet werden , wo sie Sätze oder Absätze von Text nehmen. Und für jedes Token in diesem Text könnte Jane Doe als Person oder Japan als Land gekennzeichnet sein. Bei der Verwendung eines vortrainierten Modells ist es wichtig zu beachten, dass es nicht 100 Prozent genau sein wird, wenn sich Ihr Text stark von den Texten unterscheidet, auf denen er trainiert wurde, er wahrscheinlich einen Haufen Müll erkennen wird. Und wir werden ein wenig davon in unserem Beispiel sehen , mit dem wir in den Amazon-Bewertungen arbeiten. Insgesamt macht es normalerweise einen ziemlich guten Job für generischen Text. Ein Beispiel für die Verwendung der benannten Entitätserkennung besteht darin, vertrauliche Daten wie Namen oder Sozialversicherungsnummern oder Telefonnummern zu maskieren . Als nächstes werden wir ein Beispiel der benannten Entitätserkennung durchlaufen. Grundsätzlich macht dies super einfach, das ist genial und hat bereits eine vortrainierte Modelle. Und wir können das so ziemlich einfach direkt auf unsere Daten anwenden. Also, nur um ein Beispiel zu geben, bevor wir dies auf die gesamten Datensätze anwenden, werde ich nur diesen zufälligen Index einer Rezension nehmen und das speichern und auch ausdrucken. Wir werden sehen, wie das aussieht. Dann, was wir tun werden, ist drucken alle von ihnen spacey erkennen von ihm sowie , welche Zeichen es begann im Text, zu welchem Charakter auch endete. Wir können sehen, dass diese Bewertungen sprechen über einige Fähigkeiten es zu bedeuten, lesen Sie durch, dass, wenn Sie wollen. Aber die Dinge, die SPAC erkannt hat, sind wir numerische Werte, also 1 und 2, Das ist, was Kardinal es bedeutet. Und es erkannte Amazon als Organisation für 100 Grad als Menge und die Silikongreifer als FAC. Ich bin mir nicht wirklich sicher, was FAC bedeutet, aber lass uns ins All gehen. Er ist Dokumentation und sehen alle Entitäten, die es erkennen kann. Und dann können wir herausfinden, was FAC bedeutet. Fac es sieht aus wie aus dem Weltraum Seine Dokumentation ist ein Gebäude, Flughafen, Autobahn oder Brücke. Wenn wir nun zu unseren Daten zurückkehren, werden wir sehen, dass Silikongreifer definitiv nicht die Autobahn oder Brücke sind. Es sieht so aus, als wäre es der Name des Produkts oder die Art des Produkts potenziell. Es ist also interessant, dass der Raum, den er erkannt hat, aber das ist irgendwie, was Sie finden werden, war Basen namens Entitätserkennung , wie es auf einem bestimmten Satz von Webdaten trainiert wurde. Und potenziell wegen der Art, wie diese Kapitalisierung sieht es, Es könnte denken, dass das ein Gebäude oder etwas ist, aber anscheinend jemals etwas in den Daten gesehen , bevor es macht es denken, dass es ein Gebäude ist. Erkennen Sie, dass, wenn Sie Named Entity Recognition durchführen, es modellbasiert ist, so dass Sie nicht eine 100-prozentige Genauigkeit erhalten, die einige Fehler sein wird. Und wir werden das ein wenig bemerken, wenn wir anfangen, die Daten hier mehr einzuforschen und dies auf unseren gesamten Dataset-Bereich anzuwenden. Er erkennt, dass viele verschiedene Arten von Entität tatsächlich ist, können Sie im Allgemeinen von Entität als ein richtiges Substantiv, eine Person, einen Ort oder eine Sache denken . Aber werfen wir einen Blick auf all die Dinge, die Spezies erkennt, damit wir sehen können, dass sie Person erkennen. Geben sie dir eine kleine Beschreibung dessen, was das ist? Echte Menschen und fiktive Menschen als auch, was interessant ist, Got noch Hexen, Nationalitäten, religiöse oder politische Gruppen, ein GPE-Länder, Städte, Staaten, Produkte, Dokumente in Gesetze gemacht. Sie können sehen, dass hier viel Platz ist. Er hat auch eine wirklich coole Visualisierung dieser Entitäten, die er erkennt. Und ich zeige dir, wie das hier aussieht. Grundsätzlich, was es tut, ist, diese Texte zu nehmen, die wir zuvor ausgedruckt hatten, die volle Steuer sowie die anerkannten Einheiten. Und es macht es uns einfach ein wenig leichter zu lesen. Es nimmt ihre Überprüfung und dann Hervorhebung der Entität ist, dass es dort erkennt. Dies kann hilfreich sein, wenn Sie versuchen, eine Art Website zu erstellen, auf der Sie Benannte Entitätserkennung durchführen und sie dem Benutzer leicht anzeigen möchten. Das ist viel schöner als dieser Druck hier oben. Nun, ausgehend von diesem Beispiel, wollen wir dies auf den gesamten DataFrame anwenden. Und die Art und Weise, die ich tun werde, ist tatsächlich einen neuen DataFrame zu erstellen, nur weil es mehrere Entitäten geben kann, die innerhalb einer einzigen Überprüfung erkannt werden. Und ich möchte diese von unserem anderen DataFrame trennen, mit dem wir arbeiten. Ich erstelle einen DataFrame namens df Unterstriche Entitäten. Und ich habe die folgenden Spalten Indizes. Das wird also übereinstimmen, wenn ichmeine Ergebnisse jemals mit dem ursprünglichen DataFrame, Punkte,zusammenführen wollte meine Ergebnisse jemals mit dem ursprünglichen DataFrame, Punkte, , was wäre der Join? Wir haben das SPAC-Dokument, das im Wesentlichen die Überprüfung mit dem Text besteuert ist. Wir haben das Entitätslabel, wir haben den Entitätsstart und die Entität. Und was ich tun werde, ist, meinen abgetasteten DataFrame zu durchlaufen , mit dem wir bisher gearbeitet haben, indem ich diese inneren Tupel mache, das bedeutet nur, dass ich jede Zeile innerhalb des Datenrahmens durchgehe. Und dann werden wir für jede Zeile den Überprüfungstext betrachten und alle Entitäten, die er erkennt, abspeichern . Ich werde diesen Code ausführen und dann werden wir die ersten fünf oder so Zeilen des DataFrame überprüfen. Wenn Sie mit einem sehr großen Dataset arbeiten, wird dies definitiv einige Zeit in Anspruch nehmen da Platz er im Hintergrund eine Menge Dinge erledigen muss. Werfen wir einen Blick darauf, wie dieser DataFrame tatsächlich aussieht. Das sind also die ersten fünf Reihen. Wir haben unseren Text hier sind spacey doc, also war dies ein Rezensionstext. Hier geht es um den Kauf des Thermometers. Dann haben wir die Texte, die erkennen, was es als erkennt. Und dann, wenn wir zurückgehen und eine Analyse durchführen mussten, hat es das Startzeichen im Text sowie wo dieses Zeichen endet. Und wenn Sie in diesem spezifischen Beispiel sehen können, zumindest für die ersten fünf Zeilen, erkennen wir das Wochenende als einen Tag. Wir haben einige numerische Werte als Kardinäle, das Wochenende wieder als Datum. Also werfen wir einen Blick und sehen, was die beliebtesten Entitäten, die Sie erkennen. Wir sind am meisten wie Kardinäle. Also das sind Leute, die über wie 12 verschiedene numerische Werte sprechen. Wir haben auch viele Termine erkannt. Wir haben ein paar Organisationen. Er hat ein Kunstwerk gekauft, also schätze ich, das sind wahrscheinlich kein Kunstwerk. Lassen Sie uns also einen Blick darauf werfen, welche Produkte erkannt werden. Da wir uns tatsächlich Produktrezensionen ansehen, würden Sie denken, dass es eine Menge geben würde. Was ich also tun werde, ist, meinen DataFrame zu unterteilen oder ihn bis zu den Zeilen zu filtern , in denen Produkte erkannt wurden. Und dann Autoimmunität hier ist nur der Wert zählt zu sehen, wie viele von jedem Produkt wir sehen. Also schauen wir uns mal an. Wir haben alle gekleidet natürlich Meersalz, Küche, Kunst. Und es sieht aus wie eine Menge Dinge, die keinen Sinn ergeben. Wie ich bereits sagte, dies ist modellbasiert, so dass es auf verschiedenen Daten und nicht auf diesen Produktbewertungen geschult wurde. Wenn wir genug Daten hätten, die wir selbst kommentiert hatten, könnten wir definitiv trainieren und modellieren, um potenziell bessere Arbeit bei der Erkennung von Entitäten zu leisten. Aber das Erhalten von beschrifteten Daten dauert in der Regel viel Zeit oder Sie müssen Geld ausgeben, um jemanden dazu zu bringen, die Daten für Sie zu beschriften. Also manchmal müssen Sie nur mit dem arbeiten, was Sie haben , jede Art von filtern Sie die Ergebnisse von dort. So können wir dies ändern, um andere Entitäten zu betrachten, die es erkannt hat. Schauen wir uns zum Beispiel die Leute an, die ich es erkannt habe. Sie werden sich für Peer Reviews interessieren, die Leute ausrufen, sieht tatsächlich wie hier aus. Aber es ist nicht wirklich, dass Menschen erkannt werden. Eine Menge Dinge, die hier keinen Sinn ergeben. Ich werde dieses Kunstwerk nur zum Spaß ausprobieren. Ich wäre sehr überrascht, wenn es Kunstwerke gibt in Homing Küche Bewertungen erwähnt werden. Also ist es lustig, weil man irgendwie sehen kann, wo Spacey hier verwirrt werden könnte. Joy of Cooking und von Rome, Bar und Becker 1975, vielleicht ist das ein Buch oder so, aber ich bin eigentlich nicht sicher, ob das eine echte ist oder nicht, aber man kann sehen, dass einige von diesen, wie , um Sinn zu machen, wo es ein Kunstwerk sein könnte. Werfen wir einen Blick auf oder auch und sehen, welche Organisationen erwähnt wurden. Amazon, Amazon.de. Es ist definitiv sinnvoll, da dies Amazon-Bewertungen sind, die ich Größe erwarten würde. Jetzt bemerken Sie mit diesen Punktpunkten, viele davon werden abgeschnitten. Also speichern Sie definitiv dieses Büro und andere DataFrame und drucken Sie den gesamten DataFrame aus, wenn Sie alle Ergebnisse hier erhalten wollten, fühlen Sie sich frei, durch einen von Ihnen zu gehen und durch eine Entitäten zu schauen erkannt werden und Sie könnten überrascht sein, was da drin ist. 12. Teil von Speech und Absonderungen: Ein Teil der Sprach-Tagging ist eine Möglichkeit, verschiedene Teile der Sprache für jedes Token zu identifizieren. Nun, wenn Sie sich erinnern, zurück in vielleicht ersten Englischkurs, als Sie alle verschiedenen Teile der Sprache und Diagramm-Sätze lernen mussten , all das lustige Zeug, das Sie wahrscheinlich vergessen haben. Sie müssen sich daran erinnern, wenn Sie anfangen, über Teil-of-Sprach-Tagging zu sprechen. Nun, verschiedene Teile der Sprache, grundlegende sind wie Substantive und Verben, Adverbien, aber es gibt eine Menge von verschiedenen Teilen der Sprache da draußen. Und basierend darauf, wo sich ein Token innerhalb eines Satzes befindet, können Sie feststellen, welcher Teil der Sprache es ist. Jetzt fragen Sie sich vielleicht, warum sollte ich jemals wissen müssen, dass der Teil der Sprache, verschiedene Texte zu, na ja, es wird oft hinter den Kulissen verwendet, um lemmatisierte Token sowie benannte Entitätserkennung zu tun. Aber ein cooler Anwendungsfall ist für eine Übersetzung. Also, wenn wir den Computer bitten, den folgenden Satz zu übersetzen, die Spanier, können Sie diesen Kanon den Müll werfen. Wir müssten wahrscheinlich Teil-of-Speech-Tagging verwenden, um erkennen zu können , dass die erste Instanz von CAN ein Verb ist, um das korrekt zu übersetzen. Und dann ist die zweite Instanz von CAN ein Substantiv ähnlich wie ein Teil der Sprach-Tagging, Abhängigkeits-Parsing. Wenn Sie dies tun und natürliche Sprachverarbeitung, werden Sie wahrscheinlich brauchen, um zurück zu Erstsemester Jahr Englisch und in der Lage sein, sich zu erinnern, wenn Sie Sätze Diagramm zu identifizieren, wo die Wurzel eines Satzes ist, was das Substantive-Objekt ist, was der Modifikator ist, all das Zeug. Aber was das Abhängigkeits-Parsing hier macht, ist nur die Analyse der Struktur eines Satzes basierend darauf, wie sich die Wörter zueinander beziehen, voneinander abhängig sind. Dies wird oft hinter den Kulissen wirklich für Lemmatisierung und benannte Entitätserkennung verwendet , sowie andere Werkzeuge, um die Beziehungen zwischen Wörtern oder Token zu identifizieren. Letzt werden wir einen Teil der Sprachkennzeichnung und Abhängigkeitsanalyse der Person berühren , wenn sie zu diesem Link gehen, der eine Reihe von Sprachteilen aus Wikipedia hat . Wenn Sie eine Auffrischung benötigen, kommen Sie hier raus und werfen Sie einen Blick in Englisch, unsere westliche Sprache, wir haben ein paar dieser verschiedenen Teile der Sprache. Substantiv, Verb, Partizip, Artikel, Pronomen, Präposition, Adverb, Konjunktion. Aber je nachdem, mit welcher Sprache Sie arbeiten, kann es für Sie anders sein. Also, wie ich in den Präsentationen sagte, Sprach-Tagging wird normalerweise hinter den Kulissen verwendet , um benannte Entitätserkennung zum Laufen zu bringen. Aber ich gebe Ihnen ein Beispiel dafür, wo wir das in der realen Welt verwenden könnten. Und zuerst, lasst uns sehen, wie wir das mit Spacey machen. Ich nehme nur eine dieser Beispielbewertungen, mit denen wir bisher gearbeitet haben, diese ID. Und das dann der Aktienvariablen zuweisen. Dort drucke ich den Tokentext, den Token-Teil der Sprache und die Token-Abhängigkeit aus. Dies kommt also auch gleichzeitig in die Abhängigkeits-Parsing. Und Sie können sehen, dass das irgendwie schwer zu lesen ist. Wir sehen, dass diese als DET und ET gekennzeichnet sind. Wir haben Dinge, die ein Substantiv oder Substantiv sind. Sie können für die gesamte Rezension blättern und all diese erhalten, und es ist irgendwie schwer zu lesen. Also Raum, er hat eine coole Möglichkeit, ihre Abhängigkeits-Parsing und einen Teil der Sprach-Tagging zu visualisieren . Das macht uns kleinen Baum , der auf jeden Fall bringt Sie zurück, wenn Sie Sätze Diagramm hatte und zeigt Ihnen, wie alle diese Unrelated zueinander. Ein Beispiel dafür, wo wir dies in der realen Welt verwenden könnten , ist, zu zählen, wie viele Adjektive und Adverbien Menschen in ihren Amazon-Bewertungen verwenden , um zu sehen, wie beschreibend ihre Bewertungen sind. Und dann potenziell können wir sehen, was sind die beschreibendsten Bewertungen und was sind die am wenigsten beschreibenden. Also werde ich nur ein Beispieldokument nehmen, das wir während dieses Kurses verwendet haben , und das als DACA speichern. Und nur um uns eine Vorstellung davon zu bekommen, wie das aussehen könnte, werde ich nur die Token drucken, die ADJ für Adjektiv oder ADV für Adverb sind. Aber er kann früher sehen, wenn ich hier wieder nach oben scrolle, wir hatten eine Tonne Token, drucken Sie es hier aus, weil wir buchstäblich jeden Teil der Sprache und Abhängigkeit drucken , dieser Weltraumeffekt hier organisiert wir sind nur begrenzt zu den Adverbien und Adjektiven. Das ist also nur ein Beispiel für eine Amazon-Bewertung. Aber wenn wir dies auf den gesamten DataFrame anwenden wollten, könnten wir nur eine Funktion machen, ich nenne es zählen Adverbien, Adjektive. Es nimmt in einem SPAC-Dokument, gibt einen int oder die Anzahl der Adverbien und Adjektive zurück. Auf diese Weise können wir sehen, was die meisten beschreibenden Text sind. Es ist also, als ob ich hier nur einen Zähler aufstelle, der gleich 0 ist und dann diesen Code ziemlich viel nimmt, den wir früher geschrieben haben , außer anstatt zu drucken, werde ich einen zum Zähler hinzufügen, wenn es ein Adjektiv oder ein Adverb, und geben Sie dann die Anzahl der Adjektive oder Adverbien im Text zurück. Sobald das ausgeführt wird, können wir eine Lambda-Funktion verwenden, wie wir es im Laufe des Kurses getan haben , um dies auf den DataFrame anzuwenden, speichern Sie diese als eine neue Spalte namens Count-Adjektive, Adverbien. Und dann lassen Sie uns tatsächlich eine Handlung machen, um zu sehen wie viele Adjektive oder Adverbien Menschen in der Regel in ihrem Text verwenden. Jetzt können Sie sehen, dass es wieder immer ein paar Ausreißer geben wird. So sieht es so aus, als wäre der eine Ausreißer ein 125 Adjektive und Adverbien. Das muss also wirklich beschreibende Texte sein. Und es ist wahrscheinlich ein wirklich langes Stück Text und wir werden einen Blick darauf werfen, wie das aussieht. Gemessen an diesem Diagramm sind die Menschen im Allgemeinen in einem bis 10 Bereich von Adjektiven oder Adverbien, was wahrscheinlich für unseren Datensatz sinnvoll ist. Und schließlich, was wir hier tun können, ist, einen Blick auf die, die unser Ausreißer war. Aber wieder, Sie könnten durch eine dieser gehen, ersetzen 125 würde sagen 24, und es wird wieder alle Bewertungen bringen, wo es 24 Adjektive oder Adverbien, kann tatsächlich sehen, dass diese, die eine 125 Adjektive hatte und Adverbien war das gleiche Beispiel, das wir früher hatten, das viele Token wie 700 oder etwas für die unsaubere Version und dann 200 für die saubere Versionszone war . Im Allgemeinen würden Sie wahrscheinlich denken, dass, wenn die Steuer länger wird, würden Sie mehr und mehr Adjektive und Adverbien daran gewöhnt und mehr Beschreibung des Produkts als auch. Aber Sie können diese Hypothese auch selbst testen. Das war also keine natürliche Sprachverarbeitung mit Python. Kurz gesagt, wir haben einige Vorverarbeitungstechniken, Termfrequenz, Teil-of-Speech Tagging benannte Entitätserkennung und Abhängigkeits-Parsing behandelt , was definitiv eine Menge zu durchlaufen war. Und das ist nur die Spitze des Eisbergs für die Verarbeitung natürlicher Sprachen. Es gibt eine Menge Sachen da draußen, die wir heute nicht wirklich decken, wie so, auf der Suche nach zukünftigen Videos. Und wir hoffen, dass Ihnen dieses Video heute gefallen hat. Vielen Dank, dass Sie sich uns angeschlossen haben und mehr über NLP erfahren haben.

Natürliche Sprachverarbeitung mit Python

Data Science Rebalanced, Data Scientists

Schau dir diesen Kurs und Tausende anderer Kurse an

Schau dir diesen Kurs und Tausende anderer Kurse an

Einheiten dieses Kurses

1.

Trailer zum Kurs

1:47

2.

Was ist NLP?

2:10

3.

Course und Tools

1:37

4.

Jupyter laden

1:51

5.

spaCy

2:14

6.

Python Bibliotheken

0:39

7.

Über die Daten

3:52

8.

NLP Bedingungen

5:03

9.

Textdaten vorverarbeiten

12:09

10.

Term

9:47

11.

Genannte Entity

8:29

12.

Teil des Wortzeichens und Dependency

6:52