Sätze markieren
Das Markieren von Sätzen im weiteren Sinne bezieht sich auf das Hinzufügen von Bezeichnungen des Verbs, des Substantivs usw. durch den Kontext des Satzes. Die Identifizierung von POS-Tags ist ein komplizierter Prozess. Daher ist eine generische Kennzeichnung von POS manuell nicht möglich, da einige Wörter je nach Satzstruktur unterschiedliche (mehrdeutige) Bedeutungen haben können. Die Konvertierung von Text in Form einer Liste ist ein wichtiger Schritt vor dem Markieren, da jedes Wort in der Liste geloopt und für ein bestimmtes Tag gezählt wird. Bitte lesen Sie den folgenden Code, um ihn besser zu verstehen
import nltktext = "Hello Guru99, You have to build a very good site, and I love visiting your site."sentence = nltk.sent_tokenize(text)for sent in sentence:print(nltk.pos_tag(nltk.word_tokenize(sent)))
AUSGABE
[('Hello', 'NNP'), ('Guru99', 'NNP'), (',', ','), ('You', 'PRP'), ('have', 'VBP'), ('build', 'VBN'), ('a', 'DT'), ('very', 'RB'), ('good', 'JJ'), ('site', 'NN'), ('and', 'CC'), ('I', 'PRP'), ('love', 'VBP'), ('visiting', 'VBG'), ('your', 'PRP$'), ('site', 'NN'), ('.', '.')]
Code Erklärung
- Code zum Importieren von nltk (Toolkit in natürlicher Sprache, das Submodule wie Satz-Tokenisierung und Wort-Tokenisierung enthält.)
- Text, dessen Tags gedruckt werden sollen.
- Satz-Tokenisierung
- Eine for-Schleife wird implementiert, bei der Wörter aus dem Satz tokenisiert werden und das Tag jedes Wortes als Ausgabe gedruckt wird.
In Corpus gibt es zwei Arten von POS-Taggern:
- Regelbasiert
- Stochastische POS-Tagger
1. Regelbasierter POS-Tagger: Für Wörter mit mehrdeutiger Bedeutung wird ein regelbasierter Ansatz auf der Grundlage von Kontextinformationen angewendet. Dies geschieht durch Überprüfen oder Analysieren der Bedeutung des vorhergehenden oder des folgenden Wortes. Informationen werden aus der Umgebung des Wortes oder in sich selbst analysiert. Daher werden Wörter durch die grammatikalischen Regeln einer bestimmten Sprache wie Groß- und Kleinschreibung und Interpunktion gekennzeichnet. zB Brills Tagger.
2.Stochastischer POS-Tagger: Bei dieser Methode werden verschiedene Ansätze wie Häufigkeit oder Wahrscheinlichkeit angewendet. Wenn ein Wort im Trainingssatz meistens mit einem bestimmten Tag versehen ist, wird ihm im Testsatz dieses bestimmte Tag gegeben. Das Wort-Tag ist nicht nur von seinem eigenen Tag abhängig, sondern auch vom vorherigen Tag. Diese Methode ist nicht immer genau. Eine andere Möglichkeit besteht darin, die Wahrscheinlichkeit des Auftretens eines bestimmten Tags in einem Satz zu berechnen. Somit wird das endgültige Tag berechnet, indem die höchste Wahrscheinlichkeit eines Wortes mit einem bestimmten Tag überprüft wird.
Verstecktes Markov-Modell:
Tagging-Probleme können auch mit HMM modelliert werden. Es behandelt Eingabetoken als beobachtbare Sequenz, während Tags als versteckte Zustände betrachtet werden und das Ziel darin besteht, die Sequenz versteckter Zustände zu bestimmen. Zum Beispiel x = x 1 , x 2 ,…, x n, wobei x eine Folge von Token ist, während y = y 1 , y 2 , y 3 , y 4 … y n die verborgene Folge ist.
Wie funktioniert das HMM-Modell?
HMM verwendet die Join-Verteilung P (x, y), wobei x die Eingabesequenz / Token-Sequenz und y die Tag-Sequenz ist.
Die Tag-Sequenz für x lautet argmax y1… .yn p (x1, x2,… .xn, y1, y2, y3,…). Wir haben Tags aus dem Text kategorisiert, aber Statistiken solcher Tags sind von entscheidender Bedeutung. Der nächste Teil ist also das Zählen dieser Tags für statistische Studien.