Wie verwendet man Tokenizer in Hugging Face Transformers?

Wie Verwendet Man Tokenizer In Hugging Face Transformers



Natural Language Processing (NLP) arbeitet mit der Rohform der Daten. Modelle für maschinelles Lernen werden auf komplexen Daten trainiert, können Rohdaten jedoch nicht verstehen. Dieser Rohdatenform muss ein numerischer Wert zugeordnet sein. Dieser Wert bestimmt den Wert und die Wichtigkeit des Wortes in den Daten und auf dieser Grundlage werden Berechnungen durchgeführt.

Dieser Artikel enthält eine Schritt-für-Schritt-Anleitung zur Verwendung von Tokenizern in Hugging Face Transformers.

Was ist ein Tokenizer?

Tokenizer ist ein wichtiges Konzept des NLP und sein Hauptziel besteht darin, den Rohtext in Zahlen zu übersetzen. Zu diesem Zweck stehen verschiedene Techniken und Methoden zur Verfügung. Es ist jedoch zu beachten, dass jede Technik einem bestimmten Zweck dient.
Wie verwendet man Tokenizer in Hugging Face Transformers?







Wie verwendet man Tokenizer in Hugging Face Transformers?

Die Tokenizer-Bibliothek muss zunächst installiert werden, bevor sie verwendet und Funktionen daraus importiert werden kann. Trainieren Sie anschließend ein Modell mit AutoTokenizer und stellen Sie dann die Eingaben zur Durchführung der Tokenisierung bereit.



Hugging Face führt drei Hauptkategorien der Tokenisierung ein, die unten aufgeführt sind:



  • Wortbasierter Tokenizer
  • Zeichenbasierter Tokenizer
  • Unterwortbasierter Tokenizer

Hier ist eine Schritt-für-Schritt-Anleitung zur Verwendung von Tokenizern in Transformers:





Schritt 1: Transformatoren installieren
Um Transformatoren zu installieren, verwenden Sie den Befehl pip im folgenden Befehl:

! Pip Installieren Transformer



Schritt 2: Klassen importieren
Von Transformatoren importieren Pipeline , Und AutoModelForSequenceClassification Bibliothek zur Durchführung der Klassifizierung:

aus der Transformers-Importpipeline, AutoModelForSequenceClassification

Schritt 3: Modell importieren
Der ' AutoModelForSequenceClassification „ist eine Methode, die zur Auto-Klasse zur Tokenisierung gehört. Der from_pretrained() Die Methode wird verwendet, um die richtige Modellklasse basierend auf dem Modelltyp zurückzugeben.

Hier haben wir den Namen des Modells im Feld „ Modellname ” Variable:

Modellname = 'distilbert-base-uncased-finetuned-sst-2-english'
pre_trainingmodel =AutoModelForSequenceClassification.from_pretrained ( Modellname )

Schritt 4: AutoTokenizer importieren
Geben Sie den folgenden Befehl ein, um Token zu generieren, indem Sie „ Modellname ” als Argument:

Von Transformatoren importieren Sie AutoTokenizer

das generierte Token =AutoTokenizer.from_pretrained ( Modellname )

Schritt 5: Token generieren
Jetzt werden wir Token für einen Satz generieren „Ich liebe gutes Essen“ durch die Verwendung des „ das generierte Token ” Variable:

Wörter =Token generieren ( „Ich liebe gutes Essen“ )
drucken ( Wörter )

Die Ausgabe erfolgt wie folgt:

Der Code zu oben Google Co ist hier gegeben.

Abschluss

Um Tokenizer in Hugging Face zu verwenden, installieren Sie die Bibliothek mit dem Befehl pip, trainieren Sie ein Modell mit AutoTokenizer und stellen Sie dann die Eingabe zur Durchführung der Tokenisierung bereit. Weisen Sie mithilfe der Tokenisierung den Wörtern Gewichtungen zu, anhand derer sie sequenziert werden, um die Bedeutung des Satzes beizubehalten. Dieser Wert bestimmt auch ihren Wert für die Analyse. Dieser Artikel ist eine detaillierte Anleitung zur Verwendung von Tokenizern in Hugging Face Transformers.