So verwenden Sie Hugging-Face-Datensätze

So Verwenden Sie Hugging Face Datensatze



Die Anwendbarkeit und Benutzerfreundlichkeit von Modellen des maschinellen Lernens wird anhand von Daten getestet. Die Zuverlässigkeit der Tests hängt stark von der Menge und Qualität der Daten ab, auf die diese Modelle angewendet werden. Es ist an sich schon eine vollständige Aufgabe, einen ausreichend großen Datensatz zu erstellen, abzurufen und zu bereinigen, um Ihre Daten zu testen. Verarbeitung natürlicher Sprache (NLP) „Modell des maschinellen Lernens.

Hugging Face bietet hierfür eine praktische Lösung mit seiner außergewöhnlich großen Bibliothek an Datensätzen, aus der Sie auswählen und denjenigen finden können, der perfekt zu Ihren Anforderungen passt. Hier zeigen wir Ihnen, wie Sie den idealen Datensatz finden und ihn für den adäquaten Test Ihres Modells aufbereiten.







Wie verwende ich Hugging-Face-Datensätze?

Wir zeigen Ihnen die Verwendung von Hugging Face-Datensätzen am Beispiel des „ TinyStories „Datensatz von Hugging Face.



Beispiel

Der TinyStories-Datensatz verfügt über mehr als 2 Millionen Datenzeilen im Zugsplit und wurde auf der Hugging Face-Plattform mehr als 2.000 Mal heruntergeladen. Wir werden es im unten angegebenen Code in Google Colab verwenden:



! Pip Installieren Transformer
! Pip Installieren Datensätze

aus Datensätzen import load_dataset

Datensatz = Load_Dataset ( „roneneldan/TinyStories“ )

TinyStories_Story = 3
example_string = Datensatz [ 'Zug' ] [ TinyStories_Story ] [ 'Text' ]

drucken ( Beispielzeichenfolge )


Berücksichtigen Sie in diesem Code die unten aufgeführten Schritte:





Schritt 01 : Der erste Schritt ist die „ Installation ” von Transformatoren-Datensätzen.

Schritt 02 : Als nächstes importieren Sie den erforderlichen Datensatz: „ TinyStories ” in Ihr Projekt.



Schritt 03 : Als nächstes laden Sie den ausgewählten Datensatz mit dem „ load_dataset() ” Funktion.

Schritt 04 : Jetzt geben wir die gewünschte Story-Nummer aus dem TinyStories-Datensatz an. Wir haben in unserem Codebeispiel die Zahl 03 angegeben.

Schritt 05 : Zuletzt verwenden wir die Methode „print()“, um die Ausgabe anzuzeigen.

Ausgabe



Notiz: Der Code und die Ausgabe können auch direkt in unserem Google Colab eingesehen werden .

Abschluss

Hugging Face-Datensätze „Machen Sie es für Benutzer unglaublich effizient, ihre Modelle für maschinelles Lernen zu testen und gleichzeitig große Datensätze direkt aus ihrer Online-Bibliothek zu importieren. Dadurch ist die Anwendung von NLP-Algorithmen einfacher und schneller geworden, da Programmierer ihre Projekte anhand eines Datensatzes testen können, der sowohl Qualität als auch Quantität aufweist.