Pandas Qcut

Pandas Qcut



„Der „Python“ enthält viele Bibliotheken, und wenn wir dann Daten analysieren oder manipulieren wollen, verwenden wir die Bibliotheken von „Python“, und der „Pandas“ ist auch die Bibliothek davon. Die „Pandas“-Bibliothek wird im Bereich der Datenwissenschaften und auch bei maschinellen Lernaktivitäten verwendet. Der DataFrame „pandas“ hilft uns beim Speichern der Daten. Wenn wir in „Pandas“ Daten-Binning wollen, verwenden wir die „qcut()“-Methode. Die Methode „qcut()“ wird verwendet, um kontinuierliche Merkmale in kategoriale Merkmale umzuwandeln. Wir können dieser „qcut()“-Methode verschiedene Arten von Parametern hinzufügen, um verschiedene Arten von Ergebnissen zu erhalten. In diesem Tutorial dreht sich alles um die Methode „qcut()“, und wir werden die Methode „qcut()“ hier ausführlich erklären. Wie wir das Daten-Binning mit Hilfe der „qcut()“-Funktion in „pandas“ durchführen, erklären wir Ihnen in diesem Tutorial.“

Beispiel Nr. 01

Wir werden die „qcut()“-Methode in diesen Codes anwenden, und wir werden diese Codes in der „Spyder“-App ausführen. Wenn wir mit den „Pandas“ arbeiten müssen, können wir nur auf ihre Funktionen zugreifen, wenn wir die „Pandas“-Bibliothek in unsere Codes importieren. Zuerst geben wir „import“ ein und dann schreiben wir „pandas as pd“. Jetzt müssen wir die Methode „qcut()“ anwenden, also erstellen wir hier den DataFrame. Wir konstruieren „Random_df“ mit „R_ID, R_name und R_age“ als Spalten, und auch in „R_ID“ platzieren wir „R_17, R_21, R_24, R_29, R_31, R_34, R_44, R_46, R_50, R_51, R_55, R_61, R_73 und R_81“. Dann fügen wir „Theodore, Teddy, Noah, Leo, Ivy, Henry, Freddie, Evelyn, Ava, Willow, Theo, Oscar, Jacob und Harper“ in die Spalte „R_name“ ein. Danach fügen wir „21, 33, 12, 43, 22, 7, 21, 51, 72, 19, 10, 9, 37 und 40“ in die Spalte „R_age“ ein. Jetzt verwenden wir „print()“, das „Random_df“ enthält, und es hilft beim Rendern des DataFrame „Random_df“. Wir haben gerade den DataFrame erstellt und wenden die Methode „qcut()“ noch nicht an.








Das „Ausführen“-Symbol hilft uns bei der Ausführung der Codes. Wenn wir auf dieses „Ausführen“-Symbol drücken, wird das Ergebnis dieses Codes auf dem Terminal der „Spyder“-App angezeigt. Als Ergebnis des Codes, den wir in diesem Beispiel geschrieben haben, wird die DataFarm „Random_df“ angezeigt. Jetzt wenden wir die Methode „qcut()“ an und zeigen auch ihr Ergebnis.




Wir sortieren die Daten hier. Wir sortieren die „R_age“-Spalte und platzieren die „pd.qcut()“-Methode, die die Methode von „pandas“ ist, die beim Daten-Binning hilft. In diese Methode fügen wir den Namen des DataFrames und auch den Spaltennamen ein, auf den wir diese „qcut()“-Methode anwenden möchten. Wir setzen auch den Wert von „q“ auf „5“, und er wird verwendet, um die Daten der Spalte „R_age“ in fünf gleiche Quantile zu schneiden. Wir fügen die Methode „qcut()“ in „print()“ hinzu, damit sie auch die Binning-Daten auf dem Terminal anzeigt.




Hier werden die Daten nach dem Binning angezeigt und das „R_age“ in fünf Quantile zerlegt. Es zeigt auch die Kategorien an, in die die Daten der Spalte „R_age“ eingeteilt sind. Die kategorische Reihe repräsentiert die „R_age“-Bins.






Wir können auch das Etikett für diese Behälter anpassen. Wir fügen diese Behälteretiketten hinzu, damit sie leicht interpretiert werden können. Wir fügen eine „R_age_qcut“-Spalte zu „Random_df“ hinzu, in der wir die Labels dieser Bins hinzufügen. Wir verwenden wieder die Methode „pd.qcut()“, um sie zu beschriften. Wir fügen die Etiketten hinzu, die „wenig, nicht so wenig, mittelmäßig, hoch und am höchsten“ sind. Dann setzen wir wieder „Random_df“ in „print()“.


Alle Behälter sind beschriftet und werden in diesem Ergebnis präsentiert. Die Spalte „R_age_qcut“ wird in diesem DataFrame angezeigt, in dem beschriftete Behälter angezeigt werden.



Beispiel Nr. 02

Um den DataFrame zu erstellen, fügen wir zuerst „Noten“ hinzu, die „3, 6, 8, 7, 2, 5, 1, 9, 4, 7 und 8“ sind. Dann fügen wir Namen von Schülern in „Studenten“ hinzu, nämlich „Peter, Bromley, James, David, Allies, John, James, Samuel, William, Howard und Alexander“. Dann generieren wir „Grades_df“, wo wir die Methode „pd.DataFrame()“ hinzugefügt haben, und in dieser Methode setzen wir „Std_name“, das als Spaltenname erscheinen wird, und weisen diesem Werte von „students“ zu. Dann setzen wir die „Students_grades“ als Spaltennamen des DataFrames und weisen auch hier „grades“ zu, die wir oben angelegt haben. Danach haben wir das „print()“, in dem wir „Grades_df“ zum Drucken hinzufügen.


Der DataFrame mit zwei Spalten wird im Ergebnis dieses Codes angezeigt. Jetzt wenden wir die Methode „qcut()“ auf die Spalte „Students_grades“ an, um die Daten der Werte dieser Spalte zu klassifizieren.


Wir fügen hier eine neue Spalte „note“ hinzu, in der wir „pd.qcut()“ auf die Spalte „Students_grades“ angewendet haben, und außerdem haben wir „4“ für den Wert von „q“ verwendet, damit es abgeschnitten wird die Daten in vier gleiche Quantile. Danach spezifizieren wir diese Quantile hier, indem wir Werte in „q“ setzen, die „0, 0,4, 0,8 und 1“ sind. Dann zeigen wir dies auch an. Jetzt beschriften wir diese klassierten Daten, und die Bezeichnungen, die wir hier hinzufügen, lauten „D, C, A und B“ und werden auch in der Spalte „Klasse“ gespeichert.


Hier werden die Daten nach dem Binning hier in der Spalte „Note“ angezeigt und die Daten der Spalte „Students_grades“ in vier gleiche Quantile zerlegt.


In diesem Ergebnis wird der DataFrame angezeigt, den wir nach Anwendung der Methode „qcut()“ und Angabe der Quantile erhalten.


Jetzt, nachdem die Labels zu diesen Bins hinzugefügt wurden, werden sie auch in diesem Ergebnis in der Spalte „Klasse“ gerendert, und Sie können sehen, dass es die Labels entsprechend den Bin-Werten zuweist.

Beispiel Nr. 03

Wir können auch die Methode „qcut()“ auf die Daten der CSV-Datei anwenden. Dazu lesen wir zunächst die Daten der CSV-Datei mit Hilfe der Methode „read_csv()“. Wir lesen die Daten der Datei „office2.csv“, und dann werden die Daten dieser Datei in „Office_df“ abgelegt. Diese Methode konvertiert die Daten der Datei „office2“ in den DataFrame und speichert sie in „Office_df“. Dann zeigen wir diese Daten auch an, indem wir „Office_df“ in „print()“ einfügen. Danach fügen wir eine neue Spalte namens „Units_qcut“ hinzu, auf die wir die Funktion „pd.qcut()“ auf die Spalte „Units“ anwenden.

Außerdem setzen wir den Wert der Variablen „q“ auf „5“, wodurch die Daten in fünf gleiche Quantile geteilt werden. Die Daten werden nach dem Zerteilen in 5 gleiche Quantile in der Spalte „Units_qcut“ gespeichert, diese Spalte wird auch zum „Office_df“ hinzugefügt und das „Office_df“ hier wieder mit „print()“ gerendert. Wir beschriften diese klassierten Daten jetzt, fügen die Labels in der Methode „qcut()“ hinzu, die „Einheit 1, Einheit 2, Einheit 3, Einheit 4 und Einheit 5“ lauten, und speichern sie ebenfalls in der Spalte „Labels“. . Wir rendern auch diesen DataFrame, in dem die Spalte „Labels“ hinzugefügt wird.


Die Daten, die wir nach dem Lesen der Datei „office2.csv“ erhalten, werden hier in Form von DataFrame gerendert. Dann wird die Spalte „Units_qcut“ hinzugefügt, in der die gebinnten Werte der Spalte „Units“ angezeigt werden. Danach kommt noch die Spalte „Labels“ hinzu, die diesen klassierten Werten die Labels zuordnet. Dies geschieht alles mit der Methode „qcut()“ in „pandas“.

Fazit

In diesem Tutorial haben wir die Methode „qcut()“ ausführlich erklärt, die beim Binning der Daten in „Pandas“ hilft. Wir haben besprochen, dass die Daten gemäß dem Quantil „q“-Wert eingeteilt werden, den wir in der „qcut()“-Methode hinzugefügt haben, und wir haben auch die Beschriftungen an diese eingeteilten Daten angepasst. Wir haben die „qcut()“-Methode untersucht und diese Methode auf die Spalten des DataFrame angewendet, und wir haben diese „qcut()“-Methode auch auf die Daten der CSV-Datei angewendet, nachdem die CSV-Dateien gelesen wurden. Wir haben das Ergebnis aller Codes in diesem Tutorial präsentiert, um das Ergebnis der Methode „qcut()“ klar zu erklären und zu zeigen.