Pandas-Summenspalte

Pandas Summenspalte



„Dieser Artikel zeigt, wie man alle oder bestimmte Spalten in einem Pandas DataFrame mit Python summiert. Die Funktion DataFrame.sum() wird zusammen mit einigen hilfreichen Parametern in den zahlreichen Beispielen dieses Tutorials verwendet.“

Wenn dieses Tutorial beendet ist, wissen Sie möglicherweise, wie Sie:







    • Finden Sie die Summe der Datenrahmenspalte in Pandas.
    • Zusammenfügen der Datenrahmenspalten
    • Fügen Sie einem Pandas-Datenrahmen Spalten hinzu, die die angegebene Bedingung erfüllen.
    • Bestimmen Sie die Summe, nachdem Sie die Daten des Datenrahmens gruppiert haben.

Wie ermittelt man die Summe der Dataframe-Spalten?

Die Funktion „dataframe.sum()“ in Pandas gibt die Gesamtsumme für die angegebene Achse zurück. Wenn die Eingabe eine Achse des Index ist, fügt die Funktion die Werte jeder Spalte einzeln hinzu, macht dann dasselbe für jede Spalte und gibt eine Reihe zurück, die die Summe der Daten/Werte in jeder Spalte speichert. Darüber hinaus unterstützt es die Berechnung der Summe des Datenrahmens, indem die fehlenden Werte ignoriert werden.



Syntax: DataFrame.sum(axis = None, skipna = None, level = None, numeric_only = None, min_count = 0, **kwargs)



Wo,





Achse: {Spalten (1), Index (0)}

bestellen: Ignorieren Sie NA/Null-Werte bei der Berechnung des Ergebnisses.



eben: Wenn die angegebene Achse hierarchisch ist (ein Mehrfachindex), zählen Sie bis zu einer bestimmten Indexebene, bevor Sie sie in eine Reihe umwandeln.

nur numerisch: Nur float-, int- und boolesche Spalten sind akzeptabel. Wenn keine, versuchen Sie, alles zu verwenden; wenn nicht, nur numerische Daten. Für Serie nicht implementiert.

min_count: Die Anzahl möglicher Werte, die zum Abschließen des Vorgangs erforderlich sind. Das Ergebnis ist NA, wenn weniger Nicht-NA-Werte vorhanden sind als min_count.

Kehrt zurück: DataFrame (falls Ebene angegeben) oder Series.

Beispiel # 01: Ermitteln Sie die Summe einer Dataframe-Spalte und aller Spalten

Wir haben zuerst einen Datenrahmen mit den gültigen Datentypen benötigt, d. H. Int, Float usw., Spalte oder Spalten, für die wir die Summe der Daten finden können. Der Datenrahmen wird mithilfe der Funktion pd.DataFrame() erstellt.


Wir haben den erforderlichen Datenrahmen aus einem Python-Wörterbuch innerhalb der Funktion pd.DataFrame() erstellt. Im oben erstellten Datenrahmen gibt es vier Spalten „Name“, „Tag1“, „Tag2“ und „Tag3“. Von den vier Spalten sind die drei Spalten „Tag1“, „Tag2“ und „Tag3“ numerische Spalten mit den Datenwerten (4, 4, 3, 2, 4, 6, 5, 3), (2, 4, 5, 2, 3, 4, 6, 2) bzw. (7, 4, 3, 5, 6, 2, 1, 4). Wir können nur die Summe für diese drei Spalten finden. Die Summe für beide Reihen (d. h. eine Spalte) und einen ganzen Datenrahmen kann mit der Methode sum() ermittelt werden. Beginnen wir damit, Ihnen beizubringen, wie man alle Daten in einer Pandas-Spalte summiert.


Um die Summe zu ermitteln, haben wir die Methode sum() auf die Spalte „day2“ angewendet. Die Funktion hat den Summenwert 28 zurückgegeben. Ähnlich können wir die Summe jeder Dataframe-Spalte ermitteln. Dies wird durch einfaches Verwenden der Methode sum () über den gesamten Datenrahmen erreicht.


Wie man sieht, ist die Summe der Spalte „day1“ 31; für „Tag2“ ist der Summenwert 28, während für Spalte „Tag3“ der Summenwert 32 ist.

Beispiel Nr. 02: Verwendung der Funktion sum(), um die Datenrahmen-Spaltenwerte zusammenzufassen

Wie Sie der Ausgabe des vorherigen Beispiels entnehmen können, hat die Funktion nicht die tatsächlichen Spaltendaten des Datenrahmens zurückgegeben, aus denen sich die Summe zusammensetzt. Wenn Sie jedoch einer DataFrame-Spalte die Methode „DataFrame.sum()“ zuweisen, können Sie auf jede Spalte im DataFrame zugreifen, einschließlich der Summenspalte. Zuerst erstellen wir einen weiteren Datenrahmen für dieses Beispiel.


Mit dem pd.DataFrame() wurde unser Datenrahmen erstellt. Wir haben den Datenrahmen mit drei Spalten erstellt: Artikel, Preis und Steuer. Das Spaltenelement, das die Zeichenfolgenwerte enthält („Stift“, „Marker“, „Lineal“, „Radierer“, „Bleistift“, „Klemmbrett“, „Hefter“, „Nadeln“), die Spalte Preis, in der die Werte gespeichert sind (20, 15, 10, 3, 5, 30, 35, 10), und die Spalte „Steuer“ besteht aus Werten (8, 5, 3, 3, 4, 10, 5, 2). Lassen Sie uns nun die Werte der Preis- und Steuerspalte addieren und die Ergebnisse in einer neuen Spalte speichern, indem wir die ursprünglichen Datenrahmenspalten beibehalten.


Wie neben der neuen Spalte „total“ zu sehen ist, werden auch die ursprünglichen Spalten des angegebenen Datenrahmens von der Funktion zurückgegeben. Die Spalte „Gesamt“ speichert die Summe der Werte der Spalten „Preis“ und „Steuer“ für die einzelnen „Artikel“-Daten.

Beispiel # 03: Verwenden der Funktion sum() zum Bestimmen der Summe der angegebenen Datenrahmenspalten

Um die mehreren Spalten des Datenrahmens zusammenzufassen, können wir eine Liste mit den Beschriftungen der Spalten angeben und dann die Methode sum() auf die Liste anwenden, um die Summe zu finden. Wie in den vorherigen Beispielen werden wir zuerst den Datenrahmen erstellen.


Wir haben unseren Datenrahmen mit vier Spalten „Schüler“, „Marken1“, „Marken2“ und „Marken3“ erstellt. Die Spalte „students“ speichert die Daten („Larry“, „James“, „Rob“, „Arya“, „Max“, „Ben“, „Gwen“, „Bill“) und die Spalte „marks1“ speichert die Werte (8, 9, 6, 8, 10, 7, 9, 9), während die Spalten „marks2“ und „marks3“ die numerischen Werte speichern (6, 6, 8, 6, 7, 9, 10, 9 ) bzw. (7, 6, 9, 7, 8, 7, 10, 10).


Zunächst haben wir ein Listenobjekt mit den Spaltenbezeichnungen „Schüler“, „Noten1“ und „Noten3“ erstellt. Dann wird die Methode sum() auf die Liste angewendet. Die Funktion hat die Werte der Spalten „marks1“ und „marks3“ nur deshalb summiert, weil die Spalte „students“ nicht numerisch ist, sodass die Funktion sum() die Summe für die Werte der Spalte „students“ nicht finden kann. Wir haben die Summe der Werte der Spalten „marks1“ und „marks3“ in der Spalte „sum“ gespeichert.

Beispiel Nr. 04: Fügen Sie Spalten des Pandas-Datenrahmens hinzu, die eine bestimmte Bedingung erfüllen

In diesem Beispiel werden wir die Werte der angegebenen Spalten hinzufügen, wenn sie die angegebene Bedingung erfüllen.


Es gibt 5 Spalten im neu erstellten Datenrahmen, d. h. „Firma“, „Woche1_Umsatz“, „Woche2_Umsatz“, „Woche3_Umsatz“ und „Filialen“. Nehmen wir nun an, wir möchten den Wert der letzten Spalte nicht hinzufügen, wenn wir die Summe der Werte der angegebenen Datenrahmenzeilen hinzufügen oder finden. Nehmen wir an, wir wollten nur die Spaltenwerte mit dem Wort „Woche“ in ihren Beschriftungen hinzufügen. Es kann ein Listenverständnis erstellt werden, um festzustellen, ob das Wort „Woche“ in einer Spaltenbeschriftung vorhanden ist oder nicht.


Jetzt haben wir die Spalten mit dem Wort „Woche“ in ihren Beschriftungen abgerufen. Wir können die Spalten zusammenfassen, die das Wort „Woche“ enthalten, indem wir das Argument axis=1 in der Funktion sum() verwenden.


Auf diese Weise können wir Daten sicher spaltenweise summieren, ohne Spalten einzubeziehen, die wir nicht wollen.

Beispiel Nr. 5: Ermitteln Sie die Summe nach Gruppierung der Daten des Datenrahmens

Wir können auch die Summe der Datenrahmenspalten finden, nachdem wir die Daten einer oder mehrerer Spalten gruppiert haben. Die Methode groupby() wird verwendet, um die Daten innerhalb der Spalte in Kategorien zu gruppieren. Lassen Sie uns einen Datenrahmen erstellen, damit wir die Daten einer seiner Spalten gruppieren können.


Jetzt gruppieren wir die Daten in der Spalte „Alter“ und summieren die Werte der Spalten „score1“ und „score2“ für jede Kategorie der Gruppe.


Wir können sehen, dass das Summieren der Daten im Datenrahmen nach der ersten Gruppierung der Datenwerte nach Alter zu einer spaltenweisen Summe in Abhängigkeit von den Altersgruppen führt.

Fazit

In diesem Tutorial haben wir versucht, Ihnen beizubringen, wie Sie die Summe über Dataframes mithilfe der Pandas-Summenmethode berechnen. Wir haben die zeilen- und spaltenweise Addition von Werten in den Beispielen dieses Beitrags besprochen. Außerdem haben Sie gelernt, wie Sie Spalten bedingt hinzufügen und wie Sie die Werte summieren, nachdem Sie die Spalte des Datenrahmens gruppiert haben. Jetzt können Sie möglicherweise die Spalten des Datenrahmens summieren oder die Werte innerhalb der Datenrahmenspalte selbst summieren.