Normalisierung von Daten in Python

Normalization Data Python



Die Normalisierung von Daten ist eine Technik, die hilft, das Ergebnis schneller zu erhalten, da die Maschine einen kleineren Datenbereich verarbeiten muss. Die Normalisierung ist keine leichte Aufgabe, da alle Ihre Ergebnisse von der Wahl Ihrer Normalisierungsmethode abhängen. Wenn Sie also die falsche Methode zur Normalisierung Ihrer Daten gewählt haben, kann es sein, dass Sie etwas von Ihren Erwartungen abweichen.

Die Normalisierung hängt auch vom Datentyp wie Bilder, Text, Numerisch usw. ab. Jeder Datentyp hat also eine andere Methode zur Normalisierung. Daher konzentrieren wir uns in diesem Artikel auf numerische Daten.







Methode 1: Verwenden von sklearn

Die Sklearn-Methode ist eine sehr bekannte Methode, um die Daten zu normalisieren.





In Zellennummer [83] : Wir importieren alle erforderlichen Bibliotheken, NumPy und sklearn. Sie können sehen, dass wir die Vorverarbeitung aus dem sklearn selbst importieren. Deshalb ist dies die Sklearn-Normalisierungsmethode.





In Zellennummer [84] : Wir haben ein NumPy-Array mit einem ganzzahligen Wert erstellt, der nicht identisch ist.

In Zellennummer [85] : Wir haben die normalize-Methode aus der Vorverarbeitung aufgerufen und das numpy_array übergeben, das wir gerade als Parameter erstellt haben.



In Zellennummer [86] : Aus den Ergebnissen können wir sehen, dass unsere ganzzahligen Daten jetzt zwischen 0 und 1 normalisiert sind.

Methode 2: Normalisieren einer bestimmten Spalte in einem Datensatz mit sklearn

Wir können auch die jeweilige Datensatzspalte normalisieren. In diesem werden wir darüber diskutieren.


In Zellennummer [87] : Wir importieren die Bibliothek Pandas und sklearn.

In Zellennummer [88] : Wir haben eine Dummy-CSV-Datei erstellt und laden diese CSV-Datei jetzt mit Hilfe des Pakets pandas (read_csv).

In Zellennummer [89] : Wir drucken die CSV-Datei, die wir kürzlich geladen haben.

In Zellennummer [90] : Wir lesen die jeweilige Spalte der CSV-Datei mit dem np. array und speichern Sie das Ergebnis in value_array.

In Zellennummer [92] , haben wir die normalize-Methode aus der Vorverarbeitung aufgerufen und den value_array-Parameter übergeben.

Methode 3: Konvertieren zur Normalisierung, ohne die Spalten zum Array zu verwenden (mit sklearn)

In der vorherigen Methode 2 haben wir besprochen, wie wir eine bestimmte CSV-Dateispalte normalisieren können. Aber manchmal müssen wir den gesamten Datensatz normalisieren, dann können wir die folgende Methode verwenden, bei der wir den gesamten Datensatz normalisieren, jedoch spaltenweise (Achse = 0). Wenn wir die Achse = 1 erwähnen, wird die zeilenweise Normalisierung durchgeführt. Die Achse = 1 ist der Standardwert.


In Zellennummer [93] : Wir importieren die Bibliothek Pandas und sklearn.

In Zellennummer [94] : Wir haben eine Dummy-CSV-Datei (demo_numeric.csv) erstellt und laden diese CSV-Datei nun mit Hilfe des Pakets pandas (read_csv).

In Zellennummer [95] : Wir drucken die CSV-Datei, die wir kürzlich geladen haben.

In Zellennummer [96] : Jetzt übergeben wir die gesamte CSV-Datei zusammen mit einer weiteren zusätzlichen Parameterachse =0, die der Bibliothek sagte, dass der Benutzer den gesamten Datensatz spaltenweise normalisieren wollte.

In Zellennummer [97] , geben wir das Ergebnis aus und normalisieren Daten mit einem Wert zwischen 0 und 1.

Methode 4: Verwenden von MinMaxScaler()

Der sklearn bietet auch eine andere Normalisierungsmethode, die wir MinMaxScalar genannt haben. Dies ist auch eine sehr beliebte Methode, da sie einfach zu bedienen ist.


In Zellennummer [98] : Wir importieren alle erforderlichen Pakete.

In Zellennummer [99] : Wir haben eine Dummy-CSV-Datei (demo_numeric.csv) erstellt und laden diese CSV-Datei nun mit Hilfe des Pakets pandas (read_csv).

In Zellennummer [100] : Wir drucken die CSV-Datei, die wir kürzlich geladen haben.

In Zellennummer [101] : Wir haben den MinMaxScalar aus der Vorverarbeitungsmethode aufgerufen und dafür ein Objekt (min_max_Scalar) erstellt. Wir haben keine Parameter übergeben, da wir die Daten zwischen 0 und 1 normalisieren müssen. Wenn Sie möchten, können Sie jedoch Ihre Werte hinzufügen, die in der nächsten Methode angezeigt werden.

In Zellennummer [102] : Wir lesen zuerst alle Namen der Spalten zur weiteren Verwendung, um Ergebnisse anzuzeigen. Dann rufen wir fit_transform aus dem erstellten Objekt min_max_Scalar auf und übergeben die CSV-Datei daran.

In Zellennummer [103] : Wir erhalten die normalisierten Ergebnisse, die zwischen 0 und 1 liegen.

Methode 5: Verwenden von MinMaxScaler(feature_range=(x,y))

Der sklearn bietet auch die Möglichkeit, den normalisierten Wert zu ändern, was Sie wollen. Standardmäßig normalisieren sie den Wert zwischen 0 und 1. Aber es gibt einen Parameter, den wir feature_range nennen, der den normalisierten Wert nach unseren Anforderungen setzen kann.

In Zellennummer [104] : Wir importieren alle erforderlichen Pakete.

In Zellennummer [105] : Wir haben eine Dummy-CSV-Datei (demo_numeric.csv) erstellt und laden diese CSV-Datei nun mit Hilfe des Pakets pandas (read_csv).

In Zellennummer [106] : Wir drucken die CSV-Datei, die wir kürzlich geladen haben.

In Zellennummer [107] : Wir haben den MinMaxScalar aus der Vorverarbeitungsmethode aufgerufen und dafür ein Objekt (min_max_Scalar) erstellt. Wir übergeben aber auch einen weiteren Parameter innerhalb des MinMaxScaler (feature_range). Für diesen Parameterwert setzen wir 0 bis 2. Nun normalisiert der MinMaxScaler die Datenwerte zwischen 0 und 2.

In Zellennummer [108] : Wir lesen zuerst alle Namen der Spalten zur weiteren Verwendung, um Ergebnisse anzuzeigen. Dann rufen wir fit_transform aus dem erstellten Objekt min_max_Scalar auf und übergeben die CSV-Datei daran.

In Zellennummer [109] : Wir erhalten die normalisierten Ergebnisse, die zwischen 0 und 2 liegen.

Methode 6: Verwenden der maximalen absoluten Skalierung

Wir können die Daten auch mit Pandas normalisieren. Diese Funktionen sind auch bei der Normalisierung der Daten sehr beliebt. Die maximale absolute Skalierung normalisiert Werte zwischen 0 und 1. Wir wenden hier .max() und .abs() wie unten gezeigt an:

In Zellennummer [110] : Wir importieren die Bibliothek der Pandas.

In Zellennummer [111] : Wir haben einen Dummy-Datenrahmen erstellt und diesen Datenrahmen gedruckt.

In Zellennummer [113] : Wir rufen jede Spalte auf und teilen dann die Spaltenwerte mit .max() und .abs().

In Zellennummer [114] : Wir drucken das Ergebnis aus und bestätigen anhand des Ergebnisses, dass sich unsere Daten zwischen 0 und 1 normalisieren.

Methode 7: Verwenden der Z-Score-Methode

Die nächste Methode, die wir diskutieren werden, ist die Z-Score-Methode. Diese Methode konvertiert die Informationen in die Verteilung. Diese Methode berechnet den Mittelwert jeder Spalte, subtrahiert dann von jeder Spalte und dividiert ihn schließlich durch die Standardabweichung. Dadurch werden die Daten zwischen -1 und 1 normalisiert.

In Zellennummer [115] : Wir haben einen Dummy-Datenrahmen erstellt und diesen Datenrahmen gedruckt.

In Zellennummer [117] : Wir berechnen den Mittelwert der Spalte und ziehen ihn von der Spalte ab. Dann teilen wir den Spaltenwert durch die Standardabweichung.

In Zellennummer [118] : Wir drucken die normalisierten Daten zwischen -1 und 1.

Schlussfolgerung: Wir haben verschiedene Arten von normalisierten Methoden gesehen. Unter ihnen ist sklearn sehr bekannt, weil es maschinelles Lernen unterstützt. Aber das hängt von den Anforderungen des Benutzers ab. Manchmal reicht die Pandas-Funktion zum Normalisieren von Daten aus. Wir können nicht sagen, dass es nur oben normalisierende Methoden gibt. Es gibt zahlreiche Methoden zur Datennormalisierung, die auch von Ihrem Datentyp wie Bilder, Zahlen, Text usw. abhängen. Wir konzentrieren uns auf diese numerischen Daten und Python.