Sample()-Funktion in R

Sample Funktion In R



In R erhalten wir mithilfe der Funktion „sample()“ zufällige Stichprobenwerte aus einem Vektor oder einer Liste. Es ermöglicht uns, eine Teilmenge von Daten zufällig auszuwählen, was für viele statistische Anwendungen nützlich ist. Wenn die Eingabe eine Liste in der Funktion sample() ist, ist die Ausgabe ebenfalls eine Liste mit der gleichen Anzahl von Elementen, jedoch mit den ausgewählten Elementen. Dieser Artikel demonstriert die Funktion „sample()“ von R mit der Implementierung, die die verschiedenen Argumente festlegt.

Beispiel 1: Verwendung der Sample()-Funktion mit dem Datenargument

Der Funktion sample() von R müssen die Beispieldaten zur Verfügung gestellt werden, um zufällig eine Zahl zu generieren. Die Beispieldaten sind das erforderliche Argument der Funktion sample(), deren Code im Folgenden angegeben ist:

dataX < - C ( 10 , zwanzig , 30 , 40 , fünfzig , 60 , 70 , 80 , 90 , 100 )

Probe ( dataX , 3 )

Probe ( dataX , 3 )

Hier generieren wir zunächst die Vektoren der ganzzahligen Elemente innerhalb der Variablen „dataX“. Als nächstes rufen wir die Funktion „sample()“ im Code zweimal auf und übergeben ihr den „dataX“-Vektor, den wir zuvor generiert haben, als Argument. Bei der ersten Verwendung von „sample(dataX, 3)“ wird eine zufällige Stichprobe von drei Elementen aus dem „dataX“-Vektor entnommen. Das Ergebnis ist eine zufällige Permutation von drei Elementen aus „dataX“. Danach verwenden wir erneut die Stichprobe (a, 5), die eine weitere unabhängige Zufallsstichprobe von drei Elementen aus dem „dataX“-Vektor entnimmt. Dieses Mal unterscheidet sich das Ergebnis völlig vom letzten.







Die Ausgabe zeigt die verschiedenen Elemente beim zweimaligen Aufruf der Funktion „sample()“. Beachten Sie, dass jedes Mal, wenn wir die Stichprobe zufällig erstellen, unterschiedliche Elemente aus den Vektoren erhalten werden:





Beispiel 2: Verwendung der Sample()-Funktion mit dem Ersetzungsargument

Darüber hinaus haben wir das „replace“-Argument der Funktion „sample()“, das die logischen Werte annimmt. Ein ähnliches Element kann mehr als einmal ausgewählt werden, wenn das Element mit der Ersetzungsoption TRUE abgetastet wird. Wenn der Wert jedoch auf FALSE gesetzt ist, kann es nur eine Auswahl für jedes Element geben, was dazu führt, dass die Elemente ersatzlos abgetastet werden.





zufällige Zahlen = C ( elf , 25 , 12 , 89 , Vier fünf , 16 , 67 , 38 , 96 , 55 , 73 )

Probe ( zufällige Zahlen , 4 , ersetzen = WAHR )

Probe ( zufällige Zahlen , 5 , ersetzen = WAHR )

Hier definieren wir zunächst den Vektor mit einigen numerischen Werten in der Variablen „random_numbers“. Danach rufen wir die Funktion „sample()“ auf, bei der „random_numbers“ als Argument übergeben wird. Der Wert „4“ wird für die Funktion „sample()“ angegeben, was angibt, dass sie nur vier Zufallswerte aus den Vektoren in „random_numbers“ auswählt.

Als nächstes gibt die Funktion „replace=TRUE“ in der Funktion „sample()“ an, dass jeder Wert mehr als einmal ausgewählt werden kann. Dann setzen wir die Funktion „sample()“ erneut ein, die dieses Mal „5“ Zufallswerte aus den Vektoren auswählt. Ebenso setzen wir das Ersetzungsargument wie zuvor für die Mehrfachauswahloptionen für jeden Wert auf „TRUE“.



Wie wir sehen können, zeigt die erste Ausgabe den Vektor von 4 zufällig ausgewählten Elementen aus dem Vektor „random_numbers“ an. Die nächste Ausgabe zeigt jedoch einen Vektor von „5“ zufällig ausgewählten Elementen:

Beispiel 3: Verwendung der Sample()-Funktion mit dem Größenargument

Das nächste Argument, das die Funktion sample() übergibt, ist die „Größe“. Die „Größe“ ist ein optionaler Parameter, der den Wert der zu ziehenden Stichproben angibt. Der Code der Funktion „sample()“ mit dem Parameter „size“ ist im Folgenden angegeben:

Vektoren < - 1 : 10

Probe ( Vektoren , Größe = 5 )

Hier wird ein numerischer Vektor als Folge von ganzen Zahlen von 1 bis 10 in der Variablen „vectors“ definiert. Die Funktion „sample()“ wird dann zur zufälligen Auswahl von Elementen aus dem Vektor verwendet. Wie wir sehen können, benötigt die Funktion sample() zwei Argumente. Das erste Argument sind die Vektoren, von denen wir die Stichprobe erhalten. Das nächste Argument ist die Größe, die mit dem Wert „5“ angegeben wird, was angibt, dass nur fünf Elemente aus dem Vektor ausgewählt werden können.

Daher werden die ausgewählten Elemente in zufälliger Reihenfolge als neuer Vektor in der folgenden Ausgabe zurückgegeben:

Beispiel 4: Verwendung der Sample()-Funktion für die R-Liste

Darüber hinaus kann die Funktion sample() für die Liste in R verwendet werden. Dieser Abschnitt des Beispiels ruft Zufallswerte aus der Liste ab.

R_list < - Liste ( 1 : 4 ,

913 ,

C ( 'X' , „JJJJ“ , 'GUT' ) ,

„ZZZ“ ,

5 )

Ergebnis < - R_list [ Probe ( 1 :Länge ( R_list ) , Größe = 4 ) ]

Ergebnis

Hier wird die Liste „R_list“ mit Elementen unterschiedlichen Typs definiert, einschließlich eines numerischen Vektors, einer einzelnen Zahl, eines Zeichenvektors, einer Zeichenfolge und einer anderen Zahl. Danach erstellen wir eine „Ergebnis“-Variable, in der die Funktion „sample()“ aufgerufen wird.

Innerhalb der Funktion „sample()“ legen wir den Ausdruck „1:length(R_list)“ fest, der die Vektoren der Indizes angibt, durch die abgetastet werden soll. Als nächstes haben wir ein „Größe“-Argument, um die Anzahl der abzutastenden Elemente anzugeben, nämlich „4“. Daher generiert die „R_list“ drei zufällig ausgewählte Elemente aus der Liste von „R_list“. Da die Elemente in der Liste von „R_list“ unterschiedlichen Typs sind, können auch die resultierenden Elemente in „result“ unterschiedlichen Typs sein.

Die Ausgabe stellt die neue Liste dar, die eine zufällige Teilmenge der ursprünglichen Liste enthält:

Beispiel 5: Verwendung der Sample()-Funktion mit dem Prob-Argument

Zusätzlich haben wir den Parameter „prob“ der Funktion „sample()“. Das Argument „prob“ gibt die Wahrscheinlichkeit des ausgewählten Elements im Vektor an. Beachten Sie, dass davon ausgegangen wird, dass alle Elemente die gleiche Wahrscheinlichkeit haben, wenn das Argument „prob“ nicht verwendet wird.

meine Daten = C ( 31 , 99 , 5 , 24 , 72 )

Probe ( meine Daten , Größe = 10 , ersetzen = WAHR ,

wahrscheinlich = C ( 0,5 , rep ( 0,1 , 4 ) ) )

Hier werden die Elemente numerischer Vektoren auf „my_data“ bezogen. Im nächsten Schritt rufen wir die Funktion „sample()“ auf, in der „my_data“ an zufällig ausgewählte 10 Elemente daraus übergeben wird. Anschließend wird das Argument „Größe“ definiert, das angibt, dass der zufällig auszuwählende Wert die Größe „10“ haben soll. Danach weisen wir dem Argument „replace“ „TRUE“ zu, was bedeutet, dass jedes ausgewählte Element im Vektor ersetzt wird, bevor das nächste ausgewählt wird. Das dritte Argument, das in der Funktion „sample()“ definiert ist, ist „prob“, das die Wahrscheinlichkeit definiert, mit der jedes Element im „my_data“-Vektor ausgewählt wird. Die Wahrscheinlichkeit des ersten Elements wird auf „0,5“ gesetzt. Für die verbleibenden vier Vektorelemente beträgt die Wahrscheinlichkeit „0,1“.

Die folgende Ausgabe wird erwartungsgemäß mit der höchsten Wahrscheinlichkeit des ersten Elements in den Vektoren abgerufen:

Beispiel 6: Verwenden der Sample()-Funktion zum Rendern des Barplots

Schließlich wird die Funktion „sample()“ verwendet, um das Balkendiagramm in R zu erstellen, um die Verteilung einer kategorialen Variablen mit einer gegebenen Wahrscheinlichkeitsverteilung zu visualisieren.

Beispieldaten = C ( 1 , 2 , 3 )

Barplot ( Tisch ( Probe ( Beispieldaten , Größe = 500 , ersetzen = WAHR , wahrscheinlich = C ( .30 , .60 , .10 ) ) ) )

Nachdem wir hier „sample_data“ mit dem Vektor eines ganzzahligen Werts definiert haben, generieren wir das Barplot durch Einsatz der Funktion „sample()“. Zuerst rufen wir das Barplot auf, das die Funktion table() aufruft, um eine Häufigkeitstabelle der resultierenden Stichprobe zu erstellen. Dann geben wir die Funktion „sample()“ innerhalb der Funktion „table()“ an, bei der eine Zufallsstichprobe der Größe 1000 aus einem Vektor der ganzen Zahlen 1 bis 3 gezogen wird. Anschließend wird das Argument „prob“ verwendet, um die Wahrscheinlichkeit der Auswahl jeder ganzen Zahl anzugeben .

Wie wir jetzt sehen können, wird das Balkendiagramm im Folgenden mit den drei Balken gerendert, einem für jede Ganzzahl, und die Höhe der Balken ist für die in der Stichprobe vorkommende Ganzzahl relevant:

Abschluss

Wir haben anhand verschiedener Beispiele gesehen, wie die Funktion sample() funktioniert. Die Funktion „sample()“ wird mit verschiedenen Argumenten verwendet, wenn die Beispieldaten erforderlich sind und alle anderen Argumente optional sind und in bestimmten Fällen aufgerufen werden. Die Funktion „sample()“ ist jedoch bei der statistischen Analyse oder bei der Arbeit mit großen Datensätzen nützlich.