Tutorial: Univariate Deskriptive Statistik mit R

Codex Cosmopolitan

21. April 2024

Mit R kann man Daten auf eine vielfältige Weise beschreiben, um sich einen Überblick zu verschaffen. Dazu benötigt man folgende Befehle:

Absolute Häufigkeit

Wenn ich wissen möchte, wie hoch die Anzahl der Objekte mit einer bestimmten Merkmalsausprägung in einem Datensatz ist, verwende ich den Befehl table. Damit bekomme ich eine Übersicht in Form einer Tabelle.

Relative Häufigkeit

Mit prop.table() bekomme ich statt absoluter Zahlen Prozentsätze – man teilt die Anzahl der Objekte mit der Merkmalsausprägung durch die Gesamtzahl der Objekte. Das sieht so aus:

prop.table(table(NamedesObjekts$NamederVariable))

Runden

Um auf 2 Nachkommastellen zu runden:

round(prop.table(table(NamedesObjekts$NamederVariable)), 2)

Prozentwerte

Um Prozentwerte zu erhalten, multipliziere ich die relative Häufigkeit mit 100:

round(100 * prop.table(table(NamedesObjekts$NamederVariable)), 2)

Kumulierte Häufigkeiten

Kumulierte absolute Häufigkeit:

cumsum(table(Objekt$Variable))

Als relative Häufigkeit in Prozent:

cumsum(100 * prop.table(table(Objekt$Variable)))

Mehrere Gruppen mit rbind() zusammenführen

Wenn ich absolute, relative und prozentuale Häufigkeit in einer Tabelle aufführen möchte, nutze ich rbind():

rbind(table(schueler$bio), cumsum(prop.table(table(schueler$bio))), 100 * prop.table(table(schueler$bio)))

Modalwert ausgeben

Der Modalwert ist der Wert, der am häufigsten vorkommt. In R gibt es dafür keine eingebaute Funktion – man kann ihn aber über table() und which.max() ermitteln.