Tutorial: Univariate Deskriptive Statistik mit R
Mit R kann man Daten auf eine vielfältige Weise beschreiben, um sich einen Überblick zu verschaffen. Dazu benötigt man folgende Befehle:
Absolute Häufigkeit
Wenn ich wissen möchte, wie hoch die Anzahl der Objekte mit einer bestimmten Merkmalsausprägung in einem Datensatz ist, verwende ich den Befehl table. Damit bekomme ich eine Übersicht in Form einer Tabelle.
Relative Häufigkeit
Mit prop.table() bekomme ich statt absoluter Zahlen Prozentsätze – man teilt die Anzahl der Objekte mit der Merkmalsausprägung durch die Gesamtzahl der Objekte. Das sieht so aus:
prop.table(table(NamedesObjekts$NamederVariable))
Runden
Um auf 2 Nachkommastellen zu runden:
round(prop.table(table(NamedesObjekts$NamederVariable)), 2)
Prozentwerte
Um Prozentwerte zu erhalten, multipliziere ich die relative Häufigkeit mit 100:
round(100 * prop.table(table(NamedesObjekts$NamederVariable)), 2)
Kumulierte Häufigkeiten
Kumulierte absolute Häufigkeit:
cumsum(table(Objekt$Variable))
Als relative Häufigkeit in Prozent:
cumsum(100 * prop.table(table(Objekt$Variable)))
Mehrere Gruppen mit rbind() zusammenführen
Wenn ich absolute, relative und prozentuale Häufigkeit in einer Tabelle aufführen möchte, nutze ich rbind():
rbind(table(schueler$bio), cumsum(prop.table(table(schueler$bio))), 100 * prop.table(table(schueler$bio)))
Modalwert ausgeben
Der Modalwert ist der Wert, der am häufigsten vorkommt. In R gibt es dafür keine eingebaute Funktion – man kann ihn aber über table() und which.max() ermitteln.