Deskriptive Statistik
Synonyme: beschreibende Statistik, empirische Statistik
Englisch: descriptive statistics
Definition
Die deskriptive Statistik umfasst alle Verfahren, mit denen Daten systematisch geordnet, verdichtet und dargestellt werden. Sie dient nicht der Prüfung einer Hypothese oder der Übertragung von Ergebnissen auf eine Grundgesamtheit, sondern beschränkt sich auf die Beschreibung des tatsächlich vorliegenden Datenmaterials. Typische Mittel der Darstellung sind Tabellen, Kennzahlen und graphische Visualisierungen.
Abgrenzung
Die deskriptive Statistik unterscheidet sich von anderen Teildisziplinen:
- Explorative Statistik: Überschneidet sich in Teilen, da ebenfalls graphische und tabellarische Verfahren eingesetzt werden, zielt jedoch stärker auf die Entdeckung von Mustern und Strukturen.
- Inferenzstatistik: Geht über die bloße Beschreibung hinaus, indem sie Rückschlüsse von einer Stichprobe auf eine Grundgesamtheit erlaubt. Dazu werden Wahrscheinlichkeitsmodelle, Hypothesentests und Konfidenzintervalle verwendet.
Ziele
Das zentrale Anliegen der deskriptiven Statistik ist die Verdichtung von Information. Große Datenmengen lassen sich ohne statistische Methoden kaum sinnvoll erfassen. Deskriptive Verfahren machen Strukturen, Unterschiede und Besonderheiten sichtbar. Sie ermöglichen einen schnellen Überblick über Datensätze, dienen der Kommunikation von Ergebnissen und bilden die Grundlage für weiterführende Analysen.
Weitere Ziele sind:
- Übersichtliche Darstellung von Daten in Tabellen und Diagrammen
- Berechnung von Maßzahlen zur Beschreibung zentraler Tendenz, Streuung und Verteilung
- Erste Orientierung über mögliche Zusammenhänge zwischen Variablen
- Vorbereitung inferenzstatistischer Verfahren durch Voranalyse des Datenmaterials
Kenngrößen
Lagemaße
Lagemaße geben Auskunft über die zentrale Tendenz einer Verteilung:
- Arithmetischer Mittelwert: Durchschnittswert aller Beobachtungen; sinnvoll bei intervallskalierten Daten
- Median: Wert, der die geordnete Datenreihe halbiert; robust gegenüber Ausreißern, ab ordinalem Skalenniveau anwendbar
- Modalwert (Modus): Häufigste Ausprägung einer Variablen; bereits bei nominalskalierten Daten sinnvoll
- Weitere Maße wie geometrisches oder harmonisches Mittel können je nach Fragestellung eingesetzt werden
Streuungsmaße
Streuungsmaße charakterisieren die Variabilität der Daten um ein Lagemaß:
- Spannweite (Range): Differenz zwischen größtem und kleinstem Wert
- Varianz: Durchschnitt der quadrierten Abweichungen vom Mittelwert
- Standardabweichung: Quadratwurzel der Varianz; gleiche Dimension wie die ursprünglichen Werte
- Interquartilsabstand (IQR): Differenz zwischen 75. und 25. Perzentil; robust gegenüber Ausreißern
- Mittlere absolute Abweichung oder Median absolute deviation (MAD): weitere robuste Streuungsmaße für nicht-normal verteilte Daten
Verteilung und Häufigkeiten
Ein zentrales Element der deskriptiven Statistik ist die Darstellung von Häufigkeiten. Absolute und relative Häufigkeiten geben an, wie oft Ausprägungen vorkommen. Prozentuale Angaben oder kumulierte Häufigkeiten verdeutlichen die Verteilung innerhalb einer Stichprobe. Zur Veranschaulichung von Häufigkeitsverteilung können graphische Darstellungen wie Histogramme, Balkendiagramme oder Kreisdiagramme eingesetzt werden.
siehe auch: Verteilung (Statistik)
Zusammenhangsmaße
Neben der Beschreibung einzelner Variablen können Beziehungen zwischen Variablen explorativ dargestellt werden. Korrelationskoeffizienten, Kreuztabellen oder Streudiagramme geben Hinweise auf lineare oder nicht-lineare Zusammenhänge. Dabei handelt es sich jedoch um deskriptive Maßzahlen; eine kausale Interpretation bleibt der Inferenzstatistik vorbehalten.
Einsatz in der Medizin
In der medizinischen Forschung hat die deskriptive Statistik eine zentrale Rolle:
- Klinische Studien: Patientenkollektive werden in Tabellen nach Alter, Geschlecht, Diagnosegruppen oder Laborwerten beschrieben
- Epidemiologie: Häufigkeiten von Erkrankungen werden durch Inzidenz- und Prävalenzraten dargestellt.
- Labordiagnostik: Referenzbereiche werden auf Grundlage von Mittelwerten und Standardabweichungen angegeben.
- Qualitätssicherung: Statistische Kennzahlen dienen zur Charakterisierung von Behandlungsabläufen oder Prozessen.
In diesen Bereichen ermöglicht die deskriptive Statistik einen ersten Überblick, bevor Hypothesen geprüft oder Modelle zur Vorhersage entwickelt werden.
Literatur
- Bortz und Schuster, Statistik für Human- und Sozialwissenschaftler, 7. Auflage, Springer, 2010