Kruskal-Wallis-Test
Definition
Der Kruskal-Wallis-Test ist ein nichtparametrisches Rangverfahren zur Prüfung, ob drei oder mehr unabhängige Stichproben aus derselben Verteilung stammen. Er dient als Alternative zur einfaktoriellen Varianzanalyse, wenn deren Voraussetzungen, insbesondere Normalverteilung und Varianzhomogenität, nicht erfüllt sind oder wenn die abhängige Variable nur ordinalskaliert vorliegt. Unter der Nullhypothese unterscheiden sich die mittleren Ränge der Gruppen nicht.
Hintergrund
Der Kruskal-Wallis-Test basiert auf der Idee, dass sämtliche Beobachtungswerte über alle Gruppen hinweg gemeinsam gerankt werden. Die Prüfgröße ergibt sich aus den Rangsummen der einzelnen Gruppen. Weichen diese stärker voneinander ab, als es unter der Annahme identischer Verteilungen zu erwarten wäre, spricht dies für einen signifikanten Gruppenunterschied. Der Kruskal-Wallis-Test erweitert damit das Prinzip des Mann-Whitney-U-Tests auf mehr als zwei Gruppen.
Durchführung
Alle Messwerte werden gruppenübergreifend sortiert und in Ränge überführt; bei Gleichständen erfolgt die Vergabe von Mittelrängen. Für jede Gruppe werden anschließend die Rangsummen gebildet.
Die Prüfgröße H lautet in der klassischen Form:
- : Gesamtzahl aller Beobachtungen
- : Anzahl der Gruppen
- : Stichprobengröße der i-ten Gruppe
- : Rangsummen der i-ten Gruppe
Unter der Nullhypothese folgt H näherungsweise einer Chi-Quadrat-Verteilung:
Ein signifikanter p-Wert weist darauf hin, dass mindestens eine Gruppe von den übrigen abweicht. Der Test zeigt nur, dass sich die Gruppen insgesamt unterscheiden. Er sagt jedoch nicht, welche Gruppen voneinander abweichen, oder in welcher Richtung der Unterschied besteht. Daher sind bei einem signifikanten Ergebnis Post-hoc-Analysen notwendig, wie zum Beispiel der Dunn-Test. Sie ermöglichen es, die konkreten Gruppenunterschiede zu bestimmen.
Voraussetzungen
Vorausgesetzt werden unabhängig voneinander gezogene Stichproben sowie mindestens ordinalskalierte Messwerte. Eine Normalverteilung der Daten ist nicht erforderlich. Die Gruppen sollten hinsichtlich ihrer Verteilungsform möglichst ähnlich sein, damit Unterschiede in den Rängen als Lageunterschiede interpretierbar bleiben. Starke Unterschiede in Form oder Streuung können die Interpretation erschweren.
Anwendungsgebiete
Der Test findet breite Anwendung in der Medizin, Psychologie, Epidemiologie, Biologie und den Sozialwissenschaften. Er eignet sich insbesondere für Untersuchungen mit ordinalen Ratings, schief verteilten metrischen Variablen oder robusten Analysen, wenn Ausreißer parametrische Tests beeinträchtigen würden. Typische Fragestellungen betreffen Gruppenvergleiche in klinischen Studien, Laboranalysen oder Fragebogenuntersuchungen.
Literatur
- Kruskal und Wallis, Use of Ranks in One-Criterion Variance Analysis, Journal of the American Statistical Association, 1952