Mann-Whitney-U-Test
Synonyme: Wilcoxon-Mann-Whitney-Test, Wilcoxon-Rangsummentest
Definition
Der Mann-Whitney-U-Test ist ein nichtparametrisches Verfahren zum Vergleich zweier unabhängiger Stichproben. Er kommt zum Einsatz, wenn die Voraussetzungen des t-Tests nicht erfüllt sind, und eignet sich insbesondere für ordinalskalierte Daten oder metrische Variablen mit Schiefe oder Ausreißern. Unter der Nullhypothese stammen beide Stichproben aus identischen Verteilungen.
Hintergrund
Das Verfahren beruht auf einer gemeinsamen Rangordnung aller Beobachtungen. Aus den Rangsummen der beiden Gruppen wird die U-Statistik abgeleitet, welche die Wahrscheinlichkeit abbildet, dass ein Wert der einen Gruppe größer ist als ein Wert der anderen. Damit prüft der Test auf stochastische Unterschiede zwischen den Verteilungen und ist aufgrund seiner Rangbasis weitgehend unempfindlich gegenüber Ausreißern.
Durchführung
Nach gemeinsamer Ranganordnung werden die Rangsummen und bestimmt. Für die Gruppengrößen und ergeben sich die U-Werte:
Für die Signifikanzprüfung wird der kleinere U-Wert herangezogen. Der p-Wert ergibt sich entweder durch Vergleich mit tabellierten kritischen Werten (bei kleinen Stichproben) oder über eine Normalverteilungsapproximation, bei der die U-Statistik in eine z-Statistik überführt wird. Bindungen werden varianzkorrekt berücksichtigt.
Voraussetzungen
Benötigt werden zwei unabhängige Stichproben und mindestens ordinalskalierte Daten. Die Testdurchführung setzt keine Normalverteilung voraus.
Interpretation
Ein kleiner U-Wert weist auf Unterschiede zwischen den Gruppenverteilungen hin. Liegen die Verteilungsformen annähernd parallel, deutet ein signifikanter Befund auf eine Verschiebung der zentralen Tendenz (z. B. des Medians) hin. Zur Quantifizierung des Unterschieds können Effektstärken wie die rangbiseriale Korrelation oder das aus der z-Statistik abgeleitete r angegeben werden.
Anwendungsgebiete
Der Test wird häufig in der medizinischen Forschung, Psychologie, Epidemiologie und Biostatistik eingesetzt, etwa beim Vergleich klinischer Skalen, symptombezogener Scores oder laborchemischer Parameter in zwei unabhängigen Gruppen.
Grenzen
Stark unterschiedliche Verteilungsformen erschweren die Interpretation, da der Test dann nicht mehr primär Lage-, sondern allgemeine Verteilungsunterschiede erfasst. Ein hoher Anteil identischer Werte erfordert eine Bindungskorrektur, da diese die Varianzschätzung beeinflussen.
Literatur
- Mann und Whitney, On a Test of Whether one of Two Random Variables is Stochastically Larger than the Other, The Annals of Mathematical Statistics, 1947