Wilcoxon-Vorzeichen-Rangtest
nach dem Chemiker und Statistiker Frank Wilcoxon (1892 - 1965)
Synonyme: Wilcoxon Signed-Rank Test, Wilcoxon-Test für verbundene Stichproben
Definition
Der Wilcoxon-Vorzeichen-Rangtest ist ein nichtparametrisches Verfahren zum Vergleich zweier verbundener Messreihen. Er prüft, ob die Differenzen zwischen zwei abhängigen Messungen systematisch von Null abweichen, ohne eine Normalverteilung der Differenzen vorauszusetzen. Damit bildet er eine Alternative zum t-Test für verbundene Stichproben, wenn parametrische Voraussetzungen nicht erfüllt sind.
Hintergrund
Das Verfahren wurde 1945 von Frank Wilcoxon entwickelt und zählt zu den klassischen Methoden der nichtparametrischen Inferenzstatistik. Der Test kombiniert die Richtung der Veränderung (Vorzeichen) mit einer Rangbildung nach der Größe der Differenzen und ist damit sensitiver als der reine Vorzeichen-Test. Er eignet sich besonders für ordinalskalierte Daten oder intervallskalierte Daten mit nicht-normalverteilten Differenzen.
Durchführung
Für jedes Wertepaar wird die Differenz
gebildet; Paare mit di=0 werden ausgeschlossen. Anschließend werden die absoluten Differenzen | di | gerankt und die Vorzeichen den Rängen zugeordnet. Daraus ergeben sich zwei Rangsummen:
Variablen:
, = verbundene Messwerte des i-ten Paares
= Differenz der Messwerte
= Rang des absoluten Differenzbetrags
, = Summe positiver bzw. negativer Ränge
= Teststatistik des Wilcoxon-Vorzeichen-Rangtests
Bei kleinen Stichproben erfolgt die Auswertung über tabellierte kritische Werte, bei größeren Stichproben über eine Normalapproximation unter Berücksichtigung möglicher Rangbindungen.
Voraussetzungen
- gepaarte bzw. verbundene Messwerte
- mindestens ordinalskalierte Daten
- keine Normalverteilungsannahme erforderlich
- Differenzen von exakt Null werden ausgeschlossen
- symmetrische Verteilung der Differenzen ist günstig, aber nicht zwingend
Interpretation
Ein signifikanter Befund zeigt, dass die Differenzen nicht zufällig um Null streuen, sondern eine systematische Veränderung vorliegt. Der Test trifft keine Aussage über die Effektgröße; ergänzend können Effektstärkemaße wie r oder die matched-pairs rank-biserial correlation verwendet werden.
Anwendungsgebiete
Der Test findet breite Anwendung in Medizin, Psychologie, Epidemiologie und Biowissenschaften. Typische Einsatzfelder sind Vorher-Nachher-Vergleiche klinischer Parameter, Evaluation ordinaler Skalen oder matched-pair-Studien, insbesondere bei kleinen Stichproben oder bei Verletzung parametrischer Annahmen.
Grenzen
Bei stark asymmetrischen Differenzen kann der Test allgemeine Verteilungsunterschiede statt reiner Lageverschiebungen abbilden. Ein hoher Anteil identischer Differenzen (ties) verringert die Teststärke und erfordert Korrekturen bei der Normalapproximation.
Literatur
- Wilcoxon, F. (1945). Individual Comparisons by Ranking Methods. Biometrics Bulletin, 1(6), 80–83. https://doi.org/10.2307/3001968