Chi-Quadrat-Test
Synonym: χ²-Test
Englisch: chi-square test
Definition
Der Chi-Quadrat-Test ist ein statistisches Testverfahren zur Prüfung von Zusammenhängen oder Abweichungen bei qualitativen Merkmalen. Er vergleicht beobachtete Häufigkeiten mit den unter einer Nullhypothese erwarteten Häufigkeiten und beurteilt, ob die Unterschiede zufallsbedingt erklärbar sind.
Hintergrund
In der medizinischen Forschung wird der Chi-Quadrat-Test häufig eingesetzt, um Gruppen hinsichtlich nominaler Merkmale zu vergleichen, z.B. Therapieerfolg (ja/nein) oder Nebenwirkungen (vorhanden/nicht vorhanden). Er zählt zu den grundlegenden Verfahren der schließenden Statistik und wird insbesondere bei nominal oder ordinalskalierten Variablen eingesetzt.
Aufgrund seiner vergleichsweise geringen Voraussetzungen findet er breite Anwendung in der medizinischen Forschung, Epidemiologie und Psychologie, etwa bei der Auswertung von Kontingenztafeln in klinischen Studien oder Beobachtungsstudien. Typische Fragestellungen betreffen dabei z.B. den Zusammenhang zwischen einer Exposition (Raucher/Nichtraucher) und Erkrankung (ja/nein).
Zielsetzung
Ziel des Chi-Quadrat-Tests ist es, statistisch zu prüfen,
- ob eine beobachtete Häufigkeitsverteilung signifikant von einer theoretisch erwarteten Verteilung abweicht (Anpassungstest), oder
- ob zwischen zwei kategorialen Variablen ein statistischer Zusammenhang besteht (Unabhängigkeitstest).
Statistische Grundlagen
Die Teststatistik folgt unter der Nullhypothese asymptotisch einer Chi-Quadrat-Verteilung und berechnet sich als:
Dabei bezeichnen Oi die beobachtete und Ei die erwartete Häufigkeit der i-ten Kategorie und k die Anzahl der Kategorien.
Bei Kontingenztafeln ergeben sich die erwarteten Zellhäufigkeiten zu
wobei Ri die Zeilensumme der i-ten Zeile, Cj die Spaltensumme der j-ten Spalte und n die Gesamtstichprobe bezeichnet.
Die Freiheitsgrade betragen:
- beim Unabhängigkeitstest in einer r x c-Tafel:
- beim Anpassungstest:
Werden Parameter der erwarteten Verteilung aus den Daten geschätzt (z.B. bei Anpassung an eine Normalverteilung), reduziert sich die Anzahl der Freiheitsgrade entsprechend.
Voraussetzungen
Für eine valide Anwendung des Chi-Quadrat-Tests müssen mehrere Bedingungen erfüllt sein:
- Die Daten müssen als absolute Häufigkeiten vorliegen.
- Die Beobachtungen müssen voneinander unabhängig sein.
- Die Kategorien müssen sich gegenseitig ausschließen.
- Die erwarteten Zellhäufigkeiten sollten ausreichend groß sein.
Als gängige Faustregel gilt, dass keine erwartete Häufigkeit kleiner als 1 sein sollte und höchstens 20 % der Zellen erwartete Häufigkeiten unter 5 aufweisen dürfen. Werden diese Voraussetzungen verletzt, ist die Approximation an die Chi-Quadrat-Verteilung unzuverlässig.
Interpretation
Ein statistisch signifikanter Chi-Quadrat-Test spricht gegen die Nullhypothese und weist darauf hin, dass die beobachteten Abweichungen mit geringer Wahrscheinlichkeit zufallsbedingt sind. Der Test selbst erlaubt jedoch keine Aussage über Richtung oder Stärke eines Zusammenhangs. Zur quantitativen Bewertung werden daher Effektstärkemaße herangezogen, insbesondere der Phi-Koeffizient bei 2×2-Tabellen und Cramérs V bei größeren Kontingenztafeln.
Zur Identifikation der Zellen, die maßgeblich zur Teststatistik beitragen, können standardisierte Residuen ausgewertet werden.
Limitationen
Der Chi-Quadrat-Test ist stichprobenabhängig. Bei großen Stichproben können bereits geringe Abweichungen statistisch signifikant werden, während bei kleinen Stichproben relevante Effekte möglicherweise unentdeckt bleiben. Zudem ist der Test ausschließlich für kategoriale Daten geeignet und reagiert sensibel auf kleine erwartete Häufigkeiten. Die in 2×2-Tabellen teils verwendete Kontinuitätskorrektur nach Yates gilt als konservativ und wird in der medizinischen Literatur nicht einheitlich empfohlen.
Alternativen
Bei kleinen erwarteten Zellhäufigkeiten, insbesondere in 2×2-Kontingenztafeln, stellt der exakte Fisher-Test eine geeignete Alternative dar. Beim Anpassungstest können exakte Binomial- oder Multinomialtests sinnvoll sein. Für ordinalskalierte Daten kommen rang- oder trendbasierte Verfahren in Betracht.
Literatur
- Bortz und Schuster, Statistik für Human- und Sozialwissenschaftler, 7. Auflage, Springer, 2010