Item-Response-Theorie

Synonyme: Probabilistische Testtheorie, PTT, Latente Merkmalstheorie
Englisch: item response theory, probabilistic test theory

Definition

Die Item-Response-Theorie, kurz IRT, ist ein statistisches Modell zur Analyse von Tests, Fragebögen und Prüfungen. Sie beschreibt die Wahrscheinlichkeit, mit der eine Person ein bestimmtes Item (z.B. eine Prüfungsfrage) richtig beantwortet oder einer Aussage zustimmt.

Hintergrund

Die Grundlagen der IRT wurden in den 1950er- bis 1960er-Jahren von Georg Rasch sowie Frederic Lord und Melvin Novick gelegt. Ausgangspunkt war die Kritik an der klassischen Testtheorie (KTT): Rohwertsummen sind skalenabhängig, und Itemkennwerte wie Schwierigkeit und Trennschärfe variieren mit der getesteten Stichprobe.

Die IRT geht davon aus, dass Personen eine nicht direkt messbare Eigenschaft besitzen, ein sogenanntes latentes Merkmal ("trait"), z.B. Intelligenz, Depressivität oder Krankheitsausprägung. Dieses latente Merkmal wird häufig mit θ ("theta") bezeichnet. Die Wahrscheinlichkeit einer richtigen Antwort hängt davon ab, wie ausgeprägt θ bei der Person ist und wie schwierig bzw. diskriminierend das Item ist.

In der Medizin wird die IRT insbesondere zur Entwicklung und Validierung von Patient-Reported-Outcome-Instrumenten (PROMs) eingesetzt, etwa in der Lebensqualitäts- und Symptommessung.

Modelle

Allen IRT-Modellen ist die Annahme einer monoton steigenden Item Characteristic Curve (ICC) gemeinsam: Mit zunehmender Fähigkeit θ steigt die Wahrscheinlichkeit einer positiven Antwort auf ein Item. Die Modelle unterscheiden sich in der Anzahl der Itemparameter.

Rasch-Modell

Das Rasch-Modell ist das einfachste IRT-Modell. Es berücksichtigt nur die Personenfähigkeit θ und die Itemschwierigkeit b. Es setzt voraus, dass alle Items dieselbe Diskrimination aufweisen:

P(X=1\mid \theta )={e^{(\theta -b)} \over 1+e^{(\theta -b)}}

Für θ = b beträgt die Wahrscheinlichkeit einer positiven Antwort 0,5.

2-PL-Modell

Das 2-PL-Modell ergänzt einen Diskriminationsparameter a, der die Steigung der ICC bestimmt. Ein höheres a bedeutet eine schärfere Differenzierung zwischen Personen ober- und unterhalb der Itemschwierigkeit.

3-PL-Modell

Das 3-PL-Modell fügt einen Rateparameter c (pseudo-guessing) hinzu, der die untere Asymptote der ICC anhebt. Es ist insbesondere bei Multiple-Choice-Items relevant, bei denen zufälliges Raten eine nicht-triviale Lösungswahrscheinlichkeit erzeugt.

Polytome Modelle

Für mehrstufige Antwortformate (z.B. Likert-Skalen) existieren Erweiterungen wie das Partial Credit Model (Masters, 1982) und das Graded Response Model (Samejima, 1969).

Modellgeltungsprüfung

Die IRT liefert nur dann valide Messungen, wenn drei zentrale Annahmen erfüllt sind:

Eindimensionalität: Das Antwortverhalten wird durch eine einzige latente Dimension erklärt. Hinweise darauf können mittels explorativer oder konfirmatorischer Faktorenanalyse untersucht werden.
Lokale stochastische Unabhängigkeit: Items sind bedingt auf θ unkorreliert. Verletzungen äußern sich häufig in residualen Itemkorrelationen und werden über die Q3-Statistik nach Yen geprüft.
Modell-Fit und Invarianz: Itemparameter sollten zwischen relevanten Gruppen invariant sein. Überprüfung über Fit-Statistiken (infit/outfit mean square) und Differential Item Functioning (DIF)-Analysen.

Abgrenzung

Merkmal	KTT	IRT
Personenmaß	Rohwertsumme (skalenabhängig)	θ auf invarianter latenter Skala
Itemparameter	Stichprobenabhängig	Stichprobenunabhängig (bei Modellgeltung)
Reliabilität	Globaler Reliabilitätskoeffizient	Informationsfunktion abhängig von θ
Adaptives Testen	Eingeschränkt	Methodisch fundiert umsetzbar

IRT-Modelle erlauben die Berechnung von Item- und Testinformationsfunktionen, die die Messpräzision entlang der gesamten latenten Dimension beschreiben – im Gegensatz zur klassischen Testtheorie (KTT), die einen einzelnen globalen Reliabilitätskennwert liefert.

Anwendungen

Computerized Adaptive Testing (CAT): Items werden in Echtzeit nach dem aktuellen θ-Schätzwert ausgewählt, was präzisere Messungen mit weniger Items ermöglicht.
Large-Scale-Assessments: PISA, TIMSS und vergleichbare Studien nutzen die IRT für das Linking verschiedener Testheftversionen.
Klinische Messinstrumente: Entwicklung und Skalierung von PRO-Maßen, u.a. im PROMIS-Framework.
Itembankkonstruktion und Equating: Kalibrierung von Itembanken und Vergleichbarkeit verschiedener Testformen auf gemeinsamer Skala.

Literatur

Rasch, G. (1960). Probabilistic models for some intelligence and attainment tests. Danish Institute for Educational Research.
Lord, F. M., & Novick, M. R. (1968). Statistical theories of mental test scores. Addison-Wesley.
Embretson, S. E., & Reise, S. P. (2000). Item response theory for psychologists. Lawrence Erlbaum.
de Ayala, R. J. (2009). The theory and practice of item response theory. Guilford Press.
Masters, G. N. (1982). A Rasch model for partial credit scoring. Psychometrika, 47(2), 149–174.