Item-Response-Theorie
Synonyme: Probabilistische Testtheorie, PTT, Latente Merkmalstheorie
Englisch: item response theory, probabilistic test theory
Definition
Die Item-Response-Theorie, kurz IRT, ist ein psychometrisches Modellierungsverfahren zur Beschreibung der Beziehung zwischen einer latenten Personeneigenschaft und der Wahrscheinlichkeit bestimmter Itemantworten. Ziel ist die Schätzung von Personen- und Itemparametern auf einer gemeinsamen latenten Skala θ. Unter geeigneten Modellannahmen können diese Parameter stichproben- bzw. testformunabhängig interpretiert werden – eine Eigenschaft, die als "spezifische Objektivität" bezeichnet wird.
Hintergrund
Die Grundlagen der IRT wurden in den 1950er- bis 1960er-Jahren von Georg Rasch sowie Frederic Lord und Melvin Novick gelegt. Ausgangspunkt war die Kritik an der klassischen Testtheorie (KTT): Rohwertsummen sind skalenabhängig, und Itemkennwerte wie Schwierigkeit und Trennschärfe variieren mit der getesteten Stichprobe. Die IRT ermöglicht unter geeigneten Modellannahmen invariant interpretierbare Parameterschätzungen auf einer latenten Skala. Die Parameterschätzung erfolgt dabei meist mittels Maximum-Likelihood- oder Bayes-Verfahren.
In der Medizin wird IRT insbesondere zur Entwicklung und Validierung standardisierter Patient-Reported-Outcome-Instrumente (PRO) eingesetzt, etwa in der Lebensqualitäts- und Symptommessung.
Modelle
Allen IRT-Modellen gemeinsam ist die Annahme einer monoton steigenden Item Characteristic Curve (ICC): Mit zunehmender Fähigkeit θ steigt die Wahrscheinlichkeit einer positiven Antwort auf ein Item. Die Modelle unterscheiden sich in der Anzahl der Itemparameter.
Rasch-Modell
Das Rasch-Modell wird häufig als spezielles 1-PL-Modell betrachtet, unterscheidet sich jedoch durch die strengen Anforderungen an spezifische Objektivität und Suffizienz der Rohwertsumme. Es enthält ausschließlich den Schwierigkeitsparameter b und setzt voraus, dass alle Items dieselbe Diskrimination aufweisen:
Dabei bezeichnet θ die Personenfähigkeit und b die Itemschwierigkeit auf derselben Skala. Für θ = b beträgt die Wahrscheinlichkeit einer positiven Antwort 0,5.
2-PL-Modell
Das 2-PL-Modell ergänzt einen Diskriminationsparameter a, der die Steigung der ICC bestimmt. Ein höheres a bedeutet eine schärfere Differenzierung zwischen Personen ober- und unterhalb der Itemschwierigkeit.
3-PL-Modell
Das 3-PL-Modell fügt einen Rateparameter c (pseudo-guessing) hinzu, der die untere Asymptote der ICC anhebt. Es ist insbesondere bei Multiple-Choice-Items relevant, bei denen zufälliges Raten eine nicht-triviale Lösungswahrscheinlichkeit erzeugt.
Polytome Modelle
Für mehrstufige Antwortformate (z.B. Likert-Skalen) existieren Erweiterungen wie das Partial Credit Model (Masters, 1982) und das Graded Response Model (Samejima, 1969).
Modellgeltungsprüfung
Die IRT liefert nur dann valide Messungen, wenn drei zentrale Annahmen erfüllt sind:
- Eindimensionalität: Das Antwortverhalten wird durch eine einzige latente Dimension erklärt. Hinweise darauf können mittels explorativer oder konfirmatorischer Faktorenanalyse untersucht werden.
- Lokale stochastische Unabhängigkeit: Items sind bedingt auf θ unkorreliert. Verletzungen äußern sich häufig in residualen Itemkorrelationen und werden über die Q3-Statistik nach Yen geprüft.
- Modell-Fit und Invarianz: Itemparameter sollten zwischen relevanten Gruppen invariant sein. Überprüfung über Fit-Statistiken (infit/outfit mean square) und Differential Item Functioning (DIF)-Analysen.
Abgrenzung
| Merkmal | KTT | IRT |
|---|---|---|
| Personenmaß | Rohwertsumme (skalenabhängig) | θ auf invarianter latenter Skala |
| Itemparameter | Stichprobenabhängig | Stichprobenunabhängig (bei Modellgeltung) |
| Reliabilität | Globaler Reliabilitätskoeffizient | Informationsfunktion abhängig von θ |
| Adaptives Testen | Eingeschränkt | Methodisch fundiert umsetzbar |
IRT-Modelle erlauben die Berechnung von Item- und Testinformationsfunktionen, die die Messpräzision entlang der gesamten latenten Dimension beschreiben – im Gegensatz zur KTT, die einen einzelnen globalen Reliabilitätskennwert liefert.
Anwendungen
- Computerized Adaptive Testing (CAT): Items werden in Echtzeit nach dem aktuellen θ-Schätzwert ausgewählt, was präzisere Messungen mit weniger Items ermöglicht.
- Large-Scale-Assessments: PISA, TIMSS und vergleichbare Studien nutzen die IRT für das Linking verschiedener Testheftversionen.
- Klinische Messinstrumente: Entwicklung und Skalierung von PRO-Maßen, u.a. im PROMIS-Framework.
- Itembankkonstruktion und Equating: Kalibrierung von Itembanken und Vergleichbarkeit verschiedener Testformen auf gemeinsamer Skala.
Literatur
- Rasch, G. (1960). Probabilistic models for some intelligence and attainment tests. Danish Institute for Educational Research.
- Lord, F. M., & Novick, M. R. (1968). Statistical theories of mental test scores. Addison-Wesley.
- Embretson, S. E., & Reise, S. P. (2000). Item response theory for psychologists. Lawrence Erlbaum.
- de Ayala, R. J. (2009). The theory and practice of item response theory. Guilford Press.
- Masters, G. N. (1982). A Rasch model for partial credit scoring. Psychometrika, 47(2), 149–174.