Item-Response-Theorie
Trainier deine Lernmuskeln!
Mit Flash Cards, Quiz und mehr
LoslegenSynonyme: Probabilistische Testtheorie, PTT, Latente Merkmalstheorie
Englisch: item response theory, probabilistic test theory
Definition
Die Item-Response-Theorie, kurz IRT, ist ein statistisches Modell zur Analyse von Tests, Fragebögen und Prüfungen. Sie beschreibt die Wahrscheinlichkeit, mit der eine Person ein bestimmtes Item (z.B. eine Prüfungsfrage) richtig beantwortet oder einer Aussage zustimmt.
Hintergrund
Die Grundlagen der IRT wurden in den 1950er- bis 1960er-Jahren von Georg Rasch sowie Frederic Lord und Melvin Novick gelegt. Ausgangspunkt war die Kritik an der klassischen Testtheorie (KTT): Rohwertsummen sind skalenabhängig, und Itemkennwerte wie Schwierigkeit und Trennschärfe variieren mit der getesteten Stichprobe.
Die IRT geht davon aus, dass Personen eine nicht direkt messbare Eigenschaft besitzen, ein sogenanntes latentes Merkmal ("trait"), z.B. Intelligenz, Depressivität oder Krankheitsausprägung. Dieses latente Merkmal wird häufig mit θ ("theta") bezeichnet. Die Wahrscheinlichkeit einer richtigen Antwort hängt davon ab, wie ausgeprägt θ bei der Person ist und wie schwierig bzw. diskriminierend das Item ist.
In der Medizin wird die IRT insbesondere zur Entwicklung und Validierung von Patient-Reported-Outcome-Instrumenten (PROMs) eingesetzt, etwa in der Lebensqualitäts- und Symptommessung.
Modelle
Allen IRT-Modellen ist die Annahme einer monoton steigenden Item Characteristic Curve (ICC) gemeinsam: Mit zunehmender Fähigkeit θ steigt die Wahrscheinlichkeit einer positiven Antwort auf ein Item. Die Modelle unterscheiden sich in der Anzahl der Itemparameter.
Rasch-Modell
Das Rasch-Modell ist das einfachste IRT-Modell. Es berücksichtigt nur die Personenfähigkeit θ und die Itemschwierigkeit b. Es setzt voraus, dass alle Items dieselbe Diskrimination aufweisen:
Für θ = b beträgt die Wahrscheinlichkeit einer positiven Antwort 0,5.
2-PL-Modell
Das 2-PL-Modell ergänzt einen Diskriminationsparameter a, der die Steigung der ICC bestimmt. Ein höheres a bedeutet eine schärfere Differenzierung zwischen Personen ober- und unterhalb der Itemschwierigkeit.
3-PL-Modell
Das 3-PL-Modell fügt einen Rateparameter c (pseudo-guessing) hinzu, der die untere Asymptote der ICC anhebt. Es ist insbesondere bei Multiple-Choice-Items relevant, bei denen zufälliges Raten eine nicht-triviale Lösungswahrscheinlichkeit erzeugt.
Polytome Modelle
Für mehrstufige Antwortformate (z.B. Likert-Skalen) existieren Erweiterungen wie das Partial Credit Model (Masters, 1982) und das Graded Response Model (Samejima, 1969).
Modellgeltungsprüfung
Die IRT liefert nur dann valide Messungen, wenn drei zentrale Annahmen erfüllt sind:
- Eindimensionalität: Das Antwortverhalten wird durch eine einzige latente Dimension erklärt. Hinweise darauf können mittels explorativer oder konfirmatorischer Faktorenanalyse untersucht werden.
- Lokale stochastische Unabhängigkeit: Items sind bedingt auf θ unkorreliert. Verletzungen äußern sich häufig in residualen Itemkorrelationen und werden über die Q3-Statistik nach Yen geprüft.
- Modell-Fit und Invarianz: Itemparameter sollten zwischen relevanten Gruppen invariant sein. Überprüfung über Fit-Statistiken (infit/outfit mean square) und Differential Item Functioning (DIF)-Analysen.
Abgrenzung
| Merkmal | KTT | IRT |
|---|---|---|
| Personenmaß | Rohwertsumme (skalenabhängig) | θ auf invarianter latenter Skala |
| Itemparameter | Stichprobenabhängig | Stichprobenunabhängig (bei Modellgeltung) |
| Reliabilität | Globaler Reliabilitätskoeffizient | Informationsfunktion abhängig von θ |
| Adaptives Testen | Eingeschränkt | Methodisch fundiert umsetzbar |
IRT-Modelle erlauben die Berechnung von Item- und Testinformationsfunktionen, die die Messpräzision entlang der gesamten latenten Dimension beschreiben – im Gegensatz zur klassischen Testtheorie (KTT), die einen einzelnen globalen Reliabilitätskennwert liefert.
Anwendungen
- Computerized Adaptive Testing (CAT): Items werden in Echtzeit nach dem aktuellen θ-Schätzwert ausgewählt, was präzisere Messungen mit weniger Items ermöglicht.
- Large-Scale-Assessments: PISA, TIMSS und vergleichbare Studien nutzen die IRT für das Linking verschiedener Testheftversionen.
- Klinische Messinstrumente: Entwicklung und Skalierung von PRO-Maßen, u.a. im PROMIS-Framework.
- Itembankkonstruktion und Equating: Kalibrierung von Itembanken und Vergleichbarkeit verschiedener Testformen auf gemeinsamer Skala.
Literatur
- Rasch, G. (1960). Probabilistic models for some intelligence and attainment tests. Danish Institute for Educational Research.
- Lord, F. M., & Novick, M. R. (1968). Statistical theories of mental test scores. Addison-Wesley.
- Embretson, S. E., & Reise, S. P. (2000). Item response theory for psychologists. Lawrence Erlbaum.
- de Ayala, R. J. (2009). The theory and practice of item response theory. Guilford Press.
- Masters, G. N. (1982). A Rasch model for partial credit scoring. Psychometrika, 47(2), 149–174.