Interrater-Reliabilität
Synonyme: Beurteilerübereinstimmung, Beurteilerreliabilität
Englisch: inter-rater reliability, inter-rater agreement, inter-rater concordance, inter-observer reliability, inter-coder reliability
Definition
Die Interrater-Reliabilität ist ein Maß für die Übereinstimmung zwischen verschiedenen Beurteilern bzw. "Ratern", die unabhängig voneinander dasselbe Merkmal an denselben Untersuchungseinheiten bewerten. Sie zählt zu den Methoden der Testgütekriterien, insbesondere zur Objektivitäts- und Reliabilitätsprüfung psychologischer, medizinischer und sozialwissenschaftlicher Verfahren.
Sie ist das Gegenstück der Interrater-Variabilität.
Abgrenzung
| Begriff | Bedeutung | Konsequenz |
|---|---|---|
| Interrater-Reliabilität | Grad der Übereinstimmung zwischen Beurteilern | Hohe Reliabilität → geringe Variabilität |
| Interrater-Variabilität | Grad der Streuung bzw. Abweichung zwischen Beurteilern | Hohe Variabilität → niedrige Reliabilität |
Der Begriff "Interrater-Reliabilität" überschneidet sich mit dem Terminus "Interobserver-Reliabilität", der vor allem in der Verhaltensforschung und -biologie verwendet wird.
Hintergrund
In Forschung und Praxis werden viele Merkmale nicht automatisiert oder instrumentell erfasst, sondern durch Menschen beurteilt. Dies betrifft z.B. bildgebende Diagnostik, klinische Skalen und psychologische Tests. In solchen Fällen ist es besonders wichtig, dass das Ergebnis nicht davon abhängt, wer die Beurteilung durchführt, sondern dass bei gleichen Bedingungen das gleiche Ergebnis herauskommt. Die Interrater-Reliabilität überprüft, inwieweit dieses Kriterium erfüllt ist.
Anwendungsbeispiele
- Beurteilung von Läsionen in der Bildgebung durch mehrere Radiologen
- Klassifikation psychischer Störungen durch verschiedene Therapeuten
- Bewertung standardisierter Testantworten durch geschulte Rater
- Einschätzung von Symptomausprägung auf klinischen Skalen durch medizinisches Personal
Erhebungsarten
Je nach Skalentyp und Fragestellung gibt es verschiedene Methoden, um die Interrater-Reliabilität zu quantifizieren:
Nominalskalierte Daten
- Cohen's Kappa (κ): Maß für die Übereinstimmung zweier Rater unter Berücksichtigung des Zufalls
- Fleiss' Kappa: Verallgemeinerung für mehr als zwei Beurteilende
- Krippendorff's Alpha: Robust gegenüber fehlenden Werten und geeignet für verschiedene Skalentypen
Ordinalskalierte Daten
- Gewichtetes Kappa: Berücksichtigt Abstufungen der Differenz zwischen Beurteilungen
Intervall- oder verhältnisskalierte Daten
- Intraklassenkorrelation (ICC): Misst den Anteil der Gesamtvarianz, der durch Unterschiede zwischen den bewerteten Objekten (nicht durch Beobachter) erklärbar ist; verschiedene ICC-Modelle berücksichtigen feste oder zufällige Effekte[1]
Interpretation
Die Höhe der Interrater-Reliabilität gibt an, wie zuverlässig ein Verfahren im Hinblick auf zwischenmenschliche Übereinstimmung ist. Allgemein gelten folgende Richtwerte für Cohen's Kappa:[2]
| Kappa-Wert | Interpretation |
|---|---|
| < 0,00 | keine Übereinstimmung |
| 0,00–0,20 | gering |
| 0,21–0,40 | mäßig |
| 0,41–0,60 | moderat |
| 0,61–0,80 | substantiell |
| 0,81–1,00 | fast perfekt |
Diese Schwellenwerte sind jedoch kontextabhängig.
Bedeutung und Limitationen
Eine hohe Interrater-Reliabilität ist Voraussetzung für die Validität eines diagnostischen Verfahrens, aber keine Garantie dafür. Theoretisch kann ein Verfahren zwar sehr konsistent (reliabel), aber dennoch systematisch falsch (nicht valide) sein. Zudem kann eine zu geringe Reliabilität auf unklare Instruktionen, mangelnde Schulung der Beurteilenden oder inhärente Mehrdeutigkeit des Merkmals hindeuten.[3]
Verbesserung der Interrater-Reliabilität
Zur Optimierung empfehlen sich:
- Standardisierung der Erhebungsmethoden
- Schulung und Kalibrierung der Rater
- Vortests und Probeläufe
- Verwendung klarer und geprüfter Bewertungskriterien
Referenzen
- ↑ Shrout und Fleiss, Intraclass correlations: uses in assessing rater reliability, Psychol Bull, 1979
- ↑ Landis und Koch, The measurement of observer agreement for categorical data, Biometrics, 1977
- ↑ McHugh, Interrater reliability: the kappa statistic, Biochem Med (Zagreb), 2012