Interrater-Reliabilität

Synonyme: Beurteilerübereinstimmung, Beurteilerreliabilität
Englisch: inter-rater reliability, inter-rater agreement, inter-rater concordance, inter-observer reliability, inter-coder reliability

Definition

Die Interrater-Reliabilität ist ein Maß für die Übereinstimmung zwischen verschiedenen Beurteilern bzw. "Ratern", die unabhängig voneinander dasselbe Merkmal an denselben Untersuchungseinheiten bewerten. Sie zählt zu den Methoden der Testgütekriterien, insbesondere zur Objektivitäts- und Reliabilitätsprüfung psychologischer, medizinischer und sozialwissenschaftlicher Verfahren.

Sie ist das Gegenstück der Interrater-Variabilität.

Abgrenzung

Begriff	Bedeutung	Konsequenz
Interrater-Reliabilität	Grad der Übereinstimmung zwischen Beurteilern	Hohe Reliabilität → geringe Variabilität
Interrater-Variabilität	Grad der Streuung bzw. Abweichung zwischen Beurteilern	Hohe Variabilität → niedrige Reliabilität

Der Begriff "Interrater-Reliabilität" überschneidet sich mit dem Terminus "Interobserver-Reliabilität", der vor allem in der Verhaltensforschung und -biologie verwendet wird.

Hintergrund

In Forschung und Praxis werden viele Merkmale nicht automatisiert oder instrumentell erfasst, sondern durch Menschen beurteilt. Dies betrifft z.B. bildgebende Diagnostik, klinische Skalen und psychologische Tests. In solchen Fällen ist es besonders wichtig, dass das Ergebnis nicht davon abhängt, wer die Beurteilung durchführt, sondern dass bei gleichen Bedingungen das gleiche Ergebnis herauskommt. Die Interrater-Reliabilität überprüft, inwieweit dieses Kriterium erfüllt ist.

Anwendungsbeispiele

Beurteilung von Läsionen in der Bildgebung durch mehrere Radiologen
Klassifikation psychischer Störungen durch verschiedene Therapeuten
Bewertung standardisierter Testantworten durch geschulte Rater
Einschätzung von Symptomausprägung auf klinischen Skalen durch medizinisches Personal

Erhebungsarten

Je nach Skalentyp und Fragestellung gibt es verschiedene Methoden, um die Interrater-Reliabilität zu quantifizieren:

Nominalskalierte Daten

Cohen's Kappa (κ): Maß für die Übereinstimmung zweier Rater unter Berücksichtigung des Zufalls
Fleiss' Kappa: Verallgemeinerung für mehr als zwei Beurteilende
Krippendorff's Alpha: Robust gegenüber fehlenden Werten und geeignet für verschiedene Skalentypen

Ordinalskalierte Daten

Gewichtetes Kappa: Berücksichtigt Abstufungen der Differenz zwischen Beurteilungen

Intervall- oder verhältnisskalierte Daten

Intraklassenkorrelation (ICC): Misst den Anteil der Gesamtvarianz, der durch Unterschiede zwischen den bewerteten Objekten (nicht durch Beobachter) erklärbar ist; verschiedene ICC-Modelle berücksichtigen feste oder zufällige Effekte^[1]

Interpretation

Die Höhe der Interrater-Reliabilität gibt an, wie zuverlässig ein Verfahren im Hinblick auf zwischenmenschliche Übereinstimmung ist. Allgemein gelten folgende Richtwerte für Cohen's Kappa:^[2]

Interpretation von Kappa-Werten zur Beurteilung der Interrater-Reliabilität (nach Landis und Koch, 1977)
Kappa-Wert	Interpretation
< 0,00	keine Übereinstimmung
0,00–0,20	gering
0,21–0,40	mäßig
0,41–0,60	moderat
0,61–0,80	substantiell
0,81–1,00	fast perfekt

Diese Schwellenwerte sind jedoch kontextabhängig.

Bedeutung und Limitationen

Eine hohe Interrater-Reliabilität ist Voraussetzung für die Validität eines diagnostischen Verfahrens, aber keine Garantie dafür. Theoretisch kann ein Verfahren zwar sehr konsistent (reliabel), aber dennoch systematisch falsch (nicht valide) sein. Zudem kann eine zu geringe Reliabilität auf unklare Instruktionen, mangelnde Schulung der Beurteilenden oder inhärente Mehrdeutigkeit des Merkmals hindeuten.^[3]

Verbesserung der Interrater-Reliabilität

Zur Optimierung empfehlen sich:

Standardisierung der Erhebungsmethoden
Schulung und Kalibrierung der Rater
Vortests und Probeläufe
Verwendung klarer und geprüfter Bewertungskriterien

Referenzen

↑ Shrout und Fleiss, Intraclass correlations: uses in assessing rater reliability, Psychol Bull, 1979
↑ Landis und Koch, The measurement of observer agreement for categorical data, Biometrics, 1977
↑ McHugh, Interrater reliability: the kappa statistic, Biochem Med (Zagreb), 2012

[1] Shrout und Fleiss, Intraclass correlations: uses in assessing rater reliability, Psychol Bull, 1979

[2] Landis und Koch, The measurement of observer agreement for categorical data, Biometrics, 1977

[3] McHugh, Interrater reliability: the kappa statistic, Biochem Med (Zagreb), 2012

[1]

[2]

[3]