Bestimmtheitsmaß
Synonyme: Determinationskoeffizient, R-Quadrat
Englisch: coefficient of determination, R-squared
Definition
Das Bestimmtheitsmaß, kurz R2, ist ein Gütemaß für Regressionsmodelle. Es beschreibt den Anteil der Varianz der abhängigen Variable, der durch das Modell erklärt wird. Unter Verwendung eines Interzepts in der linearen Regression liegt R2 typischerweise zwischen 0 und 1; in anderen Konstellationen kann es auch negative Werte annehmen.
Hintergrund
In der linearen Regression basiert R2 auf der Zerlegung der Gesamtstreuung (Total Sum of Squares, TSS) in erklärte (Explained Sum of Squares, ESS) und Residualstreuung (Residual Sum of Squares, RSS):
Ein R2 von 0 bedeutet, dass das Modell keine bessere Anpassung liefert als das Mittelwertmodell, während ein Wert von 1 einer perfekten Anpassung an die Daten entspricht. Mit zunehmender Anzahl an Prädiktoren steigt R2 monoton, unabhängig von deren inhaltlicher Relevanz.
Bedeutung
Ein hohes R2 erlaubt keine Aussage über Kausalität und ist kein verlässliches Maß für die externe Validität bzw. Generalisierbarkeit. Zudem hängt R2 von der Streuung der Zielvariable ab und ist daher zwischen Datensätzen nur eingeschränkt vergleichbar. Zur Berücksichtigung der Modellkomplexität wird häufig das adjustierte Bestimmtheitsmaß (R2adj) verwendet, das zusätzliche Prädiktoren penalisiert. Für die Bewertung prädiktiver Modelle sollten ergänzend weitere Metriken (z. B. RMSE, AUC) herangezogen werden.