Lineare Regression
Englisch: linear regression
Definition
Die lineare Regression ist ein grundlegendes Verfahren der Statistik, mit dem man untersucht, wie stark zwei oder mehr Größen (abhängige und unabhängige Variablen) miteinander zusammenhängen. In der Medizin wird sie genutzt, um Wirkzusammenhänge zu beschreiben, Hypothesen über Einflussgrößen ("Prädiktoren") zu prüfen und Vorhersagen zu treffen.
Grundlagen
Einfache lineare Regression
Im einfachsten Fall, der einfachen linearen Regression, wird der Einfluss einer unabhängigen Variable x auf eine abhängige Variable y modelliert (z.B. der Einfluss von Körpergewicht auf den Blutdruck). Die lineare Regression versucht, eine Gerade zu finden, die möglichst gut beschreibt, wie der Blutdruck vom Gewicht abhängt.
Das Modell lautet:
- β0 = Schnittpunkt der y-Achse ("intercept")
- β1 = Steigung der Regressionsgeraden
- ε = Fehler- bzw. Zufallsterm
Der Fehler beschreibt die Abweichung der beobachteten Werte von der Modellvorhersage, beeinflusst durch weitere Faktoren. Die Beziehung zwischen den Variablen wird als linear bezeichnet, wenn Änderungen von x zu proportionalen Änderungen von y führen.
Multiple lineare Regression
In der multiplen linearen Regression wird die abhängige Variable durch mehrere unabhängige Variablen erklärt:
Dadurch lassen sich komplexere Zusammenhänge modellieren, in denen mehrere Prädiktoren gleichzeitig das Ergebnis beeinflussen (z.B. Gewicht, Alter, Cholesterinspiegel auf den Blutdruck).
Schätzverfahren
Die Parameter β0, β1, usw. werden üblicherweise mittels der Methode der kleinsten Quadrate ("ordinary least squares", OLS) bestimmt. Dabei wird die Summe der quadrierten Differenzen zwischen beobachteten und vorhergesagten Werten minimiert. Dieses Verfahren liefert unter den klassischen Modellannahmen unverzerrte, effiziente und konsistente Schätzungen der Werte.
Voraussetzungen
Für die lineare Regression müssen folgende Annahmen erfüllt sein:
- Der Zusammenhang zwischen Prädiktor und Zielvariable ist linear.
- Die Prädiktoren sind unabhängig voneinander.
- Die Fehler sind zufällig und gleichmäßig verteilt.
- Zwischen den unabhängigen Variablen bestehen keine starken linearen Abhängigkeiten.
Interpretation der Regressionskoeffizienten
Die Regressionskoeffizienten (βi) zeigen, wie stark und in welche Richtung ein Faktor wirkt. Bei positivem Vorzeichen steigt der Zielwert an, wenn sich der Einflussfaktor erhöht (z.B. höheres Körpergewicht gleich höherer Blutdruck), bei negativem Vorzeichen sinkt der Zielwert ab. Um die Signifikanz eines Prädiktors zu beurteilen, werden t-Tests für die einzelnen Koeffizienten und F-Tests für das Gesamtmodell verwendet.
Güte und Modellbewertung
Zur Beurteilung der Modellanpassung dienen verschiedene Kennzahlen:
- Bestimmtheitsmaß (R²): Anteil der erklärten Varianz der abhängigen Variable an der Gesamtvarianz; Werte nahe 1 deuten auf eine gute Modellpassung hin
- Adjustiertes R²: Variante des R², die die Anzahl der Prädiktoren berücksichtigt und Überanpassung (Overfitting) korrigiert
- Standardfehler der Schätzung: gibt an, wie stark die beobachteten Werte im Mittel von den vorhergesagten abweichen
- Residuenanalyse: prüft, ob die Modellannahmen erfüllt sind und ob Ausreißer oder Einflusswerte vorliegen
Anwendung
Die lineare Regression wird in nahezu allen empirischen Wissenschaften verwendet. In der Medizin dient sie beispielsweise der Untersuchung von Zusammenhängen zwischen Laborparametern und klinischen Outcomes, in der Psychologie der Analyse von Testwerten und Prädiktoren des Verhaltens, und in der Ökonomie der Schätzung von Nachfrage- oder Kostenfunktionen.
Limitationen
Lineare Regression ist nur geeignet, wenn der zugrundeliegende Zusammenhang tatsächlich linear ist. Bei nicht-linearen Beziehungen, starken Interaktionen oder heteroskedastischen Daten sind spezialisierte Modelle erforderlich.
Zudem erlaubt das Verfahren keine kausalen Schlüsse, sondern beschreibt rein statistische Assoziationen.
Literatur
- Bortz und Schuster, Statistik für Human- und Sozialwissenschaftler, Springer Medizin Verlag, 2010
- Backhaus et al., Multivariate Analysemethoden: Eine anwendungsorientierte Einführung, Springer Gabler, 2018