Regressionsanalyse
Englisch: regression analysis
Definition
Die Regressionsanalyse umfasst eine Gruppe statistischer Verfahren, mit denen der Zusammenhang zwischen einer abhängigen Variable und einer oder mehreren unabhängigen Variablen untersucht wird. Im Mittelpunkt steht die Frage, wie stark bestimmte Einflussgrößen mit einem Outcome assoziiert sind und in welchem Ausmaß sie dessen Auftreten, Verlauf oder Intensität erklären können.
Grundlagen
Die analytische Grundstruktur der Regressionsanalyse beruht auf dem Konzept, dass eine Zielvariable durch eine systematische Komponente (also durch die Prädiktoren) und einen zufälligen Fehleranteil erklärt wird. Das jeweilige Modell spezifiziert, wie die Prädiktoren mit dem Outcome verknüpft werden (z.B. linear, logistisch). Anschließend werden die Modellparameter geschätzt und hinsichtlich Signifikanz, Präzision und praktischer Relevanz bewertet.
Typische Fragestellungen sind etwa die Schätzung des Einflusses klinischer Variablen auf einen kontinuierlichen Laborparameter, die Vorhersage eines binären Ereignisses wie einer Komplikation oder die Analyse der Zeit bis zum Eintritt eines Ereignisses. Regressionsmodelle ermöglichen hierbei die simultane Berücksichtigung mehrerer Einflussfaktoren und erlauben damit eine Adjustierung für Confounder sowie die Abschätzung unabhängiger Effekte.
Regressionsmodelle
Regressionsmodelle dienen der Hypothesenprüfung sowie der Prognose und bilden in der medizinischen Forschung ein zentrales Instrument der multivariaten Statistik. Zu den routinemäßig eingesetzten Regressionsmodellen in der klinischen und epidemiologischen Forschung gehören u.a.:
Lineare Regression
Die lineare Regression ist das Standardverfahren für kontinuierliche Zielgrößen. Sie modelliert das Outcome als lineare Funktion der erklärenden Variablen und wird meist mithilfe der Methode der kleinsten Quadrate geschätzt. Das Verfahren liefert Regressionskoeffizienten, die angeben, um wie viele Einheiten sich das Outcome verändert, wenn ein Prädiktor um eine Einheit steigt, während alle übrigen Variablen konstant gehalten werden. Sie ist die Grundlage vieler weiterführender Erweiterungen und Diagnostikverfahren.
Logistische Regression
Für binäre abhängige Variablen (0/1), etwa das Auftreten eines Ereignisses, wird die logistische Regression eingesetzt. Sie modelliert den Logit der Ereigniswahrscheinlichkeit und gibt Effekte häufig als Odds Ratios wieder. Das Verfahren ist zentral für die Entwicklung klinischer Risikoscores und wird in multivariaten Analysen standardmäßig verwendet, weil es robuste Schätzverfahren und umfangreiche Evaluationsmöglichkeiten bietet.
Poisson-Regression
Die Poisson-Regression ist für Zähldaten konzipiert, also für abhängige Variablen, die Ereignishäufigkeiten repräsentieren. Dabei geht man davon aus, dass Mittelwert und Varianz der Zielgröße identisch sind. Die Poisson-Regression eignet sich besonders zur Modellierung seltener Ereignisse. Sie findet z.B. Anwendung in der Versorgungsforschung, bei Hospitalisierungsraten oder bei Inzidenzanalysen.
Cox-Proportional-Hazards-Modell
Für Zeit-zu-Ereignis-Daten steht mit der Cox-Regression ein semi-parametrisches Verfahren zur Verfügung, das die Hazard (der momentanen Ereignisrate) als Funktion von Kovariablen beschreibt. Die Effekte werden als Hazard Ratios angegeben und erlauben die Analyse klinisch relevanter Überlebensendpunkte unter Berücksichtigung von Zensierung und variablen Follow-up-Zeiten.
Weitere Verfahren
Weitere Verfahren sind z.B.:
- negative binomiale Regression zur Analyse überdisperser Zähldaten
- ordinale logistische Regressionsmodelle für geordnete kategoriale Outcomes
- multilevel- bzw. gemischte Modelle bei hierarchisch verschachtelten Datenstrukturen
- Regularisierungsverfahren wie LASSO und Ridge Regression zur Variablenselektion und Stabilisierung von Modellen mit vielen Prädiktoren
Diese Methoden erweitern den klassischen Regressionsansatz um zusätzliche Flexibilität und eignen sich insbesondere für komplexe Studiendesigns oder hochdimensionale Datensätze.
Ablauf
Eine Regressionsanalyse folgt in der Regel einem weitgehend standardisierten Vorgehen. Zu Beginn steht die präzise Formulierung der Fragestellung, aus der sich die abhängige Variable sowie die relevanten Einflussgrößen ableiten. Anschließend wird das geeignete Verfahren entsprechend dem Skalenniveau des Outcomes ausgewählt.
Nach der Modellwahl erfolgt die Schätzung der Parameter, häufig über Maximum-Likelihood-Methoden (logistische, Poisson-, Cox-Regression) oder über die Methode der kleinsten Quadrate (lineare Regression). In der anschließenden Modellbewertung werden Gütekriterien herangezogen, etwa R² bei der linearen Regression, Likelihood-basierte Maße bei kategorialen Modellen oder der C-Index bei Zeit-zu-Ereignis-Analysen. Parallel werden Residuen und diagnostische Kennwerte untersucht, um Modellannahmen zu prüfen und potenzielle Störfaktoren zu identifizieren.
Im letzten Schritt werden die Ergebnisse inhaltlich interpretiert. Entscheidend ist dabei nicht nur die statistische Signifikanz, sondern auch die Größe der Effekte, deren klinische Plausibilität sowie mögliche Interaktionen und Confounderstrukturen.
Voraussetzungen
Regressionsverfahren setzen bestimmte Bedingungen voraus, die je nach Modelltyp variieren. Häufig gelten Annahmen wie die Unabhängigkeit der Beobachtungen, eine lineare Beziehung zwischen Prädiktoren und dem linearen Prädiktor, die Abwesenheit starker Multikollinearität oder – im Fall der Cox-Regression – die Proportionalität der Hazards über die Zeit. Werden diese Vorgaben verletzt, kann dies zu verzerrten Effekten oder instabilen Modellen führen, weshalb die sorgfältige Diagnose von Modellannahmen integraler Bestandteil jeder Regressionsanalyse ist.
Medizinische Relevanz
In der medizinischen Forschung ist die Regressionsanalyse ein wichtiges statistisches Verfahren zur Untersuchung von Zusammenhängen und zur Entwicklung evidenzbasierter Vorhersagemodelle. Sie wird eingesetzt, um Risikofaktoren für Erkrankungen zu identifizieren, Therapieeffekte unter Adjustierung für Confounder zu bestimmen, funktionelle Outcomes vorherzusagen oder Überlebenszeiten zu analysieren. In epidemiologischen Studien spielt sie eine zentrale Rolle bei der Quantifizierung von Effekten auf Inzidenz, Sterblichkeit oder Komplikationsraten.
Limitationen
Regressionsanalysen liefern primär statistische Assoziationen. Sie erlauben ohne weitergehende methodische Absicherung keine kausalen Schlussfolgerungen. Zusätzlich können kleine Stichproben, Variablen mit geringer Varianz, Überanpassung oder Messfehler zu verzerrten Schätzungen führen. Eine transparente Modellierung, eine sorgfältige Variablenauswahl sowie ggf. externe Validierungen sind daher wesentliche Qualitätsmerkmale regressionsbasierter Forschung.
Literatur
- Bortz und Schuster, Statistik für Human- und Sozialwissenschaftler, 7. Auflage, Springer, 2010