Logistische Regression
Englisch: logistic regression
Definition
Die logistische Regression ist ein statistisches Verfahren, mit dem die Wahrscheinlichkeit eines bestimmten Ereignisses vorhergesagt wird – etwa, ob eine Krankheit auftritt oder eine Therapie erfolgreich ist. Sie wird eingesetzt, wenn die Zielvariable kategorial ist (meist "ja/nein").
Abgrenzung
Anders als die lineare Regression, die eine stetige Zielgröße modelliert, beschreibt die logistische Regression Wahrscheinlichkeiten zwischen 0 und 1.
Prinzip
Ziel ist es, den Einfluss mehrerer unabhängiger Variablen (Prädiktoren) auf ein binäres Ereignis zu bestimmen (z.B. "Wie beeinflussen Blutdruck, Alter und Laborwerte das Risiko für eine Komplikation?"). Das Modell bildet zunächst eine lineare Kombination der Prädiktoren:
- η = linearer Prädiktor
- β0 = y-Achsenabschnitt ("intercept"),
- β1, β2, …, βk = Regressionskoeffizienten
- x1, x2, …, xk = unabhängigen Variablen (Prädiktoren)
Dieser lineare Prädiktor wird über die logistische Funktion in eine Wahrscheinlichkeit umgerechnet:
Hier steht P(Y=1) für die Wahrscheinlichkeit, dass das betrachtete Ereignis (z.B. "Komplikation") eintritt. Durch die logistische Funktion liegen alle berechneten Wahrscheinlichkeiten automatisch im Bereich zwischen 0 und 1.
Die logistische Funktion ist somit das Bindeglied zwischen der linearen Kombination der Einflussfaktoren und der Wahrscheinlichkeit, dass das Ereignis eintritt.
Interpretation
Die Regressionskoeffizienten (β) geben an, wie stark sich der Logit, also der Logarithmus der Wahrscheinlichkeiten, bei Veränderung einer Einflussgröße ändert.
Der Logit ist definiert als:
Er beschreibt die logarithmierte Wahrscheinlichkeit des Eintretens im Verhältnis zum Nicht-Eintreten eines Ereignisses.
Zur besseren Verständlichkeit werden die Ergebnisse häufig als Odds Ratios (OR) angegeben:
- OR > 1: erhöht die Wahrscheinlichkeit des Ereignisses
- OR < 1: verringert die Wahrscheinlichkeit des Ereignisses
Eine Odds Ratio von 2 bedeutet beispielsweise, dass sich die Odds – also das Verhältnis von Eintritts- zu Nichteintrittswahrscheinlichkeit – verdoppeln.
Voraussetzungen
Für die Anwendung der logistischen Regression sollten folgende Bedingungen erfüllt sein:
- Die Beobachtungen sind voneinander unabhängig.
- Zwischen den Einflussvariablen besteht keine starke Korrelation (keine Multikollinearität).
- Der Zusammenhang zwischen einer kontinuierlichen Einflussgröße und dem Logit der Erfolgswahrscheinlichkeit sollte näherungsweise linear sein.
- Es liegt eine ausreichende Zahl an Ereignissen im Verhältnis zur Zahl der Prädiktoren vor.
Modellbewertung
Zur Beurteilung der Modellgüte werden verschiedene Kennwerte und Tests eingesetzt:
- AUC/ROC-Kurve: misst die Fähigkeit des Modells, Ereignis und Nicht-Ereignis zu trennen
- Hosmer–Lemeshow-Test: überprüft die Übereinstimmung von vorhergesagten und beobachteten Wahrscheinlichkeiten
- Sensitivität, Spezifität, Genauigkeit (Accuracy): bewerten die Klassifikationsleistung
Darüber hinaus wird häufig eine Validierung des Modells durchgeführt, um dessen Übertragbarkeit auf andere Stichproben zu prüfen.
Anwendungen
Die logistische Regression findet in zahlreichen Disziplinen Anwendung, etwa in Medizin, Sozial-, Wirtschafts- oder Verhaltenswissenschaften. Sie dient der Analyse von Einflussfaktoren auf kategoriale Zielgrößen, der Risikoabschätzung und der Entwicklung von Vorhersagemodellen.
Limitationen
- Das Verfahren erlaubt keine kausalen Schlussfolgerungen, sondern beschreibt lediglich statistische Zusammenhänge.
- Bei zu wenigen Ereignissen im Verhältnis zur Zahl der Variablen kann es zu instabilen Schätzungen (Overfitting) kommen.
- Odds Ratios dürfen nicht direkt als Risiken interpretiert werden, da sie bei häufigen Ereignissen abweichen können.
- Verletzungen der Modellannahmen, etwa Nichtlinearität im Logit oder starke Korrelationen, können die Aussagekraft einschränken.
Quellen
- Hosmer et al., Applied Logistic Regression, 3. Auflage, Wiley, 2013
- Schober und Vetter, Logistic Regression in Medical Research, Anesth Analg, 2021
- IBM - What is Logistic Regression?, abgerufen am 29.10.2025