Hauptkomponentenanalyse
Englisch: principal component analysis, PCA
Definition
Die Hauptkomponentenanalyse ist ein statistisches Verfahren, mit dem komplexe Datensätze vereinfacht werden. Dabei werden viele miteinander zusammenhängende Messwerte zu wenigen neuen, übersichtlichen Größen zusammengefasst. Diese neuen Größen – die sogenannten Hauptkomponenten – enthalten möglichst viel von der ursprünglichen Information und helfen, wichtige Muster in den Daten leichter zu erkennen.
Hintergrund
In medizinischen, psychologischen und biowissenschaftlichen Datensätzen treten häufig hochdimensionale Variablenstrukturen mit Redundanzen und Multikollinearität auf. Die Hauptkomponentenanalyse dient dazu, solche komplexen Datenstrukturen übersichtlich darzustellen, dominante Muster zu identifizieren und die Datenbasis für explorative Analysen sowie weiterführende statistische Verfahren zu vereinfachen. Sie findet Anwendung unter anderem in der klinischen Forschung, der Epidemiologie, der Bildgebung, der Genomforschung sowie der Psychometrie.
Statistische Grundlagen
Die Hauptkomponentenanalyse beruht auf Methoden der linearen Algebra. Ausgangspunkt ist die Varianz-Kovarianz-Matrix Σ der beobachteten Variablen oder – bei zuvor standardisierten Variablen – die Korrelationsmatrix. Vereinfacht ausgedrückt beschreibt jede Hauptkomponente eine neue Achse im Merkmalsraum, entlang der die Daten möglichst stark streuen.
Die Hauptkomponenten ergeben sich aus der Eigenwertzerlegung dieser Matrix:
Durchführung
In der praktischen Anwendung werden die Ausgangsvariablen häufig vorab z-standardisiert, um Unterschiede in der Skalierung auszugleichen. Anschließend werden Eigenwerte und Eigenvektoren der Kovarianz- oder Korrelationsmatrix berechnet.
Die Anzahl der zu berücksichtigenden Hauptkomponenten kann anhand verschiedener Kriterien bestimmt werden, etwa des Kaiser-Kriteriums (Eigenwert > 1), eines Scree-Plots oder des kumulierten erklärten Varianzanteils. Die sogenannten Komponentenladungen beschreiben den Beitrag der ursprünglichen Variablen zu den einzelnen Hauptkomponenten und bilden die Grundlage für deren inhaltliche Interpretation.
Interpretation
Die Interpretation der Hauptkomponenten erfordert stets fachliche Kenntnisse. Jede Hauptkomponente stellt eine lineare Kombination der Originalvariablen dar. Sie ist nicht zwangsläufig eindeutig inhaltlich interpretierbar. Hohe positive oder negative Ladungen einzelner Variablen liefern Hinweise auf den semantischen Gehalt einer Komponente.
Da es sich um ein exploratives, datengetriebenes Verfahren handelt, lassen sich aus der Hauptkomponentenanalyse keine Kausalzusammenhänge ableiten.
Anwendungsgebiete
In der Medizin und Psychologie wird die Hauptkomponentenanalyse unter anderem zur Strukturaufklärung von Fragebögen, zur Reduktion bildgebender oder laborchemischer Parameter sowie zur explorativen Mustererkennung eingesetzt. Darüber hinaus dient sie der Visualisierung hochdimensionaler Datensätze und der Vorbereitung prädiktiver oder klassifikatorischer Modelle.
Abgrenzung
Die Hauptkomponentenanalyse ist von der Faktorenanalyse abzugrenzen. Während beide Verfahren der Dimensionsreduktion dienen, basiert die Faktorenanalyse auf einem expliziten latenten Variablenmodell und berücksichtigt Fehlervarianzen. Die PCA hingegen modelliert ausschließlich die Gesamtvarianz der beobachteten Variablen ohne Annahmen über zugrunde liegende latente Konstrukte.
Limitationen
Zu den wesentlichen Limitationen zählen die lineare Natur des Verfahrens sowie die potenziell eingeschränkte Interpretierbarkeit der Hauptkomponenten. Eine starke Varianzreduktion kann mit dem Verlust inhaltlich relevanter Information einhergehen. Zudem ist die Hauptkomponentenanalyse sensitiv gegenüber Ausreißern und setzt in der Regel mindestens intervallskalierte Variablen voraus.
Literatur
- Jolliffe IT, Cadima J. Principal component analysis: a review and recent developments. Philos Trans A Math Phys Eng Sci. 2016;374(2065):20150202. doi:10.1098/rsta.2015.0202
- IBM. What is principal component analysis (PCA)? IBM Documentation.