Poweranalyse
Synonym: Teststärkenanalyse
Englisch: power analysis
Definition
Die Poweranalyse ist ein statistisches Verfahren zur Bestimmung der Teststärke (Power) eines Hypothesentests. Sie beschreibt die Wahrscheinlichkeit, einen tatsächlich vorhandenen Effekt unter vorab definierten Annahmen als statistisch signifikant zu erkennen. Auf diese Weise dient die Poweranalyse der Bewertung der Sensitivität statistischer Tests.
Hintergrund
In der statistischen Hypothesenprüfung ist das Auftreten von Fehlentscheidungen unvermeidbar. Während das Signifikanzniveau (α) das Risiko eines Fehlers 1. Art begrenzt, adressiert die Poweranalyse das Risiko eines Fehlers 2. Art, also das Übersehen eines real existierenden Effekts. Die Power entspricht dabei dem Komplement des Fehlers 2. Art (Power = 1 − β).
Studien mit unzureichender Teststärke können trotz korrekter Methodik und klinisch relevanter Effekte zu nicht-signifikanten Ergebnissen führen. Die Poweranalyse ist daher ein wichtiges Instrument zur methodischen Bewertung der Aussagekraft statistischer Tests.
Einteilung
Je nach Anwendungszeitpunkt und Zielsetzung werden verschiedene Formen unterschieden:
- Die a-priori-Poweranalyse erfolgt vor Studienbeginn und dient der Abschätzung der erforderlichen Stichprobengröße unter definierten Annahmen.
- Die post-hoc-Poweranalyse wird nach Abschluss der Datenerhebung durchgeführt und basiert auf der beobachteten Effektgröße. Häufig wird sie als "beobachtete Power" berichtet. Ihr zusätzlicher Erkenntniswert ist jedoch Gegenstand methodischer Diskussionen, da sie bei Fixierung von α eng durch die beobachtete Effektstärke bzw. den p-Wert determiniert ist.
Ergänzend werden Sensitivitätsanalysen eingesetzt, um zu bestimmen, welche minimale Effektgröße bei gegebener Stichprobengröße detektierbar wäre.
Zielsetzung
Ziel der Poweranalyse ist es, die Wahrscheinlichkeit des Effektnachweises in Abhängigkeit von Effektgröße, Stichprobengröße, Varianz, Testverfahren und Signifikanzniveau zu quantifizieren. Sie ermöglicht eine fundierte Einschätzung, ob ein statistischer Test geeignet ist, eine konkrete Fragestellung mit ausreichender Sensitivität zu beantworten. In der Studienplanung bildet sie die theoretische Grundlage für die Fallzahlplanung, ohne diese selbst zu ersetzen.
Statistische Grundlagen
Die Teststärke eines statistischen Tests wird durch mehrere Parameter bestimmt. Neben dem Signifikanzniveau (α) und der Stichprobengröße ist insbesondere die erwartete Effektgröße von zentraler Bedeutung. Bei kontinuierlichen Zielgrößen geht zusätzlich die Varianz der Messwerte in die Berechnung ein.
Die Power ist keine feste Eigenschaft eines Tests, sondern abhängig von den zugrunde gelegten Annahmen, dem Studiendesign und dem gewählten statistischen Verfahren.
Einflussfaktoren
Effektgröße
Die Effektgröße beschreibt die Stärke eines Effekts unabhängig von der Stichprobengröße und ist ein wesentlicher Einflussfaktor der Power. Kleine Effekte erfordern bei sonst gleichen Bedingungen größere Stichproben, um mit ausreichender Wahrscheinlichkeit detektiert zu werden. Die Wahl einer realistischen Effektgröße sollte auf Vorstudien, Literaturdaten oder klinischer Plausibilität beruhen.
Signifikanzniveau
Das Signifikanzniveau (α) definiert die maximal tolerierte Wahrscheinlichkeit für einen Fehler 1. Art. In der medizinischen Forschung wird typischerweise ein zweiseitiges α von 0,05 verwendet. Bei gegebenem α-Niveau führt eine strengere Fehlerkontrolle in der Regel zu einer Reduktion der Teststärke.
Stichprobengröße
Mit zunehmender Stichprobengröße steigt die Power eines Tests, da die Schätzgenauigkeit zunimmt und auch kleinere Effekte detektiert werden können. Die Stichprobengröße ist damit ein zentraler Stellhebel zur Beeinflussung der Teststärke. Bei Gruppenvergleichen beeinflusst zudem das Zuteilungsverhältnis der Gruppen (z. B. 1:1 vs. 2:1) die Power.
Varianz
Eine hohe Streuung der Messwerte reduziert die Power, da sich Effekte schlechter von zufälligen Schwankungen abgrenzen lassen. Eine realistische Schätzung der Varianz ist daher essenziell für valide Poweranalysen.
β-Fehler (Fehler 2. Art)
Der β-Fehler beschreibt die Wahrscheinlichkeit, einen tatsächlich vorhandenen Effekt nicht nachzuweisen. Die Festlegung eines maximal akzeptierten β-Fehlers bestimmt unmittelbar die angestrebte Teststärke und beeinflusst damit die Sensitivität statistischer Tests.
Testverfahren und Testrichtung
Die Power hängt wesentlich vom gewählten Testverfahren, der zugrunde gelegten Modellannahme sowie der Testrichtung ab. Bei gleichem Signifikanzniveau kann ein einseitiger Test bei korrekt spezifizierter Effektrichtung eine höhere Power erreichen, ist jedoch nur bei a-priori begründeter Richtungshypothese gerechtfertigt.
Praktische Umsetzung
Poweranalysen können analytisch anhand geschlossener Formeln oder simulationsbasiert durchgeführt werden. In der Praxis kommen häufig spezialisierte Softwarelösungen zum Einsatz. Weit verbreitet ist das frei verfügbare Programm G*Power, das Poweranalysen für zahlreiche gängige Testverfahren in den Sozial-, Verhaltens- und Biowissenschaften ermöglicht. Auch gängige Statistikprogramme stellen entsprechende Funktionen bereit.
Limitationen
Die Aussagekraft einer Poweranalyse hängt maßgeblich von der Plausibilität der zugrunde gelegten Annahmen ab. Unrealistische Effektgrößen oder fehlerhafte Varianzschätzungen können zu einer Überschätzung der Teststärke führen. Eine hohe Power garantiert zudem keine methodisch unverzerrten oder inhaltlich relevanten Ergebnisse, sondern beschreibt ausschließlich die statistische Sensitivität unter den getroffenen Annahmen.
Literatur
- Faul et al., G*Power 3: a flexible statistical power analysis program for the social, behavioral, and biomedical sciences, Behav Res Methods, 2007