Statistik
Englisch: statistics
Definition
Statistik ist die Lehre von der Sammlung, Analyse, Interpretation, Organisation und Präsentation von Daten. Sie beschäftigt sich in der Regel mit Massenphänomenen, die oft eigenen mathematisch beschreibbaren Gesetzmäßigkeiten folgen, die für die zugrundeliegenden Einzelerscheinungen keine Gültigkeit besitzen.
Statistik als Hilfswissenschaft
Statistik wird in vielen Fachwissenschaften als Hilfswissenschaft angewandt. In der Medizin ist dies die Medizinische Statistik und die sich damit überschneidende Biostatistik (auch: Biometrie). Die Anwendung der jeweiligen Methoden erfordert gleichwertige Kenntnisse in Fachwissenschaft und Statistik. Verschiedene auf medizinische Statistik oder Biostatistik spezialisierte Universitätsinstitute bieten ebenso wie einige private Unternehmen Hilfestellung bei medizinischen Forschungsprojekten an.
Daten
Ausgangspunkt der statistischen Methoden sind quantitative Informationen (Daten) über die untersuchten statistischen Einheiten bzw. Merkmalsträger. Solche Information können z.B. das Alter, das Einkommen oder das Auftreten einer bestimmten Krankheit sein. In der Medizin werden weltweit jährlich neue große Datenmengen erzeugt und verfügbar gemacht. Es wird geschätzt, dass heute ungefähr ein Drittel aller weltweit erhobenen Daten den Medizinmarkt betreffen[1], wobei allerdings nicht alle Daten statistischen Zwecken dienen.
Trotz der enormen, bereits erhobenen Datenmengen gibt es in der Medizin eine große Anzahl aktueller Forschungsprojekte, z.B. in Bezug auf neue Behandlungsmethoden, die neue Hypothesen mit selbstgenerierten Daten kleineren Umfangs überprüfen.
Statistische Informationen über die Bevölkerung - auch zum Thema Gesundheit[2] - werden u.a. von zentralen statistischen Ämtern und regionalen Ablegern bereitgestellt. In Deutschland ist das zentrale Amt das Statistische Bundesamt. Die Erhebung der Daten erfolgt teils als Zensus (mit Mikrozensus-Aktualisierungen), teils als Mikrozensus.
Zusätzlich führt die Online-Datenbank der Gesundheitsberichterstattung (GBE) des Bundes Gesundheitsinformationen aus über 100 verschiedenen nationalen und internationalen Quellen zusammen.[3]
Während für medizinische Leistungen in entwickelten Ländern, insbesondere auch für Zivilisationskrankheiten, umfangreiche Datenmengen verfügbar sind und auch ausgewertet werden, sind Daten für z.B. Infektionskrankheiten in weniger entwickelten, tropischen Ländern oft nur spärlich vorhanden und werden dort, wo sie verfügbar sind, nicht oder nur am Rande wahrgenommen.
Teilbereiche der Statistik
Deskriptive (beschreibende, empirische) Statistik
In der deskriptiven Statistik werden Datenreihen verfügbar gemacht und tabellarisch, graphisch oder in anderer Form aufbereitet. Alle von statistischen Ämtern bereitgestellten Rohdaten fallen zunächst in diese Kategorie. Man kann derartige Rohdaten auch mit einfachen Kennzahlen (Häufigkeitsverteilungen, Lageparameter, Streuungsmaße) versehen und versuchen, über Korrelationskoeffizienten oder komplexere nichtstochastische Methoden vermutete Zusammenhänge zwischen Datenreihen zu bestätigen.
Induktive (schließende) Statistik oder Interferenzstatistik
Die Überprüfung medizinischer oder biologischer Theorien, Modelle oder Hypothesen erfolgt mit Hilfe stochastischer Methoden, wobei Stochastik die beiden Bereiche Wahrscheinlichkeitstheorie und Statistik umfasst. Es wird also versucht, medizinische Modelle oder Hypothesen mittels Schätz- bzw. Testverfahren oder anderer statistischer Methoden auf der Basis empirischer Daten zu bestätigen oder zu verwerfen. Eventuell müssen die überprüften Modelle dann aufgrund der neu gewonnenen Erkenntnisse korrigiert werden. Vor Anwendung der Methoden ist es erforderlich, bestimmte Verteilungsannahmen zu treffen oder zumindest zu prüfen, ob die Voraussetzungen der jeweiligen Methoden erfüllt sind. Die Ergebnisse müssen als Wahrscheinlichkeitsaussagen verstanden werden.
Für viele medizinische Forschungsprojekte muss trotz großer Datenmengen in anderen Bereichen auf kleinere, häufig selbst generierte Datenreihen zurückgegriffen werden. Die verfügbaren quantitativen Informationen werden als Stichprobe für z.B. eine größere Anzahl Erkrankter angesehen. Eine häufig zu beantwortende Frage ist die, welcher Fehler sich für die Behandlung einer größeren Patientenzahl ergibt, wenn die Forschungsergebnisse nur in einer kleineren Stichprobe ermittelt wurden.
Data-Mining oder explorative Datenanalyse
Diese Form der Statistik hat sich erst in den letzten Jahrzehnten als eigenständige Teildisziplin entwickelt. Bei Vorlesungen an Universitäten oder in Lehrbüchern wird diese Hypothesen-generierende Variante oft noch als Teilgebiet der deskriptiven Statistik abgehandelt. Es wird versucht, durch Analyse großer Datenbestände verborgene Gesetzmäßigkeiten und Muster in diesen Beständen aufzudecken. Aufgrund der im Medizinbetrieb anfallenden großen Datenmengen gewinnt diese Teildisziplin in der Medizin heute zunehmende Bedeutung.[1][4] Konnten mit Hilfe der explorativen Statistik neue medizinisch plausible Hypothesen gewonnen werden, so können diese dann in einem späteren Schritt mittels induktiver Statistik überprüft werden.
Statistische Lagemaße
Mittelwert
Der Mittelwert ist ein aus einer Reihe von Datenwerten ermitteltes Lagemaß, das den Schwerpunkt oder das Zentrum dieser Datenwerte charakterisieren soll. Es gibt verschiedene Mittelwerte, u.a. das arithmetische, das geometrische und das quadratische Mittel. Das quadratische Mittel charakterisiert dabei einen Schwerpunkt der stets nichtnegativen Quadrate der Datenwerte.
Das arithmetische und (nur für nichtnegative Datenwerte definierte) geometrische Mittel liegen zwischen Maximum und Minimum der Datenwerte. Das quadratische Mittel liegt zwischen dem Betrag des betragskleinsten und dem Betrag des betragsgrößten Datenwerts. Erfolgt keine nähere Angabe, ist in der Regel das arithmetische Mittel gemeint.
Median
Ergänzend oder alternativ zum Mittelwert wird häufig der Median verwendet. Damit meint man in einer nach der Größe sortierten Zahlenreihe den Wert, der an der mittleren bzw. zentralen Position steht.
Standardabweichung
Die Standardabweichung ist ein Maß für die Streuung der Werte einer Datenreihe um deren arithmetischen Mittelwert.
Quellen
- ↑ 1,0 1,1 FAZ Februar 2013 Medizin im Rausch der Daten
- ↑ Statistisches Bundesamt Gesundheit
- ↑ GBE Informationssystem der Gesundheitsberichterstattung GBE des Bundes
- ↑ Ärzteblatt 2013 Datenanalyse: Big Data in der Medizin
um diese Funktion zu nutzen.