Statistik für die medizinische Dissertation / Seite 1

Dr. Susann Wolff, Daniela Keller

Statistik ist ein wichtiger Teil vieler Dissertationen in der Medizin. Wie Statistik dabei richtig angewandt wird, welche Methoden sich bewährt haben und wie Sie zu Ergebnissen kommen, erläutert dieser Text.

 

Die präzise Formulierung der Fragestellung

Vor dem Beginn der Datenerhebung für Ihre Doktorarbeit sollten Sie Ihre Studie genau planen. Formulieren Sie dazu die Fragestellung möglichst präzise. Stellen Sie sich die Frage: Auf welche Frage soll Ihre Studie eine Antwort geben?

Danach überlegen Sie sich, welche Daten Sie brauchen, um diese Frage beantworten zu können. Dadurch wird Ihnen klar,

  • welche Messwerte Sie erheben müssen (z. B. diagnostische Klassifikation, Geschlecht, Symptomstärke),
     
  • zu welchen Zeitpunkten Sie die Messwerte erheben (z. B. vor und nach einer Behandlung, verschiedene Verlaufsstadien, nur ein Messzeitpunkt) und
     
  • an welcher Population die Daten erhoben werden sollten (z. B. Patienten mit einer bestimmten Diagnose, bestimmte Risikogruppen).

 

Wie viele Fälle benötigen Sie?

Um vor Beginn der Datenerhebung abschätzen zu können, wie viele Fälle zur Beantwortung Ihrer Fragestellung notwendig sind, können Sie eine Fallzahlplanung durchführen. Hier wird die Fallzahl (n) ermittelt, die Sie mindestens brauchen, um das erwartete/gewünschte Ergebnis als signifikant nachzuweisen.

Eine Fallzahlplanung vorab macht Sinn:

  • Sie vermeidet, dass Sie nach der Analyse feststellen, dass die Stichprobe zu klein war, um den gewünschten Unterschied/Zusammenhang nachzuweisen.
     
  • Im anderen Fall bewahrt sie Sie davor, zu viel Zeit, Arbeit und Geld in die Datenerhebung einer unnötig großen Stichprobe zu stecken.

Ein kostenloses Programm, das die Fallzahlberechnung für verschiedene Studiendesigns und Analysemethoden unterstützt, ist G*power 3 (Heinrich-Heine-Universität Düsseldorf, 2013, http://www.gpower.hhu.de/)

 

Aufbau der Datenanalyse

Die statistische Datenanalyse besteht aus zwei Bausteinen: aus der deskriptiven Statistik und der darauf aufbauenden schließenden Statistik (s. Abb. 1).

Schließende Statistik

Abb. 1: Aufbau der Datenanalyse, aus J. Webinger, D. Keller, B. Budrich: Wie schreibe ich eine Doktorarbeit? Leitfaden für Mediziner und Zahnmediziner. Springer 2014.

Die deskriptive Statistik beschreibt die Daten durch die Berechnung von geeigneten Maßzahlen. Zur deskriptiven Statistik gehören auch Abbildungen, durch die Sie die Daten darstellen und mögliche Unterschiede/Zusammenhänge visualisieren können.

Bei der schließenden Statistik werden statistische Tests gerechnet, die die im deskriptiven Teil beschriebenen Unterschiede/Zusammenhänge auf Signifikanz überprüfen. Als statistisch signifikant gilt ein beobachteter Unterschied oder Zusammenhang nur dann, wenn die Wahrscheinlichkeit (p) einer solchen Beobachtung in einer zufällig gezogenen Stichprobe nur sehr gering wäre, falls in Wirklichkeit in der Gesamtpopulation kein Unterschied/Zusammenhang vorläge. Nur bei belegter Signifikanz können Sie also mit einer geringen Irrtumswahrscheinlichkeit (Signifikanzniveau, häufig festgelegt auf 5%) darauf vertrauen, dass der beobachtete Effekt in Ihrer Untersuchung nicht zufällig zustande gekommen ist, sondern einen tatsächlichen Unterschied/Zusammenhang in der Gesamtpopulation widerspiegelt. Die Berechnung von Effektstärken (z. B. Odds Ratio, r, d, η2) ermöglicht zusätzlich eine Einschätzung der Stärke des beobachteten Effekts.

 

Auswahl der richtigen Methode


Deskriptive Statistik

Die Wahl der richtigen Methode für die Beschreibung der Daten hängt vor allem von der Art der Variablen ab. Im Folgenden werden einige häufig verwendete deskriptive Methoden zur Beschreibung kategorialer Daten (z. B. Geschlecht, Raucher/Nichtraucher, diagnostische Klassifikation) und metrischer Daten (z. B. Symptomstärke, Fragebogen-Skalenwerte) kurz genannt.

Kategoriale Merkmale der untersuchten Stichprobe werden deskriptiv mit Häufigkeitstabellen und – bei Kombination mehrerer kategorialer Variablen – mit Kreuztabellen dargestellt. Als Abbildung passt hierzu ein Balkendiagramm oder ein gruppiertes Balkendiagramm (s. Abb. 2).

Gruppiertes Balkendiagramm zur Darstellung kategorialer Daten

Abb. 2: Gruppiertes Balkendiagramm zur Darstellung kategorialer Daten. Kategoriale Variablen: Rauchen (nein/ja), Erkrankung (nein/ja). Die Höhe der Balken zeigt die Anzahl der Personen in den jeweiligen Kategorien.

Für die Beschreibung metrischer Merkmale der Stichprobe werden Maßzahlen für die zentrale Tendenz, z. B. Mittelwert und Median, und für die Streuung, z. B. Standardabweichung, IQR, Minimum und Maximum, berechnet. Aus Mittelwerten und Standardabweichungen lassen sich darüber hinaus Konfidenzintervalle berechnen. Diese beschreiben den Wertebereich, in dem der Mittelwert der Gesamtpopulation z. B. mit 95%iger Wahrscheinlichkeit liegt.

Zur Abbildung metrischer Daten eignen sich zum einen gut Boxplots, die sowohl die zentrale Tendenz (Median) als auch die Streuung (IQR, Minimum, Maximum) zeigen, Ausreißer identifizieren und Gruppenvergleiche, also Vergleiche zwischen den Abstufungen einer kategorialen Variable, veranschaulichen (s. Abb. 3). Zum anderen lassen sich mit Balkendiagrammen (s. Abb. 4) oder – insbesondere zur Darstellung eines zeitlichen Verlaufs – mit Liniendiagrammen (s. Abb. 5) die Mittelwerte abbilden. Hierbei können zusätzlich die Standardabweichungen oder auch die Konfidenzintervalle in Form von Fehlerbalken visualisiert werden. Zur gemeinsamen Abbildung von zwei metrischen Variablen eignen sich Streudiagramme (s. Abb. 6).

Boxplots zur Darstellung metrischer Daten

Abb. 3: Boxplots zur Darstellung metrischer Daten. Abhängige metrische Variable: Stärke der Symptomatik (Skala von 0 bis 50), unabhängige kategoriale Variable: Rauchen (nein/ja). Die Unterteilungslinie innerhalb der Boxen zeigt den Median, die Länge der Boxen zeigt den IQR, die Endpunkte der Antennen („Whisker“) zeigen Minimum und Maximum, der Kreis zeigt einen Ausreißer.

Balkendiagramme zur Darstellung metrischer Daten

Abb. 4: Balkendiagramme zur Darstellung metrischer Daten. Abhängige metrische Variable: Stärke der Symptomatik (Skala von 0 bis 50), unabhängige kategoriale Variable: Rauchen (nein/ja). Die Höhe der Balken zeigt die Mittelwerte der zwei Stichprobengruppen, die Fehlerbalken zeigen die Standardabweichungen.

Liniendiagramme zur Darstellung metrischer Daten

Abb. 5: Liniendiagramme zur Darstellung metrischer Daten. Abhängige metrische Variable: Stärke der Symptomatik (Skala von 0 bis 50), unabhängige kategoriale Variablen: Behandlung (Placebo/Medikament), Zeitpunkt (vor der Behandlung/nach der Behandlung/Follow-up-Messung). Die Punkte zeigen die Mittelwerte der zwei Gruppen zu den drei Zeitpunkten, die Fehlerbalken zeigen die Standardabweichungen.

 Streudiagramm zur Darstellung metrischer Daten

Abb. 6: Streudiagramm zur Darstellung metrischer Daten. Metrische Variablen: Stärke der Symptomatik (Skala von 0 bis 50), Anzahl Zigaretten pro Tag (Skala von 0 bis 40). Jeder Punkt entspricht einem einzelnen Probanden und zeigt dessen Werte auf den beiden metrischen Skalen.

Möchten Sie schneller vorankommen?

Sprechen Sie mit einem unserer empathischen Uni-Dozenten.
So kommen Sie schneller und entspannter zum Abschluss. Kostenloses Erstgespräch.