Sie sind auf Seite 1von 117

Biomathe Computerseminar Kursunterlagen

Bernhard Haller Monika Br uderl Raymonde Busch Alexander Hapfelmeier Victoria Kehl Kurt Ulm Stefan Wagenpfeil Petra Wolf

5. Auage, WS 2012/13

Inhaltsverzeichnis
1 Vorwort 2 Woche 1 2.1 2.2 2.3 2.4 Datenstruktur und Datenmanagement . . . . . . . . . . . . . . . . . . . . . . . 1 3 3

Erstellen einfacher Graken . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 Import und Export von Daten . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 Ubung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22 25

3 Woche 2 3.1 3.2 3.3

Erste Schritte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27 Deskriptive Statistik, Mazahlen und tabellarische Darstellung . . . . . . . . . 31 Graken . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40 3.3.1 3.3.2 S aulendiagramm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40 Boxplot . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46

3.4 3.5

Ubungsaufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54 L osungsvorschlag . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55 59

4 Woche 3 4.1 4.2 4.3 4.4

Streudiagramm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59 Korrelation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64 Lineare Regression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69 Ubungsaufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74

ii 4.5

INHALTSVERZEICHNIS L osungsvorschlag . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75 81

5 Woche 4 5.1 5.2 5.3

Der Chi-Quadrat-Test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82 Uberpr ufung der Normalverteilung . . . . . . . . . . . . . . . . . . . . . . . . . 86 Der t-Test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91 5.3.1 5.3.2 t-Test f ur unverbundene Stichproben . . . . . . . . . . . . . . . . . . . . 91 t-Test f ur verbundene Stichproben . . . . . . . . . . . . . . . . . . . . . 94

5.4 5.5

Ubungsaufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97 L osungsvorschlag . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98 103

6 Anhang

Kapitel 1

Vorwort
Das vorliegende Skript ist als schriftliche Erg anzung zu dem Biomathematik Computerkurs gedacht. Es ist nat urlich auf keinen Fall als Ersatz f ur gute Standardtexte zu verstehen. Eine Auswahl statistischer Fachb ucher und Software-Handb ucher ist im Anhang angegeben. Das Hauptaugenmerk dieses Skripts liegt darin, die Umsetzung von statistischen Verfahren mittels SPSS zu beschreiben. Uns ist bewusst, dass dies nur einen kleinen Aspekt der statistischen Auswertung darstellt. F ur alle weiteren Aspekte der statistischen Auswertung, wie Fallzahlplanung, Datenbankdesign, Auswahl der statistischen Methoden, Ergebnisinterpretation etc., steht Ihnen unser statistischer Beratungsservice zur Verf ugung. N ahere Informationen dazu nden Sie im Internet unter http://www.med.tu-muenchen.de/de/gesundheitsversorgung/statistik. Hier nden Sie auch Informationen u aig stattndende EXCEL- und SPSS-Aufber regelm baukurse. Computerprogramme bieten eine groe Anzahl von m oglichen statistischen Berechnungen. Alle M oglichkeiten k onnen und sollen hier nicht erl autert werden. In der ersten Woche wird das Datenmanagement in EXCEL beschrieben, in der zweiten Woche werden deskriptive Mazahlen und grundlegende Graken in SPSS besprochen. Regression und Korrelation sind das Thema der dritten Woche. Im letzten Kapitel wird der Chi-Quadrat-Test sowie der t-Test durchgef uhrt.

Kapitel 2

Woche 1
Im Rahmen jeder experimentell-wissenschaftlichen Arbeit werden Daten erhoben, gesammelt und aufbewahrt. Bevor mit der statistischen Auswertung begonnen werden kann, ist es erforderlich, sich mit der Datenstruktur und der Datenaufbereitung zu befassen. Das Microsoft-Programm EXCEL zeichnet sich durch seine groe Verf ugbarkeit aus, da es auf nahezu jedem PC installiert ist. Zielsetzung dieses ersten Computerseminares ist es deshalb, eine Einf uhrung in das Datenmanagement mit Microsoft EXCEL zu geben und zu vermitteln, wie ein Datensatz f ur die statistische Analyse aufbereitet werden sollte. Dar uber hinaus wird die Erstellung einfacher Graken in EXCEL besprochen.

2.1

Datenstruktur und Datenmanagement

Allgemeines
Daten sollten in rechteckiger Form als sogenannte Datenmatrix vorliegen. Die Zeilen der Datei stellen die einzelnen Beobachtungseinheiten (z. B. Patienten, Probanden, Versuchstiere) dar. Grunds atzlich sollte also f ur jede Beobachtungseinheit genau eine Zeile vorliegen. In den Spalten der Datei stehen die Variablen (z. B. Alter, Geschlecht, Blutdruck etc.), die an den Beobachtungseinheiten erhoben wurden. EXCEL stellt im Gegensatz zu vielen Statistikprogrammen keine Bedingungen an die Variablennamen. M ochte man Daten aber nicht nur mit EXCEL verwenden, sollten die entsprechenden Namenskonventionen von vornherein

2. Woche 1

eingehalten werden und Variablennamen grunds atzlich keine Sonderzeichen oder Leerzeichen enthalten, nicht zu lang sein und nicht doppelt vergeben werden. Die Merkmalsauspr agungen (= Eintr age in den einzelnen Zellen) sollten dabei in numerischer Form (Zahlen) vorliegen. Um exible Analysen zu erm oglichen und um unn otige Tipparbeit zu vermeiden, ist es sinnvoll, bei alphanumerischer Mermalsauspr agung (z. B. m annlich, weiblich; ja, nein) mit einheitlichen Kodierungen (z. B. 1, 2 oder 1, 0) zu arbeiten. Es ist zu bedenken, dass bestimmte Analyseprogramme Texteintr age nicht verarbeiten k onnen. Datumsangaben werden am besten in der Form TT.MM.JJJJ angegeben. Zum Umgang mit fehlenden Werten gibt es verschiedene M oglichkeiten. Auf alle F alle sollte die Kodierung einheitlich sein. Die Verwendung eines Wertes als Platzhalter (z. B. -999), der in den theoretisch m oglichen Werten der Beobachtungen nicht vorkommen kann, erm oglicht es unterschiedliche Arten von fehlenden Werten unterscheidbar zu machen. In Statistikprogrammen k onnen solche besonderen Codes als fehlende Werte angegeben und interpretiert werden. Auswertungen, z. B. Mittelwertberechnungen, liefern dann korrekte Werte. In EXCEL gibt es eine solche Funktion nicht. Um Berechnungen in EXCEL durchzuf uhren empehlt es sich deshalb, die entsprechende Zelle der Merkmalsauspr agung einfach leer zu lassen, da sonst falsche Ergebnisse geliefert werden. Liegen mehrere Messungen pro Beobachtungseinheit vor (z. B. wiederholte Messungen des Blutdrucks im Verlaufe einer Therapie), sollte f ur jede dieser Messungen eine Spalte angelegt werden.

Beispiel

Abbildung 2.1: Datenstruktur Diese Datei besteht aus vier Beobachtungseinheiten und acht Variablen. Bei Patient 4 wurde das Gewicht nicht bestimmt. F ur den systolischen Blutdruck liegen zwei Messungen vor.

2.1 Datenstruktur und Datenmanagement

Zum Zwecke der Ubersichtlichkeit kann es unter Umst anden sinnvoll sein, den Gesamtdatenbestand auf mehrere Dateien aufzuteilen, z. B. Datei 1: Demographische Angaben; Datei 2: Blutdruckwerte; Datei 3: Laborwerte. Dabei ist darauf zu achten, dass jede dieser Dateien nach dem oben beschriebenen Muster aufgebaut ist. Um Dateien f ur eine gemeinsame Auswertung kombinieren zu k onnen, ist es wesentlich, dass in allen Dateien eine einheitliche und eindeutige Identikationsvariable (wie z. B. die Patientennummer) existiert. Diese Variable wird auch als Schl usselvariable bezeichnet.

Lassen sich die Beobachtungseinheiten in zwei oder mehr Gruppen (z. B. unterschiedliche Therapien) aufteilen und sollen diese Gruppen getrennt analysiert bzw. verglichen werden, so muss eine zus atzliche Variable (= Spalte) eingef ugt werden, in der f ur jede Beobachtungseinheit die zugeh orige Gruppe eingetragen ist. Hier ist wiederum auf eine geeignete Kodierung zu achten.

Beispiel

Abbildung 2.2: Identizierung der Gruppen u ber Gruppenvariable Hier geh oren die Patienten 1 und 6 zur Gruppe 1, w ahrend die Patienten 2 und 4 zur Gruppe 2 geh oren.

Das EXCEL-Anwendungsfenster
Das EXCEL-Anwendungsfenster besteht aus den f ur Oce-Programme u blichen Leisten und Feldern sowie aus der EXCEL-spezischen Arbeitsmappe und der dazugeh origen Bearbeitungsleiste. Die jeweiligen Buttons und Men upunkte auf dem EXCEL-Bildschirm werden aktiviert, indem man mit dem Mauspfeil darauf f ahrt und die linke (manchmal auch die rechte) Maustaste dr uckt. Dies wird oft als Klicken auf einen Men upunkt bzw. Button bezeichnet. Sichtbare Bestandteile der Arbeitsmappe sind das aktuelle Tabellenblatt, bestehend aus Spal-

2. Woche 1

ten und Zeilen, sowie das Blattregister, das auf die zur Mappe geh origen Tabellenbl atter weist. Uber dieses Register kann zwischen den verschiedenen Bl attern der EXCEL-Arbeitsmappe gewechselt werden. Reicht der Platz zur Anzeige der Tabellenbl atter nicht aus, kann u ber die sogenannte Seitensteuerung zu den vorhandenen Bl attern gewechselt werden. Umgeben ist die Arbeitsmappe von Leisten und Feldern. Die Bearbeitungsleiste dient unter anderem der Ansicht und der Editierung der aktuellen Zelle/Zellen im aktiven Tabellenblatt.

Aufbau einer EXCEL-Arbeitsmappe Die Arbeitsmappe besteht aus maximal 256 Tabellenbl attern (Voreinstellung 3 Bl atter) Ein Tabellenblatt besteht aus maximal 256 Spalten und 65536 Zeilen (bis Version 2003)

Bearbeitungsleiste

Aktuelles Feld

Aktuelles Tabellenblatt

Seitensteuerung Tabellenbltter Bildlaufleiste Blattregister

Abbildung 2.3: EXCEL-Anwendungsfenster

2.1 Datenstruktur und Datenmanagement

Hilfe in EXCEL
Uber das Men u ? (Microsoft EXCEL-Hilfe) erscheint am rechten Rand ein Hilfe Fenster.

Abbildung 2.4: Dialogfenster Hilfe

2. Woche 1

Arbeiten in Tabellen
Arbeiten mit Tabellenbl attern Tabellenbl atter einf ugen Men u: Einf ugen Tabellenblatt Kontextmen u: Klick mit der rechten Maustaste auf das Tabellenblattregister Einf ugen. Uber die Registerkarte Allgemein Tabelle ausw ahlen OK. Tabellenbl atter l oschen Men u: Bearbeiten Blatt l oschen. Kontextmen u: Rechter Mausklick auf das Blattregister L oschen. Tabellenbl atter umbenennen Men u: Format Blatt Umbenennen. Kontextmen u: Rechter Mausklick auf das Blattregister Umbennen. Maus: Doppelklick auf den Blattnamen. Tabellenbl atter verschieben / kopieren Men u: Bearbeiten Blatt verschieben/kopieren. Angabe im Dialogfenster, welche Mappe an welche Blattposition verschoben/kopiert werden soll. F ur das Kopieren die Option Kopieren aktivieren. Kontextmen u: Rechter Mausklick auf das Blattregister Verschieben / Kopieren. Es onet sich das gleiche Dialogfenster wie oben beschrieben.

Arbeiten mit Zeilen, Spalten, Zellen Neue Zeilen, Spalten, Zellen einf ugen Zeile / Spalte / Zellen markieren, vor die eingef ugt werden soll. Men u: Einf ugen Zeilen / Spalten / Zellen ... F ur das Einf ugen von Zellen onet sich ein Dialogfenster, im dem angegeben werden kann, wie die bereits vorhandenen Zellen verschoben werden sollen. Kontextmen u: Rechter Mausklick auf den markierten Zeilenkopf / Spaltenkopf / Zell-

2.1 Datenstruktur und Datenmanagement bereich Zellen einf ugen. F ur das Einf ugen von Zellen onet sich ein Dialogfenster wie oben beschrieben. Zeilen, Spalten, Zellen l oschen Zeile / Spalte / Zellen markieren. Men u: Bearbeiten Zellen l oschen.

F ur das L oschen von Zellen o net sich ein Dialogfenster, in dem angeben werden kann, wie die entstehende L ucke aufgef ullt werden soll. Kontextmen u: Rechter Mausklick auf den markierten Zeilenkopf / Spaltenkopf / Zellbereich Zellen l oschen. F ur das L oschen von Zellen onet sich ein Dialogfenster wie oben beschrieben. Zeilen, Spalten, Zellen verschieben bzw. kopieren Zeilen / Spalten / Zellen markieren. Men u: Bearbeiten Ausschneiden (oder Kopieren) Zeilen / Spalten / Zellen markieren, in die eingef ugt werden soll Bearbeiten Einf ugen. Kontextmen u: Rechter Mausklick auf die markierten Zeilen / Spalten / Zellen Ausschneiden (oder Kopieren) Zeilen / Spalten / Zellen markieren, in die eingef ugt werden soll Einf ugen. Hinweis: Bleibende immernde Zellumrandungen nach Kopier- oder Ausschneideaktionen k onnen mit der Escape-Taste entfernt werden.

Die Dateneingabe
Elemente der Bearbeitungsleiste zur Dateneingabe Zelladresse: Gibt die Koordinaten der aktuellen Zelle an. Stornierschalter: Bricht die begonnene Eingabe in der aktuellen Zelle ab. Eingabeschalter: Schliet die Dateneingabe in der aktuellen Zelle ab (entspricht dem Befehl ENTER). Formelschalter: Leitet die Eingabe einer Formel in die markierte Zelle ein.

10

2. Woche 1 Zellinhaltsfeld: Zeigt den Inhalt der aktuellen Zelle an. Durch Positionierung des Cursors in diese Zelle werden Stornier- und Eingabeschalter sichtbar.

Abbildung 2.5: Bearbeitungsleiste

Eingabe von Text EXCEL erkennt automatisch, dass es sich um Text handelt, wenn Buchstaben (Ausnahme: Datumsangaben) oder Sonderzeichen (Ausnahme: + - =) eingegeben werden. Sollen Zahlen oder Datumsangaben als Text eingegeben werden, sind sie in Anf uhrungsstriche (z. B. 01.01.1999) oder Hochkommata (z. B. 01.01.98) zu setzen. Ist die Zelle nicht bereits vorformatiert, wird der Text automatisch linksb undig ausgerichtet.

Eingabe von Zahlen Werden nur Zahlen und fakultativ Plus-/Minuszeichen, Komma als Dezimaltrenner, Punkt als Tausendertrenner eingetragen, wird der Inhalt automatisch als Zahl erkannt. Ist die Zelle nicht bereits vorformatiert, wird die Zahl rechtsb undig angeordnet.

2.1 Datenstruktur und Datenmanagement

11

Eingabe von Datumsangaben Alle Datumsangaben mit/ohne f uhrende Null bei Tages- und Monatsangaben sowie mit/ohne Jahrhundertangabe und Punkt oder Bindestrich als Trenner zwischen Tag, Monat, Jahr werden automatisch als Datum erkannt und in folgendes Standardformat gebracht: TT.MM.JJJJ. Intern werden Datumsangaben als fortlaufende Zahlen gespeichert, beginnend mit 1 f ur den 01.01.1900 und endend am 31.12.9999 (erkennbar an der rechtsb undigen Ausrichtung). Datumsangaben vor 1900 werden nicht als Datum interpretiert, sondern als Text gespeichert (erkennbar an der linksb undigen Ausrichtung). Soll das Jahrhundert bei Datumsangaben nicht erkennbar sein, k onnen die Zellen u ber das Men u Format Zellen entsprechend formatiert werden. Der Zellinhalt wird durch die Formatierung nicht ver andert.

Eingabe von Uhrzeit Stunden, Minuten und Sekunden sind jeweils durch einen Doppelpunkt zu trennen. Datum und Uhrzeit k onnen in eine Zelle eingetragen werden, sie sind dann durch ein Leerzeichen zu trennen. Die interne Verwaltung der Uhrzeit erfolgt als Dezimalzahl. Beispiel: 12:00:00 0,5. In Verbindung mit einem Datum: 31.01.1900 12:00:00 31,5.

Hinweis: Soll eine Tabelle nach SPSS exportiert werden, empehlt es sich Datumsangaben im Format TT.MM.JJJJ zu speichern, da es sonst zu Fehlern beim Export kommt. Men u: Format Zelle Benutzerdeniert TT.MM.JJJJ. Kontextmen u: Rechter Mausklick auf die markierten Zelle Zellen formatieren Benutzerdeniert TT.MM.JJJJ.

Transformation von Daten


Nach Beendigung der Datensammlung und -eingabe k onnen sich verschiedenste Vorg ange der Datentransformation anschlieen. So k onnen aus eingegebenen Variablen neue Variablen berechnet werden (z. B. Bodyma-Index aus K orpergr oe und -gewicht) oder vorhandene

12

2. Woche 1

Variablen zu neuen Variablen umkodiert werden (z. B. Altersklasse aus Alter). Die Beobachtungen der Tabelle k onnen in einer denierten Reihenfolge angeordnet oder nach festgelegten Kriterien selektiert werden (z. B. nach Gruppenzugeh origkeit). Schlielich kann es n otig sein, dass Daten der zu untersuchenden Beobachtungen aus verschiedenen Tabellen zusammengef uhrt werden m ussen. Das Berechnen und Umkodieren von Variablen erfolgt in EXCEL anhand von Formeln. Da Formeln in EXCEL auch Grundlage der Berechnung statistischer Mazahlen sind, wird ein ausf uhrlicher Abschnitt Formeln in EXCEL vorangestellt. Formeln in EXCEL Aufbau einer Formel Beispiel einer Formel in EXCEL:

= (E2+F2+G2)/3

= Mittelwert(E2:G2)

In beiden dargestellten Formeln wird der Mittelwert (arithmetisches Mittel) aus 3 Zahlen berechnet, die sich in den Zellen E2, F2 und G2 benden. Im Gegensatz zur ersten Formel liefert die zweite Formel auch dann einen korrekten Mittelwert, wenn fehlende Werte in den Zellen vorkommen. In der nachfolgenden Abbildung ist f ur den ersten und zweiten Teilnehmer des Untersuchungskollektivs Fitness der Mittelwert der 3 gemessenen Pulsfrequenzen mithilfe dieser Formel berechnet worden. In der Bearbeitungsleiste ist die Formel zu sehen, die der Berechnung der Zahl in der aktuellen Zelle zugrunde liegt. Die aktuelle Zelle ist schwarz umrandet. Der Gesamtdatensatz Fitness ist im Anhang dieses Skripts beschrieben. Bestandteile einer Formel k onnen sein: Gleichheitszeichen (=) an erster Position (immer) Konstanten (im Beispiel: 3) Zellbez uge, das sind die Koordinaten eines Zellenbereichs (im Beispiel: E2, F2, G2, abgek urzt E2:G2). Operatoren (+ - * /)

2.1 Datenstruktur und Datenmanagement

13

Abbildung 2.6: Mittelwertfunktion in EXCEL Funktionen (im Beispiel: Mittelwert() )

Eingabe einer Formel mit Operatoren und Zellbez ugen Durchfu hrung Die Zelle f ur die Formel markieren. Das Gleichheitszeichen in der Bearbeitungsleiste eingeben. Die Formel in das Zellinhaltsfeld (weie Fl ache) der Bearbeitungsleiste eingeben, wobei die Zellbez uge (= Koordinaten der Zellen, deren Inhalt in die Berechnung eingehen soll) durch Zeigen per Mausklick auf die Zelle bzw. Zellen in der Tabelle automatisch in die Bearbeitungszeile u onnen. bernommen werden k Abschluss der Formeleingabe mit der Enter-Taste oder Eingabeschalter. Die Berechnung wird sofort durchgef uhrt und das Ergebnis in die vorgesehene Zelle eingetragen. Die Formel der aktuellen Zelle ist in der Bearbeitungszeile sichtbar. Absolute und relative Zellbez uge Wird in EXCEL eine Zelle kopiert, deren Inhalt aus einer Formel mit Zellbez ugen besteht, so werden diese Zellbez uge automatisch an die neue Position angepasst. Das heit, die neuen

14

2. Woche 1

Zellbez uge benden sich immer noch im gleichen Abstand zum Formelfeld. Diese Bez uge, die beim Kopieren automatisch angepasst werden, nennt man relative Zellbez uge. Sollen Zellbez uge beim Kopieren nicht automatisch angepasst werden, die Koordinaten der Bez uge also unver andert bleiben, so spricht man von absoluten Zellbez ugen. Dazu ist den Zellkoordinaten ein Dollarzeichen $ voranzustellen (z. B. $A$1). Es sind auch Mischbez uge m oglich (z. B. $A1 absoluter Spaltenbezug, angepasster Zeilenbezug bzw. A$1 angepasster Spaltenbezug, absoluter Zeilenbezug). Beachten Sie: Die Zellkoordinaten von absoluten (ebenso wie von relativen) Bez ugen werden automatisch ge andert, wenn neue Zeilen oder Spalten in das Datenblatt eingef ugt werden. So ist das Formelergebnis auch nach dem Einf ugen immer noch das Gleiche.

Aufbau einer Funktion Beispiel einer Funktion in EXCEL: Funktionen sind Berechnungsanweisungen mit Platzhaltern. Werte, die an die Funktion u bergeben werden, sogenannte Argumente, werden an Stelle der Platzhalter eingesetzt und das Funktionsergebnis kann errechnet werden.

MITTELWERT(ZAHL1;ZAHL2;...)

Bestandteile einer Funktion k onnen sein: Funktionsname (im Beispiel: MITTELWERT) Funktionsargumente (im Beispiel: ZAHL1; ZAHL2) Argumente, die unbedingt angegeben werden m ussen, werden fett dargestellt, optionale Argumente sind normal dargestellt. Auslassungspunkte (...) kennzeichnen, dass mehrere dieser Argumente angegeben werden k onnen. Einzelne Argumente werden durch ein Semikolon voneinander getrennt. Besteht die Argumentliste aus einer fortlaufenden Sequenz von Zellbez ugen, reicht die Eingabe von Beginn und Ende, durch einen Doppelpunkt getrennt (z. B. MITTELWERT(C8:C16)). Bei Funktionsargumenten ist auf den passenden Datentyp zu achten (Zahl, Zeichen usw.), wobei die Argumente per Tastatur eingegeben, als Zellbezug gezeigt werden oder selbst wieder Resultat einer anderen Funktion sein k onnen (geschachtelte Funktionen).

2.1 Datenstruktur und Datenmanagement Eingabe einer Funktion mithilfe des Funktionsassistenten Durchfu hrung Die Zelle f ur die Formel ausw ahlen. Den Formelschalter in der Bearbeitungsleiste anklicken.

15

Aus dem pull-down Men u links des Gleichheitszeichens die gew unschte Funktion ausw ahlen oder u ahlen onen, ber weitere Funktionen das Dialogfenster Funktion ausw das alle Funktionen kategorisiert anbietet. In das sich daraufhin onende Fenster (= Funktionsassistent oder Formelpalette) die Funktionsargumente eingeben, entweder per Tastatur oder durch Zeigen auf die entsprechenden Tabellenzellen oder durch Aufruf einer weiteren Funktion (auf diese Weise werden verschachtelte Funktionen gebildet). OK Der Funktionsassistent enth alt Eingabefelder f ur die ben otigten Argumente, eine Beschreibung der Funktion und der ben otigten Argumente.

Abbildung 2.7: Eingabe einer Funktion mit dem Funktionsassistenten

16 Variablen umkodieren Anwendungen: Bilden neuer Variablen, z. B. (neue) Gruppenvariable.

2. Woche 1

Klassizierung von Merkmalen, z. B. Bildung von Altersklassen aus dem Merkmal Alter. Durchfu hrung In die Variablenspalte den neuen Variablennamen eintragen. Cursor in die erste Zelle der neuen Variablen positionieren. Je nach Art der Umkodierung, z. B. eine WENN()-Funktion oder verschachtelte WENN()Funktionen erstellen, mit dem Zellbezug zur entsprechenden Zelle der umzukodierenden Variablen. Diese Zelle mit der erstellten Funktion kopieren und f ur alle weiteren Beobachtungen in die entsprechenden Zellen der neuen Variablenspalte einf ugen. Durch das Arbeiten mit relativen Zellbez ugen (Voreinstellung) bezieht sich die kopierte Formel jeweils auf die zugeh orige Zelle der umzukodierenden Variablen.

Abbildung 2.8: Umkodierung einer Variablen mit verschachtelten WENN-Funktionen

2.1 Datenstruktur und Datenmanagement

17

Die Variable WORKOUT des Datensatzes Fitness ist in eine neue Gruppenvariable GRP NEU umkodiert worden. Teilnehmer mit 1 oder 2 Workouts pro Woche bilden die neue Gruppe 1, Teilnehmer mit 3 oder 4 Workouts die Gruppe 2. Teilnehmer ohne Eintrag zum Workout werden keiner Gruppe zugeordnet. Die der Umkodierung zugrunde liegende verschachtelte Wenn-Funktion ist in der Bearbeitungsleiste zu sehen. Das Berechnen einer neuen Variablen aus bereits bestehenden Variablen funktioniert analog zum Umkodieren.

Sortieren von Beobachtungen Anwendungen: Information u ber die Streuung der Daten (Minima, Maxima, Spannweite). Datencheck, Ausreieridentikation Neue Anordnung der Beobachtungen, z. B. nach Gruppenzugeh origkeit. Vorbereitung f ur Auswertungen nach Gruppenzugeh origkeit. Durchfu hrung Die Originaltabelle kopieren und in ein neues Tabellenblatt einf ugen, um den Originalzustand der Datentabelle zu erhalten (fakultativ). Die ganze Datentabelle markieren oder den Cursor in eine Zelle der Tabelle positionieren. Das Men u Daten Sortieren aufrufen. In den Feldern Sortieren nach, Anschlieend nach, Zuletzt nach die Variablen, nach denen sortiert werden soll oder (keine) ausw ahlen. Die Sortierreihenfolge aufsteigend oder absteigend f ur jede Sortiervariable angeben. Angeben, ob die Tabelle einen Zeilenkopf (das heit eine erste Zeile mit Variablenna men) enth alt.

18 Hinweise:

2. Woche 1

Wird statt der ganzen Datentabelle nur die Spalte markiert, nach der sortiert werden soll, so bleiben alle anderen Spalten von der Sortierung unber uhrt. Das bedeutet, dass die Integrit at des Datensatzes einer Beobachtung verletzt wird. Bei Daten rechts und links neben der markierten Spalte erkennt EXCEL das Problem und gibt einen entsprechenden Warnhinweis. Soll nach mehr als 3 Variablen sortiert werden, ist obige Prozedur mehrfach durchzuf uhren: Beginnend mit den unbedeutendsten und endend mit den bedeutendsten Sortiermerkmalen. Dabei ist aber innerhalb einer Sortierprozedur wieder mit den bedeutendsten Sortiermerkmalen zu beginnen.

2.2 Erstellen einfacher Graken

19

2.2

Erstellen einfacher Graken

Oft m ochte man seine Daten veranschaulichen oder seine Ergebnisse optisch ansprechend pr asentieren, deshalb ist es sinnvoll bereits in EXCEL einfache Graken erstellen zu k onnen.

Grundlegende Schritte bei der Grakerstellung in EXCEL: Markieren Sie die Daten, die grasch dargestellt werden sollen. Klicken Sie auf den Button Diagramm-Assistent in der Men uleiste. W ahlen Sie den gew unschten Diagrammtyp aus. Folgen Sie den Men uanweisungen f ur die Auswahl von Diagrammoptionen und der Platzierung des Diagramms. Nachbearbeitung von Graken ist m oglich durch Klicken mit der rechten Maustaste auf die nachzubearbeitenden Bereiche innerhalb der Grak. Dadurch wird ein Men u mit Nachbearbeitungsoptionen ge onet.

Beispiel Kuchendiagramm 1. Onen Sie den Datensatz Fitness. 2. Erstellen Sie eine Tabelle, in der f ur die jeweiligen Merkmalsauspr agungen (1 Workout, 2, 3 oder 4 Workouts) die absoluten H augkeiten des Vorkommens angegeben werden. Dazu kann z. B. der Autolter im Men u Daten Filter benutzt werden. Alternativ kann auch die Funktion ZAHLENWENN verwendet werden, vgl. letzte Ubung. Ergebnis:

1 2 3 4

workout workouts workouts workouts

10 19 12 4

3. Markieren Sie die H augkeiten.

20 4. Klicken Sie auf den Button Diagramm-Assistent.

2. Woche 1

5. W ahlen Sie in Schritt 1 von 4 des Diagramm-Assistenten den Men upunkt Kreis, 1. Untertyp aus. 6. W ahlen Sie in Schritt 2 des Diagramm-Assistenten die 1. Spalte der Tabelle als Kreissegmentbzw. Rubrikenachsenbeschriftung aus und versehen Sie die Grak mit einem Diagrammtitel. 7. W ahlen Sie in Schritt 3 im Register Datenbeschriftungen den Punkt Beschriftung und Prozent anzeigen aus. 8. Mit einem Klick auf Fertig stellen wird das Diagramm erstellt.

Abbildung 2.9: Kuchendiagramm zur Darstellung der Workouts

2.3 Import und Export von Daten

21

2.3

Import und Export von Daten

Zur Sicherstellung des Datenaustauschs mit anderen Programmen bestehen verschiedene M oglichkeiten Daten zu exportieren oder importieren, von denen im Folgenden einige wichtige Beispiele aufgef uhrt werden.

Export von EXCEL-Tabellen in andere Programme Export als Text Men u: Datei Speichern unter ... Dateityp: Es stehen verschiedene Texttypen zur Verf ugung, u. a. Formatierter Text (Leerzeichen getrennt) (*.prn), Text (Tabs getrennt) (*.txt). Export als Word-Tabelle EXCEL-Tabelle schlieen. In Word: Men u: Datei Onen. Dateityp: Microsoft EXCEL-Arbeitsblatt (*.xls, *xlw) Oder: Daten der EXCEL-Tabelle kopieren und in Winword einf ugen (Cut & Paste). Men u: Bearbeiten Inhalte einf ugen... .

Import von SPSS-Dateien SPSS-Dateien m ussen bereits im SPSS-Programm als EXCEL-Datei gespeichert werden. SPSS-Men u: Datei Speichern unter. Dateityp: EXCEL-Datei ausw ahlen. Dateinamen vergeben. Abspeichern mit OK. Diese Datei mit dem Sux .xls kann nun direkt in EXCEL oder auch wieder in SPSS ge onet werden.

22

2. Woche 1

2.4

Ubung

Ubung: Dateneingabe Geben Sie ein Geburtsdatum und ein Aufnahmedatum ein. Formatieren Sie die Zellen in der Weise, dass das Jahrhundert nicht angezeigt wird (Hinweis: Men u: Format Zellen Registerblatt Zahlen). Geben Sie in eine beliebige Zelle das Datum 31.01.1900 18:00 ein. Formatieren Sie diese Zelle als Zahl mit 2 Dezimalstellen, um zu sehen, wie EXCEL intern diese Datumsangabe gespeichert hat. Geben Sie die ersten vier Ziern Ihrer Handynummer ein. Ubung: Formeln und Funktionen Berechnen Sie im Datensatz Fitness f ur die Variablen Ruhefreq1, Messung2, Messung3 die mediane Pulsfrequenz (Hinweis: Funktion MEDIAN). Bilden Sie eine neue Gruppierungsvariable, die f ur alle Beobachtungen mit Ruhefrequenzwerten Ruhefreq1 <= 75 den Gruppenwert 1 zuweist und f ur alle anderen den Gruppenwert 2 (Hinweis: Funktion WENN). Errechnen Sie aus den beiden Datumsangaben aus der Ubung Dateneingabe das Al ter in ganzen Jahren (Hinweis: Funktion ABRUNDEN((Aufnahmedatum - Geburtsdatum)/365; 0). Selektieren Sie die Frauen aus dem Kollektiv und kopieren Sie die selektierten Datens atze in ein neues Tabellenblatt mit dem Namen Frauen (Hinweis: Men u: Daten Autolter Auswahl der Frauen u u). ber das entsprechende pull-down Men *F ur Ge ubte: Wie h aug f uhren Frauen 1, 2, 3 oder 4 Workouts pro Woche durch (Hinweis: Funktion ZAHLENWENN, Suchkriterien 1, 2, 3 und 4)? Ubung: Graken Erstellen Sie aus den H augkeitsangaben zu den Workouts im Datensatz Fitness ein Kuchendiagramm (Kreisdiagramm) wie im Beispiel.

2.4 Ubung

23

Ver andern Sie die Farben der einzelnen Kuchensegmente (Rechtsklicken auf ein einzelnes Segment Datenpunkt formatieren). Ver andern Sie die Darstellung in 3-D (Rechtsklicken in das Diagramm Diagrammtyp). Ver andern Sie den 3-D Ansichtswinkel durch Nachbearbeitung im Men u 3-D Ansicht. Erstellen Sie mithilfe des Diagrammassistenten aus den gleichen Daten ein S aulendiagramm. Andern Sie den Diagrammtyp des S aulendiagramms in ein Kreisdiagramm. *F ur Ge ubte: Erstellen Sie aus den beiden Variablen Alter und Ruhefre1 des Da tensatzes Fitness einen Scatterplot. Benutzen Sie dazu im Diagrammassistenten den Diagrammtyp Punkt (xy). Welchen Zusammenhang erkennt man? *F ur Ge ubte: Erstellen Sie mit dem Diagrammtyp Punkt (xy) einen zweiten Scatter plot aus den Variablen Ruhefre1 und Messung2. Welcher Zusammenhang besteht hier? Ubung: Datenexport Transferieren Sie die EXCEL-Tabelle des Datensatzes Fitness nach Word.

24

2. Woche 1

Kapitel 3

Woche 2
Zu Beginn einer Datenanalyse sollte man sich zuerst einen Uberblick u ber die vorliegenden Werte der einzelnen Variablen verschaen, wobei insbesondere Lage und Verteilung von Interesse sind. Durch die deskriptive Analyse lassen sich Besonderheiten in der Datenstruktur erkennen, zum Beispiel k onnen extreme Werte und eventuelle Ausreier leicht identiziert werden. Zudem unterst utzt sie die Datenvalidierung, das heit, Fragen wie Liegen alle Messungen im dazugeh origen Wertebereich? oder Gibt es unplausible Werte oder auch Eingabefehler? k onnen beantwortet werden. Des Weiteren ist es Aufgabe der deskriptiven Statistik, die Daten zu ordnen sowie grasch und mit geeigneten Kennzahlen darzustellen.

In diesem Kurs wird zur Analyse der Daten das Programm SPSS, Version 19 verwendet. Alle Beispiele und Ubungsaufgaben werden anhand folgendem Datensatz durchgef uhrt:

Datensatz Blutdruck
Im Folgenden handelt es sich um eine klinische Studie, bei der die Wirksamkeit eines neuen Medikaments zur Blutdrucksenkung gepr uft werden soll. Dazu wurden 120 Patienten rekrutiert, die zuf allig in zwei Behandlungsgruppen aufgeteilt wurden. Die an diesen Patienten erhobenen Variablen sind in nachstehender Tabelle aufgelistet.

26

3. Woche 2

Variablenbeschreibung

3.1 Erste Schritte

27

3.1

Erste Schritte

Daten in SPSS einlesen


Datei Onen Daten gespeicherten Datensatz aufrufen Es k onnen verschiedene Dateitypen eingelesen werden: die u ur SPSS-Dateien bliche Endung f ist *.sav. Es k onnen aber auch andere Endungen ausgew ahlt werden, wie zum Beispiel *.xls, *.csv oder *.txt, wobei ein Assistent zum Import der Datei ge onet wird und die Daten Schritt f ur Schritt eingelesen werden. Hinweis: Die zu importierende Datei darf nicht ge onet sein.

Abbildung 3.1: Datenquelle onen

Vorarbeit
Nach dem Einlesen der Datei wird der Dateneditor gestartet. Dieser besteht aus den beiden Registerkarten Datenansicht (Abb. 3.2), in der der Datensatz angezeigt wird, sowie einer Variablenansicht (Abb. 3.3).

28

3. Woche 2

Abbildung 3.2: Datenansicht

Abbildung 3.3: Variablenansicht

Bevor mit der eigentlichen Analyse begonnen werden kann, sollten noch einige Einstellungen in der Variablenansicht u uft werden: berpr

3.1 Erste Schritte

29

Name: Die Variable kann hier umbenannt werden (Restriktionen: keine Leer- oder Sonderzeichen und keine Zahl am Anfang des Namens) Typ: ad aquates Format der Variable angeben Spaltenformat: maximale Anzahl der Zeichen, die eingegeben werden kann Dezimalstellen: F ur numerische Variablen kann die Anzahl der Dezimalstellen angepasst werden. Variablenlabel: Soll ein anderer Name f ur ein Variablenk urzel in den Outputs angezeigt werden, so kann das hier eingegeben werden (hier keine Restriktionen). Wertelabels: Bei nominalen oder kategorialen Merkmalen kann die Zahlenkodierung hier in Worten angegeben werden. Die eingegebene Labels werden sp ater bei den Outputs angezeigt.

Abbildung 3.4: Wertelabels

Fehlende Werte: Eine spezielle Kodierung (z.B. -999) kann hier als fehlender Wert deniert werden. Spalten: angezeigte Spaltenbreite in der Datenansicht Ausrichtung: Ausrichtung der Daten in der Datenansicht (links, mittig oder rechts) Messniveau: Skala, Ordinal, Nominal; Dieses Feld muss f ur jede Variable speziziert sein: wichtig f ur Auswahl statistischer Tests und Graken. Rolle: Rolle der Variable im Datensatz (z.B. Eingabevariable oder Zielvariable)

30

3. Woche 2

Die Ergebnisse zu den durchgef uhrten Analysen (Tabellen, Graken,...) werden in einem dritten Fenster, dem Ausgabefenster dargestellt:

3.2 Deskriptive Statistik, Mazahlen und tabellarische Darstellung

31

3.2

Deskriptive Statistik, Mazahlen und tabellarische Darstellung

In der Statistik unterscheidet man zwei Merkmalstypen: Quantitative Merkmale: Die Auspr agungen dieser Merkmale entsprechen Messungen oder Z ahlungen (quantum = Menge). Qualitative Merkmale: F ur die Auspr agungen dieser Merkmale existiert keine sinnvolle Metrik. Nominale Merkmale lassen sich nur benennen, wie z. B. Haarfarbe, Blutgruppe, Medikament. Ordinalen Merkmalen liegt eine Rangfolge zugrunde, Dierenzen oder Quotienten sind jedoch nicht interpretierbar.

Hintergrund
Quantitative Gr oen werden wiederum in intervall- und verh altnisskalierte Merkmale eingeteilt. Bei intervallskalierten Gr oen kann nur die Dierenz betrachtet werden, da der Nullpunkt willk urlich festgelegt ist. Beispiel hierf ur ist die Temperatur in Grad Celsius. Bei verh altnisskalierten Merkmalen k onnen auch Quotienten miteinander verglichen werden, da der Nullpunkt absolut ist, wie z. B. beim metrischen L angenma. F ur stetige Variablen berechnet man statistische Mazahlen wie Mittelwert, Standardabweichung, Minimum, Maximum, Quartile etc., die Lage und Streuung der erhobenen Werte beschreiben. Grasch werden die Verteilungen oft durch Boxplots oder Fehlerbalken dargestellt. Qualitative Gr oen teilen sich auf in ordinal- und nominalskalierte Merkmale. Ordinalskalierte Merkmale k onnen bez uglich ihrer Auspr agungen in einer Rangfolge geordnet werden. Die Abst ande zwischen den Werten sind jedoch nicht deniert, z. B. Schweregrad einer Erkrankung. Die Nominalskala setzt hingegen nur Gleichheit oder Ungleichheit von Eigenschaften (z. B. Geschlecht) bzw. die M oglichkeit mehrklassiger Einteilungen (z. B. Beruf, Muttersprache, Studienzentrum etc.) in Kategorien voraus. F ur qualitative Merkmale berechnet man in der Regel relative oder absolute H augkeiten und stellt diese mithilfe von S aulendiagrammen dar.

32

3. Woche 2

Die Unterscheidung stetig und diskret wird oft als Synonym f ur quantitativ und qualitativ verwendet, es lassen sich jedoch auch quantitative Merkmale in diskret und stetig unterscheiden. Diskrete Merkmale k onnen nur bestimmte Werte annehmen. Beispiele sind die Zahl der Kinder einer Familie oder die Zahl der im letzten Jahr zugelassenen Medikamente. Zwischenwerte gibt es nicht. Stetige Merkmale (Synonyme: kontinuierlich, metrisch) k onnen hingegen jeden Zwischenwert annehmen. Diese Gr oen beruhen auf instrumentelle Messungen wie z. B. Gewicht und K orpergr oe.

Statistische Mazahlen sind eine Zusammenfassung der vorhandenen Dateninformation. F ur quantitative Gr oen beschreiben diese charakteristischen Kennzahlen u. a. Lage und Streuung einer Verteilung. Die wichtigsten Lagemae sind der Median bzw. Zentralwert und der Mittelwert, auch arithmetisches Mittel genannt. Der Mittelwert ist die Summe der Einzelwerte geteilt durch die Anzahl der Einzelwerte. x = 1 n
n

xi
i=1

(3.2.1)

Den Median erh alt man, indem die beobachteten Werte in aufsteigender Reihenfolge sortiert werden. Bei einer ungeraden Anzahl an Beobachtungen ist der Median der Wert der mittleren Beobachtung, ansonsten der Mittelwert aus den beiden mittleren Beobachtungen.
x n+1 , ( )
2

f alls n ungerade (3.2.2)

x50% =

1 x n +x n 2 (2) ( 2 +1) , f alls n gerade

Weitere Lagemae sind Quantile, die man beliebig u ber den Parameter , (0, 1) denieren kann. Sie geben den Wert an, den der denierte Anteil der Daten nicht u berschreitet. Beispiel: = 30%, d. h. 30% der Daten sind kleiner gleich diesem Wert. Eine m ogliche Berechnungsformel lautet:
x ([n]+1) , x = 1
2

f alls n /N

(3.2.3)

x(n) + x(n+1) , f alls n N

Dabei steht N f ur die nat urlichen Zahlen und [ ] f ur einen ganzzahligen Rest.

3.2 Deskriptive Statistik, Mazahlen und tabellarische Darstellung

33

Spezialf alle der Quantile sind die Quartile, die die Daten in 4 Teile teilen, also f ur (25%, 50%, 75%): Unteres Quartil = 25% Quantil = x25% Median = 50% Quantil = x50% Oberes Quartil = 75% Quantil = x75% H aug verwendete Streuungsmae (Dispersionsmae) zur Beschreibung der Datenvariabilit at sind die Varianz s2 bzw. ihre Quadratwurzel, die Standardabweichung s. s2 =
n 1 (xi x )2 n 1 i=1 s = + s2

(3.2.4)

Eine weiteres Streuungsma ist der Variationskoezient, bei dem die Standardabweichung durch den Mittelwert geteilt wird. Dieser relative Ausdruck ist eine dimensionslose Gr oe und daher unabh angig von der Maskala. Dies erm oglicht den Vergleich von Messungen in unterschiedlichen Einheiten, wie z. B. bei Laborparametern, die in mg, mmol etc. erhoben werden. Voraussetzung f ur die sinnvolle Verwendung des Variationskoezienten ist, dass eine verh altnisskalierte Variable vorliegt.

34

3. Woche 2

Beispiel
In unserem Beispieldatensatz Blutdruck.sav benden sich die Daten von 120 Hypertonikern, von denen Blutdruckmessungen und einige Parameter zu Studienbeginn, nach einem Monat und nach 12 Monaten medikament oser Therapie erhoben wurden. Ziel: Zun achst wollen wir uns u verschaen und sie ber die vorhandenen Daten einen Uberblick durch H augkeiten und statistische Mazahlen beschreiben. Es interessiert uns, wieviele M anner und Frauen an der Studie teilgenommen haben, wie sie auf beide Medikamentengruppen aufgeteilt sind und wie deren Blutdruckverteilung zu Beginn aussieht. Schlielich wollen wir die Blutdruckverteilung beider Geschlechter in jeder Behandlungsgruppe betrachten.

Durchfu hrung
H augkeiten von M annern und Frauen Analysieren Tabellen Benutzerdenierte Tabellen ok Variablen: Geschlecht auf Spalten ziehen Denieren: Auswertungsstatistik... Anzahl als Zeilen% in Statistik ausw ahlen und mit Pfeil zu Anzeigen hinzuf ugen Der Auswahl zuweisen Denieren: Kategorien und Gesamtsummen... Auch anzeigen: Gesamtergebnis Zuweisen ok

3.2 Deskriptive Statistik, Mazahlen und tabellarische Darstellung H augkeiten von M annern und Frauen pro Behandlungsgruppe Analysieren Tabellen Benutzerdenierte Tabellen ok Variablen: Geschlecht auf Spalten ziehen Denieren: Auswertungsstatistik... Anzahl als Zeilen% in Statistik ausw ahlen und mit Pfeil zu Anzeigen hinzuf ugen Der Auswahl zuweisen Denieren: Kategorien und Gesamtsummen... Auch anzeigen: Gesamtergebnis Zuweisen Variablen: Behandlung auf Zeilen ziehen Denieren: Kategorien und Gesamtsummen... Auch anzeigen: Gesamtergebnis Zuweisen ok

35

Abbildung 3.5: Eingabemen u Benutzerdenierte Tabellen

36

3. Woche 2

Abbildung 3.6: Eingabemen u Auswertungsstatistik Ausgabe

Abbildung 3.7: H augkeiten von M annern und Frauen in jeder Medikamentengruppe

3.2 Deskriptive Statistik, Mazahlen und tabellarische Darstellung Blutdruckverteilung von M annern und Frauen Analysieren Tabellen Benutzerdenierte Tabellen ok Variablen: Blutdruck 0 auf Spalten ziehen Denieren: Auswertungsstatistik... Standardabweichung in Statistik ausw ahlen und mit Pfeil zu Anzeigen hinzuf ugen Der Auswahl zuweisen Variablen: Geschlecht auf Zeilen ziehen Denieren: Kategorien und Gesamtsummen... Auch anzeigen: Gesamtergebnis Zuweisen ok

37

Blutdruckverteilung von M annern und Frauen pro Behandlungsgruppe Analysieren Tabellen Benutzerdenierte Tabellen ok Variablen: Blutdruck 0 auf Spalten ziehen Denieren: Auswertungsstatistik... Standardabweichung in Statistik ausw ahlen und mit Pfeil zu Anzeigen hinzuf ugen Der Auswahl zuweisen Variablen: Geschlecht auf Spalten ziehen Denieren: Kategorien und Gesamtsummen... Auch anzeigen: Gesamtergebnis Zuweisen Variablen: Behandlung auf Zeilen ziehen Denieren: Kategorien und Gesamtsummen... Auch anzeigen: Gesamtergebnis Zuweisen ok

38

3. Woche 2

Abbildung 3.8: Eingabemen u Benutzerdenierte Tabellen

Abbildung 3.9: Eingabemen u Auswertungsstatistik

3.2 Deskriptive Statistik, Mazahlen und tabellarische Darstellung Ausgabe

39

Abbildung 3.10: Mittelwert und Standardabweichung f ur den Blutdruck von M annern und Frauen in jeder Medikamentengruppe

Interpretation
In unserer Studie ist das Verh altnis von M annern zu Frauen in etwa 1:1. Dies gilt auch f ur die beiden Behandlungsgruppen. Insgesamt haben die Frauen einen leicht niedrigeren BlutdruckAusgangswert, was ebenso f ur die beiden Behandlungsgruppen gilt. Zwischen den Behandlungsgruppen sind die Blutdruck-Ausgangswerte in den Geschlechtern aber ann ahernd gleich. Zieht man die Standardabweichung hinzu, so erkennt man, dass die Unterschiede nicht sehr gro sind. Beide Behandlungen sind hinsichtlich dieser Baseline-Variablen vergleichbar. Die Frage, ob die beobachteten Blutdruckunterschiede statistisch zuf allig sind oder ein signikanter Unterschied nachgewiesen werden kann, l asst sich mit den in Kapitel 5 beschriebenen statistischen Tests untersuchen.

40

3. Woche 2

3.3

Graken

Die bekanntesten Darstellungsformen kategorialer oder diskreter Merkmale sind S aulen-, Balkenund Kreisdiagramme. Sie sind vor allem angebracht, wenn die Anzahl k der verschiedenen Merkmalsauspr agungen klein ist. Wir wollen uns hierbei auf das S aulendiagramm beschr anken.

Abbildung 3.11: S aulen-, Balken- und Kreisdiagramm

3.3.1

S aulendiagramm

Hintergrund
Bei einem S aulendiagramm werden auf horizontaler Achse die verschiedenen Auspr agungen einer diskreten Variablen abgetragen und auf der vertikalen die absoluten bzw. relativen H augkeiten der jeweiligen Auspr agung in Form einer S aule dargestellt. Diese Rechtecke werden mittig u agung gezeichnet und stoen nicht aneinander. Das Balkendiagramm ber die Auspr ergibt sich als Variante, indem man die beiden Achsen vertauscht. Das S aulendiagramm erm oglicht es, bei ordinalskalierten Daten die Rangfolge mit darzustellen. Dies ist bei der Darstellung durch ein Kreisdiagramm nicht m oglich.

3.3 Graken

41

Beispiel
Die oben berechneten H augkeiten aus unserem Beispieldatensatz Blutdruck.sav wollen wir nun grasch darstellen. Wir tragen dazu die absoluten bzw. relativen H augkeiten von M annern und Frauen in der Studie in einem S aulendiagramm ab. Die bedingten relativen H augkeiten der Geschlechter in jeder Behandlungsgruppe lassen sich in einem gruppierten S aulendiagramm darstellen. Dabei entspricht die bedingte relative H augkeit eines Geschlechts einzelnen S aulen oder sie l asst sich durch den achenm aigen Anteil an der S aule der jeweiligen Behandlungsgruppe darstellen.

Durchfu hrung
H augkeiten von M annern und Frauen Diagramme Diagrammerstellung Galerie Balken Einfache Balken ausw ahlen Variablen Geschlecht auf x-Achse? ziehen Elementeigenschaften: Statistik Anzahl f ur absolute oder Prozentsatz() f ur relative H augkeiten ausw ahlen Zuweisen ok

42

3. Woche 2

Abbildung 3.12: Eingabemen u Balkendiagramm (einfach)

Ausgabe

Abbildung 3.13: Absolute H augkeiten von M annern und Frauen (gr oere Achsenbeschriftung)

Die Diagramme k onnen in SPSS nachtr aglich noch bearbeitet werden, indem durch Doppelklick auf die Grak der Diagramm-Editor gestartet wird. Entsprechende Details (Farben, Schriftgr oe,...) k onnen dann wie in obiger Grak angepasst werden.

3.3 Graken H augkeiten von M annern und Frauen pro Behandlungsgruppe Diagramme Diagrammerstellung Galerie Balken Gruppierte Balken ausw ahlen Variablen Behandlung auf x-Achse? ziehen Variablen Geschlecht auf Clustervariable auf X: Farbe festlegen ziehen Elementeigenschaften: Statistik Prozentsatz() ausw ahlen Zuweisen ok

43

durch Doppelklick den Diagramm-Editor starten Elemente Datenbeschriftungen einblenden Anzahl in Angezeigt: schieben Zuweisen Diagramm-Editor schlieen

Abbildung 3.14: Eingabemen u Balkendiagramm (gruppiert)

44

3. Woche 2

Werden als y-Achse die Prozentwerte ausgegeben, kann bei der Diagrammerstellung wie oben unter Elementeigenschaften Statistiken Prozentsatz Parameter festlegen zuweisen der Nenner f ur die Prozentberechnung angegeben werden.

Abbildung 3.15: Wahlm oglichkeit f ur die Berechnung der Prozentwerte

Ausgabe

Abbildung 3.16: Gesamtverteilung von Therapie und Geschlecht ( Gesamtergebnis)

3.3 Graken

45

Abbildung 3.17: Geschlechterverteilung in den Behandlungsgruppen ( f ur jede X-Achsen Kategorie)

Abbildung 3.18: Therapieverteilung in den Geschlechtergruppen ( f ur jede Kategorie der Le gendenvariablen (selbe F ullfarbe)) Zur alternativen Darstellung der bedingten H augkeiten des Geschlechts durch den achenm aigen Anteil an einer S aule verf ahrt man wie oben, jedoch w ahlt man im ersten Men ufenster Gestapelte Balken statt Gruppierte Balken aus: Diagramme Diagrammerstellung Galerie Balken Gestapelte Balken ausw ahlen ...

46

3. Woche 2

Interpretation
Die grasche Darstellung sollte immer mit den berechneten H augkeiten verglichen werden, um m ogliche Fehlinterpretationen zu vermeiden. Schlielich soll eine Grak die Ergebnisse unterstreichen bzw. verdeutlichen. In den S aulendiagrammen der absoluten H augkeiten des Geschlechts sowie der relativen H augkeiten bedingt auf die Medikamentengruppe spiegelt sich das Verh altnis von etwa 1:1 von M annern zu Frauen wider. Es sind etwas mehr Patienten in der Alphasan-Behandlungsgruppe.

3.3.2

Boxplot

F ur eine zusammenfassende Beschreibung von Verteilungen m ussen Lage- und Streuungsmae angegeben werden. So kann etwa in zwei Behandlungsgruppen der mittlere Blutdruck identisch sein, obwohl in einer Gruppe erhebliche Schwankungen vorliegen, w ahrend die andere Gruppe recht homogen ist. Die oben erw ahnten Quantile und die daraus abgeleiteten Boxplots als grasche Zusammenfassung sind geeignete Mittel, um die Verteilung der Daten punktuell zu charakterisieren. Gruppenunterschiede, Symmetrie bzw. Schiefe der Verteilungen sind sofort sichtbar. Hierbei werden keine Voraussetzungen wie Symmetrie oder Normalverteilung an die Daten gestellt. Viele statistische Softwarepakete, wie auch SPSS, stellen Ausreier, also Beobachtungen, die relativ zu ihrer Gruppe sehr extrem ausfallen, als einzelne Datenpunkte dar. Dadurch lassen sich mithilfe des Boxplots auch Extremwerte einfach identizieren.

Hintergrund
Die oben denierten Quartile (vgl. Abschnitt 3.2 Seite 33) geben zusammen mit dem Median auf einfache Art Hinweise auf die Verteilung der Daten: Unterhalb des unteren Quartils liegen etwa 25% der Daten und oberhalb des oberen Quartils ebenfalls etwa 25%. Im mittleren Bereich liegen die restlichen 50% der Daten. Ist die Verteilung ann ahernd symmetrisch zum Median, so sind x25% und x75% etwa gleich weit vom Median entfernt. Andernfalls ist die Verteilung schief.

3.3 Graken

47

Die Quartile geben auch Aufschluss dar uber, wie gro die Streuung der Daten ist. Eine passende Mazahl hierf ur ist der Interquartilsabstand: IQR = x75% x25% (3.3.5)

Interessant f ur die Verteilung sind auerdem die beiden Extremwerte xmin = x(1) und xmax = x(n) . Die Dierenz dieser beiden Werte wird als Spannweite oder Range bezeichnet. Die Quartile, Minimum und Maximum teilen den Datensatz somit in vier Teile, wobei jeder Teil ein Viertel der Beobachtungswerte enth alt. Diese vier Werte bilden zusammen mit dem Median die F unf-Punkte-Zusammenfassung, die als Boxplot visulalisiert wird:

Boxplot 1. x25% = Anfang der Box x75% = Ende der Box IQR = L ange der Box 2. Median = durchgezogene Linie innerhalb der Box 3. Zwei Linien ( whiskers) auerhalb der Box gehen bis zu xmin und xmax Modizierter Boxplot Eine Faustregel zur Identizierung von Ausreiern, die auch SPSS verwendet, ist: Bilde den inneren Zaun mit der Untergrenze zu = x25% 1.5 IQR und der Obergrenze zo = x75% + 1.5 IQR. Daten kleiner als zu und gr oer als zo sind dann Ausreierkandidaten, die genauer zu inspizieren sind. Die Linien auerhalb der Box ( whiskers) werden nur bis zu xmin bzw. xmax gezogen, falls xmin und xmax innerhalb des Bereichs [zu , zo ] der Z aune liegen. Ansonsten gehen die Linien nur bis zum kleinsten bzw. gr oten Wert innerhalb der Z aune. Die auerhalb liegenden Werte werden individuell eingezeichnet, in SPSS als Punkte (Ausreier, mehr als 1.5 IQR von Ober- oder Untergrenze entfernt) bzw. Sterne (Fernpunkte, mehr als 3 IQR von Oberoder Untergrenze entfernt). Die mit angegebenen Zahlen entsprechen der Zeilennummer im Datensatz.

48 Bei Bedarf kann diese Zahl im Diagrammeditor Button Datenbeschriftungsmodus auf den Punkt/Stern klicken, ein- oder ausgeblendet werden.

3. Woche 2

Abbildung 3.19: Boxplot

Abbildung 3.20: Modizierter Boxplot

Beispiel
asst sich durch einen Boxplot univariat beschreiben, mit Das stetige Merkmal Blutdruck 0 l Hinzunahme der Behandlungsgruppe als Faktor lassen sich die Blutdruckverteilungen f ur jede Behandlungsgruppe darstellen und damit visuell vergleichen.

Durchfu hrung
Diagramme Diagrammerstellung Galerie Boxplot Einfacher Boxplot ausw ahlen Variablen Behandlung auf x-Achse? ziehen Variablen Blutdruck 0 auf y-Achse? ziehen ok

3.3 Graken

49

Abbildung 3.21: Eingabemen u Boxplot (einfach)

Ausgabe

Abbildung 3.22: Blutdruckverteilung in den beiden Behandlungsgruppen

50

3. Woche 2

Blutdruckverteilung von M annern und Frauen pro Behandlungsgruppe Diagramme Diagrammerstellung Galerie Boxplot Gruppierter Boxplot ausw ahlen Variablen Behandlung auf x-Achse? ziehen Variablen Blutdruck 0 auf y-Achse? ziehen Variablen Geschlecht auf Clustervariable auf X: Farbe festlegen ziehen ok

Abbildung 3.23: Eingabemen u Boxplot (gruppiert)

3.3 Graken Ausgabe

51

Abbildung 3.24: Blutdruckverteilung von M annern und Frauen pro Behandlungsgruppe (Nr. 12 entspricht Beobachtungsnummer im Datensatz)

Anderung der Skala der y-Achse H aug beginnt die y-Achse in SPSS bei 0. In manchen F allen ist es aber erw unscht, zur Verdeutlichung nur den Abschnitt zu zeigen, in dem sich auch die Daten benden. Dies kann im Nachhinein noch wie folgt ge andert werden: Doppelklick auf Grak im Diagrammeditor Die y-Achse ausw ahlen Skala Minimum auf 120 setzen zuweisen

52

3. Woche 2

Abbildung 3.25: Eingabemen u Andern der Skala

Ausgabe

Abbildung 3.26: Blutdruckverteilung von M annern und Frauen pro Behandlungsgruppe mit ge anderter y-Skalierung

3.3 Graken

53

Interpretation
Der Blutdruck-Ausgangswert ist in beiden Behandlungsgruppen nahezu gleich (Median ca. 150 mmHg). Die Boxengr oen sind ebenfalls fast gleich gro, d.h. die mittleren 50% haben eine ahnlich groe Streuung in beiden Gruppen. Die Verteilung bei der Betasan-Behandlungsgruppe ist sehr symmetrisch um den Median, wohingegen der Median bei der Alphasan-Behandlungsgruppe etwas n aher am 25%-Quantil liegt (linkssteile Verteilung). Ausreier gibt es keine. Die Frauen der Alphasan-Behandlungsgruppe haben zu Beginn einen ahnlichen Blutdruck in Vergleich zur Betasan-Behandlungsgruppe, jedoch die mitlleren 50% der Frauen sind in der Alphasan-Behandlungsgruppe wesentlich homogener. Die Blutdruckverteilung der M anner ist in beiden Behandlungsgruppen sehr ahnlich. Keine Verteilung ist exakt symmetrisch um den Median. Bei den Frauen in der Alphasan-Behandlungsgruppe gibt es formal einen Ausreier, was durch den vergleichsweise kleinen Interquartilsabstang IQR bedingt ist. Alternative: Histogramm

54

3. Woche 2

3.4

Ubungsaufgaben

Verwenden Sie f ur die Ubungen den Datensatz Blutdruck.sav und versuchen Sie auch, die Ergebnisse zu interpretieren. Zum Nachweis eines Therapieeekts in einer klinischen Studie sollten die beiden Behandlungsgruppen zu Beginn der Studie hinsichtlich s amtlicher Variablen vergleichbar sein. Erst dann kann ein beobachteter Eekt der Therapie zugeschrieben werden. Wie wir bereits gesehen haben gibt es keinen Unterschied in der Geschlechts- und Blutdruckverteilung zu Beginn zwischen beiden Behandlungsgruppen. 1. Uberpr ufen Sie dar uber hinaus, ob sich die beiden Behandlungsgruppen hinsichtlich der K orpergr oe und des Alters ahnlich sind. Verwenden Sie dazu ausschlielich die M oglichkeiten der deskriptiven Statistik und stellen Sie den Vergleich durch Berechnung von geeigneten Mazahlen an. Dar uber hinaus vergleichen Sie auch den CholesterinAusgangswert, sowie die BMI-Kategorien beider Behandlungsgruppen. Stellen Sie die Ergebnisse u bersichtlich und sinnvoll dar! Vergessen Sie nicht durch eine grasche Darstellung die Zahlen zu verdeutlichen. 2. Stellen Sie die relativen H augkeiten des Geschlechts in jeder Behandlungsgruppe dar. Verwenden Sie dazu entweder die Option clustered oder stacked. Interpretieren Sie das Ergebnis vor dem Hintergrund der berechneten H augkeiten richtig. 3. Fleiaufgabe (nicht behandelt): Machen Sie sich mit dem Chart Editor vertraut. Spielen Sie ein wenig mit der Achsenskalierung, -beschriftung etc..

3.5 L osungsvorschlag

55

3.5
1.

L osungsvorschlag
K orpergr oe

Abbildung 3.27: Mittelwert und Standardabweichung f ur die K orpergr oe von M annern und Frauen in jeder Behandlungsgruppe

Abbildung 3.28: Verteilung der K orpergr oe von M annern und Frauen in jeder Behandlungsgruppe Alter

Abbildung 3.29: Mittelwert und Standardabweichung f ur das Alter von M annern und Frauen in jeder Behandlungsgruppe

56

3. Woche 2

Abbildung 3.30: Altersverteilung von M annern und Frauen in jeder Behandlungsgruppe Cholesterin-Ausgangswert

Abbildung 3.31: Mittelwert und Standardabweichung f ur den Cholesterin-Anfangswert von M annern und Frauen in jeder Behandlungsgruppe

Abbildung 3.32: Verteilung der Cholesterin-Anfangswerte von M annern und Frauen in jeder Behandlungsgruppe

3.5 L osungsvorschlag BMI-Kategorien

57

Abbildung 3.33: H augkeiten der BMI-Kategorien in jeder Behandlungsgruppe

Abbildung 3.34: Relative Verteilung (H augkeiten) der BMI-Kategorien in jeder Behandlungsgruppe (absolute Werte mitangegeben) Interpretation: Sowohl K orpergr oe, Alter als auch der Cholesterin-Anfangswert sind in beiden Behandlungsgruppen a hnlich verteilt. Lediglich die BMI-Kategorien unterscheiden sich leicht: in der Betasan-Behandlungsgruppe benden sich etwas mehr normalgewichtige, wohingegen in der Alphasan-Behandlungsgruppe etwas mehr u bergewichtige Patienten teilgenommen haben. In den Tabellen summieren sich alle Werte pro Behandlungsgruppe zu 100%. In der Grak kann das u ber den Pfad ... Gruppierte Balken Elementeigenschaften Statistiken: Prozentsatz(?) Parameter festlegen angepasst werden.

58

3. Woche 2 2. Analog zur vorherigen Aufgabe muss bei der Erstellung der S aulendiagramme darauf geachtet werden, auf welcher Basis die Prozentwerte ermittelt werden.

Abbildung 3.35: H augkeiten von M annern und Frauen in jeder Behandlungsgruppe

Abbildung 3.36: Relative Verteilung (H augkeiten) von M annern und Frauen in jeder Behandlungsgruppe (absolute Werte mitangegeben) Interpretation: Das Verh altnis von M annern und Frauen ist sowohl in der Studie, als auch in beiden Behandlungsgruppen etwa 1:1.

Kapitel 4

Woche 3
Dieser Kurstag besch aftigt sich damit, den funktionalen Zusammenhang stetiger Merkmale zu untersuchen. Wir besch aftigen uns ausschlielich damit, die Beziehung zweier Gr oen, also bivariate Relationen zu analysieren. In einigen Situationen (z. B. physikalische Beziehungen) mag es aufgrund theoretischer Uberlegungen sicher sein, dass zwei Merkmale miteinander in Zusammenhang stehen. In der Medizin erschweren meist eine groe nat urliche Variation der Untersuchungsobjekte, zus atzliche St orgr oen oder nicht exakt erhebbare Zielvariablen die Auswertungen. Durch diese zufallsbedingten Streuungen der Messwerte k onnen Zusammenh ange vorget auscht werden, die nicht existieren. Andererseits k onnen aber auch Beziehungen, die vorhanden sind, nicht entdeckt werden. Bei der Korrelation wird quantiziert, wie stark ein Zusammenhang zwischen zwei Gr oen ist. Die Regressionsanalyse dient dazu, den m oglichen Einuss von unabh angigen Gr oen oder Variablen auf eine a priori zu spezizierende abh angige Gr oe zu untersuchen.

4.1

Streudiagramm

Ein Bild sagt oftmals mehr als viele Zahlen. Im sogenannten Streudiagramm oder Scatterplot kann der Zusammenhang von quantitativen Gr oen visualisiert werden.

60

4. Woche 3

Hintergrund
Im Streudiagramm wird f ur jede Beobachtung das Wertepaar (X, Y ) im Koordinatensystem abgetragen. Man sollte bereits jetzt darauf achten, Einussgr oe und abh angige Variable zu unterscheiden. Die Einussgr oe wird oftmals mit X , die abh angige Variable oder auch Zielvariable mit Y bezeichnet. Falls die Daten im zeitlichen Verlauf erhoben werden, so stellt die sp ater erhobene Variable oft die Zielvariable dar. Diese Unterscheidung ist aber oftmals nicht ganz einfach zu treen. Beobachtungen, bei denen nicht von beiden Variablen Auspr agungen vorhanden sind, werden in der Regel ausgeschlossen. Als Alternative bieten sich eventuell statistische Verfahren zum Ersetzen fehlender Werte, wie zum Beispiel eine Imputation, an.

Beispiel
Im Datensatz Blutdruck.sav soll der Zusammenhang zwischen dem Cholesterin-Ausgangswert und dem Blutdruck-Ausgangswert untersucht werden.

Durchfu hrung
Diagramme Diagrammerstellung Galerie Streu/Punktdiagramme einfaches Streudiagramm ausw ahlen Variablen Blutdruck 0 auf x-Achse? ziehen Variablen Cholesterin 0 auf y-Achse? ziehen Optional kann die Grak unter Titel/Funoten weiter beschriftet werden ok

4.1 Streudiagramm

61

Abbildung 4.1: Eingabemen u Streudiagramm (einfach)

62

4. Woche 3

Ausgabe

Abbildung 4.2: Scatterplot

Interpretation
Es besteht ein deutlicher linearer Zusammenhang zwischen dem Blutdruck-Ausgangeswert und dem Cholesterinwert zu Beginn der Studie. Je h oher der Blutdruck-Ausgangswert war, desto h oher war tendenziell auch der Cholesterin-Ausgangswert. Um den Zusammenhang der beiden Variablen besser interpretieren zu k onnen, ist es oft hilfreich, die Regressionsgerade durch die Punkte einzuzeichnen.

4.1 Streudiagramm

63

Durchfu hrung
Im Ausgabefenster auf die Grak doppelklicken im Diagrammeditor alle Punkte durch klicken markieren rechte Maustaste dr ucken und im kontextsensitiven Men u Hinzuf ugen Anpassungslinie bei Gesamtwert ausw ahlen.

Ausgabe

Abbildung 4.3: Streudiagramm mit Anpassungslinie

64

4. Woche 3

4.2

Korrelation

Um zu beurteilen, wie stark ein Zusammenhang zwischen zwei Gr oen ist, errechnet man den Korrelationskoezienten. Ausf uhrliche Erl auterungen dazu sind z. B. in [5] und [7] zu nden.

Hintergrund
Der Korrelationskoezient kann Werte von 1 bis +1 annehmen. Ein positives Vorzeichen bedeutet, dass mit zunehmenden Werten einer Gr oe die Werte der anderen Gr oe steigen. Ein negatives Vorzeichen l asst einen inversen Zusammenhang erkennen (mit steigenden Werten einer Variable sind fallende Werte der zweiten Gr oe zu beobachten). Der Betrag des Korrelationskoezienten gibt an, wie eng die Beziehung zweier Variablen ist. Wenn der Korrelationskoezient den Wert +1 oder 1 annimmt, kann man anhand einer Variablen die andere Variable exakt vorhersagen. In diesem Fall ist keine zufallsbedingte Steuung vorhanden. Der Korrelationskoezient ist ein symmetrisches Ma, d. h. er liefert keine Aussage dar uber, welche Variable beeinusst wird. Eine weitere Eigenschaft des Korrelationskoezienten besteht in der Invarianz gegen uber linearen Transformationen. Je nach Skalenniveau der zu untersuchenden Variablen unterscheidet man zwei Korrelationskoezienten. Der Korrelationskoezient nach (Bravais-) Pearson misst den linearen Zusammenhang zweier stetiger Merkmale. Er ist nur dann anwendbar, wenn die Daten intervallskaliert sind und beide Variablen aus normalverteilten Grundgesamtheiten stammen. Das Ergebnis wird stark von Ausreiern beeinut. Der Korrelationskoezient nach Pearson berechnet sich als r=
n i=1 (xi n i=1 (xi

x )(yi y ) n x )2 i=1 (yi y )2

(4.2.1)

wobei mit x bzw. y das arithmetische Mittel der i = 1, . . . , n Beobachtungen der Variablen X bzw. Y bezeichnet ist. In unserem Fall (Beispiel Streudiagramm Abb. 4.2) war X = Blutdruck-Ausgangswert, Y = Cholesterin-Ausgangswert. Falls die Daten mindestens ordinalskaliert vorliegen, so kann der Spearman - Korrelationskoezient berechnet werden. Mithilfe dieses Korrelationskoezienten erh alt man Aussagen

4.2 Korrelation

65

u ange. Normalverteilung wird nicht vorausgesetzt. F ur die Beber monotone Zusammenh rechnung werden alle Wertepaare zun achst geordnet und R ange gebildet. Anstatt der Originalwerte werden dann diese R ange in Formel (4.2.1) eingesetzt. Existieren keine Beobachtungen mit identischen Merkmalsauspr agungen (sog. Bindungen), so kann der SpearmanRangkorrelationskoezient auch mithilfe folgender Formel berechnet werden. rSP = 1 6
n 2 i=1 Di n3 n

(4.2.2)

Dabei ist mit Di die Rangdierenz der i-ten Beobachtungseinheit von Merkmal X und Y und mit n die Fallzahl bezeichnet.

Beispieltabelle zur Rangbildung


Xi 2 5 3 Yi 8 7 9 rg (xi ) 1 3 2 rg (yi ) 2 1 3

Beispiel In der Datei Blutdruck.sav benden sich die Daten von 120 Hypertonikern, von denen Blutdruckmessungen und einige Parameter zu Studienbeginn, nach einem Monat und nach 12 Monaten medikament oser Therapie vorliegen. Ziel: Es soll untersucht werden, ob der Blutdruck zu Beginn mit dem Alter, dem Cholesterinwert zu Beginn und der K orpergr oe assoziiert ist.

66

4. Woche 3

Durchfu hrung Analysieren Korrelation bivariat Variablen: Blutdruck 0, Alter, Cholesterin 0, Groesse Korrelationskoezienten: ok Pearson Spearman anhaken

Abbildung 4.4: Eingabemen u bivariate Korrelation

4.2 Korrelation

67

Ausgabe

Abbildung 4.5: Pearson Korrelationskoezienten

Abbildung 4.6: Spearman Korrelationskoezienten

Interpretation Das Alter zeigt eine schwache negative Korrelation mit dem Blutdruckwert zu Beginn der Studie, die K orpergr oe einen leichten positiven Zusammenhang. Die st arkste positive Korrelation besteht zwischen den Anfangswerten von Cholesterin und Blutdruck.

68

4. Woche 3

Das heit, je h oher der Cholesterinwert am Anfang war, desto h oher ist tendenziell auch der Blutdruck zu Beginn. Spearman und Pearson Korrelationskoezienten sind sehr a hnlich, ein nicht-linearer Zusammenhang hat sich somit nicht herauskristallisiert. Die Korrelationsmatrix ist symmetrisch mit der Hauptdiagonalen als Spiegelachse. Auf der Hauptdiagonalen ndet sich die Korrelation einer jeden Variablen mit sich selbst, die immer 1 ergibt.

4.3 Lineare Regression

69

4.3

Lineare Regression

H angt die Auspr agung eines Merkmals von einer Einussgr oe ab, so stellt sich das Problem, die Art der Abh angigkeit quantitativ zu beschreiben. Diese Fragestellung wird mittels Regressionsanalyse untersucht, indem einer beobachteten Punktwolke eine Regressionsgleichung angepasst wird. Die Kausalit atsstruktur muss bei derartigen Untersuchungen zumindest insoweit gekl art sein, dass man von einer Einussgr oe und einer abh angigen Variablen sprechen kann. Wir behandeln den einfachsten Fall, die lineare Abh angigkeit. Hier wird durch eine Punktwolke eine Gerade gelegt. Ob diese Anpassung im Einzelfall gerechtfertigt ist, muss vorher u uft werden. Gute berpr Anhaltspunkte liefert das Streudiagramm, das in Kapitel 4.1 behandelt wurde. Weitere Entscheidungshilfen liefern publizierte Studien und sachlogische Uberlegungen. Generell sollte der modellierte Zusammenhang m oglichst einfach sein, um eine vern unftige Anwendbarkeit sicherzustellen.

Hintergrund Liegen die Datenpaare (xi , yi ) vor, so ist die Beziehung y = f (x) + Fall eine Gerade, wobei im einfachsten

den stochastischen Fehlerterm darstellt. Die Funktion ei-

ner Geraden ist durch zwei Parameter bestimmt, dem y-Achsenabschnitt (Ordinatenschnittpunkt) a und der Steigung b. Die Steigung b wird als Regressionskoezient bezeichnet. Damit ergibt sich die Funktionsgleichung als y = f (x) = a + b x wobei y den durch die Geradengleichung gesch atzten y-Wert bezeichnet. Ziel der linearen Regressionsanalyse ist es, anhand der Beobachtungen (xi , yi ) diejenige Parameterkonstellation (a, b) zu berechnen, die die Punkte optimal beschreibende Gerade liefert. Unter optimal versteht man, dass die Gerade so liegen soll, dass die Streuung in vertikaler Richtung m oglichst klein ist. Die Steigung b und der Achsenabschnitt a werden also so berechnet, dass die beobachteten y m oglichst wenig von y abweichen. Dazu muss die Summe der Abweichungsquadrate
n i=1

(4.3.3)

(yi y i )2 =

n i=1

(yi (a + b xi ))2

70

4. Woche 3

m oglichst gering sein. Die Quadrierung ist n otig, da sich die Punkte sowohl u ber als auch unter der Regressionsgerade benden und sich dadurch positive und negative Dierenzen ergeben, die in der Summe Null ergeben w urden (ebenso wie bei der Berechnung der Varianz). Die besten Paramenter a und b erh alt man - wie aus der Analysis bekannt ist - indem man die partiellen Ableitungen der Funktion bez uglich a und b gleich Null setzt. Die gesuchten Regressionskoezienten ergeben sich dann aus den Normalgleichungen als b= und a=y bx (4.3.5)
n )(yi i=1 (xi x n )2 i=1 (xi x

y )

(4.3.4)

mit x als arithmetisches Mittel der x-Werte, y entsprechend. Man nennt diese Sch atzungen auch Kleinste-Quadrate-Sch atzer (KQ) oder Ordinary-Least-SquareSch atzer (OLS). Alternativ zur Quadrierung gibt es andere M oglichkeiten im mathematischen Sinne Abst ande zu denieren. Die Quadrierung ist jedoch im Regressionskontext am h augsten verwendet. F ur die Diagnostik und Beurteilung der Regressionsanalyse stellt das Bestimmtheitsma R2 ein wichtiges Hilfsmittel dar. Das Bestimmtheitsma wird interpretiert als Anteil der Information von Y , die durch X erkl art wird, relativ zur gesamten Information von Y . Je gr oer R2 ist, desto h oher ist der Anteil der durch X erkl arten Streuung von Y . Daher liegt R2 zwischen 0 und 1, wobei R2 = 0 bedeutet, dass X und Y unkorreliert sind und R2 = 1, dass Y exakt durch X vorhergesagt werden kann.

4.3 Lineare Regression

71

Beispiel In der Datei Blutdruck.sav soll analog zu obigem Beispiel die Regressionsgerade f ur die Beziehung des Cholesterinausgangswertes und dem Blutdruck nach einem Monat bestimmt werden.

Durchfu hrung

Analysieren Regression Linear Abh angige Variable: Blutdruck 1 Unabh angige Variable: Cholesterin 0 Methode: Einschluss ok

Abbildung 4.7: Eingabemen u Lineare Regression

72

4. Woche 3

Ausgabe

Abbildung 4.8: Ausgabetabellen der linearen Regression

Interpretation Das Ergebnis der Regressionsanalyse ist in der letzten Tabelle zu nden. Hier werden die Parameter in der Spalte nicht-standardisierte Koezienten, B ausgegeben. In dieser Spalte benden sich zwei Werte. Der mit Konstante bezeichnete Wert gibt den Ordinatenschnittpunkt a an, der Wert in der Zeile Cholesterin 0 gibt den Regressi onskoezienten b an. Dies f uhrt zu folgender Regressionsgleichung: Blutdruck nach 1 Monat = 12, 611+0, 655Cholesterin zu Beginn der Studie (4.3.6)

4.3 Lineare Regression

73

Bei einem Cholesterin-Ausgangswert von z. B. 200 l asst hiernach ein Blutdruck von ca. 118 mmHg nach einem Monat Therapie erwarten. Hat ein Patient im Vergleich mit einem anderen Patienten einen um 10 Einheiten erh ohten Cholesterin-Ausgangswert, so ist bei diesem Patienten ein um 6,55 mmHg h oherer Blutdruck nach einem Monat zu erwarten. Das Bestimmtheitsma R2 hat einen Wert von 0, 451 (siehe erste Tabelle), was einer m aigen Anpassung entspricht. Anhand des Cholesterin-Ausgangswertes und dem gesch atzten funktionalen Zusammenhang l asst sich der Blutdruck nach einem Monat nur vage vorhersagen.

74

4. Woche 3

4.4

Ubungsaufgaben

In dieser Ubung sollen Sie den Zusammenhang von Cholesterin Ausgangswert und Cholesterin nach einem Monat untersuchen. 1. Zeichnen Sie ein Streudiagramm, das den Zusammenhang von Cholesterin an den beiden Zeitpunkten aufzeigt. Unterscheiden Sie dabei zwischen den beiden Behandlungsgruppen. (Hinweis: Gruppiertes Streudiagramm) Zeichnen Sie auerdem eine Regressionsgerade durch die Punktwolke. 2. Besteht ein Zusammenhang zwischen den Cholesterinwerten an beiden Zeitpunkten? Berechnen Sie dazu geeignete Korrelationskoezienten. Wie interpretieren Sie das Ergebnis? 3. F uhren Sie eine lineare Regressionsanalyse durch, um den in Ubung 1 gezeichneten Zusammenhang zu quantizieren. Wie lautet die Geradengleichung? Wie m ussten die Regressionskoezienten lauten, wenn keine Anderung des Cholesterins nach einem Monat stattgefunden h atte? Oft ist interessant, ob sich im Gesamtkollektiv eine Erh ohung oder Verringerung des Cholesterinspiegels nach einem Monat eingestellt hat. Wie m usste die Skalie rung der Grak aus Ubung 1 angepasst werden, damit diese Frage visuell beantwortet werden kann? 4. F uhren Sie nun eine erneute Regressionsanalyse durch, nachdem folgene Einstellungen ge andert wurden: Daten Datei aufteilen Gruppen vergleichen ausw ahlen

Behandlung zu Gruppen basieren auf: hinzuf ugen ok

Vergessen Sie nicht, nach Bearbeitung der Aufgabe die Teilung des Datensatzes wieder aufzuheben.

4.5 L osungsvorschlag

75

4.5

L osungsvorschlag

1. Streudiagramm

Abbildung 4.9: Punktwolke mit Regressionsgerade

76

4. Woche 3

2. Korrelation

Abbildung 4.10: Pearson und Spearman Korrelationskoezienten

Die Korrelation zwischen dem Cholesterin-Anfangswert und dem nach einem Monat betr agt 0,613 (Pearson) bzw. 0,604 (Spearman), d.h. es besteht ein positiver Zusammenhang. Ein hoher Wert zu Studienbeginn spricht tendenziell f ur einen h oheren Wert nach einem Monat. Die beiden Werte unterscheiden sich nicht sehr stark, weshalb ein linearer Zusammenhang angenommen werden kann.

4.5 L osungsvorschlag

77

3. Regression

Abbildung 4.11: lineare Regression

Geradengleichung: y = 82, 345 + 1, 349 x H atte es keine Anderung im Cholesterinwert gegeben, so w urde die Geradengelichung folgendermaen aussehen: y =0+1x

F ur die visuelle Beantwortung obiger Frage m ussten die Achsen gleich skaliert werden und idealerweise die Winkelhalbierende miteingezeichnet werden.

78

4. Woche 3

Abbildung 4.12: Streudiagramm mit der Winkelhalbierenden

4.5 L osungsvorschlag

79

4. Regression nach Datenaufteilung

Abbildung 4.13: lineare Regression aufgeteilt nach Behandlungsgruppen

80

4. Woche 3

Kapitel 5

Woche 4
Ein statistischer Test dient zum Uberpr ufen einer statistischen Hypothese. Man kann mit ihm u ufen, ob f ur bestimmte beobachtete Eekte in Stichprobendaten (z. B. berpr Mittelwertunterschiede) der Zufall als Ursache mit einer vorgegebenen Irrtumswahrscheinlichkeit ausgeschlossen werden kann. Statistisch signikant bedeutet also nichts anderes als wahrscheinlich nicht durch Zufall zu erkl aren. Die Wahrscheinlichkeit, mit der z. B. der beobachtete Mittelwertunterschied oder noch gr oere Unterschiede in der Stichprobe auftreten, falls in der Grundgesamtheit tats achlich kein Unterschied besteht, heit p-Wert. Der p-Wert ist eine Wahrscheinlichkeit und nimmt daher nur Werte zwischen 0 und 1 an. Unterschreitet der p-Wert ein zuvor festgelegtes Signikanzniveau von z. B. 5%, so gilt das Resultat des statistischen Tests als signikant und damit die Alternativhypothese (Unterschied zwischen den Gruppen in der Grundgesamtheit) als wahrscheinlich. Liegt der p-Wert u ber dem Signikanzniveau, so konnte ein Unterschied nicht nachgewiesen werden. Dies heit aber nicht, dass kein Unterschied besteht. Es bedeutet nur, dass die Nullhypothese (kein Unterschied zwischen den Gruppen) zu wahrscheinlich ist, um abgelehnt werden zu k onnen.

82

5. Woche 4

5.1

Der Chi-Quadrat-Test

Hintergrund Der Chi-Quadrat-Test wird angewendet, wenn ein H augkeitsvergleich zwischen zwei oder mehreren Gruppen bez uglich einer kategorialen Zielgr oe durchgef uhrt werden soll. Voraussetzung f ur die Anwendbarkeit ist, dass die erwartete H augkeit in h ochstens 20% der Zellen kleiner als 5 ist. Die zugrundeliegenden zweiseitigen statistischen Hypothesen lauten: H0 : A und B sind unabh angig, d.h. das Merkmal B besitzt in jeder der Kategorien von A die gleiche H augkeitsverteilung und umgekehrt. H1 : A und B sind nicht unabh angig, d.h. mindestens zwei Kategorien von B unterscheiden sich in ihrer H augkeitsverteilung bzgl. A und umgekehrt. Um den p-Wert auszurechnen muss zun achst einmal berechnet werden, welche Werte in der Stichprobe in den einzelnen Gruppen zu erwarten w aren, falls H0 zutrit. Unter der allgemeinen Annahme, dass A m und B k kategoriale Auspr agungen besitzen, lassen sich die in der Stichprobe beobachteten H augkeiten ni,j der jeweiligen Kategorien (i, j ) in einer Kontingenztafel wie folgt darstellen: A 1 ... m

1 n11 . . . n1m n1. 2 . . . n21 . . . n2m n2. . . . .. . . . . . . .

k nk1 . . . nkm nk. n .1 ... n.m n

5.1 Der Chi-Quadrat-Test

83

Mithilfe der Kontingenztabelle k onnen die erwarteten H augkeiten berechnet werden als ni. ni. n.j n.j = n n

eij =

(5.1.1)

Im n achsten Schritt wird die Teststatistik berechnet. Diese gibt an, wie stark sich die gezogene Stichprobe von der erwarteten H augkeit unterscheidet. Ist dieser Unterschied gro, so spricht dies f ur die Alternativhypothese, d. h. dass es tats achlich einen Unterschied in der Grundgesamtheit gibt. Die Teststatistik des Chi-Quadrat-Tests ist gegeben als 2 = (nij eij )2 eij i=1 i=1
k m

(5.1.2)

Vereinfacht kann man die Teststatistik auch darstellen als =


2

(B E )2 E

(5.1.3)

also als quadrierte Dierenz der beobachteten (B) zu den erwarteten (E) H augkeiten relativ zu den erwarteten H augkeiten. Das Quadrat im Z ahler dient dazu, negative Dierenzen zu vermeiden (siehe auch Formel f ur die Varianz). Basierend auf dieser Teststatistik lassen sich die p-Werte des Tests u ber die Integration der Dichte der 2 -Verteilung berechnen. Beispiel Im Datensatz Blutdruck.sav soll untersucht werden, ob die H augkeiten der Nebenwirkung M udigkeit mit dem BMI (Einteilung anhand der BMI-Kategorien) assoziiert ist.

84

5. Woche 4

Durchfu hrung Analysieren Deskriptive Statistiken Kreuztabellen Zeilen: BMI kat Spalten: Diabetes Exakt: Weiter Statistiken: Weiter Zellen: Weiter ok Beobachtet und Prozentwerte Zeilenweise anhaken Chi-Quadrat anhaken Exakt anhaken

Abbildung 5.1: Eingabemen u Kreuztabellen

5.1 Der Chi-Quadrat-Test

85

Ausgabe

Abbildung 5.2: Ausgabe der Kreuztabelle

Interpretation Die erste Tabelle zeigt auf, wieviele Beobachtungen in die Analyse eingehen. In der zweiten Tabelle ist die Kontingenztabelle zu nden. In der ersten Zeile werden dabei die beobachteten absoluten, in der zweiten Zeile die relativen H augkeiten abgetragen. In der dritten Tabelle ist das Ergebnis des statistischen Tests zu nden. Alle Zellen weisen eine erwartete H augkeit gr oer 5 auf, so dass die Voraussetzung f ur die Testdurchf uhrung erf ullt ist (Funote a). Der exakte p-Wert des Pearson-Chi-Quadrat-Tests

86

5. Woche 4

ist in der Spalte Exakte Signikanz (2-seitig) zu nden. Der p-Wert ist mit einem Wert von 0,838 gr oer als das Signikanzniveau (0,05). Somit kann die Nullhypothese nicht abgelehnt werden. Ein Unterschied in der M udigkeitsverteilung in den BMI-Kategorien ist nicht nachweisbar.

5.2

Uberpr u fung der Normalverteilung

Hintergrund Ein wichtiges Kriterium f ur die Testauswahl beim Gruppenvergleich eines stetigen Merkmals ist die Normalverteilung. Eine ganze Klasse von statistischen Tests, die sogenannten parametrischen Tests setzen voraus, dass das stetige (quantitative, metrische) Merkmal einer bestimmten Verteilung folgt. Jede Normalverteilung kann anhand von zwei Parametern beschrieben werden, dem Mittelwert und der Varianz. Diese zwei Parameter legen die gesamte Form der Kurve und damit die Verteilung fest. Nimmt man die Normalverteilung f ur das zugrundeliegende Merkmal an, so werden alle Informationen aus den Daten auf diese beiden Mazahlen reduziert. Somit ist die Normalverteilungsannahme mit weitreichenden Konsequenzen verbunden. Wichtige Eigenschaften der Normalverteilung sind unter anderem: Symmetrie um den Mittelwert (theoretischer) Wertebereich (; ) stetig, d. h. jeder Wert der x-Achse kann angenommen werden Es ist deshalb auf jeden Fall vorab zu untersuchen, ob eine Normalverteilung vorliegt bzw. vorliegen kann. F ur parametrische Gruppenvergleiche wird die Normalverteilung in jeder Gruppe ben otigt. Zur explorativen Diagnose eignet sich das Histogramm sehr gut. Das Histogramm dient zur Darstellung der H augkeitsverteilung. Ausgangspunkt f ur die Aufstellung einer H augkeitsverteilung ist immer die Zusammenfassung von Merkmalsauspr agungen zu Klassen. Bei metrischen Variablen m ussen diese Klassen k unstlich festgelegt

5.2 Uberpr u fung der Normalverteilung

87

werden. F ur die Anzahl der Klassen und damit der Wahl der Klassenbreite existie ren Faustregeln, also Empfehlungen, beispielsweise Anzahl der Klassen k = [ n] oder k = [10 log10 n]. Die Zuordnung zu Klassen hat hier den Sinn einer Zusammenfassung der Daten. Das Histogramm ist ein spezielles Balkendiagramm, bei dem die Balken unmittelbar aneinander grenzen. Die H ohe der Balken entspricht dem Anteil, den die Klasse in der Gesamtstichprobe einnimmt. Die Breite der Balken ist so normiert, dass sich die Fl ache der Balken zu eins aufsummiert. Beispiel Im Datensatz Blutdruck.sav soll der Blutdruck nach einem Monat (Blutdruck 1) in den beiden Behandlungsgruppen auf Normalverteilung untersucht werden. Dazu soll ein Histogramm f ur jede Behandlungsgruppe gezeichnet werden. Zur besseren Interpretation soll das Histogramm mit der Dichte der entsprechenden Normalverteilung u berlagert werden. Durchfu hrung Analysieren Deskriptive Statistiken Explorative Datenanalyse Abh angige Variablen: Blutdruck 1 Faktorenliste: Behandlung Anzeige: Diagramme Diagramme... Deskriptiv Boxplots ok Histogramm anhaken keine Weiter

88

5. Woche 4

Abbildung 5.3: Eingabemen u Explorative Datenanalyse

Abbildung 5.4: Eingabemen u Explorative Datenanalyse: Diagramme

5.2 Uberpr u fung der Normalverteilung

89

Zum nachtr aglichen Anzeigen der u berlagerten Normalverteilungskurve wechseln Sie durch Doppelklick auf die Grak in den Diagramm-Editor. W ahlen Sie den Button Verteilungskurve anzeigen. Bitte schlieen Sie danach den Diagramm-Editor wieder.

Ausgabe

Abbildung 5.5: Histogramm mit Normalverteilungskurve f ur Behandlung 0

90

5. Woche 4

Abbildung 5.6: Histogramm mit Normalverteilungskurve f ur Behandlung 1

Interpretation Es sind keine gravierenden Abweichungen von der Normalverteilungskurve sichtbar. Der visuelle Eindruck ist jedoch stark von der Wahl der Klassenbreite abh angig.

5.3 Der t-Test

91

5.3

Der t-Test

Mit dem t-Test wird die mittlere Lage eines stetigen Merkmals in zwei Gruppen miteinander verglichen (Mittelwertvergleich). Man unterscheidet nach der Art des Vergleichs zwischen t-Tests f ur verbundene Stichproben, z. B. Vorher-Nachher-Vergleiche und t-Tests f ur unverbundene Stichproben, z. B. Vergleich zweier Behandlungsgruppen. 5.3.1 t-Test fu r unverbundene Stichproben

Hintergrund Voraussetzung f ur die Anwendbarkeit des t-Tests ist die Normalverteilung in jeder Gruppe. Weiterhin m ussen die zu vergleichenden Gruppen unabh angig sein. Die Unabh angigkeit ist i. d. R. dann gegeben, wenn die Gruppen unterschiedliche, nichtverwandte Beobachtungseinheiten, die zuf allig aus der Grundgesamtheit gezogen wurden, enthalten. Die zweiseitigen Hypothesen f ur den Mittelwertvergleich einer stetigen, normalverteilten Variablen X in zwei Gruppen lauten: H0 : 1 = 2 H1 : 1 = 2 wobei k =
1 nk nk i=1

xi das arithmetische Mittel von X u ber alle Beobachtungseinheiten

der Gruppe k darstellt, mit k {1, 2} f ur den Fall eines 2-Gruppen-Vergleichs. Als Testgr oe wird die sogenannte t-Statistik verwendet. Die mit t bezeichnete Gr oe setzt sich zusammen aus dem Betrag der Dierenz der Mittelwerte geteilt durch die Streuung der durchschnittlichen Dierenz. Groe Werte der Testgr oe sprechen f ur die Alternativhypothese. Anhand der Testgr oe und der Verteilung der Testgr oe (tVerteilung) l asst sich der p-Wert berechnen. Beispiel Die Hauptfragestellung der Blutdruckstudie (Datei Blutdruck.sav) besteht darin, die beiden Medikamente Alphasan und Betasan hinsichtlich ihrer blutdrucksenkenden Wir-

92

5. Woche 4

kung miteinander zu vergleichen. Die Behandlungsgruppen setzen sich aus einem dis junkten Patientenkollektiv zusammen, so dass nach Uberpr ufung der Normalverteilung in Kapitel 5.2 der t-Test f ur unverbundene Stichproben angewendet werden kann. Durchfu hrung Analysieren Mittelwerte vergleichen t-Test bei unabh angigen Stichproben Testvariable(n): Blutdruck 1 Gruppenariable: Behandlung Gruppen def...: Weiter ok Angegebene Werte verwenden: Gruppe 1:0, Gruppe 2:1

Abbildung 5.7: Eingabemen u t-Test bei unabh angigen Stichproben

5.3 Der t-Test

93

Ausgabe

Abbildung 5.8: Ausgabe t-Test bei unabh angigen Stichproben

Interpretation Neben dem eigentlichen Ergebnis des t-Tests umfasst die Ausgabe noch die Fallzahl, Mittelwert und Streuung in beiden Gruppen sowie den Levene-Test auf Varianzhomo genit at. Ublicherweise verwirft man die Varianzhomogenit at, wenn der Levene-Test ein p < 0, 05 (bzw. manchmal auch p < 0, 10) ergibt. Das bedeutet, dass die Annahme der gleichen Varianzen nicht zutrit und in obigem Output die zweite Zeile Varianzen sind nicht gleich verwendet werden muss. Im Beispiel kann die erste Zeile verwendet werden. Dabei ergibt sich eine mittlere Differenz von 4,980 mmHg (95%-KI = [1,259; 8,701]) Der p-Wert betr agt 0,009, was aquivalent dazu ist, dass die 0 nicht im 95%-Kondenzintervall enhalten ist (p<0,05). Die Nullhypothese wird also zum Signikanzniveau 5% abgelehnt, d. h. die Behandlungsgruppen unterscheiden sich hinsichtlich des Blutdrucks nach einem Monat signikant voneinander. Es existiert also ein Unterschied in der Wirkung der beiden Medikamente: unter Betasan-Behandlung ist der Mittelwert des Blutdrucks nach 1 Monat kleiner als in der Alphasan-Behandlungsgruppe, d.h. dieses Medikament senkt den Blutdruck besser.

94

5. Woche 4

5.3.2

t-Test fu r verbundene Stichproben

Hintergrund Sind die zu vergleichenden Messwerte voneinander abh angig, wie dies typischerweise bei Vorher-Nachher-Vergleichen auftritt, so muss dies ber ucksichtigt werden. Beim t-Test f ur abh angige Stichproben wird eine Normalverteilung der Dierenzen vorausgesetzt. Patienten, die zu Studienbeginn hohe Blutdruckwerte aufweisen, werden am Studienende vermutlich auch h ohere Werte als andere Patienten haben. Es k onnen nur solche Beobachtungen in den Test einieen, bei denen zu beiden Zeitpunkten Messwerte erhoben wurden. Die zweiseitigen Hypothesen f ur den Mittelwertvergleich einer stetigen, normalverteilten Variablen X zu zwei Zeitpunkten lauten: H0 : = 2 1 = 0 H1 : = 2 1 = 0 wobei j =
1 nj nj i=1

xi das arithmetische Mittel von X u ber alle Beobachtungseinheiten

zum Zeitpunkt j darstellt. Bei 2 Zeitpunkten ist j {1, 2}. Die Testgr oe stellt wiederum die t-Statistik dar. Der Z ahler wird durch die Dierenz der jeweils zusammengeh origen Wertepaare (x1,i , x2,i ) gebildet (vgl. unabh angige Stichproben: Dierenz der Mittelwerte). Im Nenner wird analog zur Eektgr oe bei unabh angigen Stichproben die Streuung der Wertepaardierenzen abgetragen. Basierend auf der Testgr oe kann der p-Wert bestimmt werden. Beispiel Nun soll u uft werden, ob sich der systolische Blutdruck w ahrend der Studie signiberpr kant ge andert hat (Datei Blutdruck.sav).

5.3 Der t-Test

95

Durchfu hrung Analysieren Mittelwerte vergleichen t-test bei verbundenen Stichproben gepaarte Variablen: Blutdruck 0, Blutdruck 2 (Studienende) ok

Abbildung 5.9: Eingabemen u t-test bei verbundenen Stichproben

96

5. Woche 4

Ausgabe

Abbildung 5.10: Ausgabe t-Test bei verbundenen Stichproben

Interpretation Die Ausgabe beginnt mit einer Tabelle, in der deskriptive Mazahlen der beiden Gruppen zu nden sind. Eine zweite Tabelle gibt die Korrelation der beiden Variablen an. Das Ergebnis des t-Tests ist in der dritten Tabelle dargestellt. In der letzten Spalte (Sig. (2-seitig)) ist der p-Wert zu nden. In diesem Beispiel hat der p-Wert einen Wert < 0, 001, eine signikante Blutdrucksenkung konnte nachgewiesen werden. Mithilfe der ersten Spalte erkennt man, dass der systolische Blutdruck im Mittel um 5,125 mmHg (95%-KI = [4,092; 6,158]) gesenkt werden konnte.

5.4 Ubungsaufgaben

97

5.4

Ubungsaufgaben

Alle Ubungsaufgaben sind anhand des Datensatzes Blutdruck.sav zu l osen. Versuchen Sie alle Aufgaben mithilfe eines statistischen Tests zu beantworten. 1. Untersuchen Sie, ob sich die beiden Behandlungsgruppen in der Blutdrucksenkung um mindestens 10 mmHg unterscheiden. Erstellen Sie dazu zun achst eine neue Variable BD Senkung gr10: ja/nein und vergleichen Sie die beiden Behandlungsgruppen hinsichtlich dieser Variable. 2. Gibt es signikante Unterschiede zwischen den Behandlungsgruppen beim Cholesterinwert nach einem Monat? 3. Untersuchen Sie, ob und wie sich die Cholesterinwerte im Studienverlauf ver andert haben.

98

5. Woche 4

5.5

L osungsvorschlag

1. Chi-Quadrat-Test Zur Berechnung der neuen Variable: Transformieren Variable berechnen Zielvariable: BD Senkung gr10 Numerischer Ausdruck: Blutdruck 0 - Blutdruck 1 >= 10 Ok

Abbildung 5.11: Eingabemen u: neue Variable berechnen

5.5 L osungsvorschlag

99

Abbildung 5.12: Ausgabe der Kreuztabelle mit Chi-Quadrat-Test

Der p-Wert ist kleiner als das Signikanziveau von 0,05. Somit kann die Nullhypothese (Gleichheit) abgeleht werden, d.h. es besteht ein statistisch signikanter Unterschied zwischen den beiden Behandlungsgruppen hinsichtlich der Senkung des Blutdrucks um mindestens 10 mmHg.

100

5. Woche 4

2. Als Voraussetzung f ur den t-Test muss zuerst die Normalverteilungsannahme u berpr uft werden:

Abbildung 5.13: Histogramm mit Normalverteilungskurve f ur Alphasan-Behandlungsgruppe

Abbildung 5.14: Histogramm mit Normalverteilungskurve f ur Betasan-Behandlungsgruppe

5.5 L osungsvorschlag

101

Abbildung 5.15: Ausgabe t-Test f ur unabh angige Stichproben

Der p-Wert von 0,340 liegt u ber dem Signikanzniveau (0,05), so dass die Nullhypothese nicht abgelehnt werden kann. Das bedeutet, die Behandlungsgruppen unterscheiden sich nicht signikant voneinander hinsichtlich des Cholesterinspiegels nach einem Monat. 3. t-Test f ur verbundene Stichproben

Abbildung 5.16: Ausgabe t-Test f ur verbundene Stichproben

Auch hier liegt der p-Wert 0,773 deutlich u ber dem Signikanzniveau von 0,05. Es konnte also keine signikante Ver anderung des Cholesterinwertes innerhalb eines Monats festgestellt werden.

102

5. Woche 4

Kapitel 6

Anhang
Datens atze
Fitness-Daten
Variablenname id Ubungsleiter Workout Alter RuheFre1 Messung2 Messung3 Geschlecht Erkl arung Patientennummer ungsleiter Durchf uhrender Ub Anzahl an Workouts pro Woche Alter des Patienten Atemfrequenz des Patienten im Ruhezustand vor Beginn des Trainings Atemfrequenz des Patienten im Ruhezustand nach einem Monat Atemfrequenz des Patienten im Ruhezustand nach drei Monaten Geschlecht des Patienten

104 id 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 Ubungsleiter Amund Amund Amund Amund Amund Amund Amund Amund Amund Amund Amund Amund Amund Amund Amund Amund Czika Czika Czika Czika Czika Czika Czika Czika Czika Czika Czika Czika Reed Reed Reed Reed Reed Reed Reed Reed Yang Yang Yang Yang Yang Yang Yang Yang Yang Workout 1 1 1 2 2 2 2 2 2 2 2 3 3 3 3 3 1 1 1 2 2 2 3 3 3 3 4 4 1 1 2 2 2 2 3 4 1 1 2 2 2 2 3 3 4 Alter 23 31 32 48 22 45 27 26 26 48 36 25 23 46 24 29 36 28 24 24 30 44 25 24 23 29 27 46 25 28 37 23 37 42 33 39 28 28 30 26 48 41 31 RuheFre1 68 84 72 72 78 60 90 66 84 66 66 54 66 54 72 54 70 80 76 74 82 66 78 60 72 54 66 62 84 88 84 78 72 72 60 56 90 96 86 78 74 72 76 60 66 Messung2 65 81 68 68 75 60 87 62 80 62 62 54 62 56 68 52 68 76 76 70 78 64 76 58 68 52 62 60 82 86 82 76 70 70 58 56 88 92 84 76 72 70 72 60 64 Messung3 65 75 65 66 73 64 85 60 78 60 60 52 62 56 70 50 66 74 74 72 76 62 76 56 66 50 62 60 82 84 82 74 68 66 56 54 82 90 80 74 70 68 68 58 68

6. Anhang Geschlecht 2 2 2 2 2 1 1 1 2 2 2 1 2 2 1 1 2 2 2 2 1 2 2 2 1 1 2 1 1 2 2 2 1 2 1 2 2 1 1 1 1 2 1 1 2

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45

105

Blutdruck-Daten
Variablenname ID Beh. BD 0 BD 1 BD 2 M ud. BMI Geschl. Alter Chol 0 Chol 1 Groesse Diab Erkl arung Probandennummer Medikament Systolischer Blutdruck zu Studienbeginn Systolischer Blutdruck nach einem Monat Systolischer Blutdruck nach einem Jahr Nebenwirkung M udigkeit BMI-Kategorien Geschlecht Alter in Jahren Cholesterin zu Beginn der Studie Cholesterin nach einem Monat K opergr oe Nebenerkrankung Diabetes

ID

Beh.

BD 0

BD 1

BD 2

M ud.

BMI

Geschl.

Alter

Chol 0

Cholt 1

Groesse

Diab.

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25

1 1 0 0 1 0 0 1 0 0 0 0 1 0 0 0 0 0 0 1 1 1 1 1 1

156 138 148 162 138 156 151 148 152 154 146 168 156 131 142 158 148 147 157 158 136 158 164 140 139

146 127 140 154 126 147 145 137 147 146 140 160 144 121 132 155 141 137 151 149 124 150 150 128 130

150 137 147 155 131 145 143 140 151 148 153 174 151 133 122 160 143 140 155 156 120 163 153 131 133

0 1 0 0 0 0 0 1 0 0 0 0 1 1 0 0 0 0 0 1 0 1 1 0 0

1 0 0 2 1 0 1 1 2 1 1 1 0 1 1 1 2 1 1 1 0 1 1 0 0

1 1 0 1 1 1 1 0 0 0 1 0 1 1 1 1 0 0 0 0 0 1 0 0 0

62 67 56 65 67 59 46 60 65 61 61 58 49 50 67 61 67 60 58 56 62 49 60 68 60

238 225 234 247 225 235 217 238 247 245 227 256 225 201 229 239 245 237 245 244 228 227 254 238 229

254 228 225 244 221 224 229 245 266 239 236 252 231 169 203 272 241 214 260 271 225 266 248 237 253

172 193 166 199 177 188 172 177 175 168 181 166 176 173 166 174 169 179 177 175 167 183 162 165 171

0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

106
ID Beh. BD 0 BD 1 BD 2 M ud. BMI Geschl. Alter Chol 0 Cholt 1

6. Anhang
Groesse Diab.

26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75

0 0 1 0 0 0 1 0 0 0 0 0 0 1 1 0 0 1 1 0 0 0 0 1 1 1 0 1 0 0 0 0 0 0 1 1 0 1 1 0 1 1 1 1 1 1 1 1 0 1

168 137 152 132 162 161 167 144 172 151 136 133 148 144 150 141 155 162 159 149 151 148 146 147 130 144 142 156 148 148 163 153 167 163 155 152 149 148 161 144 136 141 145 139 158 141 138 149 150 143

163 129 137 126 154 157 157 138 167 142 128 121 139 130 132 135 147 147 148 142 147 142 139 136 118 132 132 145 142 138 153 142 161 155 142 141 144 139 146 139 121 129 132 134 145 130 124 137 143 133

162 128 133 130 156 159 162 141 177 144 135 120 141 131 136 142 155 154 154 145 147 142 141 136 122 135 144 148 148 146 159 149 161 166 148 150 149 140 156 150 123 135 135 140 151 129 129 137 145 137

0 0 0 0 0 0 0 1 0 0 1 0 0 0 1 0 1 0 0 0 0 0 0 1 0 0 0 1 0 1 0 0 0 0 1 0 0 1 0 0 1 1 0 0 0 1 0 0 0 1

2 1 1 0 1 0 0 0 1 0 0 1 1 1 2 1 1 2 0 0 2 1 0 1 0 0 0 2 0 1 2 1 2 0 2 0 0 2 1 0 0 1 2 0 1 0 1 1 1 0

1 1 1 0 0 1 0 0 1 1 0 1 0 1 1 1 1 0 1 1 1 1 0 0 0 0 0 0 1 1 0 0 1 1 1 1 0 0 0 0 0 1 1 0 1 0 1 1 1 0

59 61 57 68 62 64 55 59 52 58 56 63 58 58 67 67 43 59 45 62 63 65 54 56 65 67 66 68 59 46 63 66 61 56 56 46 57 62 52 59 68 66 60 58 59 60 68 57 61 61

247 218 229 230 254 245 252 233 244 229 222 216 236 222 237 228 218 251 224 231 234 233 230 233 225 241 238 254 227 214 256 249 248 239 231 218 236 240 243 233 234 227 225 227 237 231 226 226 231 234

268 205 207 230 251 275 277 242 265 213 209 172 218 205 190 235 214 236 235 234 255 238 233 240 221 235 208 264 232 190 235 215 266 237 223 228 250 267 225 247 203 227 212 281 234 236 205 228 234 251

189 179 181 152 156 182 169 156 177 175 161 187 163 162 168 182 183 163 187 182 189 180 163 161 159 153 171 172 171 180 155 166 178 175 171 168 157 164 162 168 155 184 172 170 168 165 161 174 175 163

0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 1 0 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

107
ID Beh. BD 0 BD 1 BD 2 M ud. BMI Geschl. Alter Chol 0 Cholt 1 Groesse Diab.

76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120

1 1 1 0 0 0 0 0 0 0 0 0 0 1 1 1 0 0 1 1 0 0 0 0 1 0 0 0 0 0 0 1 0 0 1 0 0 1 1 0 0 1 1 0 1

155 165 146 151 173 157 139 145 156 145 143 143 159 141 150 155 144 144 154 140 145 148 138 144 144 147 165 157 136 148 150 153 144 159 142 164 161 167 147 156 150 161 174 139 158

142 154 137 146 160 149 128 138 148 137 139 133 151 128 140 143 136 135 145 129 142 142 130 135 132 139 158 149 129 141 140 140 136 155 126 158 153 157 130 151 144 149 165 134 143

139 157 128 156 173 148 126 143 149 136 139 138 156 131 137 144 140 142 155 125 146 144 142 141 134 148 165 156 132 148 145 148 147 156 136 168 153 164 129 152 144 151 177 144 147

1 0 1 1 0 0 0 0 0 1 0 1 1 0 0 1 0 0 0 0 1 1 0 0 1 1 0 0 0 0 0 0 0 1 1 1 1 0 0 0 0 1 1 0 0

0 2 0 1 2 2 0 1 1 1 0 0 0 1 2 0 0 0 1 0 0 0 1 0 0 2 1 1 0 0 1 2 0 1 0 2 1 1 0 1 2 1 1 1 1

0 0 0 1 1 0 0 0 1 1 0 0 1 1 1 1 0 0 1 1 0 0 1 0 0 1 1 1 0 0 0 1 0 0 0 1 1 1 1 1 1 0 1 0 1

58 58 67 66 61 59 58 59 65 59 52 57 61 60 56 65 68 59 60 48 63 55 63 65 61 60 63 58 55 47 47 57 62 61 61 57 57 67 64 61 55 59 57 59 55

243 253 243 237 254 246 227 234 241 224 225 230 240 221 226 240 242 233 234 208 238 233 221 239 235 227 248 235 221 225 227 230 236 250 233 241 238 254 231 237 225 250 251 228 233

238 265 267 250 218 241 190 234 236 211 246 205 233 212 244 245 236 213 261 212 270 243 211 219 234 215 253 231 217 222 205 225 222 282 197 253 232 275 189 255 235 256 283 240 213

165 163 156 176 188 160 175 161 171 188 168 179 167 178 179 192 166 163 181 170 169 160 184 172 176 173 155 168 149 172 161 200 161 172 171 182 180 172 176 181 179 182 170 159 175

0 0 0 0 1 1 0 0 0 0 0 0 0 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

108

6. Anhang

Software
Die im Rahmen des Kurses verwendete Software umfasst EXCEL f ur Windows, als Teil des Microsoft Oce 2003 Pakets und SPSS Version 19 f ur Windows. Microsoft Oce und damit auch EXCEL sind auf den meisten Computern installiert und somit weithin verf ugbar, unter anderem auch auf den Rechnern im LUTZ. Lizenzen f ur das SPSS Softwarepaket sind f ur Angeh orige der M unchener Hochschulen u ur weitere Informationen zum ber das Leibniz-Rechenzentrum (LRZ) zu beziehen. F Bezug von SPSS u ber das LRZ wenden Sie sich bitte an deren Benutzersekretariat in der Eingangshalle des LRZ-Geb audes (Boltzmannstrae 1, 85748 Garching) oder erkundigen sich auf der Homepage http://www.lrz-muenchen.de/services/swbezug/lizenzen/spss/.

Ausgefu llter CRF-Bogen


Auf den folgenen Seiten nden Sie ein Beispiel f ur einen ausgef ullten CRF-Bogen.

Literaturverzeichnis
[1] P. B uhl, A. Z ofel. SPSS 13. Addison-Wesley- Pearson Studium, M unchen, 9. edition, 2004. [2] J. Bortz and G. A. Lienert. Kurzgefate Statistik f ur die klinische Forschung. Springer, Berlin, 2003. [3] L. Fahrmeier, R. K unstler, I. Pigeot, and G. Tutz. Statistik - Der Weg zur Datenanalyse. Springer, Heidelberg, 4. edition, 2004. [4] S. A. Glantz. Primer of Biostatistics. McGraw-Hill Medical Publishing, 2001. [5] V. Harms. Biomathematik, Statistik und Dokumentation. Harms, Kiel, 1998. [6] C. McMurray I. MacMurray I. Hinton, P. R. Brownlow. SPSS Explained. Routledge, 2004. [7] Wolfgang K ohler, Gabriel Schachtel, and Peter Voleske. Biostatistik. Springer, 1995. [8] P. R. Kinnear and C. D. Gray. SPSS for Windows Made Simple. Psychology Press (UK), 2004. [9] N. L. Leech, K. C. Barrett, and G. A. Morgan. SPSS for Intermediate Statistics: Use and Interpretation with CDROM. Lawrence Erlbaum Associates, 2005. [10] K. Rinne. SPSS. Franzis, 2003.

Das könnte Ihnen auch gefallen