Sie sind auf Seite 1von 4

Lernhilfe UE „Quantitative Methoden der empirischen Sozialforschung“

Wintersemester 2019 / 2020

Merkblatt: Zur Interpretation von Signifikanztests

Der Begriff der „Signifikanz“ bezeichnet in der quantitativen Sozialforschung Ergebnisse der
Hypothesenprüfung mittels Stichproben von denen mit angebbarer Wahrscheinlichkeit
angenommen werden kann, dass diese auch in der Grundgesamtheit vorzufinden sind. Was
bedeutet „Signifikanz“ aber genau und wie ist diese zu bestimmen? Diese Frage soll nun
beantwortet werden.

Wie bereits bekannt gehen alle statistischen Tests, die wir bislang kennengelernt haben (und
eigentlich alle empirischen Forschungsarbeiten) von Nullhypothesen aus. Die
Nullhypothesen bezeichnet dabei jene Hypothese, die für einen Test forschungsleitend ist. Es
sind aber nicht zwangsläufig auch jene Hypothesen an der/die Forschende eigentlich
interessiert sind: Nullhypothesen postulieren in vielen Fällen, dass kein Zusammenhang bzw.
kein Unterschied besteht – in den meisten Fällen sind wir jedoch an der Untersuchung von
Zusammenhängen und Unterschieden interessiert! Dennoch handelt es sich bei
Nullhypothesen um jene Hypothesen, die im Forschungsprozess widerlegt oder (vorläufig)
bestätigt werden müssen. Dabei hat jeder statistische Test bzw. jede Art statistischer Tests
unterschiedliche Annahmen und daher auch unterschiedliche Nullhypothesen.

Die Nullhypothese des Chi-Quadrat Tests besagt, dass kein Zusammenhang zwischen den
Variablen X und Y besteht. Die Nullhypothese des t-Tests geht davon aus, dass Gruppe A
und Gruppe B gleiche Mittelwerte haben und daher kein Unterschied zwischen den Gruppen
besteht. Die Nullhypothese des Shapiro-Wilk Tests besagt, dass die Merkmale in der
Grundgesamtheit normalverteilt sind. Jeder Test hat somit eine eigene Nullhypothese. Die
Alternativhypothese ist – in der einfachsten Form – gegenteilig formuliert: Es besteht ein
Zusammenhang zwischen X und Y, A und B haben unterschiedliche Mittelwerte, ein Merkmal
ist in der Grundgesamtheit nicht normalverteilt. Die Signifikanz eines Ergebnisses – bzw.
genauer: der p-Wert eines statistischen Tests – gibt uns Auskunft darüber, ab wann wir die
Nullhypothese verwerfen und die Alternativhypothese annehmen bzw. bis zu welchem p-Wert
die Nullhypothese aufrechterhalten wird.

Das Signifikanzniveau bezeichnet nun die Wahrscheinlichkeit mit der die Nullhypothese
fälschlicherweise angenommen werden würde; dies könnte bspw. der Fall sein, wenn wir
eine „extreme“ Stichprobe gezogen haben, die in ihrer Verteilung nicht der Grundgesamtheit
entspricht (was bei echten Zufallsstichproben natürlich der Fall sein kann, wenngleich das
auch eher unwahrscheinlich ist). Konkret bedeutet das: Es wird ein Zusammenhang
zwischen X und Y angenommen, obwohl er in der Grundgesamtheit wahrscheinlich nicht
vorhanden ist; es wird ein Mittelwertunterschied zwischen A und B angenommen, der aber
nur in den Stichprobendaten und nicht in der Grundgesamtheit existiert; es wird die
Normalverteilung von Werten angenommen, obwohl sie tatsächlich in der Grundgesamtheit
Christian Glantschnigg 1
QM_2019
Lernhilfe UE „Quantitative Methoden der empirischen Sozialforschung“
Wintersemester 2019 / 2020

nicht normalverteilt sind...usw. Die falsche Ablehnung der Nullhypothese zu Gunsten der
Alternativhypothese wird als Fehler 1. Art oder Alpha-Fehler bezeichnet.

Natürlich kann auch das Gegenteil eintreten, nämlich, dass an der Nullhypothese
festgehalten wird, obwohl ein Zusammenhang zwischen X und Y in der Grundgesamtheit
vorhanden ist, oder obwohl ein Gruppenunterschied zwischen A und B besteht, der aber in
den Stichprobendaten nicht entdeckt werden konnte...usw. Die Nicht-Entdeckung eines
tatsächlich vorhandenen Effekts (bzw. eines wahrscheinlich oder eventuell vorhandenen
Effekts) bzw. die falsche Beibehaltung der Nullhypothese, obwohl diese eigentlich abgelehnt
werden müsste, wird als Fehler 2. Art oder Beta-Fehler bezeichnet. Die Wahrscheinlichkeit
für das Auftreten dieses Fehlers kann allerdings, im Gegensatz zum Fehler 1. Art, nicht direkt
berechnet werden.

Da in der Statistik keine Beweise für, sondern nur Hinweise auf Zusammenhänge,
Unterschiede u.a. geliefert werden können, müssen Entscheidungen darüber getroffen
werden ab wann die Wahrscheinlichkeit des Fehlers 1. Art als klein genug betrachtet wird,
d.h. ab wann das Risiko des Fehlers 1. Art gering genug ist – eben das Signifikanzniveau.
Der p-Wert gibt demnach die Wahrscheinlichkeit an, wie oft ein Fehler 1. Art – also einen
Effekt zu unterstellen, der aber wahrscheinlich nicht vorhanden ist – gemacht werden würde.

Dazu ein Beispiel:

Es wird ein Chi-Quadrat Test auf Zusammenhang zweier Merkmale X1 und Y1 durchgeführt;
der p-Wert dieser Analyse beträgt 0,1370. Dieses Ergebnis ist nun folgendermaßen zu
interpretieren: Wenn wir die Nullhypothese des Chi-Quadrat Tests (kein Zusammenhang
zwischen X1 und Y1) verwerfen würden und stattdessen von einem Zusammenhang
ausgehen würden, würden wir das in 13,7% der theoretisch möglichen Analysen zu Unrecht
machen; also in 13,7% der Analysen mit unseren Schlussfolgerungen falsch liegen. Dieses
Risiko ist uns zu hoch, wir behalten die Nullhypothese bei und gehen davon aus, dass kein
Zusammenhang zwischen X1 und Y1 besteht.

Die Analyse zweier anderer Variablen (X2 und Y2) mit dem Chi-Quadrat Test liefert uns einen
p-Wert von 0,043. Gemäß der Logik der Signifikanztests besagt das nun, dass wir in 4,3%
der theoretisch möglichen Analysen falsch liegen würden (d.h., wenn wir eine große Zahl
weiterer Stichproben ziehen und die Analysen wiederholen würden), wenn wir die
Nullhypothese verwerfen würden. In (1 - 0,043 = 0,957) 95,7% der theoretisch möglichen
Untersuchungen würden wir allerdings mit der Schlussfolgerung aufgrund des Chi-Quadrat
Tests, nämlich, dass ein Zusammenhang zwischen X2 und Y2 besteht, richtigliegen. Dieses
Risiko wird gemäß den Konventionen der Sozialwissenschaften als gering genug

Christian Glantschnigg 2
QM_2019
Lernhilfe UE „Quantitative Methoden der empirischen Sozialforschung“
Wintersemester 2019 / 2020

angesehen. Oder anders formuliert: Eine falsche Schlussfolgerung gilt als so


unwahrscheinlich, dass wir annehmen können es nicht mit einem Zufall zu tun zu haben und
folglich die Nullhypothese ablehnen können. Demnach wird die Nullhypothese verworfen und
wir gehen von einem tatsächlich vorhandenen Zusammenhang zwischen X2 und Y2 aus
(allerdings unter der Voraussetzung, dass wir uns theoretisch auch irren können – aber nur
in 4,3% der Analysen. Aufgrund dieser theoretischen Möglichkeit des Irrtums werden
Hypothesen auch niemals angenommen oder bestätigt; sie werden nur abgelehnt, vorläufig
beibehalten oder auch vorläufig angenommen – die Möglichkeit einer zukünftigen
Falsifikation bleibt nach Popper immer bestehen).

Das Signifikanzniveau bzw. der p-Wert geben uns folglich das Risiko an, dass wir bei
unseren Schlussfolgerungen auf Grundlage quantitativer Daten eingehen, wenn wir die
Nullhypothese ablehnen. Ab einem Signifikanzniveau von 95% oder größer (d.h. einem p-
Wert von 0,05 oder geringer) wird dieses Risiko in den Sozialwissenschaften (andere
Disziplinen operieren durchaus mit größeren oder auch kleineren Signifikanzniveaus) als
klein genug angesehen und folglich von signifikanten Zusammenhängen gesprochen (auch
wenn grundsätzlich noch immer das Risiko eines Fehlers 1. Art besteht; sprich die
Nullhypothese fälschlicherweise verworfen werden könnte). Die Beschreibung der
Schlussfolgerungen erfolgt allerdings immer mit mind. 95%iger Sicherheit (oder eben mehr,
wenn der p-Wert entsprechend kleiner ist).

Ab einem p-Wert von 0,05 (oder kleiner) bzw. einem Signifikanzniveau von 95% (oder
größer) sprechen wir von Signifikanz. Die folgende Einteilung der Beurteilung von p-Werten
wäre folglich denkbar (wenn auch nicht zwingend; oftmals wird Signifikanz nur als binäres
Konzept verstanden – entweder ein Zusammenhang ist signifikant oder er ist es nicht):

 p-Wert <= 0,05 → Ergebnis signifikant

 p-Wert <= 0,01 → Ergebnis sehr signifikant

 p-Wert <= 0,001 → Ergebnis hochsignifikant

Was Signifikanztests nicht bedeuten, bzw. nicht an Hand der p-Werte geschlossen werden
kann:

 dass es sich um „wichtige“ oder „bedeutende“ Effekte handelt

 dass die Existenz eines Effekts „bewiesen“ wäre

 dass der Effekt „stark“ wäre

Rückschlüsse auf die Wichtigkeit oder die Bedeutung statistischer Effekte könne nur unter
Berücksichtigung des Kontextes der Untersuchung bzw. mit Hilfe der Theorie gezogen
werden.
Christian Glantschnigg 3
QM_2019
Lernhilfe UE „Quantitative Methoden der empirischen Sozialforschung“
Wintersemester 2019 / 2020

Beweise kann die Statistik überhaupt nicht liefern, sondern nur Hinweise auf mögliche
Zusammenhänge (denn ein „Beweis“ würde die theoretische Möglichkeit eines Irrtums – wie
sie durch die Irrtumswahrscheinlichkeit / den p-Wert ausgedrückt wird – ausschließen).

Weiters können das Signifikanzniveau bzw. die Signifikanz oder der p-Wert auch keine
Auskunft über die Stärke von Effekten (sprich die Stärke von Zusammenhängen, die
Relevanz von Unterschieden zwischen Gruppen...usw.) geben. Dies kann nur unter
Berücksichtigung von Zusammenhangsmaßen oder Assoziationsmaßen (auch:
„Effektstärkemaße“) erfolgen.

Diese Maße haben wir teilweise bereits kennengelernt: Bei der bivariaten Tabellenanalyse
handelt es sich dabei um die Assoziationsmaße, die zeigen wie stark oder schwach die
untersuchten Zusammenhänge sind (wir erinnern uns an oder schlagen nach bei Cramer's V,
Tau-b, Spearman’s rho...usw.). So ist es durchaus denkbar, dass Ergebnisse zwar signifikant
aber de facto unbedeutend, weil nur schwach ausgeprägt sind (d.h. dass das dazugehörige
Zusammenhangsmaß einen Wert nahe 0 annimmt).

Dazu ist noch anzumerken, dass auf Chi-Quadrat basierende Signifikanztests zum Teil auch
von der Stichprobengröße beeinflusst werden – je größer eine Stichprobe ist, desto größer
wird der Wert von Chi² weil die Differenzen zwischen beobachteten und erwarteten Werten
(die Grundlage der Berechnung von Chi²) auch größer werden. Das bedeutet jedoch nicht,
dass Chi² grundsätzlich falsche Ergebnisse liefert! Dieser Umstand sollte allerdings
Forscherinnen und Forschern bewusst sein und sich in der Konsequenz äußern, dass
weitere Untersuchung signifikanter Ergebnisse mit Hilfe von Maßen der Effektstärke i.d.R.
unerlässlich ist.

Zum Nachlesen / Verwendete Literatur:

Schnell, R., Hill, P. B., Esser, E., 2008. Methoden der empirischen Sozialforschung, 8. ed.,
München: Oldenbourg Wissenschaftsverlag. S. 452 – 454.

Christian Glantschnigg 4
QM_2019