Sie sind auf Seite 1von 9

Martin-Luther-Universität Halle-Wittenberg

Institut für Soziologie


M2: Einführung in die deskriptive Statistik
Wintersemester 2018/19

Formelsammlung (Stand: 19.10.2018)

Erstellung von Häufigkeitstabellen

Relative Häufigkeiten
als Anteilswert
𝑛𝑗
𝑝𝑗 = 𝑛

in Prozent
𝑛𝑗
𝑝𝑗 % = ∗ 100
𝑛

Kumulierte Häufigkeiten
für Anteilswerte
𝐽

𝑐𝑝𝑗 = 𝑝(𝑋 ≤ 𝑥𝑗 ) = 𝑝1 + 𝑝2 + ⋯ + 𝑝𝐽 = ∑ 𝑝𝑗
𝑗=1

für Prozentwerte
𝐽

𝑐𝑝𝑗 % = 𝑝%(𝑋 ≤ 𝑥𝑗 ) = 𝑝1 % + 𝑝2 % + ⋯ + 𝑝𝐽 % = ∑ 𝑝𝑗 %
𝑗=1

Klassenmitte

𝑢𝑘 + 𝑜𝑘
𝑚𝑘 =
2

-1-
Lagemaße

Quantile

Rangplatz (i-te Stelle) zur Bestimmung eines beliebigen Quantils bei geordneten
Häufigkeitsverteilungen

𝑖 =𝑛∗𝛼

Interpolationsformel zur Bestimmung eines Quantilwertes bei gruppierten Daten

𝛼 − 𝑐𝑝𝑘−1
𝑄𝛼 = 𝑢𝑘 + ∗ (𝑜𝑘 − 𝑢𝑘 )
𝑝𝑘

Modus

𝑥̇ = {𝑥𝑘 |𝑛𝑘 ≥ 𝑛𝑗 𝑓ü𝑟 𝑎𝑙𝑙𝑒 𝑗}

Median für nicht gruppierte Daten

für ungerade Fallzahl: 𝑥̃ = 𝑥(𝑛+1)


2

𝑥 𝑛 +𝑥 𝑛
( ) ( +1)
2 2
für gerade Fallzahl: 𝑥̃ = 2

Median für gruppierte Daten

0,5 − 𝑐𝑝𝑘−1
𝑥̃ = 𝑢𝑘 + ∗ (𝑜𝑘 − 𝑢𝑘 )
𝑝𝑘

Arithmetisches Mittel

𝑥1 + 𝑥2 + 𝑥3 … + 𝑥𝑛 ∑𝑛𝑖=1 𝑥𝑖
𝑥̅ = =
𝑛 𝑛

Arithmetisches Mittel für nicht gruppierte Daten (Häufigkeitstabelle)

𝐽 𝐽
𝑛1 ∗ 𝑥1 + 𝑛2 ∗ 𝑥2 + 𝑛3 ∗ 𝑥3 … + 𝑛𝐽 ∗ 𝑥𝐽 ∑𝑗=1 𝑛𝑗 ∗ 𝑥𝑗
𝑥̅ = = = ∑ 𝑝𝑗 ∗ 𝑥𝑗
𝑛 𝑛
𝑗=1

Arithmetisches Mittel für gruppierte Daten (Häufigkeitstabelle)

𝐾
∑𝐾
𝑘=1 𝑛𝑘 ∗ 𝑚𝑘 𝑢𝑘 + 𝑜𝑘
𝑥̅ = = ∑ 𝑝𝑘 ∗ 𝑚𝑘 , 𝑤𝑜𝑏𝑒𝑖 𝑚𝑘 =
𝑛 2
𝑘=1

-2-
Streuungsmaße

Index qualitativer Variation

𝐽
I𝑄𝑉 = 𝐽−1 ∗ (1 − ∑𝐽𝑗=1 𝑝𝑗2 )

Spannweite/Range

𝑅 = 𝑥(𝑛) − 𝑥(1)

Quartilabstand/interquartile range

𝐼𝑄𝑅 = 𝑄0,75 − 𝑄0,25 = 𝑄3 − 𝑄1

Variation

𝑆𝐴𝑄𝑋 = ∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅ )2 = ∑𝑛𝑖=1 𝑥𝑖2 − 𝑛 ∗ 𝑥̅ 2 = 𝑛 ∗ 𝑠𝑋2

Varianz

𝑆𝐴𝑄𝑋 ∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅ )2 ∑𝑛𝑖=1 𝑥𝑖 2


𝑠𝑋2 = = = − (𝑥̅ )2
𝑛 𝑛 𝑛

Varianz für nicht gruppierte Daten (Häufigkeitstabelle)

2
∑𝐽𝑗=1 𝑛𝑗 ∗ (𝑥𝑗 − 𝑥̅ )
𝑠𝑋2 =
𝑛

Standardabweichung

∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅ )2 𝑆𝐴𝑄𝑋
𝑠𝑋 = √𝑠𝑋2 = √ =√
𝑛 𝑛

Standardabweichung für Häufigkeitstabellen

2
∑𝐽𝑗=1 𝑛𝑗 ∗ (𝑥𝑗 − 𝑥̅ )
𝑠𝑋 = √
𝑛

Variationskoeffizient

𝑠𝑋
𝑣𝑋 =
𝑥̅

-3-
Schiefe
𝑥𝑖 − 𝑥̅ 3 1 𝑛
∑(
𝑠𝑥 ) 𝑛
∑𝑖=1(𝑥𝑖 − 𝑥̅ )3
𝑆𝑐ℎ𝑖𝑒𝑓𝑒 = =
𝑛 𝑠𝑋3

Wölbung
𝑥𝑖 − 𝑥̅ 4 1 𝑛
∑(
𝑠𝑥 ) 𝑛
∑𝑖=1(𝑥𝑖 − 𝑥̅ )4
𝐾𝑢𝑟𝑡𝑜𝑠𝑖𝑠 = −3= −3
𝑛 𝑠𝑋4

z-Transformation

𝑥𝑖 − 𝑥̅
𝑧𝑖 =
𝑠𝑥

Erstellung von Kreuztabellen

Anteilswerte

Gesamtfallzahlbezogene Anteile

𝑛𝑖,𝑗
𝑝𝑖,𝑗 =
𝑛+,+

Spaltenbezogene Anteile

𝑛𝑖,𝑗 𝑝𝑖,𝑗
𝑝𝑖|𝑗 = =
𝑛+,𝑗 𝑝+,𝑗

Zeilenbezogene Anteile

𝑛𝑖,𝑗 𝑝𝑖,𝑗
𝑝𝑗|𝑖 = =
𝑛𝑖,+ 𝑝𝑖,+

Odds

𝑝1
𝑜=
1 − 𝑝1

-4-
Prozentwerte

Gesamtfallzahlbezogene Prozente

𝑛𝑖,𝑗
𝑝𝑖,𝑗 % = ∗ 100
𝑛+,+

Spaltenprozente

𝑛𝑖,𝑗
𝑝𝑖|𝑗 % = ∗ 100
𝑛+,𝑗

Zeilenprozente

𝑛𝑖,𝑗
𝑝𝑗|𝑖 % = ∗ 100
𝑛𝑖,+

Zusammenhangsmaße für Kreuztabellen

Vierfeldertafel (2x2-Tabellen)

Chi-Quadrat für Vierfeldertafel

𝑛 ∗ (𝑎 ∗ 𝑑 − 𝑏 ∗ 𝑐)2
𝜒2 =
(𝑎 + 𝑏) ∗ (𝑐 + 𝑑) ∗ (𝑎 + 𝑐) ∗ (𝑏 + 𝑑)

Phi-Koeffizient für Vierfeldertafel

𝜒2 𝑎∗𝑑−𝑏∗𝑐
𝜙=√ =
𝑛 √(𝑎 + 𝑏) ∗ (𝑐 + 𝑑) ∗ (𝑎 + 𝑐) ∗ (𝑏 + 𝑑)

Prozentsatzdifferenz mit Zeilenvariable Y als abhängiger Variablen

𝑎 𝑏 𝑛1,1 𝑛1,2
𝑑𝑌𝑋 % = 100 ∗ ( − ) = 100 ∗ ( − )
𝑎+𝑐 𝑏+𝑑 𝑛+,1 𝑛+,2

Odds-Ratio

𝑜𝑑𝑑𝑠𝑦1 |𝑥1 𝑎 ∗ 𝑑
𝑜𝑟𝑦|𝑥1,𝑥0 = =
𝑜𝑑𝑑𝑠𝑦1 |𝑥0 𝑏 ∗ 𝑐

Yules Q

𝑂𝑅 − 1 𝑎 ∗ 𝑑 − 𝑏 ∗ 𝑐
𝑄= =
𝑂𝑅 + 1 𝑎 ∗ 𝑑 + 𝑏 ∗ 𝑐
-5-
Mehrfeldertafel

Chi-Quadrat für Mehrfeldertafel

𝐼 𝐽 2 2
2
(𝑛𝑖,𝑗 − 𝑒𝑖,𝑗 ) (𝑛𝑖,𝑗 − 𝑒𝑖,𝑗 )
𝜒 = ∑∑ =∑
𝑒𝑖,𝑗 𝑒𝑖,𝑗
𝑖=1 𝑗=1

Erwartete absolute Häufigkeiten

𝑛𝑖,+ ∗ 𝑛+,𝑗
𝑒𝑖,𝑗 = = 𝑛𝑖,+ ∗ 𝑝+,𝑗
𝑛

Cramérs V

𝜒2 𝜒2
𝑉=√ =√ 2
𝑛 ∗ min(𝐼 − 1, 𝐽 − 1) 𝜒𝑚𝑎𝑥

Allgemeine PRE-Logik

𝐸0 − 𝐸1 𝐸1
𝑃𝑅𝐸 = =1−
𝐸0 𝐸0

Lambda mit Zeilenvariable Y als abhängiger Variable (𝝀𝒀𝑿 )

𝐸0 − 𝐸1
𝜆𝑌𝑋 = 𝑃𝑅𝐸 =
𝐸0

𝐸0 = 𝑛 − max(𝑛𝑖,+ )
𝑖

𝐽
𝐸1 = ∑ (𝑛+,𝑗 − max(𝑛𝑖,𝑗 ))
𝑗=1 𝑖

Lambda mit Spaltenvariable X als abhängiger Variable (𝝀𝑿𝒀 )

𝐸0 − 𝐸1
𝜆𝑋𝑌 = 𝑃𝑅𝐸 =
𝐸0

𝐸0 = 𝑛 − max(𝑛+,𝑗 )
𝑗

𝐼
𝐸1 = ∑ (𝑛𝑖,+ − max( 𝑛𝑖,𝑗 ))
𝑖=1 j

-6-
Goodman und Kruskals Gamma

𝐶−𝐷
𝛾 = 𝑃𝑅𝐸 =
𝐶+𝐷

Alternativ ohne Vorzeichen:

𝐸0 − 𝐸1
𝛾=
𝐸0

𝐸0 = 0,5(𝐶 + 𝐷) 𝑢𝑛𝑑 𝐸1 = min(𝐶, 𝐷)

Kendalls Tau-a

𝐶−𝐷
𝜏𝑎 =
𝑛 ∗ (𝑛 − 1)
2

Kendalls Tau-b

𝐶− 𝐷
𝜏𝑏 =
√(𝐶 + 𝐷 + 𝑇𝑋 ) ∗ (𝐶 + 𝐷 + 𝑇𝑌 )

Kendalls Tau-c

C−D
𝜏𝑐 = min = Minimum (𝑍𝑒𝑖𝑙𝑒𝑛, 𝑆𝑝𝑎𝑙𝑡𝑒𝑛)
1 2 min(𝐼 − 1, 𝐽 − 1)
2 ∗ n ∗ ( )
min(𝐼, 𝐽)

Kovariation, Kovarianz und Korrelation

Spearmans Rho

6 ∗ ∑𝑛𝑖=1 𝑑𝑖2
𝜌=1−
𝑛 ∗ (𝑛2 − 1)

Kovariation (Kreuzproduktesumme) zweier Variablen X und Y

𝑆𝐴𝑃𝑋𝑌 = ∑𝑛𝑖=1((𝑥𝑖 − 𝑥̅ ) ∗ (𝑦𝑖 − 𝑦̅)) = ∑𝑛𝑖=1(𝑥𝑖 ∗ 𝑦𝑖 − 𝑛 ∗ 𝑥̅ ∗ 𝑦̅)

Kovarianz zweier Variablen X und Y


𝑛 𝑛
𝑆𝐴𝑃𝑋𝑌 1 1
𝑠𝑋𝑌 = = ∑((𝑥𝑖 − 𝑥̅ ) ∗ (𝑦𝑖 − 𝑦̅)) = ∑(𝑥𝑖 ∗ 𝑦𝑖 − 𝑥̅ ∗ 𝑦̅)
𝑛 𝑛 𝑛
𝑖=1 𝑖=1

-7-
Pearsons Produkt-Moment-Korrelation (𝒓𝑿𝒀 )

𝑆𝐴𝑃𝑋𝑌 𝑠𝑋𝑌 ∑𝑛𝑖=1((𝑥𝑖 − 𝑥̅ ) ∗ (𝑦𝑖 − 𝑦̅))


𝑟𝑋𝑌 = = = = 𝑏1∗
√𝑆𝐴𝑄𝑋 ∗ 𝑆𝐴𝑄𝑌 𝑠𝑋 ∗ 𝑠𝑌 ∑ 𝑛 (𝑥 ) 2 ∑ 𝑛 (𝑦
√ 𝑖=1 𝑖 − 𝑥̅ ∗ √ 𝑖=1 𝑖 − 𝑦̅) 2

Bivariate lineare Regression

Regressionskonstante

𝑏0 = 𝑦̅ − 𝑏1 ∗ 𝑥̅

Unstandardisiertes Regressionsgewicht

𝑆𝐴𝑃𝑋𝑌 𝑠𝑋𝑌 ∑𝑛𝑖=1((𝑥𝑖 − 𝑥̅ ) ∗ (𝑦𝑖 − 𝑦̅))


𝑏1 = = 2 =
𝑆𝐴𝑄𝑋 𝑠𝑋 ∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅ )2

Standardisiertes Regressionsgewicht (Betakoeffizient)

𝑠𝑋𝑌 𝑠𝑋
𝑏1∗ = = 𝑏1 ∗
𝑠𝑋 ∗ 𝑠𝑌 𝑠𝑌

Stochastische Regressionsgleichung

𝑦 = 𝑏0 + 𝑏1 ∗ 𝑥 + 𝐸

Schätzgleichung/Regressionsgerade

𝑦̂ = 𝑏0 + 𝑏1 ∗ 𝑥

Determinationskoeffizient (Bestimmtheitsmaß) R²

𝐸0 − 𝐸1 𝐸𝑟𝑘𝑙ä𝑟𝑡𝑒 𝑉𝑎𝑟𝑖𝑎𝑡𝑖𝑜𝑛 𝐹𝑒ℎ𝑙𝑒𝑟𝑣𝑎𝑟𝑖𝑎𝑡𝑖𝑜𝑛 𝑆𝐴𝑄𝑅𝑒𝑔𝑟𝑒𝑠𝑠𝑖𝑜𝑛 2


𝑅 2 = 𝑃𝑅𝐸 = = =1− = = (𝑟𝑋,𝑌 )
𝐸0 𝐺𝑒𝑠𝑎𝑚𝑡𝑣𝑎𝑟𝑖𝑎𝑡𝑖𝑜𝑛 𝐺𝑒𝑠𝑎𝑚𝑡𝑣𝑎𝑟𝑖𝑎𝑡𝑖𝑜𝑛 𝑆𝐴𝑄𝐺𝑒𝑠𝑎𝑚𝑡

𝑛
𝐸0 = 𝑆𝐴𝑄𝑌 = ∑ (𝑦𝑖 − 𝑦̅)2
𝑖=1

𝑛
𝐸1 = 𝑆𝐴𝑄𝐸 = ∑ (𝑦𝑖 − 𝑦̂)2
𝑖=1

-8-
Bivariate Dummy-Regression

Stochastische Regressionsgleichung mit Dummy-Variable

𝑌 = 𝑏0 + 𝑏1 ∗ 𝐷 + 𝐸

ANOVA

ANOVA-Prinzip

Gesamtvariation = Variation innerhalb der Gruppen + Variation zwischen den Gruppen

𝐽 𝑛𝑗 𝐽 𝑛𝑗 𝐽
2 2 2
∑ ∑(𝑦𝑖𝑗 − 𝑦̅) = ∑ ∑(𝑦𝑖𝑗 − 𝑦̅𝑗 ) + ∑ 𝑛𝑗 ⋅ (𝑦̅𝑗 − 𝑦̅)
𝑗=1 𝑖=1 𝑗=1 𝑖=1 𝑗=1

Eta und Eta-Quadrat

𝐸0 − 𝐸1 𝑉𝑎𝑟𝑖𝑎𝑡𝑖𝑜𝑛𝑧𝑤𝑖𝑠𝑐ℎ𝑒𝑛 𝑉𝑎𝑟𝑖𝑎𝑡𝑖𝑜𝑛𝑔𝑒𝑠𝑎𝑚𝑡 − 𝑉𝑎𝑟𝑖𝑎𝑡𝑖𝑜𝑛𝑖𝑛𝑛𝑒𝑟ℎ𝑎𝑙𝑏


𝜂 2 = 𝑃𝑅𝐸 = = =
𝐸0 𝑉𝑎𝑟𝑖𝑎𝑡𝑖𝑜𝑛𝑔𝑒𝑠𝑎𝑚𝑡 𝑉𝑎𝑟𝑖𝑎𝑡𝑖𝑜𝑛𝑔𝑒𝑠𝑎𝑚𝑡

𝜂 = √𝜂2

E0 = 𝑆𝐴𝑄𝑦 = ∑𝑛𝑖=1(𝑦𝑖 − 𝑦̅)2 [Gesamtvariation]

𝑛 2
𝐸1 = 𝑄𝑆𝑖𝑛𝑛𝑒𝑟ℎ𝑎𝑙𝑏 = ∑𝐽𝑗=1 ∑𝑖=1
𝑗
(𝑦𝑗,𝑖 − 𝑦̅𝑗 ) [Fehlervariation: innerhalb der Gruppen]

-9-

Das könnte Ihnen auch gefallen