Sie sind auf Seite 1von 8

Einführung

 Phasen der statistischen Analyse


o Formulierung der Ziele (Operationalisierung)
o Welches Ziel wird verfolgt? -> Thesen formulieren
o Planung und Durchführung der Datenerhebung
o Aufbereitung der gewonnenen Daten (deskriptive Statistik)
o Schlussfolgerungen (schließende Statistik)

 Grundgesamtheit
o Gesamtheit aller relevanten Subjekte
 Totalerhebung/Teilerhebung
o Alle/eine Teilmenge der Grundgesamtheit wird berücksichtigt
 Stichprobe
o Bestimmte Teilmenge der Grundgesamtheit
o Einstufige Stichprobe
 Jeder Merkmalsträger hat die gleiche Chance als Stichprobe gefiltert zu werden (gleiche
Wahrscheinlichkeit)
o Mehrstufige Stichprobe
 Mind. 2 Vorgänge mit unterschiedlichen Auswahleinheiten
 Bspw. Lastwagen wird bestimmt  danach eine Kiste daraus
o Klumpenstichprobe
 Grundgesamtheit wird in kleine homogene Klumpen geteilt, die ein Abbild der Grundgesamtheit
darstellen
 Einige Klumpen werden ausgewählt (Teilstichprobe)
 Einige davon gelangen in die endgültige Stichprobe
 Primärstatistische Erhebung
o Unmittelbare Erhebung im Bezug auf die Fragestellung
 Sekundärstatistische Erhebung
o Bereits vorhandene Daten werden genutzt
 Tertiärstatistische Erhebung
o Bereits vorhandene und transformierte Daten werden genutzt (Mittelwerte usw)
 Experiment
o Erfassung von Daten die erzeugt werden müssen
 Erhebung
o Erfassung von prinzipiell vorhandenen Daten (Befragung, Beobachtung)
 Merkmal
o Gegenstand der Untersuchung (Geburtsjahr, Größe, Gewicht)
 Merkmalsausprägung
o Konkrete Realisation einer Variabel
 Merkmalsträger
o Untersuchungseinheit

 Arten von Daten


o Nominalskala
 Den Beobachtungen werden Namen oder Bezeichnungen gegeben  Verschiedenartigkeit wird
zum Ausdruck gebracht  niedriger Informationsgehalt
 Bspw. Geschlecht, Partnervorliebe, Studienfach (binäre Variablen)
o Ordinalskala/Rangskala
 Verschiedenartigkeit + natürliche Rangfolge  Sortierung nach Reihenfolge ist möglich (größer,
kleiner, gleich)
 Keine Rechnung möglich!!
 Bspw. Hotelklassen, Steuerklassen, Schulnoten (streng genommen)
o Metrische Skala
 Verschiedenartigkeit + Rangfolge + messbare Unterschiede
 Bspw. Gewicht, Alter, Größe

 Mächtigkeit der Ausprägungsmenge


Siehe S.24 im Skript 1
o Diskretes Merkmal
 Menge der Ausprägungen ist endlich oder abzählbar und der Abstand ist unauffällig  Nominal-
und ordinalskalierte Daten sind immer diskret
 Bspw. Geschlecht, Schulnoten
o Stetiges Merkmal
 Ausprägungen sind so groß und mit einem oftmals so großen Abstand, dass die Menge nicht
zählbar ist
 Bspw. Größe, Gewicht, Dauer

Deskriptive Statistik

 Diskrete Häufigkeitsanalyse (Stabdiagramm)


o i = Index der verschiedenen Merkmalsausprägungen
o Xi = i-te Merkmalsausprägung des Merkmals x
o ni = absolute Häufigkeiten von x (Wie oft wurde x beobachtet?)
o hi = relative Häufigkeiten von x (Wieviel Prozent?)
o Fi = kumulierte relative Häufigkeiten (empirische Verweilungsfunktion)
o k = Anzahl der verschiedenen Merkmalsausprägungen
o Xk = bei ordinalem Skalenniveau => größte Beobachtung
o Summe  Siehe Skript S. 3 (2.)

F(x) = Anzahl der Beobachtungen <= x / Anzahl der Beobachtungen

 Stetige/klassierte Häufigkeitstabelle (Histogramm)


o Unterteilung in Klassen
 Bspw. bei fließenden Übergängen
o Notation siehe Skript S. 6 ( „f Dach“ = empirische Daten)

o Äquidistante Klasse
 Über jeder Klasse wird ein Rechteckt abgetragen, dessen Höhe der absoluten/relativen
Häufigkeiten entspricht
 Möglichst sollten alle Klassen gleich groß sein
o Nicht-Äquidistante Klasse
 Bei ungleichen Klassenbreiten
 Berechnung der Häufigkeitsdichte  fi = hi / ΔXi
  Fläche der Rechtecke = relative Häufigkeit

 Empirische Verteilungsfunktion S. 8 im Skript 2

 Zentrale Lagemaße (Wo liegt ein Datensatz?)


o Mittelwert
 Ausreißer empfindlich
o Median
 Merkmalsausprägung, an der die Daten in 2 Teile geteilt werden
 Bspw. jüngere/ältere Hälfte  rechts und links liegen jeweils 50% der Daten
 , bei n = ungerade
 x + +1) * 0,5, bei n = gerade
 Nicht Ausreißer empfindlich
o Modus
 Diskret: Am häufigsten beobachtete Merkmalsausprägung
 Stetig: Klassenmitte der am häufigsten besetzten Klasse
o Midrange
 Sehr Ausreißer empfindlich, nur die Extrema werden berechnet

 Mittelwert glättet Ecken und Kanten des Datensatzes  Informationen können verloren gehen

 Nicht-Zentrale Lagemaße
o Extremwerte
o Unteres Quartil
o Oberes Quartil
o Spezielle Quantile
 Numerische Darstellung

1.Boxplot
a. Die zentralen 50% liegen in der Box
b. Lage, Streuung, Ausreißer usw. können gut
erkannt werden
c. Perfekter Datensatz: alle 4 Bereiche sind
gleich lang
 Für einen schnellen Überblick, Ausreißer identifizieren

2. Kerndichteschätzer
a. Um jeder Beobachtung wird ein kleines Intervall
gelegt
b. Mittelwert > Median : rechtsschief
c. Mittelwert = Median: symmetrisch
d. Mittelwert < Median: linksschief

3. W-Plot
a. 5 Lageparameter werden eingezeichnet
b. Horizontale = Merkmalsachse
c. Oben links = Minimum  unteres Quartil  Median  oberes Quartil  Maximum
 Gut für relativ wenige Daten#

 Streuungsmaße
o Relatives Streuungsmaß
 Streuungsparameter wird auf ein Lageparameter bezogen
o Spannweite (Absolute Range)
 Wie groß ist der Bereich auf dem die Daten liegen?
 Sw = x(n) – x(1) => max. – min.
o Quartilsabstand
 Wo liegen die zentralen 50% der Daten?
 Sq = x0,75 – x0,25
o Mittlere Abweichung
 Wie weit sind die Daten vom Mittelwert entfernt?
 Formel S. 17
o Stichprobenvarianz
 Formel S. 23
 Symmetrieeigenschaften
 Verteilung von Dichte über die Merkmalsachse

 Bivariate Datenanalyse
o Verbunden
 2 Beobachtungen werden durchgeführt die von demselben Objekt stammen
 Korrelation: Zusammenhang vorhanden (Bspw. zwischen Größe und Gewicht)
 Vorher/Nachheranalyse: Bspw. Reaktionen messen vor- und nach Einfluss von Alkohol
o Unverbunden
 Beobachtungen werden an verschiedenen Objekten gemacht, auf Grund von technischen
„Problemen“
 Bspw. neue Operationsmethode im Vergleich zur Alten

 Nominalskalierte Daten

o 2-dimensionale Häufigkeitstabelle: Kontingenztabelle


o bei verschiedenen Basen (Siehe Bsp. S. 6) spricht man von relativen Häufigkeiten
o h (X/Y = weiblich)
 y ist die Bedingung ( relative Häufigkeit des Merkmals y (Parteienvorliebe) unter der Bedingung,
dass das Merkmal x (= Geschlecht) die Ausprägung weiblich angenommen hat
 ABHÄNGIGKEIT!
  grafische Darstellung: Zeilen- bzw. Spaltenprofil
o Der Abstand zum mittleren Profil kann anzeigen, ob eine Abhängigkeit oder eine Unabhängigkeit vorliegt
  Bei Unabhängigkeit sähen die Zeilen- bzw. Spaltenprofile dem mittleren Profil ähnlich oder das
Produkt der Einzelwahrscheinlichkeiten = die Wahrscheinlichkeit für das gemeinsame Auftreten

Zu erwartende absolute Häufigkeit für das Auftreten von X und Y

Prüfgröße: Unterschiedlichkeit zwischen der empirischen


Beobachtung und der theoretisch (bei Unabhängigkeit) zu
erwartende Beobachtung

Kontingenzkoeffizient K von Pearson als ein statistisches


Zusammenhangsmaß, die die Stärke des Zusammenhangs
zwischen 2 oder mehreren Variablen angibt

 Bei 0 = völlige Unabhängigkeit


 Je größer K*, desto größer ist das Ausmaß des Zusammenhangs
 Metrisch Skalierte Daten

Korrelationskoeffizient von Bravis-Pearson ist ein dimensionsloses


Maß für den Grad des linearen Zusammenhangs

 Wertebereich von -1 bis +1


o Rxy = 1  perfekter linearer Zusammenhang mit positiver Steigung
o Rxy = -1  perfekter linearer Zusammenhang mit negativer Steigung
o Rxy ≈ 0  kein linearer Zusammenhang

 Ordinalskalierte Daten
Rangkorrelationskoeffizient von
o (rs)Merkmal
Spearman  monotoner
X und Y, werden
durch Ränge ersetzt (kein linearer
Zusammenhang
o
Zusammenhang) r(xi) = Position von xi in der
Rangreihe
 Korrelation
o Gemeinsames Verhalten wird gemeldet
o Scheinkorrelation:
 X beeinflusst Y, aber nur unter dem Einfluss von Z

 Bivariate Datenanalyse – Lineare Regression

o Vertiefung des Korrelationskoeffizienten


o Richtung des Zusammenhangs wird berücksichtigt (Bspw. ein abhängiges (Y= Regressand/endogen)
Merkmal wird auf ein unabhängiges (X= Regressor/endogen) zurückgeführt um jenes zu erklären)
o Regressionsgrade = die Grade, für die gilt, dass die quadrierten Abstände aller Punkte zur Gerade minimal
sind

o
o Beispiel


Verläuft durch den Schwerpunkt der Daten

Die Steigung (b) gibt an umwieviele Einheiten sich der Wert von y
verändert wenn x um eine Einheit erhöht wird
 Der y-Achsenabschnitt (a), gibt den autonomen Wert von y an, wenn x= 0 ist
 Das Bestimmheitsmaß (Güte der Anpassung) R²
 R² * 100 = prozentualer Anteil der erklärten Streuung

 Ob das richtige Modell gewählt wurde, erkennt man an der Streuung der
Residuen
 Residuen streuen um 0  Keine Struktur in den Daten  richtiges Modell
 Residuen haben eine Struktur  Bspw. Je größer x, desto größer y)
 Prognosen können gemacht werden in dem man Werte einsetzt, die noch nicht
berücksichtigt wurden
 Zeitreihen
o Menge von Daten (x1) für ein statistisches Merkmal, die in einer
zeitlichen Reihenfolge (t) angeordnet sind
o Lineare Regression kann als einfacher Trendschätzer fungieren
o Gesetzmäßigkeiten werden aufgespürt

 m = Trend (langfristige system. Veränderung des mittleren Niveaus)


 kt = Konjunktorkomponente (mehrjährige regelmäßige Schwankungen)
 st = Saisonkomponente (jahreszeitlich bedingte Schwankungen)
 ut = Störgröße = restliche Variation
Wirtschaftskennzahlen S. 22 (Skript 4)

 Lorenzkurve/ Gini Koeffizient


o Ungleichverteilungen werden grafisch dargestellt
o Maßzahl für die Ungleichheit = Gini Koeffizient
 Verhältnis von tatsächlicher eingenommener und der gesamten Fläche

Die Fläche zwischen der Diagonalen


(gerechte Verteilung) und der Kurve gibt
das Ausmaß der Ungleichverteilung an.

Je größer die Fläche, desto größer die


Ungleichverteilung

Wahrscheinlichkeitsrechnung

 Begriffe
o Zufallsexperiment: Experiment mit ungewissem Ausgang
o Ergebnis/Elementarereignis: mögliche Ausgänge
o Ergebnismenge: Menge der Ergebnisse Ω
o Wahrscheinlichkeit (P): Jedes Elementarereignis hat eine Wahrscheinlichkeit zwischen 0 und 1
o Mächtigkeit: Anzahl der Elemente in A
o Komplementärereignis: Gegenereignis
 Klassische Wahrscheinlichkeit / Laplace-Wahrscheinlichkeit
o Nur bei einer Gleichwahrscheinlichkeit der Elementarereignisse und einer endlichen Ergebnismenge =
Gleichmöglichkeitsmodell
o Bsp. Würfel = 6 verschiedenen Ergebnisse
o A = Wurf einer 1
 Frequentistischer Ansatz
o Mehrmaliges Wiederholen des Experiments  Erfahrungssammlung
o P wird durch die relativen Häufigkeiten abgeschätzt
 Subjektivistischer Ansatz
o Persönliche oder Experteneinschätzung
o Bspw. Wie wird sich die Wirtschaft entwickeln?
 Axiomatische Definition
o 3 Bedingungen müssen erfüllt sein für die Wahrscheinlichkeit P

 Venn Diagramme
o Vereinigungsmenge

o Schnittmenge

o Differenzmenge

 Multiplikationssatz

 Bedingte Wahrscheinlichkeit

 Das Gesetz der großen Zahlen


o Die Empirie strebt mit zunehmenden Stichproben gegen die Theorie
o Die Varianz des Mittelwertes strebt mit steigendem Stichprobenumfang gegen 0

o Relative Häufigkeiten ≈ Mittelwerte


o Der Mittelwert strebt gegen das Zentrum der Gesamtpopulation
o Die relative Häufigkeit strebt gegen die tatsächliche Wahrscheinlichkeit

 Zufallsvariablen
o Zufallsvariable X = Abbildung von Ω in reelle Zahlen
o X = diskrete Zufallsvariable
o Bspw. Bei 4 maligem Würfelwurf eine 6 zu werfen  X = 1 2 3 4
o Wahrscheinlichkeitsfunktion von X
 Diskrete Zufallsvariable
 Wie groß ist die Wahrscheinlichkeit, dass die
Zufallsvariable einen bestimmten Wert annimmt?
 Ergebnis muss immer 100% sein
o Verteilungsfunktion von Zufallsvariablen
o Erwartungswert
 Entspricht dem Mittelwert
 Jede Realisation wird mit ihrer Eintrittswahrscheinlichkeit gewichtet und aufaddiert (Was erwarte
ich?)
 Jeder Wert von x muss mit der Wahrscheinlichkeit multipliziert werden

o Varianz
 Analog zur mittleren quadratischen Abweichung (d²)


o Standardabweichung (σ)


 Statistische Modelle
o Der Bernoulli Prozess
 Erfolg = Eintreten eines erwarteten Ereignisses
  x = 0 oder 1
 Misserfolg = Nichteintreten dieses Ereignisses
 Verschiedene Vorgänge mit gleicher Wahrscheinlichkeit und Unabhängigkeit  Bernoulliprozess

 Benoullivorgang

o Die Binomialverteilung- diskret


 Binomialkoeffizient


 Auf wie viele verschieden Arten kann ich einen Erfolg verbuchen??
 S = Anzahl der gewünschten Ereignisse

Bei einem Binomialkoeffizienten von ca


0.5 ist die Verteilung eben und nicht
mehr schief

o Die Normalverteilung- stetig


 Beschreibt das Aussehen der Dichte
 Wichtigstes Verteilungsmodell!
 Anpassung von Rechen oder Messfehlern
 Viele Prozesse(alle Summen) streben gegen die Normalverteilung