Beruflich Dokumente
Kultur Dokumente
Grundgesamtheit
o Gesamtheit aller relevanten Subjekte
Totalerhebung/Teilerhebung
o Alle/eine Teilmenge der Grundgesamtheit wird berücksichtigt
Stichprobe
o Bestimmte Teilmenge der Grundgesamtheit
o Einstufige Stichprobe
Jeder Merkmalsträger hat die gleiche Chance als Stichprobe gefiltert zu werden (gleiche
Wahrscheinlichkeit)
o Mehrstufige Stichprobe
Mind. 2 Vorgänge mit unterschiedlichen Auswahleinheiten
Bspw. Lastwagen wird bestimmt danach eine Kiste daraus
o Klumpenstichprobe
Grundgesamtheit wird in kleine homogene Klumpen geteilt, die ein Abbild der Grundgesamtheit
darstellen
Einige Klumpen werden ausgewählt (Teilstichprobe)
Einige davon gelangen in die endgültige Stichprobe
Primärstatistische Erhebung
o Unmittelbare Erhebung im Bezug auf die Fragestellung
Sekundärstatistische Erhebung
o Bereits vorhandene Daten werden genutzt
Tertiärstatistische Erhebung
o Bereits vorhandene und transformierte Daten werden genutzt (Mittelwerte usw)
Experiment
o Erfassung von Daten die erzeugt werden müssen
Erhebung
o Erfassung von prinzipiell vorhandenen Daten (Befragung, Beobachtung)
Merkmal
o Gegenstand der Untersuchung (Geburtsjahr, Größe, Gewicht)
Merkmalsausprägung
o Konkrete Realisation einer Variabel
Merkmalsträger
o Untersuchungseinheit
Deskriptive Statistik
o Äquidistante Klasse
Über jeder Klasse wird ein Rechteckt abgetragen, dessen Höhe der absoluten/relativen
Häufigkeiten entspricht
Möglichst sollten alle Klassen gleich groß sein
o Nicht-Äquidistante Klasse
Bei ungleichen Klassenbreiten
Berechnung der Häufigkeitsdichte fi = hi / ΔXi
Fläche der Rechtecke = relative Häufigkeit
Nicht-Zentrale Lagemaße
o Extremwerte
o Unteres Quartil
o Oberes Quartil
o Spezielle Quantile
Numerische Darstellung
1.Boxplot
a. Die zentralen 50% liegen in der Box
b. Lage, Streuung, Ausreißer usw. können gut
erkannt werden
c. Perfekter Datensatz: alle 4 Bereiche sind
gleich lang
Für einen schnellen Überblick, Ausreißer identifizieren
2. Kerndichteschätzer
a. Um jeder Beobachtung wird ein kleines Intervall
gelegt
b. Mittelwert > Median : rechtsschief
c. Mittelwert = Median: symmetrisch
d. Mittelwert < Median: linksschief
3. W-Plot
a. 5 Lageparameter werden eingezeichnet
b. Horizontale = Merkmalsachse
c. Oben links = Minimum unteres Quartil Median oberes Quartil Maximum
Gut für relativ wenige Daten#
Streuungsmaße
o Relatives Streuungsmaß
Streuungsparameter wird auf ein Lageparameter bezogen
o Spannweite (Absolute Range)
Wie groß ist der Bereich auf dem die Daten liegen?
Sw = x(n) – x(1) => max. – min.
o Quartilsabstand
Wo liegen die zentralen 50% der Daten?
Sq = x0,75 – x0,25
o Mittlere Abweichung
Wie weit sind die Daten vom Mittelwert entfernt?
Formel S. 17
o Stichprobenvarianz
Formel S. 23
Symmetrieeigenschaften
Verteilung von Dichte über die Merkmalsachse
Bivariate Datenanalyse
o Verbunden
2 Beobachtungen werden durchgeführt die von demselben Objekt stammen
Korrelation: Zusammenhang vorhanden (Bspw. zwischen Größe und Gewicht)
Vorher/Nachheranalyse: Bspw. Reaktionen messen vor- und nach Einfluss von Alkohol
o Unverbunden
Beobachtungen werden an verschiedenen Objekten gemacht, auf Grund von technischen
„Problemen“
Bspw. neue Operationsmethode im Vergleich zur Alten
Nominalskalierte Daten
Ordinalskalierte Daten
Rangkorrelationskoeffizient von
o (rs)Merkmal
Spearman monotoner
X und Y, werden
durch Ränge ersetzt (kein linearer
Zusammenhang
o
Zusammenhang) r(xi) = Position von xi in der
Rangreihe
Korrelation
o Gemeinsames Verhalten wird gemeldet
o Scheinkorrelation:
X beeinflusst Y, aber nur unter dem Einfluss von Z
o
o Beispiel
Verläuft durch den Schwerpunkt der Daten
Die Steigung (b) gibt an umwieviele Einheiten sich der Wert von y
verändert wenn x um eine Einheit erhöht wird
Der y-Achsenabschnitt (a), gibt den autonomen Wert von y an, wenn x= 0 ist
Das Bestimmheitsmaß (Güte der Anpassung) R²
R² * 100 = prozentualer Anteil der erklärten Streuung
Ob das richtige Modell gewählt wurde, erkennt man an der Streuung der
Residuen
Residuen streuen um 0 Keine Struktur in den Daten richtiges Modell
Residuen haben eine Struktur Bspw. Je größer x, desto größer y)
Prognosen können gemacht werden in dem man Werte einsetzt, die noch nicht
berücksichtigt wurden
Zeitreihen
o Menge von Daten (x1) für ein statistisches Merkmal, die in einer
zeitlichen Reihenfolge (t) angeordnet sind
o Lineare Regression kann als einfacher Trendschätzer fungieren
o Gesetzmäßigkeiten werden aufgespürt
Wahrscheinlichkeitsrechnung
Begriffe
o Zufallsexperiment: Experiment mit ungewissem Ausgang
o Ergebnis/Elementarereignis: mögliche Ausgänge
o Ergebnismenge: Menge der Ergebnisse Ω
o Wahrscheinlichkeit (P): Jedes Elementarereignis hat eine Wahrscheinlichkeit zwischen 0 und 1
o Mächtigkeit: Anzahl der Elemente in A
o Komplementärereignis: Gegenereignis
Klassische Wahrscheinlichkeit / Laplace-Wahrscheinlichkeit
o Nur bei einer Gleichwahrscheinlichkeit der Elementarereignisse und einer endlichen Ergebnismenge =
Gleichmöglichkeitsmodell
o Bsp. Würfel = 6 verschiedenen Ergebnisse
o A = Wurf einer 1
Frequentistischer Ansatz
o Mehrmaliges Wiederholen des Experiments Erfahrungssammlung
o P wird durch die relativen Häufigkeiten abgeschätzt
Subjektivistischer Ansatz
o Persönliche oder Experteneinschätzung
o Bspw. Wie wird sich die Wirtschaft entwickeln?
Axiomatische Definition
o 3 Bedingungen müssen erfüllt sein für die Wahrscheinlichkeit P
Venn Diagramme
o Vereinigungsmenge
o Schnittmenge
o Differenzmenge
Multiplikationssatz
Bedingte Wahrscheinlichkeit
Zufallsvariablen
o Zufallsvariable X = Abbildung von Ω in reelle Zahlen
o X = diskrete Zufallsvariable
o Bspw. Bei 4 maligem Würfelwurf eine 6 zu werfen X = 1 2 3 4
o Wahrscheinlichkeitsfunktion von X
Diskrete Zufallsvariable
Wie groß ist die Wahrscheinlichkeit, dass die
Zufallsvariable einen bestimmten Wert annimmt?
Ergebnis muss immer 100% sein
o Verteilungsfunktion von Zufallsvariablen
o Erwartungswert
Entspricht dem Mittelwert
Jede Realisation wird mit ihrer Eintrittswahrscheinlichkeit gewichtet und aufaddiert (Was erwarte
ich?)
Jeder Wert von x muss mit der Wahrscheinlichkeit multipliziert werden
o Varianz
Analog zur mittleren quadratischen Abweichung (d²)
o Standardabweichung (σ)
Statistische Modelle
o Der Bernoulli Prozess
Erfolg = Eintreten eines erwarteten Ereignisses
x = 0 oder 1
Misserfolg = Nichteintreten dieses Ereignisses
Verschiedene Vorgänge mit gleicher Wahrscheinlichkeit und Unabhängigkeit Bernoulliprozess
Benoullivorgang
Auf wie viele verschieden Arten kann ich einen Erfolg verbuchen??
S = Anzahl der gewünschten Ereignisse