Beruflich Dokumente
Kultur Dokumente
2. Diskrete Variablen: Eine Variable ist diskret, wenn sie nur bestimmte, getrennte Werte
annehmen kann. Diese Werte sind typischerweise ganzzahlig, aber nicht notwendigerweise.
Ein klassisches Beispiel für eine diskrete Variable ist die Anzahl von etwas (z.B. Anzahl der
Kinder in einer Familie, Anzahl der Autos in einem Haushalt). Diese Werte können nicht in
kleinere Einheiten unterteilt werden; man kann nicht 2,5 Kinder oder 3,7 Autos haben.
2. Standardfehler:
Der Standardfehler eines Schätzers gibt an, wie präzise der Schätzer ist, indem er die
Standardabweichung der Verteilung des Schätzers misst. Im Wesentlichen ist der
Standardfehler ein Maß dafür, wie sehr die Schätzung von Probe zu Probe variiert, wenn
wiederholt Stichproben aus derselben Population gezogen werden.
In R können Sie den Standardfehler berechnen und ein 99% Konfidenzintervall für den
Mittelwert mit folgenden Befehlen ermitteln:
3. Konfidenzintervall:
Ein Konfidenzintervall (CI) gibt einen Bereich von Werten an, der mit einer bestimmten
Wahrscheinlichkeit (Konfidenzniveau) den unbekannten Parameter der Population enthält.
Ein 99% Konfidenzintervall bedeutet, dass wenn man unendlich viele unabhängige
Stichproben aus der Population ziehen und für jede Stichprobe ein Konfidenzintervall
berechnen würde, 99% dieser Intervalle den wahren Populationsparameter enthalten
würden.
Berechnung eines 99% Konfidenzintervalls für den Mittelwert:
# Führen Sie einen t-Test (Einstichproben-t-Test ) durch und setzen Sie das Konfidenzniveau
auf 99%
t_test_result <- t.test(your_data, conf.level = 0.99)
# Angenommen, your_data ist Ihr Datensatz oder eine Spalte in einem Datenrahmen
# und mu ist der Mittelwert der Population unter der Nullhypothese
Der p-Wert ist das Maß dafür, wie kompatibel die Stichprobendaten mit der Nullhypothese
sind. Ein niedriger p-Wert (typischerweise kleiner als das Signifikanzniveau, z.B. 0.05) deutet
darauf hin, dass die Stichprobendaten unvereinbar mit der Nullhypothese sind, und führt zur
Ablehnung von H0.
sigma
X Stichprobenmittelwert,
mu_0 Nullhypothese angenommene Populationsmittelwert,
sigma Populationsstandardabweichung
n Stichprobengröße.
AB2
2A- Unterschied statistisch sinifikant Ruhepuls yoga/kein Yoga?
# Angenommen Sie haben zwei Vektoren von Daten: 'yoga_puls' für Studierende, die Yoga
praktizieren,
# und 'kein_yoga_puls' für Studierende, die kein Yoga praktizieren.
Wenn der p-Wert unter Ihrem gewählten Signifikanzniveau liegt (üblicherweise 0,05), können
Sie die Nullhypothese ablehnen und die Alternativhypothese akzeptieren, dass weibliche
Studierende im Durchschnitt einen niedrigeren Ruhepuls haben.
Dieser t-Test wird standardmäßig als zweiseitiger Test durchgeführt. Wenn Sie speziell testen
möchten, ob die Gruppe mit höherem Einkommen "signifikant höhere" Ausgaben hat (also
einseitiger Test), sollten Sie das `alternative` Argument entsprechend setzen:
Der p-Wert, den Sie erhalten, gibt Ihnen Aufschluss darüber, ob die Unterschiede in den
durchschnittlichen Ausgaben statistisch signifikant sind oder nicht. Ein p-Wert unter dem
gewählten Signifikanzniveau (üblicherweise 0,05) würde darauf hinweisen, dass die Gruppe
mit dem höheren Einkommen tatsächlich signifikant mehr für Lebensmittel ausgibt als die
Gruppe mit dem niedrigeren oder gleichen Einkommen.
Wichtige Kennzahlen:
• p-Wert für den Steigungskoeffizienten (der angibt, ob der Koeffizient signifikant von
Null verschieden ist)
• R², welches den Anteil der Varianz in den Daten beschreibt, der durch das Modell
erklärt wird
Wenn die p-Werte für die Regressionskoeffizienten unter Ihrem gewählten Signifikanzniveau
liegen (üblicherweise 0,05), dann können Sie schließen, dass ein signifikanter linearer
Zusammenhang besteht. Das R² gibt Ihnen Aufschluss darüber, wie gut das Modell die Daten
erklärt. Je näher R² an 1 ist, desto besser erklärt das Modell die Varianz der abhängigen
Variable.
Das Vorzeichen und die Signifikanz der Koeffizienten geben Aufschluss darüber, wie jede
Variable mit dem Ruhepuls zusammenhängt und ob diese Zusammenhänge statistisch
signifikant sind.
stress_cat <- cut(stress, breaks = c(-Inf, 33, 66, Inf), labels = c("niedrig", "mittel", "hoch"),
right = FALSE) # Kategoriale Variable 'stress_cat' erstellen
table(stress_cat) # Überprüfen Sie die erstellte kategoriale Variable
In diesem Code:
- `cut()` wird verwendet, um die numerische Variable `stress` in kategoriale Gruppen zu
unterteilen.
- Die `breaks`-Option definiert die Grenzen für die Kategorien: -∞ bis unter 33 für "niedrig",
33 bis unter 66 für "mittel" und 66 bis ∞ für "hoch".
- `labels` definiert die Namen der Kategorien.
- `right = FALSE` bedeutet, dass die Unterseite des Intervalls inklusiv und die Oberseite
exklusiv ist (d.h., 33 ist in der Kategorie "mittel" enthalten).
summary(modell)$adj.r.squared
AIC(modell)
BIC(modell) # Berechnen Sie die Modellselektionskriterien für das erste Modell
summary(erweitertes_modell)$adj.r.squared
AIC(erweitertes_modell)
BIC(erweitertes_modell) # Berechnen Sie die Modellselektionskriterien für das erweiterte
Modell
- Adjustiertes R-Quadrat: Höhere Werte deuten auf eine bessere Modellanpassung hin. Ein
deutlich höheres adjustiertes R-Quadrat im erweiterten Modell könnte ein Hinweis darauf
sein, dass die zusätzlichen Variablen relevant sind.
- AIC und BIC: Niedrigere Werte deuten auf ein besseres Modell hin. Vergleichen Sie die AIC-
und BIC-Werte beider Modelle, um zu sehen, ob die Erhöhung der Modellkomplexität durch
die zusätzlichen Variablen gerechtfertigt ist.