Sie sind auf Seite 1von 11

Prüfung zur VO

Datenanalyse und Statistik SS 2015


30. Juni 2015
Arbeitszeit: 90 min

NAME: ______________________________________

Matrikelnummer: _____________________________

Punkte:
1: _______ (/20)
2: _______ (/6)
3: _______ (/8)
4: _______ (/5)
5: _______ (/6)
6: _______ (/13)
7: _______ (/10)
8: _______ (/6)
8: _______ (/6)

Total: _______ (/80)

Noten
0 - 39 Punkte 5 Nicht genügend
40 - 49 Punkte 4 Genügend
50 - 59 Punkte 3 Befriedigend
60 - 69 Punkte 2 Gut
70 - 80 Punkte 1 Sehr gut

Alle benötigten Tabellenwerte finden Sie auf der letzten Seite!

VIEL ERFOLG !!!

Seite 1 von 11 30. Juni 2015


(1) Kreuzen ( □ ) Sie die jeweils richtige Antwort an.

Jede richtige Antwort gibt 2 Punkte. Pro falscher Antwort werden 2 Punkte abgezogen, wobei
ein etwaiger negativer Gesamtwert für den Wissenstest auf Null gesetzt wird.
Es ist auch zulässig, Fragen nicht zu beantworten.

Erreichbare Punkte für dieses Beispiel 0 bis 20.

ja nein
(a) □ x Der Erwartungswert einer diskreten Zufallsvariablen ist jener Wert, der die größte
Wahrscheinlichkeit aufweist.

(b) □ x Die Wahrscheinlichkeit einer korrekten Annahme der Nullhypothese bezeichnet


man als die Macht eines Tests.

(c) □ x Das Modell der Geometrischen Verteilung dient zur Beschreibung von seltenen
Ereignissen.

(d) x □ Für einen zweiseitigen Test gilt, dass er ceteris paribus über eine geringere
Power als der analoge einseitige Test verfügt.

(e) x □ Die Korrektur nach Welch verwendet man beim t-Test im Falle unbekannter
Varianzen.

(f) □ x Die t-Verteilung ähnelt im Aussehen der Normalverteilung und weist im Vergleich
zur Normalverteilung mehr Wahrscheinlichkeitsmasse im Zentrum auf.

(g) x □ Die Yates-Korrrektur findet beim Test auf Unabhängigkeit für eine Vierfelder-
Tafel (2 x 2 Tabelle) Anwendung.

(h) □ x Die Verdoppelung der Fallzahl führt ceteris paribus zu einer Halbierung der
Länge eines Konfidenzintervalls.

(i) □ x Die zentrale Prüfhypothese der einfachen Varianzanalyse lautet, dass die
Varianz in den k Gruppen gleich ist.

(j) x □ P(A  B) = P(A) + P(B) - P(A  B)

Seite 2 von 11 30. Juni 2015


(2) Ein elektronischer Bauteil wird von 3 großen Herstellern produziert.

Hersteller Marktanteil durchschnittliche Ausfallsrate


A 50% 10%
B 40% 20%
C 10% 40%

a) Wie groß ist die durchschnittliche Ausfallsrate für Bauteile dieses Typs? (2 Punkte)

b) In einem System ist ein eingebautes Bauteil dieses Typs defekt.


Sie wissen nicht von welchem Hersteller das eingebaute Bauteil stammt.

Bestimmen Sie die Wahrscheinlichkeiten dafür, dass es sich bei dem ausgefallenen
Bauteil um ein Produkt des Herstellers A, B bzw. C handelt. (4 Punkte)

Anteil Ausfall
A 50% 10%
B 40% 20%
C 10% 40%

a) durchschnittlicher Ausfall 17%

b) P(A|defekt) = 29,41%
P(B|defekt) = 47,06%
P(C|defekt) = 23,53%

Seite 3 von 11 30. Juni 2015


(3) Ein Unternehmen betreibt 1.000 Computerarbeitsplätze.

Aus dem Ticketing-System des Unternehmens werden folgende Anzahlen von Defekten
pro Gerät innerhalb eines Jahres ermittelt.

Defekte pro Gerät Anzahl


in einem Jahr Arbeitsplätze
0 600
1 300
2 80
3 20
1.000
a) Bestimme die durchschnittliche Ausfallshäufigkeit pro Gerät. (1 Punkt)

b) Laut SLA (Service Level Agreement) ist vereinbart, dass die Zahl der Defekte pro Gerät
und Jahr einer Poisson-Verteilung mit Erwartungswert =0,5 folgt.
Bestimme die erwarteten Ausfallshäufigkeit unter der Annahme, dass das SLA
eingehalten wird. (3 Punkte)

c) Unterscheiden sich die beobachteten Defektzahlen von den SLA-Vorgaben statistisch


signifikant? (Irrtumswahrscheinlichkeit (=0,05).

Berechnen Sie eine adäquate Teststatistik und formulieren Sie eine Zusammenfassung
des Ergebnisses! (4 Punkte)
Hinweis: Beachten Sie, dass keine Arbeitsplätze mit mehr als 3 Defekten auftraten. Behandeln Sie beim
Vergleich beobachtete zu erwarteten Häufigkeiten die letzte Zeile als 3+ (3 oder mehr) damit die
Summe der erwarteten Häufigkeiten ebenfalls 1.000 ergibt!

 = 0,5

Defekte Anzahl Prob Expected Chi


0 600 0,60653 606,53 0,07031716
1 300 0,30327 303,27 0,03515858
2 80 0,07582 75,82 0,23086152
3 20 0,01439 14,39 2,18924546
1.000 1,00000 1.000,00 2,52558273

a) Mittelwert 0,52

c) Chi²‐Wert 2,5256 p‐value 0,4707

krit. Wert 7,81

p‐value 0,4707

Seite 4 von 11 30. Juni 2015


(4) Wie viele Antworten muss eine Umfrage enthalten, wenn folgende Information daraus
abgeleitet werden soll:
Ein 95%-Konfidenzintervall für den unbekannten Anteil  in einer Grundgesamtheit soll mit
einer Genauigkeit von plus/minus 2 Prozentpunkten angegeben werden.

Sie können dabei davon ausgehen, dass  in der Größenordnung von ca.25% liegt?
(5 Punkte)

Länge 0,04
emax 0,02
alpha 0,05
Tab 1,959964
p 0,25 Annahme
p * (1-p) 0,1875
Wurzel(p*(1-p)) 0,4330127
Wurzel(n) 42,434465
n 1800,6838
Aufgerundet 1801 korrekt

keine Annahme 0,25


Wurzel(p*(1-p)) 0,5
Wurzel(n) 48,9991
n 2400,9118
Aufgerundet 2401 ohne Annahme

Seite 5 von 11 30. Juni 2015


(5) Eine Password-Policy schreibt als Minimalanforderung vor, dass ein Password aus 4
Zeichen bestehen muss, wobei

 das erste Zeichen ein Buchstabe sein muss


 und die restlichen Zeichen Buchstaben oder Ziffern sein können

Es wird nicht nach Groß- und Kleinbuchstaben unterschieden und wir setzen voraus, dass
es 26 Buchstaben gibt.

Wie viele unterschiedliche Passwörter können mit den angegebenen Minimalkriterien erfüllt
werden?
(3 Punkte)

Wie viele unterschiedliche Passwörter können mit den angegebenen Minimalkriterien erfüllt
werden, wenn als zusätzliche Anforderung formuliert wird, dass kein Zeichen öfter als
einmal verwendet werden darf?
(3 Punkte)

Zeichen ‐ 1 Zeichen ‐ 2 Zeichen ‐ 3 Zeichen ‐ 4


Buchstabe
a) 26 36 36 36 1.213.056

b) 26 35 34 33 1.021.020

Seite 6 von 11 30. Juni 2015


(6) Ein großes Telekommunikationsunternehmen zieht aus seinem Kundenportfolio von
N=250.000 Privatkunden eine Zufallsstichprobe vom Umfang n=500 und befragt diese
Kunden über ihre Einstellung zur Glasfasertechnologie, und ob Sie bereit wären für eine
Verdoppelung der Bandbreite ihres Internetanschlusses Mehrkosten in der Höhe von 5,-€
monatlich auf sich zu nehmen.
Von den 500 Befragten gaben 40 an, an einem Upgrade ihrer Internetanbindung
interessiert zu sein.

a) Geben Sie eine begründete Schätzung für die Anzahl der Privatkunden an, die an einem
Upgrade der Internetverbindung interessiert sind. (1 Punkt)
b) Wie groß ist die Varianz der obigen Schätzung unter Berücksichtigung der Auswahl ohne
Zurücklegen und wie groß ist die Varianz unter der vereinfachenden Annahme, dass ein
Ziehen mit Zurücklegen erfolgte. (2 Punkte)
c) Bestimme ein 95%-Konfidenzintervall für die Anzahl der Interessenten in der
Grundgesamtheit. (4 Punkte)
d) Angenommen 50% der Interessenten in der Grundgesamtheit schließen tatsächlich einen
Upgrade-Vertrag ab. Um wieviel € nimmt der Jahresumsatz des Telekommunikations-
unternehmen zu (geben Sie den Erwartungswert aufgrund der obigen Stichprobe an)?
(2 Punkte)
e) Bestimme ein 95%-Konfidenzintervall für den zusätzlichen Jahresumsatz.
(4 Punkte)
N= 250.000
n= 500
X= 40
a) p= 8,00% € 5,00
Anzahl: 20.000
(1-p)= 0,9200
b) Ohne Zurücklegen Mit Zurücklegen
var(p)= 0,0001469 0,0001472
sigma(p)= 0,0121205 0,0121326

var(X)= 36,7265469 36,8000000


sigma(X)= 6,0602431 6,0663004

c)
= 0,05
Tab= 1,9600
Tab*sigma= 2,3756% =emax

UG 5,62% 14.061,07
OG 10,38% 25.938,93

d)
Erwartzungswert-Zusatzumsatz

50% der Interessenten sind 10.000


€ 50.000,00 pro Monat
€ 600.000,00 pro Jahr
e)
50% der Interessenten schwanken
7.030,54 12.969,46
mal 12*5
€ 421.832,13 € 778.167,87

Seite 7 von 11 30. Juni 2015


(7) Für die Angestellten eines Betriebes sind folgende Daten zur Einkommensverteilung bekannt:

(a) Zeichnen Sie ein korrektes Histogramm, um die Verteilung der Einkommen zu
charakterisieren und beantworten Sie folgende Frage:
Um welchen multiplikativen Faktor ist die Höhe des Histogramm‐Balkens (also die Dichte) der
Klasse 800‐1.000 größer als jene der Klasse 1.500–2.000? (4 Punkte)
(b) Berechnen Sie das arithmetische Mittel der Einkommen! (3 Punkte)
(c) Berechnen Sie den Median der Einkommen. (3 Punkte)

Einkommen Anteil mi hi mi*hi bi di

800‐1000 0,30 900 0,3 270 2 0,1500


1000‐1200 0,30 1100 0,3 330 2 0,1500
1200‐1500 0,20 1350 0,2 270 3 0,0667
1500‐2000 0,10 1750 0,1 175 5 0,0200
2000‐3000 0,05 2500 0,05 125 10 0,0050
3000‐4000 0,05 3500 0,05 175 10 0,0050
1 1345
Faktor 7,5

0 0 arith. Mittel 1345


1 1 Median 1133,33
Median = 1000+(1200‐1000)*(0,5‐0,3)/((0,6‐0,3))

800 0
800 0,15
1000 0,15
1000 0
1000 0,15
1200 0,15
1200 0
1200 0,06666667
1500 0,06666667
1500 0
1500 0,02
2000 0,02
2000 0
2000 0,005
3000 0,005
3000 0
3000 0,0050
4000 0,0050
4000 0

0
800 1000 1200 1400 1600 1800 2000 2200 2400 2600 2800 3000 3200 3400 3600 3800 4000

Seite 8 von 11 30. Juni 2015


(8) Eine Gruppe von n=36 Personen unterzog sich einem Intelligenztest, der so normiert ist,
dass er in einer Normpopulation einen Durchschnittswert von 100 bei einer Standardabweichung
von 15 aufweist. Für unsere Stichprobe ergab sich folgendes Ergebnis:

Mittelwert: x  105

Kann man aufgrund des empirischen Ergebnisses behaupten, dass die untersuchte
Personengruppe eine signifikant höhere Intelligenz als die Normpopulation aufweist?
Teste diese Hypothese mit  = 0,05.

Formuliere dazu zunächst H0 und HA:

Bestimme den kritischen Tabellenwert:

Berechne die Teststatistik:

Formuliere die Entscheidung des Hypothesen-Tests. (Insgesamt 6 Punkte)

Stichprobenergebnisse Legende:
n= 36 xq...arithmetisches Mittel (x-quer)
xq= 105 s...Standardabweichung der Stichprobenwerte
s²= 225 s(xq)...Standardabweichung des Stichprobenmittels
s = 15
s(xq)= 2,5 nur bei großem n anzuwenden

Irrtumswahrscheinlichkeit
alpha= 0,05
t-Wert= 1,6896 z-Wert 1,6449

Einseitiger Test H0: MW ≤ 100 H1: MW >100


Testwert 2
signifikant, Ho wird abgelehnt

Seite 9 von 11 30. Juni 2015


(9) In einer empirischen Untersuchung wurde in 3 unterschiedlichen Gruppen an jeweils 8
verschiedenen Personen ein Merkmal erhoben.

Ergänze in den nachstehenden Tabellen die fehlenden Werte (graue Felder). (6 Punkte)

ZUSAMMENFASSUNG
Gruppen Anzahl Summe Mittelwert Varianz
Gruppe‐1 8 646 80,75 31,64
Gruppe‐2 8 663 82,88 20,98
Gruppe‐3 8 600 75,00 6,29

ANOVA
Mittlere
Quadrat‐ Freiheits‐ Quadratsumme kritischer F‐
Streuungsursache summen (SS) grade (df) (MS) Prüfgröße (F) Wert

Unterschiede zwischen
den Gruppen
265,58 2 132,79 6,76 3,68

Innerhalb der Gruppen 412,38 21 19,64

Gesamt
677,96 23 29,48

Seite 10 von 11 30. Juni 2015


Tabellenwerte Normalverteilung: X~N(0,1)

P(X < 1,6449) = 0,95 P(X < 1,9600) = 0,975

P(X < 2,3263) = 0,99 P(X < 2,5758) = 0,995

Tabellenwerte Chi²-Verteilung: X~Chi²(df)

df=1: P(X < 3,8415 ) = 0,95 df=4: P(X < 9,4877 ) = 0,95

df=2: P(X < 5,9915) = 0,95 df=5: P(X < 11,0705 ) = 0,95

df=3: P(X < 7,8147 ) = 0,95 df=6: P(X < 12,5916 ) = 0,95

Tabellenwerte t-Verteilung:

DF = 30 P(X < 2,0423) = 0,975

DF = 31 P(X < 2,0395) = 0,975

DF = 32 P(X < 2,0369) = 0,975

Seite 11 von 11 30. Juni 2015

Das könnte Ihnen auch gefallen