Sie sind auf Seite 1von 16

1.

Ein Unternehmensmanager gibt an, dass das durchschnittliche Guthaben auf seiner
Kreditkarte 500 US-Dollar beträgt. Halten Sie diese Behauptung für berechtigt? Verwenden
Sie einen T-Test bei einer Stichprobe, um Ihre Schlussfolgerung zu ziehen.

Ja, das durchschnittliche Guthaben ihrer Kreditkarten beträgt 500 $. Daher ist die
Behauptung berechtigt. Die Schlussfolgerung erfolgt auf Grundlage des T-Tests bei
einer Stichprobe.

Erläuterung :
Nullhypothese: Das durchschnittliche Guthaben einer Kreditkarte beträgt 500 $
Alternative Hypothese: Das durchschnittliche Guthaben einer Kreditkarte beträgt nicht 500
$
t-Test: Zwei Stichproben unter der
Annahme ungleicher Varianzen

Gleichgewicht
Bedeuten 520.015
Varianz 211378.2253
Beobachtungen 400
Hypothetischer
Mittelwert 500
df 399
t Stat 0.870673781
P(T<=t) einseitig 0.192227914
t Kritischer One-Tail 1.648681534
P(T<=t) zweiseitig 0.384455827
t Kritischer Zwei-
Schwanz 1.965927296

Da der P-Wert des One-Tail-Tests größer als unser Signifikanzniveau 0,05 ist, kann die
Nullhypothese nicht abgelehnt werden, dh das durchschnittliche Guthaben der
Kreditkarte beträgt 500 $.

2. Gibt es einen Unterschied zwischen Männern und Frauen, was das durchschnittliche
Gleichgewicht betrifft? Verwenden Sie einen T-Test bei zwei Stichproben, um Ihre
Schlussfolgerung zu ziehen.
Hinsichtlich des durchschnittlichen Gleichgewichts gibt es keinen signifikanten
Unterschied zwischen Männern und Frauen.
Erläuterung :
Nullhypothese: Das durchschnittliche Kreditkartenguthaben von Männern und Frauen
unterscheidet sich nicht.
Alternative Hypothese: Der durchschnittliche Kreditkartensaldo ist bei Männern und Frauen
unterschiedlich.

t-Test: Two-Sample Assuming Unequal Variances

Men Women
Mean 509.8031088 529.5362
Variance 213554.5652 210187.1
Observations 193 207
Hypothesized Mean Difference 0
df 396
t Stat -0.42838443
P(T<=t) one-tail 0.334302083
t Critical one-tail 1.648710601
P(T<=t) two-tail 0.668604165
t Critical two-tail 1.965972608

Die Nullhypothese kann nicht abgelehnt werden. µ1 ist gleich µ2


Daher weist das durchschnittliche Gleichgewicht zwischen Männern und Frauen keine
signifikanten Unterschiede auf, ist also gleich.

3. Gibt es einen Unterschied zwischen Studierenden und Nicht-Studierenden hinsichtlich der


durchschnittlichen Bilanz? Verwenden Sie einen T-Test bei zwei Stichproben, um Ihre
Schlussfolgerung zu ziehen.

Ja, es gibt einen erheblichen Unterschied zwischen Studierenden und Nicht-Studenten,


was die durchschnittliche Bilanz betrifft.
Erläuterung :
Nullhypothese: Das durchschnittliche Guthaben der Kreditkarte für Studenten und Nicht-
Studenten unterscheidet sich nicht.
Alternative Hypothese: Das durchschnittliche Guthaben der Kreditkarte für Studenten und
Nicht-Studenten ist unterschiedlich.
Da der P-Wert des zweiseitigen Tests unter unserem Signifikanzniveau von 0,05 liegt, kann
die Nullhypothese abgelehnt werden, d. h. das durchschnittliche Guthaben der Kreditkarte ist
für Studenten und Nicht-Studenten unterschiedlich.

4. Es wird allgemein davon ausgegangen, dass das Guthaben auf den Karten höher ist, je
mehr Kreditkarten vorhanden sind. Glauben Sie, dass dies auf der Grundlage dieses
Datensatzes wahr ist? Berechnen Sie einen Korrelationskoeffizienten und zeigen Sie ein
Streudiagramm an, um Ihre Antwort zu untermauern.
Nein, das stimmt nicht. Es gibt keine Korrelation zwischen ihnen. Der
Korrelationskoeffizient ist sehr gering .

Korrelationskoeffizient:
Cards Balance
Cards 1
Balance 0.086456 1

Der Korrelationskoeffizient ist nahezu gleich Null, was bedeutet, dass zwischen der Anzahl
der Karten und dem Kartensaldo kein Zusammenhang besteht.
Streudiagramm:
Die Werte fallen verstreut aus und folgen nicht der Trendlinie, die Korrelation ist sehr gering.

5. Untersuchen Sie, ob die folgenden demografischen Variablen das Gleichgewicht


beeinflussen: (a) Alter, (b) Bildungsjahre, (c) Familienstand. Verwenden Sie für Alter und
Bildungsjahre Streudiagramme, um deren Zusammenhang mit dem Gleichgewicht
darzustellen und den Korrelationskoeffizienten zu berechnen. Für die Beziehung zwischen
Familienstand und Gleichgewicht verwenden Sie einen T-Test mit zwei Stichproben, um Ihre
Schlussfolgerung zu ziehen
Die demografischen Variablen Alter, Ausbildungsjahre, Kriegsstatus haben keinen
Einfluss auf die Kreditwürdigkeit.
5a und 5b
Korrelationskoeffizient:
Age Education Balance
Age 1
Education 0.003619 1
Balance 0.001835 -0.00806 1

Der Korrelationskoeffizient ist nahezu gleich Null, was bedeutet, dass beim Kreditsaldo
kein Zusammenhang zwischen Alter und Bildung besteht.

Streudiagramm:
Es ist klar, dass der Trend keine Korrelation aufweist. Der Kreditsaldo hängt also nicht
von diesen Variablen ab.

5c.
Nullhypothese: Das durchschnittliche Guthaben der Kreditkarte für Alleinstehende
und Verheiratete ist gleich.
Alternative Hypothese: Das durchschnittliche Guthaben der Kreditkarte für
Alleinstehende und Verheiratete ist unterschiedlich.
t-Test: Two-Sample Assuming Unequal Variances

Single Married
Mean 523.2903226 517.9429
Variance 221735.0385 205696.7
Observations 155 245
Hypothesized Mean Difference
0
df 319
t Stat 0.112233601
P(T<=t) one-tail0.455354389
t Critical one-tail
1.649644319
P(T<=t) two-tail0.910708777
t Critical two-tail
1.967428387

Der P-Wert ist größer, also eine Nullhypothese, die nicht abgelehnt werden kann, was
bedeutet, dass es aufgrund des Familienstands keine wesentlichen Änderungen gibt

6 . Für die Abwägung spielt die ethnische Zugehörigkeit des Karteninhabers keine Rolle.“
Führen Sie eine Varianzanalyse (ANOVA) durch und diskutieren Sie, ob diese Aussage
durch die Daten gestützt wird oder nicht
Nullhypothese: Die ethnische Zugehörigkeit des Karteninhabers spielt bei der
Ausgewogenheit keine Rolle, d. h. sie ist gleich
Alternative Hypothese: Die ethnische Zugehörigkeit des Karteninhabers ist
ausschlaggebend

Basierend auf der ANOVA ist klar, dass der P-Wert größer als 0,05 ist. Die ethnische
Zugehörigkeit hat also keinen Einfluss auf das Gleichgewicht.
Anova: Single Factor

SUMMARY
Groups Count Sum Average Variance
African American 99 52569 531 235839.2
Asian 102 52256 512.3137 231748.3
Caucasian 199 103181 518.4975 190922.4

ANOVA
Source of Variation SS df MS F P-value F crit
Between Groups 18454.20047 2 9227.1 0.043443 0.957492 3.018452
Within Groups 84321457.71 397 212396.6

Total 84339911.91 399

7. Ein allgemeiner Grundsatz, dem Kreditkartenunternehmen häufig folgen, besteht darin,


Personen mit einer höheren Bonität ein höheres Kreditlimit zu gewähren. Zeigen die Daten,
dass dieser Grundsatz befolgt wird?
Ja, dieser Grundsatz wird befolgt.

Korrelationskoeffizient:

Limit Rating
Limit 1
Rating 0.99688 1

Es besteht eine gute Übereinstimmung.


Streudiagramm :
Kreditkartenunternehmen gehen häufig davon aus, Personen mit einer höheren Bonität
ein höheres Kreditlimit zuzuweisen, was in unserem Fall der Fall ist. Die Begründung
erfolgt anhand der Korrelation.

8. Führen Sie eine einfache lineare Regression des Saldos des Kreditlimits durch. (Hier ist
das Kreditlimit das X und der Saldo das Y). Geben Sie die Koeffizienten und das R-Quadrat
an. Zeigen Sie ein Streudiagramm an.

Einfache lineare Regression :

SUMMARY OUTPUT

Regression Statistics
Multiple R 0.861697
R Square 0.742522
Adjusted R Square 0.741875
Standard Error 233.585
Observations 400

ANOVA
df SS MS F Significance F
Regression 1 62624255 62624255 1147.764 2.5E-119
Residual 398 21715657 54561.95
Total 399 84339912

Coefficients
Standard Error t Stat P-value Lower 95%Upper 95%Lower 95.0%
Upper 95.0%
Intercept -292.79 26.68341 -10.9728 1.18E-24 -345.249 -240.332 -345.249 -240.332
Credit Limit 0.171637 0.005066 33.87867 2.5E-119 0.161677 0.181597 0.161677 0.181597
Streudiagramm :

Das Kreditlimit ist ein wichtiger Indikator. Es hat eine gute Korrelation, dh R 2 = 0,74

9. Führen Sie eine einfache lineare Regression des Saldos (Y) auf die Bonität (X) durch.
Geben Sie die Koeffizienten und das R-Quadrat an. Zeigen Sie ein Streudiagramm an
Einfache lineare Regression :
SUMMARY OUTPUT

Regression Statistics
Multiple R 0.863625161
R Square 0.745848418
Adjusted R Square 0.745209846
Standard Error 232.0713048
Observations 400

ANOVA
df SS MS F Significance F
Regression 1 62904789.88 62904790 1167.994581 1.8989E-120
Residual 398 21435122.03 53857.09
Total 399 84339911.91

Coefficients Standard Error t Stat P-value Lower 95% Upper 95% Lower 95.0%Upper 95.0%
Intercept -390.8463418 29.06851463 -13.4457 3.07318E-34 -447.993365 -333.6993186 -447.993365 -333.699
Credit Rating(X) 2.566240327 0.075089102 34.17594 1.8989E-120 2.418619483 2.713861171 2.418619483 2.713861

Streudiagramm :
Ja, die Bonität hat Einfluss auf die Kreditwürdigkeit. Es besteht eine gute Korrelation.

10. Berücksichtigen Sie Ihre Ergebnisse in den Fragen 8-9. Besprechen Sie
Geschäftsmechanismen zur Erhöhung oder Verringerung des Guthabens auf Kreditkarten.
Versuchen Sie, Ihre Antworten zu quantifizieren.

 Es ist klar, dass die Kreditkartenbewertung und das Kreditlimit einen erheblichen
Einfluss auf das Kreditkartenguthaben haben. Beide weisen eine gute Korrelation auf.
Beide sind ein wichtiger Indikator für den Kreditkartensaldo. Der Saldo ist hoch für
diejenigen, deren Kreditwürdigkeit und Kreditlimit hoch sind. Sowohl die Bewertung
als auch das Limit sind die wesentlichen Prädiktoren für das Gleichgewicht.

 Das Guthaben von Personen mit höherer Bewertung und höherem Kreditlimit kann
erhöht werden, wohingegen das Guthaben von Personen mit niedrigerer Bewertung
und niedrigerem Kreditlimit verringert werden muss (basierend auf dieser Analyse).

11. Das Kreditlimit wird als konsolidierter Betrag für alle Kreditkarten des Karteninhabers
ausgewiesen. Führen Sie eine multiple lineare Regression des Saldos (Y) für Limit und
Karten als zwei X-Variablen durch. Geben Sie die Koeffizienten an. Besprechen Sie die
Auswirkung auf den Saldo, wenn (a) das Kreditlimit für die gleiche Anzahl von Karten
erhöht wird und (b) die Anzahl der Karten erhöht wird, ohne das Gesamtkreditlimit zu
ändern.
Multiple lineare Regression:
SUMMARY OUTPUT

Regression Statistics
Multiple R 0.865188295
R Square 0.748550786
Adjusted R Square 0.74728404
Standard Error 231.1247525
Observations 400

ANOVA
df SS MS F Significance F
Regression 2 63132707.37 31566354 590.9238 9.8E-120
Residual 397 21207204.54 53418.65
Total 399 84339911.91

Coefficients Standard Error t Stat P-value Lower 95%Upper 95%Lower 95.0%


Upper 95.0%
Intercept -369.0359554 36.16414657 -10.2045 7.23E-22 -440.133 -297.939 -440.133 -297.939
Credit Limit 0.171479037 0.005013136 34.20594 2E-120 0.161623 0.181335 0.161623 0.181335
Cards 26.03375427 8.438363509 3.085166 0.002177 9.444291 42.62322 9.444291 42.62322

Das Kreditlimit und die Anzahl der Karten sind ein wichtiger Indikator für den Kreditsaldo,
beide haben einen größeren Einfluss auf den Saldo.
Korrelationskoeffizient = 0,865 und R-Quadrat = 0,748
Eine Erhöhung einer einzelnen Einheit ($) des Kreditlimits mit derselben Karte erhöht den
Saldo um 0,17. (Das Kreditlimit wird im Vergleich zu Karten in einem größeren Maßstab
gemessen und hat einen Standardfehler von 34,2.)
Durch die Erhöhung einer Karte erhöht sich der Kontostand um 26,03, d. h. durch die
Erhöhung der Karte erhöht sich der Kontostand

12. Führen Sie eine einfache lineare Regressionsgleichung mit Einkommen als X und Saldo
als Y aus. Geben Sie die Koeffizienten an. Unterscheidet sich der Einkommenskoeffizient
signifikant von Null? Was sagt dies über die Auswirkung des Einkommens auf die Bilanz
aus?
Balance(y) y = 6.0484x + 246.51
R² = 0.215
2500

2000
SUMMARY OUTPUT
1500
Regression Statistics
Multiple R 0.463656457
1000
R Square 0.21497731
Adjusted R Square 0.213004891
500
Standard Error 407.8647195
Observations 400
0
0 50 100 150 200
ANOVA
df SS MS F Significance F
Regression 1 18131167.4 18131167 108.9917152 1.03089E-22
Residual 398 66208744.51 166353.6
Total 399 84339911.91

Coefficients Standard Error t Stat P-value Lower 95% Upper 95% Lower 95.0% Upper 95.0%
Intercept 246.5147506 33.19934735 7.425289 6.90344E-13 181.2467485 311.7827527 181.2467485 311.7827527
Income 6.048363409 0.579350163 10.43991 1.03089E-22 4.909394402 7.187332415 4.909394402 7.187332415

Einkommen Saldo(y)
Einkommen 1
Saldo(y) 0.46365645 1
7

Korrelationskoeffizient für die beiden Variablen =0,46


Basierend auf dem Regressionskoeffizienten beträgt das Einkommen 6,048. Ja; es ist weit
von Null entfernt und nimmt den Wert von 4,90 bis 7,18 an. Das Hinzufügen einer
Einkommenseinheit erhöht den Saldo um weitere 6,04 und ist ein wichtiger Prädiktor.
Basierend auf der Skala ist der t-stat-Wert 10,4 Standardfehler von Null entfernt.

13. Wie hoch ist basierend auf der in Frage 12 abgeleiteten Gleichung der geschätzte Saldo
für eine Person mit einem Einkommen von 100.000 USD pro Jahr?
Balance(y)
2500

2000

1500
f(x) = 6.04836340853157 x + 246.514750591403
R² = 0.214977310132406
1000

500

0
0 20 40 60 80 100 120 140 160 180 200

Basierend auf der Gleichung ergibt sich Y = 6,0484 (X)+246,51


X= Einkommen
Y = 6,0484(100) + 246,51
Geschätzter Saldo für eine Person mit einem Einkommen von 100.000 USD pro Jahr =
851,35 USD.

14. Untersuchen Sie anhand des Datensatzes die Beziehung zwischen dem
Kreditkartenguthaben (Y) und (a) dem Einkommen (b), dem Alter (c) der Bildung (c) dem
Limit und (d) der Bewertung als X-Variablen? Schätzen Sie ein multiples lineares
Regressionsmodell und geben Sie die statistische Signifikanz jeder dieser Variablen an.

Multiples Regressionsmodell:
SUMMARY OUTPUT

Regression Statistics
Multiple R 0.936702578
R Square 0.87741172
Adjusted R Square
0.875856031
Standard Error
161.9917647
Observations 400

ANOVA
df SS MS F Significance F
Regression 5 74000827.17 14800165.43 564.0020686 4.5908E-177
Residual 394 10339084.74 26241.33183
Total 399 84339911.91

Coefficients Standard Error t Stat P-value Lower 95% Upper 95%Lower 95.0%
Upper 95.0%
Intercept -473.2514026 55.10833546 -8.587655545 2.08837E-16 -581.5945666 -364.908 -581.595 -364.908
Income -7.608832003 0.381931562 -19.92197755 1.37077E-61 -8.359710677 -6.85795 -8.35971 -6.85795
Limit 0.07901642 0.044791005 1.764113581 0.078487737 -0.009042839 0.167076 -0.00904 0.167076
Rating 2.773843725 0.667079559 4.158190261 3.93909E-05 1.462363177 4.085324 1.462363 4.085324
Age -0.860030445 0.478700493 -1.796594023 0.073165937 -1.801157147 0.081096 -1.80116 0.081096
Education 1.967791521 2.605290902 0.755305874 0.450516748 -3.154218733 7.089802 -3.15422 7.089802

Income Limit Rating Age Education Balance


Income 1
Limit 0.792088 1
Rating 0.791378 0.99688 1
Age 0.175338 0.100888 0.103165 1
Education -0.02769 -0.02355 -0.03014 0.003619 1
Balance 0.463656 0.861697 0.863625 0.001835 -0.00806 1
SUMMARY OUTPUT

Regression Statistics
Multiple R 0.93547739
R Square 0.875117948
Adjusted R Square 0.874488819
Standard Error 162.8813393
Observations 400

ANOVA
df SS MS F Significance F
Regression 2 73807370.62 36903685.31 1390.999823 4.5212E-180
Residual 397 10532541.29 26530.33071
Total 399 84339911.91

Coefficients Standard Error t Stat P-value Lower 95% Upper 95% Lower 95.0% Upper 95.0%
Intercept -534.8121502 21.60269845 -24.75672896 1.66359E-82 -577.2821357 -492.3421648 -577.282136 -492.3421648
Income -7.672124366 0.378462026 -20.2718472 3.1071E-63 -8.416164597 -6.928084134 -8.4161646 -6.928084134
Rating 3.949264832 0.086209035 45.81033566 1.4482E-160 3.77978154 4.118748125 3.77978154 4.118748125

Erläuterung :
 Basierend auf der multiplen Regressionsanalyse ist klar, dass Einkommen und Rating
die beiden statistisch signifikanten Prädiktoren basierend auf dem p-Wert sind.
 Alle diese Variablen, also Einkommen, Bildung, Alter, Limit und Rating, haben
zusammen zu 87,7 % der Schwankungen im Kreditkartensaldo beigetragen.
 Um jedoch zu verstehen, ob auch diese Variablen einen Beitrag zur Variation des
Gleichgewichts geleistet haben, wird eine Analyse mit akzeptablen P-Werten
durchgeführt.
 Unter Beibehaltung der Xs mit niedrigem p-Wert, also nur mit Einkommen und
Rating , wurde die Regressionsanalyse erneut durchgeführt.
 In dieser Regression zeigte die Analyse mit diesen beiden Variablen eine Variation
des Kreditkartensaldos von 87,5 %.
 Das ist fast der gleiche R-Quadrat-Wert wie zuvor.
 Auf dieser Grundlage ist es sehr klar, dass Einkommen und Rating die beiden
wichtigsten Prädiktoren sind .
 Es wird auch die Betrachtung von Fehlern (Residuen) und Mustern untersucht.
 Bei der Fokussierung auf Einkommensresiduen zeigt sich, dass mehr Werte auf der
negativen Seite liegen und insbesondere eher Gruppen mit niedrigerem Einkommen,
und dass die Anpassungslinie auch nicht linear ist.
 Die Restwerte der Bewertung zeigten eine positive Seite für niedrigere und höhere
Bewertungen, wohingegen sie für andere typische Bewertungen eine negative
Bewertung zeigten, wobei die Bewertungslinie der Übereinstimmung in Ordnung ist.
Abschließende Bemerkungen,
 Einkommen und Einstufung sind die beiden wichtigen Variablen, die zur
Veränderung des Gleichgewichts beitragen, wohingegen Grenze, Alter und
Bildung keine wesentlichen Variablen für das Gleichgewicht sind.

Das könnte Ihnen auch gefallen