Sie sind auf Seite 1von 23

No Soal Bobot CO/CPL

1 Kasus : Minimization of risk and maximization of profit on behalf of the bank CO.1/CO.2/
Respon : Creditability (1=Good credit risk, 2= Bad credit risk) CO.3/Cpp3/
Prediktor : Value Savings Stocks, Length of current employment, Duration of Credit, Cpkk1
Credit Amount, Age
Data : German_credit.csv (total 900 observasi), 450 untuk training dan 450 untuk uji
(tes)
a. Jelaskan persyaratan terhadap data predictor dan respon yang dapat digunakan
untuk analisis diskriminan 8
Predictor bersifat numerik, Respon bersifat kategorik dengan dua kelas atau tiga
kelas 8
b. Lakukan analisis group means menggunakan data total 900 observasi berdasarkan
nilai creditability sebagai grouping variable. Jelaskan maknanya untuk setiap
variable predictor 8

With R
> andrio=read.delim("clipboard")
> View(andrio)
> library(MASS)
> train=sample(1:900,450)
> table(dataku$Sp[train])
< table of extent 0 >
> dim(dataku)
[1] 7 3
> by(andrio$Value.Savings.Stocks,andrio$Creditability, mean)
andrio$Creditability: 0
[1] 1.75
------------------------------------------------------------------------
andrio$Creditability: 1
[1] 2.29
> by(andrio$Duration.of.Credit..month.,andrio$Creditability, mean)
andrio$Creditability: 0
[1] 25.335
------------------------------------------------------------------------
andrio$Creditability: 1
[1] 19.20714

>

c. Lakukan analisis boxplot untuk setiap variable predictor. Jelaskan maknanya

1
d. Lakukan linier discriminant analysis (LDA) menggunakan data training untuk
membangun model yang dapat digunakan untuk memprediksi kelas risiko kredit.
Jelaskan makna persamaan yang didapatkan serta nilai confusion matrix-nya

2
Predictors: Duration of Credit (month), Value Savings/Stocks, Age (years),
Length of current employment, Credit Amount

Group 0 1
Count 14 436

Summary of classification

True Group
Put into Group 0 1

3
0 12 192
1 2 244
Total N 14 436
N correct 12 244
Proportion 0.857 0.560

N = 450 N Correct = 256 Proportion Correct = 0.569

(Artinya kebenaran data ini adalah 56,9%)

Squared Distance Between Groups

0 1
0 0.000000 0.609476
1 0.609476 0.000000

Linear Discriminant Function for Groups

0 1
Constant -8.0581 -9.3687
Duration of Credit (month) 0.1430 0.1130
Value Savings/Stocks 0.0819 0.4825
Age (years) 0.2099 0.2349
Length of current employment 1.9113 1.8600
Credit Amount -0.0000 0.0002

Summary of Misclassified Observations

True Pred Squared


Observation Group Group Group Distance Probability
1** 1 0 0 2.696 0.698
1 4.375 0.302
3** 1 0 0 2.247 0.586
1 2.945 0.414
4** 1 0 0 1.118 0.517
1 1.257 0.483
5** 1 0 0 1.027 0.521
1 1.198 0.479
13** 1 0 0 2.760 0.542
1 3.100 0.458
19** 1 0 0 6.202 0.717
1 8.057 0.283
24** 1 0 0 1.368 0.639
1 2.509 0.361
27** 1 0 0 4.219 0.692
1 5.839 0.308
28** 1 0 0 3.167 0.576
1 3.779 0.424
30** 1 0 0 10.44 0.542
1 10.77 0.458
31** 1 0 0 4.209 0.587
1 4.911 0.413
32** 1 0 0 3.621 0.654
1 4.893 0.346
33** 1 0 0 6.052 0.552
1 6.470 0.448
34** 1 0 0 2.758 0.522
1 2.933 0.478
35** 1 0 0 2.061 0.563
1 2.571 0.437
36** 1 0 0 3.907 0.555
1 4.345 0.445
37** 1 0 0 2.637 0.577
1 3.257 0.423
38** 1 0 0 3.880 0.630
1 4.940 0.370
40** 1 0 0 2.742 0.542

4
1 3.078 0.458
42** 1 0 0 6.713 0.531
1 6.961 0.469
43** 1 0 0 0.8607 0.627
1 1.9022 0.373
47** 1 0 0 2.276 0.728
1 4.245 0.272
49** 1 0 0 3.550 0.561
1 4.037 0.439
50** 1 0 0 2.104 0.631
1 3.178 0.369
51** 1 0 0 3.264 0.522
1 3.438 0.478
52** 1 0 0 3.936 0.704
1 5.665 0.296
53** 1 0 0 0.9256 0.590
1 1.6565 0.410
58** 1 0 0 1.899 0.646
1 3.098 0.354
62** 1 0 0 2.153 0.629
1 3.207 0.371
65** 1 0 0 1.569 0.527
1 1.789 0.473
68** 1 0 0 1.014 0.674
1 2.465 0.326
69** 1 0 0 1.311 0.644
1 2.498 0.356
70** 1 0 0 7.307 0.506
1 7.355 0.494
73** 1 0 0 6.679 0.515
1 6.795 0.485
77** 1 0 0 2.297 0.577
1 2.915 0.423
79** 1 0 0 2.688 0.681
1 4.208 0.319
81** 1 0 0 1.216 0.622
1 2.210 0.378
87** 1 0 0 0.7125 0.632
1 1.7922 0.368
88** 1 0 0 3.382 0.621
1 4.370 0.379
93** 1 0 0 1.649 0.624
1 2.660 0.376
97** 1 0 0 2.866 0.552
1 3.281 0.448
99** 1 0 0 1.782 0.581
1 2.434 0.419
100** 1 0 0 5.995 0.570
1 6.557 0.430
102** 1 0 0 1.394 0.694
1 3.033 0.306
105** 1 0 0 1.012 0.663
1 2.369 0.337
106** 1 0 0 1.519 0.681
1 3.038 0.319
107** 1 0 0 0.5336 0.610
1 1.4266 0.390
108** 1 0 0 2.778 0.578
1 3.407 0.422
109** 1 0 0 3.828 0.624
1 4.845 0.376
112** 1 0 0 4.955 0.512
1 5.050 0.488
114** 1 0 0 0.8988 0.654
1 2.1747 0.346
117** 1 0 0 1.590 0.542
1 1.924 0.458
121** 1 0 0 5.066 0.618
1 6.028 0.382

5
122** 1 0 0 5.083 0.580
1 5.728 0.420
123** 1 0 0 3.372 0.518
1 3.519 0.482
124** 1 0 0 1.412 0.545
1 1.769 0.455
129** 1 0 0 0.2356 0.629
1 1.2915 0.371
130** 1 0 0 2.100 0.518
1 2.242 0.482
131** 1 0 0 1.203 0.688
1 2.780 0.312
132** 1 0 0 1.366 0.520
1 1.524 0.480
134** 1 0 0 1.929 0.655
1 3.214 0.345
138** 1 0 0 0.7841 0.554
1 1.2198 0.446
144** 1 0 0 5.725 0.506
1 5.776 0.494
149** 1 0 0 0.7797 0.574
1 1.3794 0.426
150** 1 0 0 3.826 0.593
1 4.577 0.407
152** 1 0 0 1.960 0.564
1 2.478 0.436
156** 1 0 0 0.7063 0.605
1 1.5619 0.395
157** 1 0 0 1.142 0.641
1 2.304 0.359
159** 0 1 0 14.45 0.495
1 14.41 0.505
160** 1 0 0 5.444 0.544
1 5.799 0.456
161** 1 0 0 0.5613 0.579
1 1.1985 0.421
163** 1 0 0 1.598 0.622
1 2.592 0.378
164** 1 0 0 1.199 0.553
1 1.627 0.447
165** 1 0 0 2.734 0.694
1 4.370 0.306
167** 1 0 0 3.503 0.587
1 4.209 0.413
169** 1 0 0 1.786 0.614
1 2.716 0.386
170** 1 0 0 1.835 0.574
1 2.429 0.426
171** 1 0 0 4.047 0.621
1 5.033 0.379
173** 1 0 0 1.141 0.649
1 2.375 0.351
174** 1 0 0 1.306 0.681
1 2.821 0.319
175** 1 0 0 1.003 0.586
1 1.701 0.414
179** 1 0 0 0.3278 0.612
1 1.2402 0.388
181** 1 0 0 2.487 0.619
1 3.460 0.381
182** 1 0 0 2.186 0.649
1 3.414 0.351
184** 1 0 0 1.996 0.653
1 3.258 0.347
185** 1 0 0 1.825 0.611
1 2.727 0.389
189** 1 0 0 5.063 0.729
1 7.038 0.271
190** 1 0 0 0.5748 0.517

6
1 0.7126 0.483
191** 1 0 0 1.225 0.579
1 1.860 0.421
195** 1 0 0 0.8724 0.639
1 2.0187 0.361
198** 1 0 0 0.3204 0.641
1 1.4772 0.359
200** 1 0 0 11.46 0.765
1 13.83 0.235
201** 1 0 0 4.565 0.524
1 4.759 0.476
206** 1 0 0 4.284 0.521
1 4.454 0.479
207** 1 0 0 1.705 0.674
1 3.156 0.326
221** 1 0 0 2.111 0.576
1 2.722 0.424
223** 1 0 0 1.645 0.530
1 1.886 0.470
228** 1 0 0 0.7494 0.661
1 2.0812 0.339
230** 1 0 0 10.70 0.682
1 12.23 0.318
231** 1 0 0 3.112 0.681
1 4.628 0.319
232** 1 0 0 3.821 0.574
1 4.416 0.426
234** 1 0 0 2.305 0.568
1 2.849 0.432
236** 1 0 0 5.792 0.556
1 6.244 0.444
237** 1 0 0 3.632 0.536
1 3.924 0.464
239** 1 0 0 3.476 0.611
1 4.378 0.389
240** 1 0 0 7.907 0.592
1 8.648 0.408
242** 1 0 0 19.77 0.513
1 19.88 0.487
243** 1 0 0 1.091 0.580
1 1.736 0.420
246** 1 0 0 1.747 0.558
1 2.213 0.442
247** 1 0 0 0.7030 0.664
1 2.0654 0.336
249** 1 0 0 1.150 0.504
1 1.183 0.496
253** 1 0 0 2.663 0.607
1 3.531 0.393
254** 1 0 0 5.291 0.711
1 7.092 0.289
256** 1 0 0 1.386 0.607
1 2.253 0.393
257** 1 0 0 4.602 0.571
1 5.178 0.429
258** 1 0 0 2.657 0.587
1 3.363 0.413
261** 1 0 0 1.878 0.575
1 2.482 0.425
262** 1 0 0 2.186 0.555
1 2.624 0.445
263** 1 0 0 2.338 0.625
1 3.357 0.375
264** 1 0 0 5.841 0.669
1 7.244 0.331
265** 1 0 0 2.000 0.564
1 2.512 0.436
267** 1 0 0 1.567 0.508
1 1.627 0.492

7
268** 1 0 0 9.652 0.595
1 10.418 0.405
269** 1 0 0 2.244 0.645
1 3.439 0.355
270** 1 0 0 2.381 0.521
1 2.552 0.479
275** 1 0 0 2.228 0.630
1 3.294 0.370
278** 1 0 0 1.218 0.602
1 2.047 0.398
279** 1 0 0 0.7335 0.605
1 1.5873 0.395
281** 1 0 0 2.649 0.586
1 3.342 0.414
284** 1 0 0 2.461 0.525
1 2.657 0.475
288** 1 0 0 1.946 0.513
1 2.047 0.487
290** 1 0 0 0.2863 0.605
1 1.1358 0.395
300** 1 0 0 5.183 0.559
1 5.655 0.441
301** 1 0 0 3.408 0.585
1 4.094 0.415
302** 1 0 0 2.968 0.571
1 3.537 0.429
303** 1 0 0 2.249 0.601
1 3.068 0.399
306** 1 0 0 2.996 0.549
1 3.393 0.451
307** 1 0 0 1.811 0.525
1 2.009 0.475
309** 1 0 0 1.758 0.617
1 2.708 0.383
314** 1 0 0 3.490 0.704
1 5.225 0.296
315** 1 0 0 3.814 0.513
1 3.916 0.487
317** 1 0 0 1.617 0.636
1 2.730 0.364
318** 1 0 0 1.953 0.570
1 2.518 0.430
319** 1 0 0 0.3048 0.621
1 1.2965 0.379
325** 1 0 0 0.7919 0.578
1 1.4171 0.422
332** 1 0 0 0.4272 0.628
1 1.4727 0.372
333** 1 0 0 3.278 0.603
1 4.112 0.397
336** 1 0 0 2.945 0.694
1 4.583 0.306
338** 1 0 0 2.842 0.502
1 2.855 0.498
342** 1 0 0 1.355 0.641
1 2.518 0.359
346** 1 0 0 1.282 0.518
1 1.422 0.482
349** 1 0 0 0.6878 0.573
1 1.2760 0.427
350** 1 0 0 0.6385 0.622
1 1.6374 0.378
358** 1 0 0 3.203 0.610
1 4.096 0.390
359** 1 0 0 3.726 0.686
1 5.286 0.314
362** 1 0 0 2.277 0.620
1 3.256 0.380
364** 1 0 0 1.241 0.607

8
1 2.113 0.393
366** 1 0 0 3.564 0.545
1 3.929 0.455
368** 1 0 0 0.4718 0.598
1 1.2657 0.402
369** 1 0 0 0.4008 0.637
1 1.5267 0.363
370** 1 0 0 0.9529 0.655
1 2.2359 0.345
371** 1 0 0 5.873 0.520
1 6.031 0.480
374** 1 0 0 2.733 0.612
1 3.648 0.388
375** 1 0 0 0.7758 0.552
1 1.1958 0.448
376** 1 0 0 1.080 0.642
1 2.252 0.358
378** 1 0 0 5.457 0.539
1 5.767 0.461
379** 1 0 0 1.410 0.572
1 1.994 0.428
381** 1 0 0 2.636 0.586
1 3.330 0.414
382** 1 0 0 1.306 0.610
1 2.204 0.390
384** 1 0 0 1.910 0.676
1 3.380 0.324
386** 1 0 0 1.517 0.658
1 2.823 0.342
389** 1 0 0 0.9495 0.555
1 1.3909 0.445
391** 1 0 0 1.086 0.549
1 1.480 0.451
394** 1 0 0 0.3724 0.593
1 1.1247 0.407
396** 1 0 0 4.509 0.645
1 5.701 0.355
398** 1 0 0 0.6622 0.634
1 1.7587 0.366
399** 1 0 0 1.216 0.533
1 1.478 0.467
401** 1 0 0 3.074 0.639
1 4.212 0.361
404** 1 0 0 2.119 0.625
1 3.142 0.375
408** 1 0 0 1.147 0.601
1 1.967 0.399
416** 1 0 0 3.270 0.688
1 4.849 0.312
420** 1 0 0 2.688 0.563
1 3.195 0.437
421** 1 0 0 0.7265 0.642
1 1.8979 0.358
425** 1 0 0 2.978 0.535
1 3.258 0.465
426** 1 0 0 4.612 0.525
1 4.813 0.475
431** 1 0 0 2.144 0.634
1 3.247 0.366
432** 0 1 0 7.630 0.210
1 4.976 0.790
437** 1 0 0 0.5445 0.516
1 0.6731 0.484
438** 1 0 0 2.069 0.617
1 3.023 0.383
439** 1 0 0 3.168 0.614
1 4.096 0.386
441** 1 0 0 2.088 0.659
1 3.402 0.341

9
442** 1 0 0 2.529 0.588
1 3.242 0.412
445** 1 0 0 5.829 0.505
1 5.866 0.495
449** 1 0 0 3.263 0.623
1 4.267 0.377

e. Berikan sebuah contoh perhitungan untuk mendapatkan nilai prediksi bila terdapat
data baru. Misalkan data baru itu adalah data yang sama dengan data ke 450 dari
data tes.

https://cojamalo.github.io/German_Credit_Analysis/report.html
https://github.com/abhaymise/loan_credebility_for_a_customer/blob/master/german_c
redit/german_credit.csv
2 a. Lakukan analisis regresi linier terhadap untuk memprediksi variabel MPG. 15 CO.1/
b. Lakukan evaluasi terhadap model regresi yang digunakan serta pengujian CO.3/Cpp3/
asumsinya. 15 Cpkk1

Car Odomete
MPG type r Octane
33.5 sedan 75 87.5
33.3 sedan 60 87.5
31.4 sedan 88 78
32.8 sedan 15 79
32.5 sedan 102 90
29.6 sedan 98 87.5
17.8 van 56 87.5
19.2 van 72 90
22.6 van 15.5 87.5
24.4 van 22 90
24.1 van 35 91
18.8 van 97.5 87.5
15.8 van 65.5 78
17.4 van 42 78
15.6 SUV 65 79
17.3 SUV 55.5 87.5
20.8 SUV 26.5 87.5
21.3 SUV 77.5 90

10
20.7 SUV 19.5 78
24.1 SUV 87 90
23.1 SUV 85 89
3 a. Lakukan analisis dengan menggunakan regresi logistic untuk memprediksi 20 CO.1/
penumpang selamat atau tidak berdasarkan minimal dari dua predictor yaitu CO.3/Cpp3/
gender dan age (data titanic.csv). Kasus ini adalah binary classification yang Cpkk1
artinya memilih dari 2 pilihan (selamat atau tidak). Data set dibagi menjadi dua
yaitu training data set (60 %) dan test data set (40 %). Training data set akan kita
gunakan untuk membuat model. Test data set adalah dataset yang kita pakai untuk
membuat prediksi apakah selamat atau tidak.
b. Berikan penjelasan atas output yang didapatkan

Jawab : 10

Overview

The data has been split into two groups:

 training set (train.csv)


 test set (test.csv)

The training set should be used to build your machine learning models. For the
training set, we provide the outcome (also known as the “ground truth”) for each
passenger. Your model will be based on “features” like passengers’ gender and class.
You can also use feature engineering to create new features.

The test set should be used to see how well your model performs on unseen data. For
the test set, we do not provide the ground truth for each passenger. It is your job to
predict these outcomes. For each passenger in the test set, use the model you trained to
predict whether or not they survived the sinking of the Titanic.

We also include gender_submission.csv, a set of predictions that assume all and only
female passengers survive, as an example of what a submission file should look like.

Data Dictionary
VariableDefinitionKey survival Survival 0 = No, 1 = Yes pclass Ticket class 1 = 1st, 2 = 2nd, 3 = 3rd
sex Sex Age Age in years sibsp # of siblings / spouses aboard the Titanic parch # of parents / children
aboard the Titanic ticket Ticket number fare Passenger fare cabin Cabin number embarked Port of
Embarkation C = Cherbourg, Q = Queenstown, S = Southampton

Variable Notes

pclass: A proxy for socio-economic status (SES)


1st = Upper
2nd = Middle
3rd = Lower

age: Age is fractional if less than 1. If the age is estimated, is it in the form of xx.5

sibsp: The dataset defines family relations in this way...

11
Sibling = brother, sister, stepbrother, stepsister
Spouse = husband, wife (mistresses and fiancés were ignored)

parch: The dataset defines family relations in this way...


Parent = mother, father
Child = daughter, son, stepdaughter, stepson
Some children travelled only with a nanny, therefore parch=0 for them.

https://www.kaggle.com/jeremyd/titanic-logistic-regression-in-r/data

> databaru=read.delim("clipboard")
> str(databaru)

> sampel1<-sample(1:nrow(databaru),0.75*nrow(databaru))
> traininglogistik<-data.frame(databaru)[sampel1,]
> testinglogistik<-data.frame(databaru)[-sampel1,]
> modellogistik=glm(Survived~.,data=traininglogistik,family =
binomial)
> summary(modellogistik)

Binary Logistic Regression: Survived versus Pclass, Age, SibSp, Parch, Fare,
Sex

Method

Link function Logit


Categorical predictor coding (1, 0)
Rows used 714

Response Information

Variable Value Count


Survived 1 290 (Event)
0 424
Total 714

Deviance Table

Source DF Adj Dev Adj Mean Chi-Square P-Value


Regression 6 328.707 54.785 328.71 0.000

12
Pclass 1 59.450 59.450 59.45 0.000
Age 1 31.816 31.816 31.82 0.000
SibSp 1 9.440 9.440 9.44 0.002
Parch 1 0.256 0.256 0.26 0.613
Fare 1 0.814 0.814 0.81 0.367
Sex 1 179.370 179.370 179.37 0.000
Error 707 635.809 0.899
Total 713 964.516

Regression Analysis: Survived versus Pclass, Age, SibSp, Parch, Fare, Sex

Method

Categorical predictor coding (1, 0)

Analysis of Variance

Source DF Adj SS Adj MS F-Value P-Value


Regression 6 68.989 11.4982 78.75 0.000
Pclass 1 10.822 10.8219 74.12 0.000
Age 1 4.893 4.8928 33.51 0.000
SibSp 1 1.376 1.3761 9.42 0.002
Parch 1 0.059 0.0593 0.41 0.524
Fare 1 0.119 0.1188 0.81 0.367
Sex 1 35.450 35.4502 242.81 0.000
Error 707 103.224 0.1460
Lack-of-Fit 657 97.890 0.1490 1.40 0.070
Pure Error 50 5.333 0.1067
Total 713 172.213

Model Summary

S R-sq R-sq(adj) R-sq(pred)


0.382102 40.06% 39.55% 38.85%

Coefficients

Term Coef SE Coef T-Value P-Value VIF


Constant 1.3656 0.0777 17.58 0.000
Pclass -0.1939 0.0225 -8.61 0.000 1.74
Age -0.00653 0.00113 -5.79 0.000 1.31
SibSp -0.0533 0.0174 -3.07 0.002 1.27
Parch -0.0121 0.0190 -0.64 0.524 1.28
Fare 0.000307 0.000340 0.90 0.367 1.59
Sex
male -0.4885 0.0313 -15.58 0.000 1.11

Regression Equation

Sex
female Survived = 1.3656 - 0.1939 Pclass - 0.00653 Age - 0.0533 SibSp
- 0.0121 Parch
+ 0.000307 Fare

male Survived = 0.8771 - 0.1939 Pclass - 0.00653 Age - 0.0533 SibSp


- 0.0121 Parch
+ 0.000307 Fare

> prediksilogistik=predict(modellogistik,testinglogistik)
> pred_logreg<-as.numeric(prediksilogistik>.5)
> tabel_logreg<-table(pred_logreg,testinglogistik$Survived)
> tabel_logreg

13
> confusionMatrix(pred_logreg,testinglogistik$Survived,positive =
"1")

--------------------- Semoga sukses ---------------------


a. Jelaskan persyaratan terhadap data predictor dan respon yang dapat digunakan untuk analisis
diskriminan

Jawaban

Nilai Deskripsi
8 Predictor bersifat numerik, Respon bersifat
kategorik dengan dua kelas atau tiga kelas
6 Diberikan persyaratan untuk prediktor saja
atau kategorik saja
2 Menjawab tapi salah
0 Tidak menjawab

b. Lakukan analisis group means menggunakan data total 900 observasi berdasarkan nilai creditability
sebagai grouping variable. Jelaskan maknanya untuk setiap variable predictor

Poin Penilaian
Semua rata-rata benar 8
Sebagian benar 6
Peserta menjawab tapi salah 2
Peserta tidak menjawab sama sekali 0

Jawaban
Results for: soal900.MTW

Descriptive Statistics: Duration.of.Credit..month.

Variable Creditability N N* Mean SE Mean StDev Minimum Q1


Duration.of.Credit..mont 0 237 0 25,110 0,865 13,323 6,000 15,000
1 663 0 19,109 0,431 11,088 4,000 12,000

Variable Creditability Median Q3 Maximum


Duration.of.Credit..mont 0 24,000 36,000 72,000
1 18,000 24,000 60,000

14
dari output diatas jika diperhatikan bahwa rata -rata yang membayar kredit tidak tepat waktu pada dengan duration of creditnya
26.23846, credit amount nya rata-rata 441.569, value saving sebesar 1.576923, lengh of current sebesar 2.284615 dan yang
terakhir age nya sebesar 33.50769. Sedangkan rata-rata nasabah yang membayar credit tepat waktu pada masing-masing variabel
predictor seperti variabel duration of credit sebesar 19.81250, credit amount sebesar 2876.553, value saving stock sebesar
2.015625, length of current sebesar 19.81250 dan yang terahir dari segi usia rata-rata 36 tahun.
dari output diatas jika diperhatikan nasabah yang cenderung membayar tepat waktu dengan ciri ciri duration of credit nya
kecil,kemudian usiangnya rata-rata 36 tahun

c. Lakukan analisis boxplot untuk setiap variable predictor. Jelaskan maknanya

Poin Penilaian
Membaut boxplot dan menjelaskannya 8
Membuat boxplot dan tidak menjelaskannya 4
Peserta tidak menjawab sama sekali 0

Boxplot of Value.Savings.Stocks
4,0

3,5
Value.Savings.Stocks

3,0

2,5

2,0

1,5

1,0

0 1
Creditability

Duration Of credit

15
Boxplot of Credit.Amount
20000

15000
Credit.Amount

10000

5000

0
0 1
Creditability

Jika diperhatikan boxplot diatas diketahui bahwa terdapat data outlier yaitu berada dikisaran nilai 60. Selain itu inforasi yang
didapatkan dada boxplot diatas yaitu nilai Q1 12, MEDIAN 18 Q3 27 dan range kuarti 1 dengan kuartil 3 sebesar 15 dengan
total data 450.

Credit Amount

Boxplot of Duration.of.Credit..month.
80

70
Duration.of.Credit..month.

60

50

40

30

20

10

0
0 1
Creditability

pada boxplot credit amount diatas tidak jauh berbeda dengan boxplot sebelumnya masih terdapat data outlier yang menyebar
jauh diatas nilai kuarti 3 data. Nilai kuarti 1 pada boxplot diatas sebesar 1359.5, kuartil 2 sebesar 2241, kuartil 3 sebesar 3941.5
dengan total data sebesar 450.

16
pada data value saving diatas nilai kuartil satu sama dengan nilai median yaitu masing-masing bernilai 1. Kemudian nilai uartil 3
sebesar 3 dari total data 450.Nilai tersebuti berbeda dengan boxplot sebelumnya hal ini diakibatkan nilai pada data value saving
rentangnya sangat kecil.

Length of Current

Pada boxpot length of current diatas jiak diperhatikan tidak terdapat adanya data outlier. Hasilnya tidak jauh berbeda dengan
boxplot sebelumnya pada value saving nilai median dan kuartilnya sama yaitu 2 dan kuartil 3 sebesar 3.25 dengan total data
sebesar 450.

Jika diperhatikan pada boxplot usia diatas terdapat data outlier yaitu berada diatas usia 6 tahun dengan nilai kuartil 1 27, median
sebesar 33 dan kuartil 3 sebesar 41.

d. Lakukan linier discriminant analysis (LDA) menggunakan data training untuk membangun model yang dapat digunakan
untuk memprediksi kelas risiko kredit. Jelaskan makna persamaan yang didapatkan serta nilai confusion matrix-nya
Poin Penilaian
Membuat model LDA dan menjelaskannya 8
Membuat model LDA dan tidak menjelaskannya 4
Peserta menjawab tapi salah 2
Peserta tidak menjawab sama sekali 0

17
Jawaban
Coefficients of linear discriminants:
LD1
Duration.of.Credit..month. -5.202029e-02
Credit.Amount -8.210601e-05
Value.Savings.Stocks 4.263134e-01
Length.of.current.employment 2.835502e-01
Age..years. 1.593387e-02

e. Berikan sebuah contoh perhitungan untuk mendapatkan nilai prediksi bila terdapat data baru. Misalkan
data baru itu adalah data yang sama dengan data ke 450 dari data tes.
Poin Penilaian
Menanpilkan script yang ada di R dan menjelaskannya 8
Peserta melakukan salah satu diantara poin yang 4
pertama
Peserta menjawab tapi salah 2
Peserta tidak menjawab sama sekali 0

Jawaban

prediksi$class
[1] 1 1 1 1 1 1 1 1 0 1 1 1 1 1 1 1 1 1 1 1 1 1 0 1 1 1 1 1 1 1 1
[32] 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 0 1 1 1 1 1 1
[63] 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 0 1 1 1 1 1 1 1 1 1 1
[94] 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 0 1 1 1 1 1 1 1 1 1 1 1 1
[125] 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
[156] 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
[187] 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
[218] 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
[249] 1 1 1 1 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 0 0 1 1 1 1
[280] 1 1 1 1 1 1 1 1 1 1 0 1 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 0 1 0 1
[311] 1 1 1 1 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
[342] 1 1 0 1 1 0 1 0 1 1 1 1 0 1 1 0 1 1 1 0 1 1 1 1 1 1 1 1 1 1 1
[373] 1 1 1 1 1 1 0 1 1 1 1 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
[404] 1 1 1 1 1 0 1 1 1 1 1 1 0 0 1 1 1 1 0 0 1 1 1 1 1 1 1 1 0 1 0
[435] 1 1 0 1 0 1 0 1 1 1 1 1 1 1 1 1
Levels: 0 1

2. a. Lakukan analisis regresi linier terhadap untuk memprediksi variabel MPG.


Poin Penilaian Nilai
Mampu menampilkan model regresi dan menentukan 15
variabel predictor dan respon serta menjelaskannya
Mampu menampilkan analisis regresi dan tidak 10
menjelaskannya
Mampu menampilkan analisis regresi salah menentukan 5
variabel respon dan predictor
Peserta menjawab tapi salah sama sekali 2
Peserta tidak menjawab sama sekali 0

Jawaban
Regression Analysis: MPG versus Odometer; Octane; Car type

Method

Categorical predictor coding (1; 0)

Analysis of Variance

Source DF Adj SS Adj MS F-Value P-Value


Regression 4 8303 2076 0,85 0,515

18
Odometer 1 2453 2453 1,00 0,332
Octane 1 4519 4519 1,85 0,193
Car type 2 2197 1098 0,45 0,646
Error 16 39178 2449
Total 20 47481

Model Summary

S R-sq R-sq(adj) R-sq(pred)


49,4836 17,49% 0,00% 0,00%

Coefficients

Term Coef SE Coef T-Value P-Value VIF


Constant -210 195 -1,07 0,299
Odometer -0,423 0,423 -1,00 0,332 1,22
Octane 3,21 2,36 1,36 0,193 1,10
Car type
SUV -20,5 28,3 -0,72 0,479 1,53
van 1,9 28,8 0,07 0,947 1,68

Regression Equation

Car type
sedan MPG = -210 - 0,423 Odometer + 3,21 Octane

SUV MPG = -230 - 0,423 Odometer + 3,21 Octane

van MPG = -208 - 0,423 Odometer + 3,21 Octane

Fits and Diagnostics for Unusual Observations

Std
Obs MPG Fit Resid Resid
11 245,1 69,7 175,4 4,00 R

R Large residual

Call:
lm(formula = MPG ~ Odometer + Octane, data = dataku)

Residuals:
Min 1Q Median 3Q Max
-7.2354 -5.3667 -0.8997 4.6302 11.4080

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 9.97664 24.97812 0.399 0.694
Odometer 0.02887 0.05067 0.570 0.576
Octane 0.13902 0.29737 0.467 0.646

Residual standard error: 6.355 on 18 degrees of freedom


Multiple R-squared: 0.03798, Adjusted R-squared: -0.06891
F-statistic: 0.3553 on 2 and 18 DF, p-value: 0.7058
Analysis of Variance

Source DF Adj SS Adj MS F-Value P-Value


Regression 2 28,701 14,351 0,36 0,706
Odometer 1 13,111 13,111 0,32 0,576
Octane 1 8,827 8,827 0,22 0,646
Error 18 727,017 40,390
Total 20 755,718

Model Summary

19
S R-sq R-sq(adj) R-sq(pred)
6,35530 3,80% 0,00% 0,00%

Coefficients

Term Coef SE Coef T-Value P-Value VIF


Constant 10,0 25,0 0,40 0,694
Odometer 0,0289 0,0507 0,57 0,576 1,06
Octane 0,139 0,297 0,47 0,646 1,06

Dari hasil output diatas diketahui bahwa yang menjadi respon adalah MPG sedangkan yang menjadi predictor adalah Odometer
dan Octane. Jika diperhatika kedua variabel prediktor tidak signifkan terhadap variabel respon MPG.

b. Lakukan evaluasi terhadap model regresi yang digunakan serta pengujian asumsinya.
Poin Penilaian Nilai
Melakukan evaluasi model dan melakukan seluruh uji 15
asumsi
Melakukan evaluasi model dan hanya melakukan 3 uji 13
asumsi
Melakukan evaluasi model dan hanya melakukan 2 uji 10
asumsi
Melakukan evaluasi model dan hanya melakukan 21uji 8
asumsi
Melakukan evaluasi model tidak melakukan uji asumsi 5
Peserta menjawab tapi salah sama sekali 2
Peserta tidak menjawab sama sekali 0

jika diperhatikan pada hasil regresi diatas diketahui bahwa variabel Odometer dan Octane tidak berpengaruh secara signifikan
karena nilai p-valuenya lebih dari 0.05
uji normalitas

jika diperhatikan plot diatas residual data masih agak sedikit membingungkan apakah residual data berdistribusi noral atau tidak.
Karena banyak titik-titik menjauhi garis tapi disisilai juga terdapat ititk titik yang mendekati garis. sehingga untuk menguatkan
apakah residual dari data berdistribusi normal atau tidak maka digunakan uji normalitas. beriktu diabawah ini adalah hasil dari
uji nromalitas.

-----------------------------------------------
Test Statistic pvalue
-----------------------------------------------
Shapiro-Wilk 0.9034 0.0407
Kolmogorov-Smirnov 0.1361 0.7829
Cramer-von Mises 1.9386 0.0000
Anderson-Darling 0.7045 0.0560
-----------------------------------------------
jika diperhatikan tabel normalitas diatas terdapat dua metode yang menyatakan
normal dan dua metode yang menyatakan tidak normal. Karena jumlah data kurang dari 30

20
maka yang dipilih adalah shapiro wilk test. Nilai p-Value pada Shapiro sebesar
0.00407 <0.5 sehingga residual data tidak berdistribusi normal.

2.autokorelasi
dwtest(model)

Untuk lebih meyakinkan, akan dilakukan pengujian hipotesis dengan statistik uji Durbin-Watson,
sebagai berikut.
Hipotesis:
: (tidak ada autokorelasi)

: (ada autokorelasi)

-Taraf signifikansi :

-Statistik uji:

> dwtest(model)

Durbin-Watson test

data: model
DW = 0.3679, p-value = 6.648e-07
alternative hypothesis: true autocorrelation is greater than 0

jika diperhatika nilai p-Value yang dihasilkan 0.0000006648 <0.05 maka ada autokorelasi
3. Heteroskedastisitas
H0: = =… = = = (Ragam sisaan homogen)

H1: =c (Ragam sisaan tidak homogen atau heterogen)


> lmtest::bptest(model)
studentized Breusch-Pagan test

data: model
BP = 3.6082, df = 2, p-value = 0.1646
nilai p-value lebih besar dari 0.05
0.1646>0.05 maka terima h0 artinya ragam sisaan homogen
ragam sisaan homogen
4. multikolonieritas
> ols_vif_tol(model)
# A tibble: 2 x 3
Variables Tolerance VIF
<chr> <dbl> <dbl>
1 Odometer 0.943 1.06
2 Octane 0.943 1.06

Soal Nomor 3
e. Lakukan analisis dengan menggunakan regresi logistic untuk memprediksi penumpang selamat atau
tidak berdasarkan minimal dari dua predictor yaitu gender dan age (data titanic.csv). Kasus ini adalah
binary classification yang artinya memilih dari 2 pilihan (selamat atau tidak). Data set dibagi menjadi
dua yaitu training data set (60 %) dan test data set (40 %). Training data set akan kita gunakan untuk

21
membuat model. Test data set adalah dataset yang kita pakai untuk membuat prediksi apakah selamat
atau tidak.

> databaru=read.delim("clipboard")
> sampel1<-sample(1:nrow(databaru),0.75*nrow(databaru))
> traininglogistik<-data.frame(databaru)[sampel1,]
> testinglogistik<-data.frame(databaru)[-sampel1,]
> modellogistik=glm(Survived~.,data=traininglogistik,family = binomial)
> summary(modellogistik)
Call:
glm(formula = Survived ~ ., family = binomial, data = traininglogistik)

Deviance Residuals:
Min 1Q Median 3Q Max
-1.6170 -0.6318 -0.6278 0.8012 1.8634

Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) 0.9934721 0.2673455 3.716 0.000202 ***
Sexmale -2.4859605 0.2154058 -11.541 < 2e-16 ***
Age -0.0008023 0.0077239 -0.104 0.917268
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

(Dispersion parameter for binomial family taken to be 1)

Null deviance: 705.42 on 531 degrees of freedom


Residual deviance: 546.42 on 529 degrees of freedom
AIC: 552.42

Number of Fisher Scoring iterations: 4

> prediksilogistik=predict(modellogistik,testinglogistik)
> pred_logreg<-as.numeric(prediksilogistik>.5)
> pred_logreg
[1] 1 1 1 0 0 1 0 0 1 0 1 0 0 0 0 0 1 0 1 0 1 0 0 1 0 0 1 0 0 0 0 0 1 0 1 0
1 1 0 0
[41] 0 0 1 0 0 0 1 0 1 1 0 0 1 0 0 0 1 0 1 0 0 0 0 1 0 0 0 0 1 1 0 0 0 1 1 1
0 1 1 0
[81] 0 0 0 1 0 1 0 1 1 0 0 0 0 1 0 0 0 1 1 0 1 1 0 0 1 1 0 1 0 1 1 1 0 1 0 1
1 0 1 0
[121] 1 1 0 1 0 0 1 0 1 0 1 1 0 0 0 0 0 1 1 0 1 1 1 0 1 1 0 1 0 0 1 1 0 0 1 1
0 0 1 1
[161] 0 0 0 1 1 0 1 0 0 0 1 0 0 0 0 1 1 0 0 0 0 1 0 0 0 0 0 1 0 0 1 1 0 0 0 0
1 0 1 1
[201] 0 0 0 0 1 0 1 0 0 0 0 1 0 0 1 0 0 0 1 0 0 0 1 0 0 1 0 1 0 0 0 0 1 0 0 0
0 0 1 0
[241] 0 0 0 0 0 0 0 1 0 0 0 0 1 0 1 0 1 1 0 0 0 0 0 1 0 0 0 0 0 1 1 0 0 0 0 0
0 1 0 0
[281] 0 1 0 1 0 0 1 0 0 0 1 1 0 0 0 0 0 0 0 0 0 0 1 0 0 0 1 0 0 0 1 0 0 1 1 0
1 0 0 0
[321] 0 1 0 0 0 1 0 0 0 0 1 0 0 0 0 0 0 0 0 1 0 1 0 0 0 0 0 1 0 1 0 0 0 1 0

22
Soal nomor 1 B pakai R
> dataku=read.delim("clipboard")
> View(dataku)
> library(MASS)
> train=sample(1:900,450)
> table(dataku$Sp[train])
< table of extent 0 >
> dim(dataku)
[1] 900 21
> dim(train)
NULL
> table(dataku$Creditability[train])

0 1
94 356

> discri=lda(dataku$Creditability ~ dataku$Value.Savings.Stocks+dataku$Length.of.current.employme


+dataku$Credit.Amount+dataku$Age..years., subset = train)
> discri
Call:
lda(dataku$Creditability ~ dataku$Value.Savings.Stocks + dataku$Length.of.current.employment +
dataku$Duration.of.Credit..month. + dataku$Credit.Amount +
dataku$Age..years., subset = train)

Prior probabilities of groups:


0 1
0.2088889 0.7911111

Group means:
dataku$Value.Savings.Stocks dataku$Length.of.current.employment
0 1.829787 3.095745
1 2.272472 3.505618
dataku$Duration.of.Credit..month. dataku$Credit.Amount
0 26.67021 >lebih lama 3617.340
1 19.65730 3043.663
dataku$Age..years.
0 33.60638
1 36.25000

Coefficients of linear discriminants:


LD1
dataku$Value.Savings.Stocks 0.2265407636
dataku$Length.of.current.employment 0.4089989736
dataku$Duration.of.Credit..month. -0.0858664528
dataku$Credit.Amount 0.0001463224
dataku$Age..years. 0.0094115318

>

23

Das könnte Ihnen auch gefallen