Sie sind auf Seite 1von 7

1.

Schätzen Sie ein logistisches Regressionsmodell mit "Käufer" als abhängige Variable
und dem Folgenden als Prädiktorvariable
#1
bbbSfemale <- ifelse(bbbsgender = "F", 1, 0)
bbblogit <- glm(buyer ~ last + total + female +
child + youth + cook + do_it + refernce + art + geog, family=binomial(link=‘logit‘), data = bbb)
bbb$purchase_prob <- predict.glm (bbblogit, bbb, type = "Antwort")
summa ry(bbblogit)

Koeffizienten:
Schätzung Std. Fehler z-Wert Pr(>l zl)
(Intercept) -1.6001096 0.0520980 -30.713 < 2e-16 ***
letzte -0.0947124 0.0027924 -33.918 < 2e-16 ***
total_ 0.0011160 0.0001982 5.6301,80e-08 ***
weiblich -0.7607204 0.0357608 -21.272 < 2e-16 ***
kind -0.1862162 0.0172824 -10.775 < 2e-16 ***
jugend -0.1129745 0.0261087 -4.3271,51e-05 ***
kochen -0.2703210 0.0171283 -15.782 < 2e-16 ***
do_it -0.5391648 0.0269657 -19.994 < 2e-16 ***
verweis 0.2346876 0.0265583 8.837 < 2e-16 ***
kunst 1.1555840 0.0221439 52.185 < 2e-16 ***
geog 0.5742763 0.0186311 30.824 < 2e-16 ***

Vorzeichen: 0 (***‘ 0.001 6**’ 0.01 6*1 0.05 .’ 0.1 ‘ ’ 1

2. Erstellen und interpretieren Sie die ungeraden Verhältnisse für jeden der Prädiktoren.
Fassen Sie die Ergebnisse zusammen und interpretieren Sie sie (damit ein
Marketingmanager sie verstehen kann). Welche Variablen sind signifikant? Welche
scheinen „wichtig“ zu sein?
#2
exp(bbblogit$coef)
> exp(bbblogit$coef)
(Intercept) letzte total_weibliche Kinderjugend cook do_it referenzieren kunst geog
0.2018744 0.9096345 1.0011167 0.4673296 0.8300941 0.8931734 0.7631345 0.5832352 1.2645136 3.1758776 1.7758448

Für jede Erhöhung des Monats seit dem letzten Kauf sinkt die Wahrscheinlichkeit, einen Kauf zu
tätigen, um 9,04 %. Für jede Erhöhung der ausgegebenen Gesamtdollars steigt die
Wahrscheinlichkeit, einen Kauf zu tätigen, um 0,11 %. Bei Frauen sinkt die
Kaufwahrscheinlichkeit um 52,33 %. Mit jeder Erhöhung der Gesamtzahl der gekauften
Kinderbücher sinkt die Kaufwahrscheinlichkeit um 17%. Mit jeder Erhöhung der Gesamtzahl der
gekauften Jugendbücher sinkt die Kaufwahrscheinlichkeit um 10,7%. Mit jeder Erhöhung der
Gesamtzahl der gekauften Kochbücher sinkt die Kaufwahrscheinlichkeit um 23,7 %. Mit jeder
Erhöhung der Gesamtzahl der gekauften Do-it-yourself-Bücher sinkt die Kaufwahrscheinlichkeit
um 41,7 %. Für jede Erhöhung der Gesamtzahl der gekauften Nachschlagewerke erhöht es die
Kaufchancen um 26,5%. Für jede Erhöhung der Gesamtzahl der gekauften Kunstbücher erhöht
es die Kaufchancen um 217,6%. Für jede Erhöhung der Gesamtzahl der gekauften
Geografiebücher erhöht sich die Kaufwahrscheinlichkeit um 77,5%. Nach der Durchführung
eines logistischen Regressionsmodells sind alle Variablen statistisch signifikant, da die p-Werte
unter 0,05 liegen. Die Variablen do_it, Art und Geog scheinen wichtig zu sein, da ihre Zunahme
oder Abnahme der Einkaufsquoten mehr als 25 % beträgt und einen größeren Einfluss auf den
Einkauf haben als andere Variablen. Total_oder insgesamt ausgegebene Dollars können auch
wichtig sein, obwohl der Prozentsatz klein ist, da logischerweise eine Erhöhung um eine Einheit
in Dollar eine sehr kleine Einheit ist, die gemessen werden muss. Daher wird ein größerer
Anstieg der Anzahl der ausgegebenen Dollar die Kaufchancen erhöhen.

3. Weisen Sie jedem Kunden ein Dezil zu, basierend auf seiner vorhergesagten
Kaufwahrscheinlichkeit. Tipp: Die „vorhergesagte Kaufwahrscheinlichkeit“ ist die Variable
„purchase_prob“, die aus der logistischen Regression hervorgegangen ist, nachdem Sie den
Befehl „predict.glm“ ausgegeben haben. Es stellt die beste Vorhersage des Logit-Modells dar,
wie wahrscheinlich es ist, dass ein Kunde "Die Kunstgeschichte von Florenz" kauft.
#3
bbb$predict<-11 ntile(bbb$purchase_prob,10)

4. Erstellen Sie ein Balkendiagramm, das die Antwortrate nach Dezil darstellt (wie oben
definiert).
Tipp: Die "Antwortrate" ist nicht die gleiche, die "Die Kunstgeschichte von Florenz" gekauft hat.
#4
ggplot(bbb)+geom_bar(aes(x-predict, y=Käufer),stat "summary", fun.y "mean")

5. Generieren Sie einen Bericht, der die Anzahl der Kunden, die Anzahl der Käufer von "The Art
History of Florence" und die Antwortrate auf das Angebot per Dezil für die Zufallsstichprobe (d.
h. die 50.000) Kunden im Datensatz anzeigt.
#5
bbb%>%group_by(bbb$predict)%>%summarize(count=Länge(acctnum) , buyers=Summe(Käufer), responserate=Summe(Käufer)/ sumcount))
bBB$Vorhersage Anzahl Käufer
Responserate
<dbl> <int> <int> <dbl>
1 1 5000 1935 0.387
2 2 5000 836 0.167
3 3 5000 511 0.102
4 4 5000 368 0.0736
5 5 5000 284 0.0568
6 6 5000 196 0.0392
7 7 5000 139 0.0278
8 8 5000 121 0.0242
9 9 5000 90 0.018
10 10 5000 42 0.0084

6. Für die 50.000 Kunden im Datensatz führen Sie ein logistisches Regressionsmodell aus, bei
dem Sie die Antwort nur auf der Grundlage der Variablen "Kind" vorhersagen. Warum ist das
Odds Ratio für „Kind“ anders als bei der logistischen Regression in Teil I? Bitte seien Sie
spezifisch und untersuchen Sie über die bloße Angabe des statistischen Problems hinaus.
bbbSpurch_prob < predict.glm (bbblogit, bbb, type = "response") Zusammenfassung(bbbSpurch_prob)

bbb.child <- glm(Käufer Kind, Familie-binomial(link-’logit’), data = bbb) bbbSpurch_prob. child <- predict. glm (bbb. child, bbb, type = "response")

I (Intercept) kind
0.09306608 1.07686752
Das Odds Ratio unterscheidet sich signifikant von Teil 1, da es die Residualeffekte der anderen
Vorhersagevariablen nicht berücksichtigt. Stattdessen isoliert es die Kindvariable und generiert
eine logistische Regression gegenüber der Wahrscheinlichkeit, die "Kunstgeschichte von
Florenz" zu kaufen. Es zeigt im Wesentlichen, dass, wenn man nur die Auswirkungen des Kaufs
eines Kinderbuchs auf den Kauf von "Kunstgeschichte von Florenz" berücksichtigt, die
Kaufchancen steigen, verglichen mit der Berücksichtigung anderer Variablen, wie oben gezeigt,
bei denen die Kaufchancen sinken. Indem die Antwort nur mit einer Variablen vorhergesagt wird,
wird sie falsch gewichtet, ohne die anderen Variablen zu berücksichtigen.

7. Verwenden Sie die Informationen aus dem Bericht in Frage 5 oben, um eine Tabelle zu
erstellen, die den Hub und den kumulativen Hub für jedes Dezil anzeigt. Möglicherweise
möchten Sie Excel für diese Berechnungen verwenden.
Dezil der
Anzahl Kum.Nr. Kum. % Anzahl Kum. num. Antwortrat Kum. bzw. Kum.
letzten Aufzug
Kunden Debitoren Kunden Käufer Käufer e Rate Lift
Zeit

1 5000 5000 10% 1935 1935 38.70% 4.28 38.70% 4.28


2 5000 10000 20% 836 2771 16.72% 1.85 27.71% 3.06
3 5000 15000 30% 511 3282 10.22% 1.13 21.88% 2.42
4 5000 20000 40% 368 3650 7.36% 0.81 18.25% 2.02
5 5000 25000 50% 284 3934 5.68% 0.63 15.74% 1.74
6 5000 30000 60% 196 4130 3.92% 0.43 13.77% 1.52
7 5000 35000 70% 139 4269 2.78% 0.31 12.20% 1.35
8 5000 40000 80% 121 4390 2.42% 0.27 10.98% 1.21
9 5000 45000 90% 90 4480 1.80% 0.20 9.96% 1.10
10 5000 50000 100% 42 4522 0.84% 0.09 9.04% 1.00
Summe 50000 4522 9.04%

8. Erstellen Sie ein Diagramm, das den kumulativen Hub pro Dezil zeigt, zusammen mit einer
Referenzlinie, die der "kein Modell" -Baseline entspricht.

9. Verwenden Sie die Informationen aus dem Bericht in Frage 5 oben, um eine Tabelle mit den
Gewinnen und kumulativen Gewinnen für jedes Dezil zu erstellen. Möglicherweise möchten Sie
Excel für diese Berechnungen verwenden.
Dezil der
Anzahl Kum.Nr. Kum. % Anzahl Kum. num. Kum.
letzten Gewinne
Kunden Debitoren Kunden Käufer Käufer Gewinne
Zeit
0 0 0 0 0 0 0 0
1 5000 5000 10% 1935 1935 42.8% 42.8%
2 5000 10000 20% 836 2771 18.5% 61.3%
3 5000 15000 30% 511 3282 11.3% 72.6%
4 5000 20000 40% 368 3650 8.1% 80.7%
5 5000 25000 50% 284 3934 6.3% 87.0%
6 5000 30000 60% 196 4130 4.3% 91.3%
7 5000 35000 70% 139 4269 3.1% 94.4%
8 5000 40000 80% 121 4390 2.7% 97.1%
9 5000 45000 90% 90 4480 2.0% 99.1%
10 5000 50000 100% 42 4522 0.9% 100.0%
Summe 50000 4522

10. Erstellen Sie ein Diagramm, das die kumulativen Gewinne nach Dezil zusammen mit einer
Referenzlinie zeigt, die "kein Modell" entspricht.

Teil IV
Verwenden Sie die folgenden Kosteninformationen, um die Rentabilität der Verwendung der
logistischen Regression zu bewerten, um zu bestimmen, welcher der verbleibenden 500.000
Kunden ein bestimmtes Angebot erhalten soll:

Kosten für die Zusendung jedes Angebots: 0,50 $


Verkaufspreis jedes Buches inklusive Versand: 18,00 $
Großhandelspreis, der von BookBinders an den Verlag gezahlt wird: 9,00 $
Von BookBinders bezahlte Versandkosten: 3,00 $

11. Wie hoch ist die Breakeven-Response-Rate?


8.33% #11
gewinnschwelle<-.5/(18-9-3)
gewinnschwelle

12. Erstellen Sie für die Kunden im Datensatz eine neue Variable (nennen Sie sie „Ziel“) mit
einem Wert von 1, wenn die prognostizierte Wahrscheinlichkeit des Kunden größer als die
Breakeven-Response-Rate ist, und ansonsten 0.
#12
bbb$target<-ifelse(bbb$purchase_prob>Gewinnschwelle >1,0)

13. Angenommen, BookBinders schickt das Angebot zum Kauf von „The Art History of
Florence“ nur an seine Zielkunden (d. h. diejenigen, deren prognostizierte
Kaufwahrscheinlichkeit größer oder gleich der Breakeven-Rate ist).
a. Wie hoch ist die erwartete Anzahl von Käufern aus diesem Mailing?
3323
mailingcustomers<-sum(bbb$target)
mailingbuyingprob<- mean(subset(bbb, target ==1)$buyer) mai li ngbuyi ng prob*mailing customers
b. Wie hoch ist die erwartete Antwortrate aus diesem Mailing?
0.2133072
#13b
mittelwert(Teilmenge(bbb, Ziel - 1)$purchase_prob)

c. Wie hoch ist der erwartete Gewinn (in Dollar) aus diesem Mailing?
$12,158
((18-9-3)*mailingbuyingprob*mailingcustomers)-(. 5*mailingcustomers)

d. Wie hoch ist die erwartete Rendite der Marketingausgaben aus diesem Mailing?
156.27%
gewinn<-((18-9-3)*mailingbuyingprob*mailingcustomers)-(. 5*mailingcustomers profit/( .5*mailingcustomers)
Teil V: Vorhersage der Gesamtausgaben (5 Punkte)
Ein anderer Manager bei BookBinders möchte diesen Datensatz für einen anderen Zweck
verwenden: um zu verstehen, welche Faktoren erklären können, wie viel ein Kunde im Laufe der
Zeit ausgibt. Insbesondere möchte sie verstehen, wie die Gesamtausgaben für jeden Kunden
(die Variable „total_“) durch die folgenden Variablen erklärt werden können:
e. Die Anzahl der Monate seit dem ersten Kauf des Kunden (die „erste“ Variable)
f. Die Gesamtzahl der von ihnen gekauften Geografiebücher (die Variable „Geog“)
g. Die Gesamtzahl der Kunstbücher, die sie gekauft haben (die Variable „Kunst“)
h. Die Gesamtzahl der Kochbücher, die sie gekauft haben (die Variable "Koch")
14. Welche Art von statistischer Methode wäre am besten geeignet, um diese Frage zu
beantworten? Führen Sie die entsprechende Analyse durch, zeigen Sie die Ergebnisse und
erklären Sie, wie sich jede der oben genannten 4 Variablen auf die Gesamtausgaben auswirkt.
Sie würden eine lineare Regression verwenden, um herauszufinden, wie sich die
genannten Variablen auf die Gesamtausgaben für jeden Kunden auswirken. Eine Erhöhung der
Anzahl der Monate seit dem ersten Kauf um eine Einheit erhöht die Gesamtausgaben für jeden
Kunden um 1,23 $. Für jede Einheit, die die Anzahl der pro Kunde gekauften Geografiebücher
erhöht, erhöhen sich die Gesamtausgaben für jeden Kunden um 14,71 $. Für jede Einheit, die
die Anzahl der pro Kunde gekauften Kunstbücher erhöht, erhöhen sich die Gesamtausgaben für
jeden Kunden um 14,19 $. Für jede Einheit, die die Anzahl der pro Kunde gekauften Kochbücher
erhöht, erhöhen sich die Gesamtausgaben für jeden Kunden um 15,26 $.
#14
linear<-lm(total_~first+geog+art+cook, data bbb) summa ry(li near)

Aufruf:
lm(formula = total ~ first + geog + art + cook, data = bbb)

Residuen:
Min. IQ Median 3Q Max
-218.005 -75.068 -0.188 75.676 251.108
Koeffizienten
Schätzung Std. Fehler t-Wert Pr(>I 11)
(Intercept) 148.88678 0.68719 216.66 <2e-16 ***
erste 1.23163 0.03134 39.30 <2e-16 ***
geog 14.70989 0.54360 27.06 <2e-16 ***
kunst 14.18890 0.64856 21.88 <2e-16 ***
kochen 15.26323 0.41741 36.57 <2e-16 ***
Vorzeichencodes: 0 "* **‘ 0,001 "**‘ 0,01 0.05 0.1 ‘ ‛ 1
Reststandardfehler: 89,4 bei 49995 Freiheitsgraden
Mehrfaches R-Quadrat: 0,222, Angepasstes R-Quadrat: 0,2219
F-Statistik: 3567 auf 4 und 49995 DF, p-Wert: < 2,2e-16

Das könnte Ihnen auch gefallen