Beruflich Dokumente
Kultur Dokumente
ZEITREIHENPROGNOSE
SCHUHVERKAUF - GESCHÄFTSBERICHT
RHEA.S.M
PGPDSBA Online Sep_B 2021
1
Inhaltsverzeichnis
1. Problem 1:......................................................................................................................................................
1.1. Ziel..................................................................................................................................................................
1.2. Deskriptive und explorative Datenanalyse.....................................................................................................
1.2.1. Deskriptive Datenanalyse:......................................................................................................................
1.2.2. Zeitreihendaten - Diagramm:..................................................................................................................
1.2.3. Explorative Datenanalyse:.......................................................................................................................
1.3. Splittung von Zug- und Testdaten...................................................................................................................
1.4. Aufbau verschiedener Modelle und Überprüfung der RMSE........................................................................
1.4.1. Lineare Regression:...............................................................................................................................
1.4.2. Naives Bayes-Modell:............................................................................................................................
1.4.3. Einfache Durchschnittsprognose:..........................................................................................................
1.4.4. Gleitende Durchschnittsprognose:........................................................................................................
1.4.5. Einfache exponentielle Glättung:..........................................................................................................
1.4.6. Doppelte exponentielle Glättung:.........................................................................................................
1.4.7. Dreifach exponentielle Glättung:..........................................................................................................
1.4.8. Dreifach exponentielle Glättung (multiplikativ):...................................................................................
1.5. Prüfung auf Stationarität..............................................................................................................................
1.6. ARIMA und SARIMA unter Verwendung der niedrigsten AIC-Methode:.......................................................
1.7. ARIMA und SARIMA basierend auf den Cut-off-Punkten von ACF und PACF:...............................................
1.8. RMSE-Werte vergleichen..............................................................................................................................
1.9. Aufbau eines optimalen Modells und einer 12-Monats-Prognose...............................................................
1.10. Erkenntnisse und Anregungen..............................................................................................................
2
Abbildungsverzeichnis
Abbild Name Seite Nr.
ung Nr.
Abb. 1 Zeitreihenplot -Schuhverkauf 5
Abb. 2 Monatliches Boxplot der Schuhverkäufe 6
Abb. 3 Monatliche Schuhverkäufe im Laufe der Jahre 6
Abb. 4 Zeitreihenplot zusammen mit Mittelwert und Median 6
Abb. 5 Multiplikative Zerlegung des Datensatzes 7
Abb. 6 Additive Zersetzung des Datensatzes 8
Abb. 7 Schuhverkauf - Split trainieren und testen 9
Abb. 8 Lineare Regression 10
Abb. 9 Naives Bayes-Modell 11
Abb. Einfache Durchschnittsprognose 11
10
Abb. Prognose des gleitenden Durchschnitts 12
11
Abb. Einzelne exponentielle Glättung 13
12
Abb. Einfache und doppelte exponentielle Glättung 13
13
Abb. Einfache, doppelte und dreifache exponentielle Glättung 14
14
Abb. Einfache, doppelte und dreifache exponentielle Glättung(multiplikativ) 14
15
Abb. Stationarität des Schuhverkaufs bei lag 1 16
16
Abb. AIC-ARIMA(2,1,3) A. Zusammenfassung, B. Graph und C. Diagnostik 18
17
Abb. AIC- SARIMA(0,1,2) (1, 0, 2, 12) A. Zusammenfassung, B. Diagramm und C. 20
18
Diagnose
Abb. Autokorrelation differenzierter Daten 21
19
Abb. Partielle Autokorrelation differenzierter Daten 21
20
Abb. ACF/PACF- ARIMA(3,1,1) A. Zusammenfassung, B. Diagramm und C. Diagnose 22
21
Abb. Abbildung-22 ACF/PACF- SARIMA(3,1,1) (2, 0, 4, 12) A. Zusammenfassung, B. 24
22
Diagramm und C. Diagnose
Abb. Optimale Modellprognose für die nächsten 12 Monate 25
23
Tabellenverzeichnis
Tabellennr. Name Seite Nr.
3
Tabelle 1 Zusammenfassung der deskriptiven statistischen Informationen 4
Tabelle 2 Split trainieren und testen 9
Tabelle 3 Zusammenfassende Ergebnisse aller Modelle 24
1. Problem 1:
1.1. Ziel
Das Ziel des Problems ist es, ein optimales Modell zu erstellen, um den Umsatz der
Paar Schuhe für die kommenden 12 Monate zu prognostizieren, ab dem die Daten
derzeit enden.
Darüber hinaus müssen wir auch das so aufgebaute Modell kommentieren und über
unsere Ergebnisse berichten und Maßnahmen vorschlagen, die das Unternehmen für
zukünftige Verkäufe ergreifen sollte.
Der Datensatz wurde gelesen und als Datenrahmen für die weitere Analyse
gespeichert.
Der bereitgestellte Datensatz besteht aus insgesamt 2 Spalten und hat 187
Einträge, die numerischer Natur sind. Es sind keine Nullwerte vorhanden.
Die erste Spalte stellt das Datum dar, an dem die Schuhverkäufe erfasst
wurden. Während die zweite Spalte den Vertrieb selbst darstellt.
Die folgende Tabelle 1 enthält den Kopf(), den Schwanz(), die
Informationen() und die Beschreibung des vorliegenden Datensatzes.
4
Leiter des Datensatzes: Ende des Datensatzes: Info Datensatz:
Eine Zeitreihe ist eine Reihe von Messungen an derselben Variablen, die im
Laufe der Zeit gesammelt werden. Diese Messungen werden in regelmäßigen
Zeitabständen durchgeführt. Eine Zeitreihe ist eine Reihe von Datenpunkten,
die in zeitlicher Reihenfolge indiziert sind. Am häufigsten ist eine Zeitreihe
eine Sequenz, die zu aufeinanderfolgenden gleichmäßig beabstandeten
Zeitpunkten aufgenommen wird. Somit handelt es sich um eine Folge
von zeitdiskreten Daten.
Wir können deutlich einen jährlichen Trend der Verkäufe von Schuhen in der
unten dargestellten Abbildung-1 sehen. Dieses Diagramm gibt uns einen
Überblick über die Daten, ohne dass wir tatsächlich jede Zahl im Datensatz
überprüfen müssen.
5
Explorative Datenanalyse bezieht sich auf den kritischen Prozess der
Durchführung erster Untersuchungen an Daten, um Muster zu entdecken,
Anomalien zu erkennen und Hypothesen zu testen.
In der folgenden Abbildung-2 sehen wir die monatlichen Box-Plots der
Schuhverkäufe. Wir können sehen, dass es im April und Mai Ausreißer gibt.
Dies zeigt uns, dass in diesen Monaten einige Verkäufe getätigt wurden, die
außerhalb des Üblichen lagen.
Wir sehen, dass die Umsätze in der zweiten Jahreshälfte tendenziell stärker
anziehen als in der ersten. Der Dezember verzeichnet die höchsten Umsätze
mit Schuhen.
Der Anstieg kann auf die Weihnachtszeit zurückzuführen sein, und vielleicht
werden Schuhe sehr beliebt gekauft und entweder für den Eigenverbrauch
oder zum Verschenken verwendet.
Wir können sowohl den monatlichen als auch den jährlichen Trend in
Abbildung 3 sehen. Wieder einmal zeigt uns, dass der Dezember der
beliebteste Monat für Schuhverkäufe ist und das Jahr, in dem er zwischen
1986 und 1988 seinen Höhepunkt erreichte. Dieser Höhepunkt könnte auf
das breite Interesse und viele Innovationen zurückzuführen sein, die die
Kunden zum Kauf ihrer Produkte anlocken und so den Umsatz steigern.
Abbildung 4 zeigt uns die Zeitreihen, die zusammen mit den Mittel- und
Medianwerten aufgetragen sind, die entlang des gleichen Diagramms
aufgetragen sind, um ein Verständnis für die Fluktuation der Daten aus
diesen beiden Maßen der zentralen Tendenz zu erhalten.
Darüber hinaus ist der Mittelwert nachweislich höher als der Median, was zu
dem Schluss führt, dass die Verteilung positiv verzerrt ist.
6
Abbildung 3 Monatliche Schuhverkäufe im Laufe der Jahre
Bei der Zeitreihenzerlegung wird eine Reihe als eine Kombination aus
Pegel-, Trend-, Saisonalitäts- und Rauschanteilen betrachtet. Die
Dekomposition bietet ein nützliches abstraktes Modell, um über Zeitreihen
im Allgemeinen nachzudenken und Probleme während der Zeitreihenanalyse
und -prognose besser zu verstehen. Sie sind von zwei Arten, im Allgemeinen
multiplikativ und additiv.
7
Abbildung 5 Multiplikative Zerlegung des Datensatzes
8
Abbildung 6 Additive Zerlegung des Datensatzes
Da wir die Änderung der absoluten Menge für diesen bestimmten Datensatz
betrachten, fahren wir mit der Verwendung des additiven Modells fort.
9
Zugdaten Schwanz des Datensatzes: Testdaten Schwanz des Datensatzes:
10
Wir wurden gebeten, verschiedene exponentielle Glättungsmodelle auf den
Trainingsdaten zu erstellen und das Modell mit RMSE auf den Testdaten zu
bewerten.
Wir sollen auch andere Modelle wie lineare Regression, naive
Prognosemodelle, einfache Durchschnittsmodelle usw. erstellen und die
Leistung der Testdaten mit RMSE überprüfen.
Das Hauptziel der Erstellung so vieler Modelle besteht darin, sicherzustellen,
dass wir ein optimales Modell mit den niedrigsten RMSE- und MAPE-
Werten auswählen.
MAPE steht für Mean Absolute Percentage Error. Es ist der
durchschnittliche multiplikative Effekt zwischen jedem geschätzten
Mittelwert und dem beobachteten Ergebnis. RMSE steht für Root Mean
Squared Error, also Standardabweichung.
Die lineare Regression ist ein Algorithmus für maschinelles Lernen, der auf
überwachtem Lernen basiert. Es führt eine Regressionsaufgabe aus. Es ist ein
großartiges Werkzeug für Prognosen. Wir können aus der Abbildung unten
sehen, dass die lineare Regression in der Zeit auf einem konstanten Anstieg
ist.
Modelltyp RMSE
Pünktliche Regression 266.2765
11
die Naive Prognose für Testdaten für die gesamten Daten konstant gleich ist,
was nicht ideal ist.
Modelltyp RMSE
Pünktliche Regression 266.2765
Naives Modell 245.1213
Die RMSE-Werte scheinen für Naïve Bayes bisher am niedrigsten zu sein. Aber
da die Prognose im Laufe der Jahre konstant ist, ist sie kein ideales Modell für
unseren Datensatz.
Die Methode ist sehr einfach. Wir mitteln die Daten nach Monaten oder
Quartalen oder Jahren und berechnen dann den Durchschnitt für den Zeitraum.
Wir fahren später fort, um herauszufinden, wie viel Prozent es zum großen
Durchschnitt ist.
12
Abbildung 10 Einfache Durchschnittsprognose
Modelltyp RMSE
RegressionOnTime 266.276
5
NaiveModel 245.121
3
SimpleAverageModel 63.9845
7
13
Abbildung 11 Nachlaufende gleitende Durchschnittsprognose
Modelltyp RMSE
RegressionOnTime 266.2765
NaiveModel 245.1213
SimpleAverageModel 63.98457
2pointTrailingMovingAverage 45.94874
4pointTrailingMovingAverage 57.87269
6pointTrailingMovingAverage 63.45689
9pointTrailingMovingAverage 67.72365
14
Abbildung 12 Einfache exponentielle Glättung
15
saisonal. Sowohl saisonal als auch trendabhängig können additiv oder
multiplikativ sein. Dies ist das additive Modell.
Der Alpha-Wert oder Glättungsgrad, auf dem das Diagramm dargestellt
wird, beträgt 0,570, während der Beta- oder Glättungstrend 0,0001 und
Gamma- oder Glättungssaison 0,293 beträgt.
16
SimpleAverageModel 63.98457
2pointTrailingMovingAverage 45.94874
4pointTrailingMovingAverage 57.87269
6pointTrailingMovingAverage 63.45689
9pointTrailingMovingAverage 67.72365
SimpleExponentialSmoothing 196.4048
DoubleExponentialSmoothing 266.1612
TripleExponentialSmoothing 128.9925
TripleExponentialSmoothingMultiplikativ 83.73405
17
Abbildung 16 Stationarität des Schuhverkaufs bei lag 1
Ein ARIMA-Modell besteht aus dem auto-regressiven (AR) Teil und dem gleitenden
Durchschnitt (MA) Teil, nachdem wir die Zeitreihe stationär gemacht haben, indem
wir den richtigen Differenzierungsgrad/die richtige Differenzierungsreihenfolge
genommen haben.
ARIMA-MODELLE können auch unter Berücksichtigung des Akaike-
Informationskriteriums (AIC) erstellt werden. In diesem Fall wählen wir die Werte
"p" und "q", um die AR- bzw. MA-Aufträge zu bestimmen, die uns den niedrigsten
AIC-Wert geben. Senken Sie die AIC besser als das Modell.
Kodiersprachen versuchen verschiedene Ordnungen von "p" und "q", um zu diesem
Schluss zu kommen. Denken Sie daran, dass wir auch bei einer solchen Art der
Auswahl der "p" - und "q" -Werte sicherstellen müssen, dass die Reihe stationär ist.
Die Formel für die Berechnung des AIC ist 2k – 2ln (L), wobei k die Anzahl der zu
schätzenden Parameter und L die Wahrscheinlichkeitsschätzung ist.
Für die SARIMA-Modelle können wir auch "p", "q", "P" und "Q" schätzen, indem
wir die niedrigsten AIC-Werte betrachten.
ARIMA:
i. Wir erstellen zunächst ein Raster aller möglichen Ergebnisse (p,d,q). Der
Bereich von ‘p’ und ‘q’ ist (0,4) und ‘d’ eine Konstante = 1.
Modell: (0, 1, 1)
Modell: (0, 1, 2)
Modell: (0, 1, 3)
Modell: (1, 1, 0)
Modell: (1, 1, 1)
Modell: (1, 1, 2)
Modell: (1, 1, 3)
18
Modell: (2, 1, 0)
Modell: (2, 1, 1)
Modell: (2, 1, 2)
Modell: (2, 1, 3)
Modell: (3, 1, 0)
Modell: (3, 1, 1)
Modell: (3, 1, 2)
Modell: (3, 1, 3)
ii. Wir passen dann das Arima-Modell in jede der oben genannten
Kombinationen ein und wählen am Ende das Modell mit dem geringsten AIC-
Wert.
param AIC
11 (2, 1, 3) 1480.805493
15 (3, 1, 3) 1482.566450
5 (1, 1, 1) 1492.487187
6 (1, 1, 2) 1494.423859
9 (2, 1, 1) 1494.431498
2 (0, 1, 2) 1494.964605
3 (0, 1, 3) 1495.148474
14 (3, 1, 2) 1495.655855
13 (3, 1, 1) 1496.346864
7 (1, 1, 3) 1496.385878
10 (2, 1, 2) 1496.410739
1 (0, 1, 1) 1497.050322
12 (3, 1, 0) 1498.930309
8 (2, 1, 0) 1498.950483
4 (1, 1, 0) 1501.643124
0 (0, 1, 0) 1508.283772
iii. Der niedrigste AIC für ARIMA ist eindeutig (2, 1, 3) mit einem AIC von
1480,80. Wir passen nun die Zugdaten an das Modell an und prognostizieren
auf dem Testset. Und wir erhalten die ARIMA-ZUSAMMENFASSUNG, das
Diagramm und die Diagnoseergebnisse.
19
A.
B.
C.
20
Abbildung 17AIC-ARIMA (2,1,3) A. Zusammenfassung, B. Diagramm und C. Diagnose
iv. Wir überprüfen schließlich die Genauigkeit des Modells mit Hilfe der
berechneten RMSE und MAPE.
SARIMA:
ii. Wir passen dann das SARIMA-Modell in jede der oben genannten
Kombinationen ein und wählen am Ende das Modell mit dem geringsten AIC-
Wert.
21
77 (2, 1, 2) (1, 0, 2, 12) 1158.490996
80 (2, 1, 2) (2, 0, 2, 12) 1158.630324
iii. Der niedrigste AIC für SARIMA ist eindeutig (0, 1, 2) (1, 0, 2, 12) mit einem
AIC von 1156.165429. Wir passen nun die Zugdaten an das Modell an und
prognostizieren auf dem Testset. Und wir erhalten die SARIMA-
Zusammenfassung, das Diagramm und die Diagnoseergebnisse. Dies ist in
Abbildung 18 unten zu sehen.
iv. Wir überprüfen schließlich die Genauigkeit des Modells mit Hilfe der
berechneten RMSE und MAPE. AIC-SARIMA hat bisher die niedrigste
RMSE und MAPE.
A.
B.
22
C.
1.7. ARIMA und SARIMA basierend auf den Cut-off-Punkten von ACF und PACF:
Ein ARIMA-Modell besteht aus dem auto-regressiven (AR) Teil und dem
gleitenden Durchschnitt (MA) Teil, nachdem wir die Zeitreihe stationär gemacht
haben, indem wir den richtigen Differenzierungsgrad/die richtige
Differenzierungsreihenfolge genommen haben.
Der AR-Auftrag wird ausgewählt, indem man sich ansieht, wo das PACF-
Diagramm abschneidet (für geeignete Konfidenzintervallbänder), und der MA-
Auftrag wird ausgewählt, indem man sich ansieht, wo das ACF-Diagramm
abschneidet (für geeignete Konfidenzintervallbänder).
Der richtige Grad oder die richtige Reihenfolge der Differenz gibt uns den Wert
von ‘d‘, während der ’p’ -Wert für die Reihenfolge des AR-Modells und der ‘q’ -
Wert für die Reihenfolge des MA-Modells steht.
Für SARIMA kann der saisonale Parameter ‘F’ durch Betrachten der ACF-Plots
bestimmt werden. Es wird erwartet, dass das ACF-Diagramm einen Anstieg um
ein Vielfaches von "F" zeigt, was auf ein Vorhandensein von Saisonalität
hinweist.
Auch bei saisonalen Modellen werden sich die ACF- und die PACF-Plots etwas
anders verhalten und sie werden nicht immer weiter verfallen, wenn die Anzahl
der Verzögerungen zunimmt.
ARIMA:
i. Wir sollen die ACF- und PACF-Plots beobachten. Wir erhalten den "p" -Wert
aus dem PACF und den "q" -Wert aus dem ACF-Diagramm. Es folgen die
Plots bei d=1:
23
Abbildung 19 Autokorrelation differenzierter Daten
A.
B.
24
C.
iii. Wir überprüfen schließlich die Genauigkeit des Modells mit Hilfe der
berechneten RMSE und MAPE. AIC-SARIMA hat bisher die niedrigste
RMSE und MAPE.
i. Wir sollen die ACF- und PACF-Plots beobachten. Wir erhalten den "p" -Wert
aus dem PACF und den "q" -Wert aus dem ACF-Diagramm. Aus den obigen
Diagrammen Abbildung 19 und 20 bei d=1, Frequenz= 12. Wir finden
zusätzlich P, D, Q aus dem obigen Diagramm, indem wir nach saisonalen
Spitzen suchen.
ii. Anschließend passen wir das SARIMA-Modell in (3,1,1) (2, 0, 4, 12) ein.
Diese Werte wurden aus den ACF- und PACF-Plots ermittelt. Und wir
erhalten die SARIMA-Zusammenfassung, das Diagramm und die
Diagnoseergebnisse.
25
A.
B.
C.
26
Abbildung-22 ACF/PACF- SARIMA(3,1,1) (2, 0, 4, 12) A. Zusammenfassung, B. Grafik
und
C. Diagnose
iii. Wir überprüfen schließlich die Genauigkeit des Modells mit Hilfe der
berechneten RMSE und MAPE. AIC-SARIMA hat bisher die niedrigste
RMSE und MAPE.
27
9
AIC-ARIMA(2,1,3) 184.648 85.73498
SimpleExponentialSmoothing 196.404
8
NaiveModel 245.121
3
DoubleExponentialSmoothing 266.161
2
RegressionOnTime 266.276
5
Wir sehen, dass das beste Modell mit dem geringsten RMSE im 2-Punkt-Trailing
Moving Average liegt, gefolgt von allen anderen gleitenden Durchschnitten und auch
dem einfachen Durchschnitt. An 6. Stelle sehen wir AIC-SARIMA (0, 1, 2)(1, 0, 2,
12).
Da die RMSE-Werte für eine einfache Berechnung und genaue Vorhersagbarkeit
nicht zu weit vom 1. bis 6. Platz entfernt sind, wählen wir AIC-SARIMA(0, 1, 2)(1, 0,
2, 12). Darüber hinaus sind Arima-Modelle recheneffizienter und geben uns genaue
Vorhersagen.
Es berücksichtigt auch MAPE, und es ist immer eine gute Idee, mehr als einen
Genauigkeitsparameter zu haben.
Branchenweite exponentielle Glättung UND ARIMA-MODELLE sind beliebter,
wenn es um den Modellbau geht. Während die exponentielle Glättungstechnik von
der Annahme einer exponentiellen Gewichtsabnahme für vergangene Daten abhängt,
wird ARIMA verwendet, indem eine Zeitreihe in stationäre Reihen umgewandelt und
die Art der stationären Reihen durch ACF und PACF untersucht wird und dann
automatisch regressive und gleitende Durchschnittseffekte in einer Zeitreihe, falls
vorhanden, berücksichtigt werden.
Wir werden das optimale Modell mit AIC-SARIMA (0, 1, 2)(1, 0, 2, 12) wie oben bereits
erläutert erstellen.
28
Abbildung 23 Optimale Modellprognose für die nächsten 12 Monate
29
Das Unternehmen kann den Umsatz höher als prognostiziert steigern, wenn
es sich auf Werbung und die Einführung neuer, einzigartiger Schuhtypen
konzentriert.
Mit der Einführung der neuen Schuhe können sie Kunden anlocken und sie
dazu verleiten, zu denken, dass sie die Schuhe kaufen müssen, weil sie
einzigartig sind. Den Herstellern einen First-Mover-Vorteil verschaffen.
Dies wird den Umsatz für eine Weile steigern und dann kann auch die
Entscheidung getroffen werden, die Herstellung von nicht so beliebten
Schuhtypen einzustellen. Dies wird dazu beitragen, wichtige Ressourcen zu
sparen, die an anderer Stelle verwendet werden können.
Es gibt Hoffnung, dass die Spitze von Jahr zu Jahr wieder ihren Höhepunkt
erreicht, denn Schuhe sind eine Notwendigkeit und die Ware wird nie ihre
Bedeutung verlieren.
30