ERWEITERTES PROJEKT-Shoe - Sales

ERWEITERTES PROJEKT
ZEITREIHENPROGNOSE
SCHUHVERKAUF - GESCHÄFTSBERICHT
RHEA.S.M
PGPDSBA Online Sep_B 2021
1
Inhaltsverzeichnis
1. Problem 1:......................................................................................................................................................
1.1. Ziel..................................................................................................................................................................
1.2. Deskriptive und explorative Datenanalyse.....................................................................................................
1.2.1. Deskriptive Datenanalyse:......................................................................................................................
1.2.2. Zeitreihendaten - Diagramm:..................................................................................................................
1.2.3. Explorative Datenanalyse:.......................................................................................................................
1.3. Splittung von Zug- und Testdaten...................................................................................................................
1.4. Aufbau verschiedener Modelle und Überprüfung der RMSE........................................................................
1.4.1. Lineare Regression:...............................................................................................................................
1.4.2. Naives Bayes-Modell:............................................................................................................................
1.4.3. Einfache Durchschnittsprognose:..........................................................................................................
1.4.4. Gleitende Durchschnittsprognose:........................................................................................................
1.4.5. Einfache exponentielle Glättung:..........................................................................................................
1.4.6. Doppelte exponentielle Glättung:.........................................................................................................
1.4.7. Dreifach exponentielle Glättung:..........................................................................................................
1.4.8. Dreifach exponentielle Glättung (multiplikativ):...................................................................................
1.5. Prüfung auf Stationarität..............................................................................................................................
1.6. ARIMA und SARIMA unter Verwendung der niedrigsten AIC-Methode:.......................................................
1.7. ARIMA und SARIMA basierend auf den Cut-off-Punkten von ACF und PACF:...............................................
1.8. RMSE-Werte vergleichen..............................................................................................................................
1.9. Aufbau eines optimalen Modells und einer 12-Monats-Prognose...............................................................
1.10. Erkenntnisse und Anregungen..............................................................................................................
2
Abbildungsverzeichnis
Abbild Name Seite Nr.
ung Nr.
Abb. 1 Zeitreihenplot -Schuhverkauf 5
Abb. 2 Monatliches Boxplot der Schuhverkäufe 6
Abb. 3 Monatliche Schuhverkäufe im Laufe der Jahre 6
Abb. 4 Zeitreihenplot zusammen mit Mittelwert und Median 6
Abb. 5 Multiplikative Zerlegung des Datensatzes 7
Abb. 6 Additive Zersetzung des Datensatzes 8
Abb. 7 Schuhverkauf - Split trainieren und testen 9
Abb. 8 Lineare Regression 10
Abb. 9 Naives Bayes-Modell 11
Abb. Einfache Durchschnittsprognose 11
10
Abb. Prognose des gleitenden Durchschnitts 12
11
Abb. Einzelne exponentielle Glättung 13
12
Abb. Einfache und doppelte exponentielle Glättung 13
13
Abb. Einfache, doppelte und dreifache exponentielle Glättung 14
14
Abb. Einfache, doppelte und dreifache exponentielle Glättung(multiplikativ) 14
15
Abb. Stationarität des Schuhverkaufs bei lag 1 16
16
Abb. AIC-ARIMA(2,1,3) A. Zusammenfassung, B. Graph und C. Diagnostik 18
17
Abb. AIC- SARIMA(0,1,2) (1, 0, 2, 12) A. Zusammenfassung, B. Diagramm und C. 20
18
Diagnose
Abb. Autokorrelation differenzierter Daten 21
19
Abb. Partielle Autokorrelation differenzierter Daten 21
20
Abb. ACF/PACF- ARIMA(3,1,1) A. Zusammenfassung, B. Diagramm und C. Diagnose 22
21
Abb. Abbildung-22 ACF/PACF- SARIMA(3,1,1) (2, 0, 4, 12) A. Zusammenfassung, B. 24
22
Diagramm und C. Diagnose
Abb. Optimale Modellprognose für die nächsten 12 Monate 25
23
Tabellenverzeichnis
Tabellennr. Name Seite Nr.
3
Tabelle 1 Zusammenfassung der deskriptiven statistischen Informationen 4
Tabelle 2 Split trainieren und testen 9
Tabelle 3 Zusammenfassende Ergebnisse aller Modelle 24
1. Problem 1:
1.1. Ziel
 Das Ziel des Problems ist es, ein optimales Modell zu erstellen, um den Umsatz der
Paar Schuhe für die kommenden 12 Monate zu prognostizieren, ab dem die Daten
derzeit enden.
 Darüber hinaus müssen wir auch das so aufgebaute Modell kommentieren und über
unsere Ergebnisse berichten und Maßnahmen vorschlagen, die das Unternehmen für
zukünftige Verkäufe ergreifen sollte.
1.2. Deskriptive und explorative Datenanalyse
Hintergrund: Sie sind Analyst in der IJK-SCHUHFIRMA und es wird erwartet,

dass Sie den Umsatz der Schuhpaare für die kommenden 12 Monate prognostizieren,
ab dem die Daten enden. Die Daten für das Paar Schuhverkäufe wurden Ihnen von
Januar 1980 bis Juli 1995 zur Verfügung gestellt.
Data Dictionary:
YearMonth: Monat und Jahr des Schuhverkaufs
Shoe_Sales: Der monatliche Verkauf von Schuhen
1.2.1. Deskriptive Datenanalyse:
 Der Datensatz wurde gelesen und als Datenrahmen für die weitere Analyse
gespeichert.
 Der bereitgestellte Datensatz besteht aus insgesamt 2 Spalten und hat 187
Einträge, die numerischer Natur sind. Es sind keine Nullwerte vorhanden.
 Die erste Spalte stellt das Datum dar, an dem die Schuhverkäufe erfasst
wurden. Während die zweite Spalte den Vertrieb selbst darstellt.
 Die folgende Tabelle 1 enthält den Kopf(), den Schwanz(), die
Informationen() und die Beschreibung des vorliegenden Datensatzes.
Tabelle-1: Zusammenfassung der deskriptiven statistischen Informationen
4
Leiter des Datensatzes: Ende des Datensatzes: Info Datensatz:
Funktion auf Datensatz beschreiben: Es gibt keine NULL-Werte im Datensatz.
1.2.2. Zeitreihendaten - Diagramm:
 Eine Zeitreihe ist eine Reihe von Messungen an derselben Variablen, die im
Laufe der Zeit gesammelt werden. Diese Messungen werden in regelmäßigen
Zeitabständen durchgeführt. Eine Zeitreihe ist eine Reihe von Datenpunkten,
die in zeitlicher Reihenfolge indiziert sind. Am häufigsten ist eine Zeitreihe
eine Sequenz, die zu aufeinanderfolgenden gleichmäßig beabstandeten
Zeitpunkten aufgenommen wird. Somit handelt es sich um eine Folge
von zeitdiskreten Daten.
 Wir können deutlich einen jährlichen Trend der Verkäufe von Schuhen in der
unten dargestellten Abbildung-1 sehen. Dieses Diagramm gibt uns einen
Überblick über die Daten, ohne dass wir tatsächlich jede Zahl im Datensatz
überprüfen müssen.
Abbildung-1 Zeitreihenplot -Schuhverkäufe
1.2.3. Explorative Datenanalyse:
5
 Explorative Datenanalyse bezieht sich auf den kritischen Prozess der
Durchführung erster Untersuchungen an Daten, um Muster zu entdecken,
Anomalien zu erkennen und Hypothesen zu testen.
 In der folgenden Abbildung-2 sehen wir die monatlichen Box-Plots der
Schuhverkäufe. Wir können sehen, dass es im April und Mai Ausreißer gibt.
Dies zeigt uns, dass in diesen Monaten einige Verkäufe getätigt wurden, die
außerhalb des Üblichen lagen.
 Wir sehen, dass die Umsätze in der zweiten Jahreshälfte tendenziell stärker
anziehen als in der ersten. Der Dezember verzeichnet die höchsten Umsätze
mit Schuhen.
 Der Anstieg kann auf die Weihnachtszeit zurückzuführen sein, und vielleicht
werden Schuhe sehr beliebt gekauft und entweder für den Eigenverbrauch
oder zum Verschenken verwendet.
 Wir können sowohl den monatlichen als auch den jährlichen Trend in
Abbildung 3 sehen. Wieder einmal zeigt uns, dass der Dezember der
beliebteste Monat für Schuhverkäufe ist und das Jahr, in dem er zwischen
1986 und 1988 seinen Höhepunkt erreichte. Dieser Höhepunkt könnte auf
das breite Interesse und viele Innovationen zurückzuführen sein, die die
Kunden zum Kauf ihrer Produkte anlocken und so den Umsatz steigern.
 Abbildung 4 zeigt uns die Zeitreihen, die zusammen mit den Mittel- und
Medianwerten aufgetragen sind, die entlang des gleichen Diagramms
aufgetragen sind, um ein Verständnis für die Fluktuation der Daten aus
diesen beiden Maßen der zentralen Tendenz zu erhalten.
 Darüber hinaus ist der Mittelwert nachweislich höher als der Median, was zu
dem Schluss führt, dass die Verteilung positiv verzerrt ist.
Abbildung 2 Monatliche Kastendarstellung der Schuhverkäufe
6
Abbildung 3 Monatliche Schuhverkäufe im Laufe der Jahre
Abbildung 4 Zeitreihendiagramm zusammen mit Mittelwert und Median

 DEKOMPOSITION DES DATENSATZES:
Bei der Zeitreihenzerlegung wird eine Reihe als eine Kombination aus
Pegel-, Trend-, Saisonalitäts- und Rauschanteilen betrachtet. Die
Dekomposition bietet ein nützliches abstraktes Modell, um über Zeitreihen
im Allgemeinen nachzudenken und Probleme während der Zeitreihenanalyse
und -prognose besser zu verstehen. Sie sind von zwei Arten, im Allgemeinen
multiplikativ und additiv.
(i) Multiplikative Zerlegung des Datensatzes:

Die Daten werden in Bezug auf die Multiplikation von Saisonalität,
Trend, zyklischen und Restkomponenten dargestellt. Wird verwendet,
wenn die Veränderung in Prozent (%) gemessen wird.
7
Abbildung 5 Multiplikative Zerlegung des Datensatzes
(ii) Additive Zersetzung des Datensatzes:

Die Daten werden in Bezug auf die Addition von Saisonalität, Trend,
zyklischen und Restkomponenten dargestellt. Wird verwendet, wenn
die Veränderung in absoluten Zahlen gemessen wird.
8
Abbildung 6 Additive Zerlegung des Datensatzes
Da wir die Änderung der absoluten Menge für diesen bestimmten Datensatz
betrachten, fahren wir mit der Verwendung des additiven Modells fort.
1.3. Splittung von Zug- und Testdaten
Der Train-Test-Split wird verwendet, um die Leistung von Algorithmen für

maschinelles Lernen zu schätzen, die für prädiktionsbasierte
Algorithmen/Anwendungen anwendbar sind. Diese Methode ist ein schnell und
einfach durchzuführendes Verfahren, sodass wir die Ergebnisse unseres eigenen
maschinellen Lernmodells mit maschinellen Ergebnissen vergleichen können.
Beide Datensätze wurden im Jahr 1991 aufgeteilt. Das bedeutet, dass die Testdaten ab
1991 beginnen.
Tabelle-2: Zug- und Testsplit
Zugdaten Leiter des Datensatzes: Testdaten Leiter des Datensatzes:
9
Zugdaten Schwanz des Datensatzes: Testdaten Schwanz des Datensatzes:
Zugdatenform = (132, 1) Testdatenform = (55, 1)
Grafische Darstellung des Zug- und Testsplits:
Abbildung 7 Schuhverkauf - Split trainieren und testen
1.4. Aufbau verschiedener Modelle und Überprüfung der RMSE
10
 Wir wurden gebeten, verschiedene exponentielle Glättungsmodelle auf den
Trainingsdaten zu erstellen und das Modell mit RMSE auf den Testdaten zu
bewerten.
 Wir sollen auch andere Modelle wie lineare Regression, naive
Prognosemodelle, einfache Durchschnittsmodelle usw. erstellen und die
Leistung der Testdaten mit RMSE überprüfen.
 Das Hauptziel der Erstellung so vieler Modelle besteht darin, sicherzustellen,
dass wir ein optimales Modell mit den niedrigsten RMSE- und MAPE-
Werten auswählen.
 MAPE steht für Mean Absolute Percentage Error. Es ist der
durchschnittliche multiplikative Effekt zwischen jedem geschätzten
Mittelwert und dem beobachteten Ergebnis. RMSE steht für Root Mean
Squared Error, also Standardabweichung.
1.4.1. Lineare Regression:
 Die lineare Regression ist ein Algorithmus für maschinelles Lernen, der auf
überwachtem Lernen basiert. Es führt eine Regressionsaufgabe aus. Es ist ein
großartiges Werkzeug für Prognosen. Wir können aus der Abbildung unten
sehen, dass die lineare Regression in der Zeit auf einem konstanten Anstieg
ist.
Abbildung 8 Lineare Regression
Modelltyp RMSE
Pünktliche Regression 266.2765
1.4.2. Naives Bayes-Modell:
 Klassifikatoren wie Naive Bayes verwenden ein Sprachmodell zur

Klassifizierung und Vorhersage von Zeitreihendaten. Abbildung 9 besagt, dass
11
die Naive Prognose für Testdaten für die gesamten Daten konstant gleich ist,
was nicht ideal ist.
Abbildung 9 Naives Bayes-Modell
Modelltyp RMSE
Pünktliche Regression 266.2765
Naives Modell 245.1213
Die RMSE-Werte scheinen für Naïve Bayes bisher am niedrigsten zu sein. Aber
da die Prognose im Laufe der Jahre konstant ist, ist sie kein ideales Modell für
unseren Datensatz.
1.4.3. Einfache Durchschnittsprognose:
Die Methode ist sehr einfach. Wir mitteln die Daten nach Monaten oder
Quartalen oder Jahren und berechnen dann den Durchschnitt für den Zeitraum.
Wir fahren später fort, um herauszufinden, wie viel Prozent es zum großen
Durchschnitt ist.
12
Abbildung 10 Einfache Durchschnittsprognose
Modelltyp RMSE
RegressionOnTime 266.276
5
NaiveModel 245.121
3
SimpleAverageModel 63.9845
7
Die RMSE-Werte scheinen für die einfache Durchschnittsmethode bisher am

niedrigsten zu sein. Aber da die Prognose im Laufe der Jahre konstant ist, ist sie
kein ideales Modell für unseren Datensatz.
1.4.4. Gleitende Durchschnittsprognose:
 Die gleitende Durchschnittsprognose ist eine naive und effektive Technik in

der Zeitreihenprognose.
 Bei der Berechnung eines gleitenden Durchschnitts wird eine neue Reihe
erstellt, in der die Werte aus dem Durchschnitt der Rohbeobachtungen in der
ursprünglichen Zeitreihe bestehen.
 Ein gleitender Durchschnitt erfordert, dass Sie eine Fenstergröße angeben, die
als Fensterbreite bezeichnet wird. Dies definiert die Anzahl der
Rohbeobachtungen, die zur Berechnung des gleitenden Durchschnittswerts
verwendet werden. Wir haben die Methode des nachlaufenden gleitenden
Durchschnitts verwendet.
13
Abbildung 11 Nachlaufende gleitende Durchschnittsprognose
Modelltyp RMSE
NaiveModel 245.1213
2pointTrailingMovingAverage 45.94874
Die RMSE-Werte scheinen bisher für die 2-Punkte-Methode des gleitenden

Durchschnitts am niedrigsten zu sein.
1.4.5. Einfache exponentielle Glättung:
 Single Exponential Smoothing, kurz ses, auch Simple Exponential

Smoothing genannt, ist eine Zeitreihenprognosemethode für univariate Daten
ohne Trend oder Saisonalität. Es erfordert einen einzigen Parameter, der als
alpha (a) bezeichnet wird und auch als Glättungsfaktor oder
Glättungskoeffizient bezeichnet wird.
 Der Alpha-Wert oder Glättungsgrad, bei dem der Graph dargestellt wird,
beträgt 0,605.
14
Abbildung 12 Einfache exponentielle Glättung
1.4.6. Doppelte exponentielle Glättung:
 Die doppelte exponentielle Glättung verwendet in jeder Periode eine

Pegelkomponente und eine Trendkomponente. Die doppelte exponentielle
Glättung verwendet zwei Gewichtungen (auch Glättungsparameter genannt),
um die Komponenten in jeder Periode zu aktualisieren.
 Der Alpha-Wert oder Glättungsgrad, auf dem das Diagramm dargestellt
wird, beträgt 0,594, während der Beta- oder Glättungstrend 0,0002 beträgt.
Abbildung 13 Einfache und doppelt exponentielle Glättung
1.4.7. Dreifach exponentielle Glättung:
 Die dreifach exponentielle Glättung wird verwendet, um die Zeitreihendaten

zu behandeln, die eine saisonale Komponente enthalten. Diese Methode
basiert auf drei Glättungsgleichungen: stationäre Komponente, Trend und
15
saisonal. Sowohl saisonal als auch trendabhängig können additiv oder
multiplikativ sein. Dies ist das additive Modell.
 Der Alpha-Wert oder Glättungsgrad, auf dem das Diagramm dargestellt
wird, beträgt 0,570, während der Beta- oder Glättungstrend 0,0001 und
Gamma- oder Glättungssaison 0,293 beträgt.
Abbildung 14 Einfache, doppelte und dreifache exponentielle Glättung
1.4.8. Dreifach exponentielle Glättung (multiplikativ):
 Diese Methode basiert auf drei Glättungsgleichungen: stationäre

Komponente, Trend und saisonal. Dies ist das multiplikative Modell.
 Der Alpha-Wert oder Glättungsgrad, bei dem das Diagramm dargestellt
wird, beträgt 0,571, während der Beta- oder Glättungstrend 0,0001 und
Gamma- oder Glättungssaisonal 0,202 beträgt.
Abbildung 15 Einfache, doppelte und dreifache exponentielle Glättung (multiplikativ)

Modelltyp RMSE
NaiveModel 245.1213
16
SimpleExponentialSmoothing 196.4048
DoubleExponentialSmoothing 266.1612
TripleExponentialSmoothing 128.9925
TripleExponentialSmoothingMultiplikativ 83.73405
Die RMSE-Werte scheinen bisher für die 2-Punkte-Methode des gleitenden

Durchschnitts am niedrigsten zu sein.
1.5. Prüfung auf Stationarität
 Der Augmented Dickey-Fuller-Test ist ein Einheitswurzeltest, der bestimmt,

ob es eine Einheitswurzel gibt und anschließend, ob die Serie nicht stationär
ist.
 Die Hypothese in einfacher Form für den ADF-Test lautet:
H0: Die Zeitreihe hat eine Einheitswurzel und ist somit nicht stationär.
H1: Die Zeitreihe hat keine Einheitswurzel und ist somit stationär.
 Wir möchten, dass die Serie für den Aufbau von Arima-Modellen stationär ist
und somit der p-Wert dieses Tests kleiner als der Alpha-Wert ist.
 Als ADF auf das Modell angewendet wurde, erhielten wir einen p-Wert von
0,801, der höher als 0,5 ist, daher können wir die Nullhypothese nicht
ablehnen. Schlussfolgerung, dass die Serie nicht stationär ist.
 Wir müssen jetzt eine Pegeldifferenzierung des Datensatzes durchführen und
nach Stationarität suchen.
 Der p-Wert nach Differenzierung auf Stufe 1 beträgt 0,0361<0,05, daher
lehnen wir nun die Nullhypothese ab und kommen zu dem Schluss, dass die
Reihe mit einer Verzögerung von 1 stationär ist.
 Nachfolgend finden Sie eine grafische Darstellung derselben. Der
Teststatistikwert beträgt -3,532, während die Anzahl der verwendeten Lags 12
beträgt.
 Jetzt, da die Daten stationär sind, können wir mit der Erstellung der ARIMA-
und SARIMA-Modelle fortfahren.
17
Abbildung 16 Stationarität des Schuhverkaufs bei lag 1
1.6. ARIMA und SARIMA unter Verwendung der niedrigsten AIC-Methode:
 Ein ARIMA-Modell besteht aus dem auto-regressiven (AR) Teil und dem gleitenden
Durchschnitt (MA) Teil, nachdem wir die Zeitreihe stationär gemacht haben, indem
wir den richtigen Differenzierungsgrad/die richtige Differenzierungsreihenfolge
genommen haben.
 ARIMA-MODELLE können auch unter Berücksichtigung des Akaike-
Informationskriteriums (AIC) erstellt werden. In diesem Fall wählen wir die Werte
"p" und "q", um die AR- bzw. MA-Aufträge zu bestimmen, die uns den niedrigsten
AIC-Wert geben. Senken Sie die AIC besser als das Modell.
 Kodiersprachen versuchen verschiedene Ordnungen von "p" und "q", um zu diesem
Schluss zu kommen. Denken Sie daran, dass wir auch bei einer solchen Art der
Auswahl der "p" - und "q" -Werte sicherstellen müssen, dass die Reihe stationär ist.
 Die Formel für die Berechnung des AIC ist 2k – 2ln (L), wobei k die Anzahl der zu
schätzenden Parameter und L die Wahrscheinlichkeitsschätzung ist.
 Für die SARIMA-Modelle können wir auch "p", "q", "P" und "Q" schätzen, indem
wir die niedrigsten AIC-Werte betrachten.
 ARIMA:
i. Wir erstellen zunächst ein Raster aller möglichen Ergebnisse (p,d,q). Der
Bereich von ‘p’ und ‘q’ ist (0,4) und ‘d’ eine Konstante = 1.
Im Folgenden finden Sie das Raster aller möglichen Ergebnisse:
Modell: (0, 1, 1)
Modell: (0, 1, 2)
Modell: (0, 1, 3)
Modell: (1, 1, 0)
Modell: (1, 1, 1)
Modell: (1, 1, 2)
Modell: (1, 1, 3)
18
Modell: (2, 1, 0)
Modell: (2, 1, 1)
Modell: (2, 1, 2)
Modell: (2, 1, 3)
Modell: (3, 1, 0)
Modell: (3, 1, 1)
Modell: (3, 1, 2)
Modell: (3, 1, 3)
ii. Wir passen dann das Arima-Modell in jede der oben genannten
Kombinationen ein und wählen am Ende das Modell mit dem geringsten AIC-
Wert.
param AIC
11 (2, 1, 3) 1480.805493
15 (3, 1, 3) 1482.566450
5 (1, 1, 1) 1492.487187
6 (1, 1, 2) 1494.423859
9 (2, 1, 1) 1494.431498
2 (0, 1, 2) 1494.964605
3 (0, 1, 3) 1495.148474
14 (3, 1, 2) 1495.655855
13 (3, 1, 1) 1496.346864
7 (1, 1, 3) 1496.385878
10 (2, 1, 2) 1496.410739
1 (0, 1, 1) 1497.050322
12 (3, 1, 0) 1498.930309
8 (2, 1, 0) 1498.950483
4 (1, 1, 0) 1501.643124
0 (0, 1, 0) 1508.283772
iii. Der niedrigste AIC für ARIMA ist eindeutig (2, 1, 3) mit einem AIC von
1480,80. Wir passen nun die Zugdaten an das Modell an und prognostizieren
auf dem Testset. Und wir erhalten die ARIMA-ZUSAMMENFASSUNG, das
Diagramm und die Diagnoseergebnisse.
19
A.
B.
C.
20
Abbildung 17AIC-ARIMA (2,1,3) A. Zusammenfassung, B. Diagramm und C. Diagnose
iv. Wir überprüfen schließlich die Genauigkeit des Modells mit Hilfe der
berechneten RMSE und MAPE.
Modelltyp RMSE MAPE

AIC-ARIMA(2,1,3) 184.648 85.73498
 SARIMA:
i. Wir erstellen ein Raster aller möglichen Kombinationen von (p,d,q)

zusammen mit saisonaler (P,D,Q) und Saisonalität von 12. Der Bereich von
‘p’ und ‘q’ ist (0,4) und ‘d’ eine Konstante = 1.
Im Folgenden finden Sie das Raster aller möglichen Ergebnisse:
Modell: (0, 1, 1)(0, 0, 1, 12)

Modell: (0, 1, 2)(0, 0, 2, 12)
Modell: (1, 1, 0)(1, 0, 0, 12)
Modell: (1, 1, 1)(1, 0, 1, 12)
Modell: (1, 1, 2)(1, 0, 2, 12)
Modell: (2, 1, 0)(2, 0, 0, 12)
Modell: (2, 1, 1)(2, 0, 1, 12)
Modell: (2, 1, 2)(2, 0, 2, 12)
ii. Wir passen dann das SARIMA-Modell in jede der oben genannten
Kombinationen ein und wählen am Ende das Modell mit dem geringsten AIC-
Wert.
param saisonal AIC

23 (0, 1, 2) (1, 0, 2, 12) 1156.165429
50 (1, 1, 2) (1, 0, 2, 12) 1157.082589
26 (0, 1, 2) (2, 0, 2, 12) 1157.772313
21
77 (2, 1, 2) (1, 0, 2, 12) 1158.490996
80 (2, 1, 2) (2, 0, 2, 12) 1158.630324
iii. Der niedrigste AIC für SARIMA ist eindeutig (0, 1, 2) (1, 0, 2, 12) mit einem
AIC von 1156.165429. Wir passen nun die Zugdaten an das Modell an und
prognostizieren auf dem Testset. Und wir erhalten die SARIMA-
Zusammenfassung, das Diagramm und die Diagnoseergebnisse. Dies ist in
Abbildung 18 unten zu sehen.
iv. Wir überprüfen schließlich die Genauigkeit des Modells mit Hilfe der
berechneten RMSE und MAPE. AIC-SARIMA hat bisher die niedrigste
RMSE und MAPE.
Modelltyp RMSE MAPE

AIC-ARIMA(2,1,3) 184.648 85.73498
AIC-SARIMA(0, 1, 2)(1, 0, 2, 12) 69.03066 26.45588
A.
B.
22
C.
Abbildung-18 AIC- SARIMA(0,1,2) (1, 0, 2, 12) A. Zusammenfassung, B. Diagramm

und C. Diagnose
1.7. ARIMA und SARIMA basierend auf den Cut-off-Punkten von ACF und PACF:
 Ein ARIMA-Modell besteht aus dem auto-regressiven (AR) Teil und dem
gleitenden Durchschnitt (MA) Teil, nachdem wir die Zeitreihe stationär gemacht
haben, indem wir den richtigen Differenzierungsgrad/die richtige
Differenzierungsreihenfolge genommen haben.
 Der AR-Auftrag wird ausgewählt, indem man sich ansieht, wo das PACF-
Diagramm abschneidet (für geeignete Konfidenzintervallbänder), und der MA-
Auftrag wird ausgewählt, indem man sich ansieht, wo das ACF-Diagramm
abschneidet (für geeignete Konfidenzintervallbänder).
 Der richtige Grad oder die richtige Reihenfolge der Differenz gibt uns den Wert
von ‘d‘, während der ’p’ -Wert für die Reihenfolge des AR-Modells und der ‘q’ -
Wert für die Reihenfolge des MA-Modells steht.
 Für SARIMA kann der saisonale Parameter ‘F’ durch Betrachten der ACF-Plots
bestimmt werden. Es wird erwartet, dass das ACF-Diagramm einen Anstieg um
ein Vielfaches von "F" zeigt, was auf ein Vorhandensein von Saisonalität
hinweist.
 Auch bei saisonalen Modellen werden sich die ACF- und die PACF-Plots etwas
anders verhalten und sie werden nicht immer weiter verfallen, wenn die Anzahl
der Verzögerungen zunimmt.
 ARIMA:
i. Wir sollen die ACF- und PACF-Plots beobachten. Wir erhalten den "p" -Wert
aus dem PACF und den "q" -Wert aus dem ACF-Diagramm. Es folgen die
Plots bei d=1:
23
Abbildung 19 Autokorrelation differenzierter Daten
Abbildung 20 Teilweise Autokorrelation differenzierter Daten
ii. Wir gehen dann weiter, um das ARIMA-MODELL in (3,1,1) einzupassen.

Diese Werte wurden aus den ACF- und PACF-Plots ermittelt. Und wir
erhalten die ARIMA-ZUSAMMENFASSUNG, das Diagramm und die
Diagnoseergebnisse.
A.
B.
24
C.
Abbildung-21 ACF/PACF- ARIMA(3,1,1) A. Zusammenfassung, B. Diagramm und C.

Diagnose
iii. Wir überprüfen schließlich die Genauigkeit des Modells mit Hilfe der
RMSE und MAPE.
Modelltyp RMSE MAPE

AIC-ARIMA(2,1,3) 184.648 85.7349
8
AIC-SARIMA(0, 1, 2)(1, 0, 2, 12) 69.0306 26.4558
6 8
ACF/PACF-ARIMA(3,1,1) 144.183 66.9104
9 9
 SARIMA:
i. Wir sollen die ACF- und PACF-Plots beobachten. Wir erhalten den "p" -Wert
aus dem PACF und den "q" -Wert aus dem ACF-Diagramm. Aus den obigen
Diagrammen Abbildung 19 und 20 bei d=1, Frequenz= 12. Wir finden
zusätzlich P, D, Q aus dem obigen Diagramm, indem wir nach saisonalen
Spitzen suchen.
ii. Anschließend passen wir das SARIMA-Modell in (3,1,1) (2, 0, 4, 12) ein.
Diese Werte wurden aus den ACF- und PACF-Plots ermittelt. Und wir
erhalten die SARIMA-Zusammenfassung, das Diagramm und die
Diagnoseergebnisse.
25
A.
B.
C.
26
Abbildung-22 ACF/PACF- SARIMA(3,1,1) (2, 0, 4, 12) A. Zusammenfassung, B. Grafik
und
C. Diagnose
iii. Wir überprüfen schließlich die Genauigkeit des Modells mit Hilfe der
RMSE und MAPE.
Modelltyp RMSE MAPE

AIC-ARIMA(2,1,3) 184.648 85.73498
AIC-SARIMA(0, 1, 2)(1, 0, 2, 12) 69.0306 26.45588
6
ACF/PACF-ARIMA(3,1,1) 144.183 66.91049
9
ACF/PACF-SARIMA(3,1,1)(2, 0, 4, 12) 109.924 46.26953
2
1.8. RMSE-Werte vergleichen
Tabelle 3- Zusammenfassung der Ergebnisse aller Modelle RMSE

Modelltyp RMSE MAPE
4
9
9
7
5
AIC-SARIMA(0, 1, 2)(1, 0, 2, 12) 69.0306 26.45588
6
TripleExponentialSmoothingMultiplikativ 83.7340
5
ACF/PACF-SARIMA(3,1,1)(2, 0, 4, 12) 109.924 46.26953
2
TripleExponentialSmoothing 128.992
5
ACF/PACF-ARIMA(3,1,1) 144.183 66.91049
27
9
AIC-ARIMA(2,1,3) 184.648 85.73498
SimpleExponentialSmoothing 196.404
8
NaiveModel 245.121
3
DoubleExponentialSmoothing 266.161
2
5
 Wir sehen, dass das beste Modell mit dem geringsten RMSE im 2-Punkt-Trailing
Moving Average liegt, gefolgt von allen anderen gleitenden Durchschnitten und auch
dem einfachen Durchschnitt. An 6. Stelle sehen wir AIC-SARIMA (0, 1, 2)(1, 0, 2,
12).
 Da die RMSE-Werte für eine einfache Berechnung und genaue Vorhersagbarkeit
nicht zu weit vom 1. bis 6. Platz entfernt sind, wählen wir AIC-SARIMA(0, 1, 2)(1, 0,
2, 12). Darüber hinaus sind Arima-Modelle recheneffizienter und geben uns genaue
Vorhersagen.
 Es berücksichtigt auch MAPE, und es ist immer eine gute Idee, mehr als einen
Genauigkeitsparameter zu haben.
 Branchenweite exponentielle Glättung UND ARIMA-MODELLE sind beliebter,
wenn es um den Modellbau geht. Während die exponentielle Glättungstechnik von
der Annahme einer exponentiellen Gewichtsabnahme für vergangene Daten abhängt,
wird ARIMA verwendet, indem eine Zeitreihe in stationäre Reihen umgewandelt und
die Art der stationären Reihen durch ACF und PACF untersucht wird und dann
automatisch regressive und gleitende Durchschnittseffekte in einer Zeitreihe, falls
vorhanden, berücksichtigt werden.
1.9. Aufbau eines optimalen Modells und einer 12-Monats-Prognose
Wir werden das optimale Modell mit AIC-SARIMA (0, 1, 2)(1, 0, 2, 12) wie oben bereits
erläutert erstellen.
28
Abbildung 23 Optimale Modellprognose für die nächsten 12 Monate
1.10. Erkenntnisse und Anregungen
 Der Datensatz enthält insgesamt 187 Einträge, darunter 2 Variablen. Die

erste Spalte stellt das Datum dar, an dem die Schuhverkäufe erfasst wurden.
Während die zweite Spalte den Vertrieb selbst darstellt. Es gibt keine NULL-
Werte im Datensatz.
 Im April und Mai sind Ausreißer vorhanden. Dies zeigt uns, dass in diesen
Monaten einige Verkäufe getätigt wurden, die außerhalb des Üblichen lagen.
 Die Umsätze ziehen in der zweiten Jahreshälfte tendenziell stärker an als im
ersten. Der Dezember verzeichnet die höchsten Umsätze mit Schuhen.
 Der Anstieg kann auf die Weihnachtszeit zurückzuführen sein, und vielleicht
werden Schuhe sehr beliebt gekauft und entweder für den Eigenverbrauch
oder zum Verschenken verwendet.
 Sowohl im monatlichen als auch im jährlichen Trend sehen wir, dass der
Dezember der beliebteste Monat für Schuhverkäufe ist, sowie das Jahr, in
dem der Umsatz zwischen 1986 und 1988 seinen Höhepunkt erreichte.
Dieser Höhepunkt kann auf ein breites Interesse und viele Innovationen
zurückzuführen sein, die die Kunden zum Kauf ihrer Produkte verleiten und
so den Umsatz steigern.
 Aus der Prognose sehen wir einen klaren Höchststand, der einen besseren
Umsatz als im Vorjahr zeigt. Daher müssen die Hersteller sicherstellen, dass
sie genug und mehr als im Vorjahr haben.
29
 Das Unternehmen kann den Umsatz höher als prognostiziert steigern, wenn
es sich auf Werbung und die Einführung neuer, einzigartiger Schuhtypen
konzentriert.
 Mit der Einführung der neuen Schuhe können sie Kunden anlocken und sie
dazu verleiten, zu denken, dass sie die Schuhe kaufen müssen, weil sie
einzigartig sind. Den Herstellern einen First-Mover-Vorteil verschaffen.
 Dies wird den Umsatz für eine Weile steigern und dann kann auch die
Entscheidung getroffen werden, die Herstellung von nicht so beliebten
Schuhtypen einzustellen. Dies wird dazu beitragen, wichtige Ressourcen zu
sparen, die an anderer Stelle verwendet werden können.
 Es gibt Hoffnung, dass die Spitze von Jahr zu Jahr wieder ihren Höhepunkt
erreicht, denn Schuhe sind eine Notwendigkeit und die Ware wird nie ihre
Bedeutung verlieren.
30

ERWEITERTES PROJEKT-Shoe - Sales

Hochgeladen von

Dokumentinformationen

Originaltitel

Copyright

Verfügbare Formate

Dieses Dokument teilen

Dokument teilen oder einbetten

Freigabeoptionen

Stufen Sie dieses Dokument als nützlich ein?

Sind diese Inhalte unangemessen?

Copyright:

Verfügbare Formate

ERWEITERTES PROJEKT-Shoe - Sales

Hochgeladen von

Copyright:

Verfügbare Formate

ERWEITERTES PROJEKT

1.2. Deskriptive und explorative Datenanalyse

Hintergrund: Sie sind Analyst in der IJK-SCHUHFIRMA und es wird erwartet,

Tabelle-1: Zusammenfassung der deskriptiven statistischen Informationen

Funktion auf Datensatz beschreiben: Es gibt keine NULL-Werte im Datensatz.

1.2.2. Zeitreihendaten - Diagramm:

Abbildung-1 Zeitreihenplot -Schuhverkäufe

1.2.3. Explorative Datenanalyse:

Abbildung 2 Monatliche Kastendarstellung der Schuhverkäufe

Abbildung 4 Zeitreihendiagramm zusammen mit Mittelwert und Median

(i) Multiplikative Zerlegung des Datensatzes:

(ii) Additive Zersetzung des Datensatzes:

1.3. Splittung von Zug- und Testdaten

Der Train-Test-Split wird verwendet, um die Leistung von Algorithmen für

Tabelle-2: Zug- und Testsplit

Zugdaten Leiter des Datensatzes: Testdaten Leiter des Datensatzes:

Zugdatenform = (132, 1) Testdatenform = (55, 1)

Grafische Darstellung des Zug- und Testsplits:

Abbildung 7 Schuhverkauf - Split trainieren und testen

1.4. Aufbau verschiedener Modelle und Überprüfung der RMSE

1.4.1. Lineare Regression:

Abbildung 8 Lineare Regression

1.4.2. Naives Bayes-Modell:

 Klassifikatoren wie Naive Bayes verwenden ein Sprachmodell zur

Abbildung 9 Naives Bayes-Modell

1.4.3. Einfache Durchschnittsprognose:

Die RMSE-Werte scheinen für die einfache Durchschnittsmethode bisher am

1.4.4. Gleitende Durchschnittsprognose:

 Die gleitende Durchschnittsprognose ist eine naive und effektive Technik in

Die RMSE-Werte scheinen bisher für die 2-Punkte-Methode des gleitenden

1.4.5. Einfache exponentielle Glättung:

 Single Exponential Smoothing, kurz ses, auch Simple Exponential

1.4.6. Doppelte exponentielle Glättung:

 Die doppelte exponentielle Glättung verwendet in jeder Periode eine

Abbildung 13 Einfache und doppelt exponentielle Glättung

1.4.7. Dreifach exponentielle Glättung:

 Die dreifach exponentielle Glättung wird verwendet, um die Zeitreihendaten

Abbildung 14 Einfache, doppelte und dreifache exponentielle Glättung

1.4.8. Dreifach exponentielle Glättung (multiplikativ):

 Diese Methode basiert auf drei Glättungsgleichungen: stationäre

Abbildung 15 Einfache, doppelte und dreifache exponentielle Glättung (multiplikativ)

Die RMSE-Werte scheinen bisher für die 2-Punkte-Methode des gleitenden

1.5. Prüfung auf Stationarität

 Der Augmented Dickey-Fuller-Test ist ein Einheitswurzeltest, der bestimmt,

1.6. ARIMA und SARIMA unter Verwendung der niedrigsten AIC-Methode:

Im Folgenden finden Sie das Raster aller möglichen Ergebnisse:

Modelltyp RMSE MAPE

i. Wir erstellen ein Raster aller möglichen Kombinationen von (p,d,q)

Im Folgenden finden Sie das Raster aller möglichen Ergebnisse:

Modell: (0, 1, 1)(0, 0, 1, 12)

param saisonal AIC

Modelltyp RMSE MAPE

Abbildung-18 AIC- SARIMA(0,1,2) (1, 0, 2, 12) A. Zusammenfassung, B. Diagramm

Abbildung 20 Teilweise Autokorrelation differenzierter Daten

ii. Wir gehen dann weiter, um das ARIMA-MODELL in (3,1,1) einzupassen.

Abbildung-21 ACF/PACF- ARIMA(3,1,1) A. Zusammenfassung, B. Diagramm und C.

Modelltyp RMSE MAPE

Modelltyp RMSE MAPE

1.8. RMSE-Werte vergleichen

Tabelle 3- Zusammenfassung der Ergebnisse aller Modelle RMSE

1.9. Aufbau eines optimalen Modells und einer 12-Monats-Prognose

1.10. Erkenntnisse und Anregungen

 Der Datensatz enthält insgesamt 187 Einträge, darunter 2 Variablen. Die