Beruflich Dokumente
Kultur Dokumente
Profesora:
Carmen Lorenzo Lago
Técnicas cuantitativas de previsión Curso 2011-2012
Una serie temporal consiste en una sucesión de observaciones ordenadas sobre una(s)
variable(s) determinada a lo largo del tiempo:
y1, y2,…, yT
Las series temporales tienen tres características: están ordenadas cronológicamente, las
observaciones se toman periódicamente y de forma regular, anual, mensual, trimestral,
diario etc. y finalmente, tienen un alto grado de autocorrelación.
Un primer análisis de la serie que intentamos estudiar se realiza a través de su evolución a
lo largo del tiempo, es decir, su representación gráfica en un eje cartesiano donde en
abscisas se representa el tiempo y en ordenadas la variable1.
Ejemplos :
i) Población activa femenina en España (datos trimestrales: 2001:Q1-2011:Q3)
ACTM
560,000
520,000
480,000
440,000
400,000
360,000
01 02 03 04 05 06 07 08 09 10 11
40,000,000
36,000,000
32,000,000
28,000,000
24,000,000
20,000,000
16,000,000
12,000,000
8,000,000
99 00 01 02 03 04 05 06 07 08 09 10 11
1
Otra alternativa sería dibujar un histograma tal que sobre cada valor t se dibujaría una barra o rectángulo de
altura igual a Yt.
1
Técnicas cuantitativas de previsión Curso 2011-2012
Miles
3500
3000
2500
2000
1500
1000
500
0
91 92 93 94 95 96 97 98 99 00 01 02 03 04 05 06
10
0
99 00 01 02 03 04 05 06 07 08 09
Al observar la línea que une las distintas observaciones en la sucesión temporal, podemos
sacar algunas conclusiones sobre su patrón de comportamiento detectando las
características más sobresalientes como por ejemplo, si tiene una tendencia (creciente o
decreciente) como la población activa femenina o el número de edificios construidos en
España, si tiene o no componente estacional (pernoctaciones, número de edificios
construidos) o si la variabilidad permanece o no constante (en las pernoctaciones
permanece constante mientras que en el número de edificios construidos aumenta con la
tendencia).
Los objetivos del análisis de series temporales son, esencialmente, describir esas
características y su dependencia respecto al pasado y proyectar dichas características hacia
el futuro con fines predictivos.
Sin embargo, las series económicas recogen fenómenos sociales que, normalmente, no se
ajustan a ninguna función que las describa, es decir, son imposibles de determinar por una
ley porque son fenómenos aleatorios. Para poder describir estas series y predecir su futuro
planteamos dos soluciones:
1era solución: Los modelos deterministas que suponen que una serie está compuesta por una
serie de componentes.
2da solución: consiste en buscar un modelo aleatorio, llamado modelos estocásticos que
describa el comportamiento de la serie.
2
Técnicas cuantitativas de previsión Curso 2011-2012
Los modelos deterministas suponen que las series (el valor que toma una variable a lo largo
del tiempo) son el resultado de una serie de componentes que interactúan entre si. Estos
componentes son: la tendencia, la componente estacional, la componente cíclica y la
componente irregular.
Componente tendencia Tt: recoge el movimiento a largo plazo de la serie. Es el
componente más importante porque representa el patrón de comportamiento de la serie, es
decir, indica hacia donde va la serie a largo plazo y refleja condiciones coyunturales de la
economía.
Componente estacional: St, recoge los movimientos a corto plazo que se repiten de forma
más o menos sistemática con una periodicidad inferior al año. Son por tanto, variaciones
mensuales, cuatrimestrales, etc y no pueden darse en series anuales porque hablamos de
variaciones a corto plazo. Su rasgo definitivo es la periodicidad lo cual permite
cuantificarla fácilmente e incluso eliminarla.
Esta componente distorsiona mucho las series, por lo que se suele eliminarla y trabajar con
las series desestacionalizadas.
Componente cíclico: Ct, refleja oscilaciones a medio y largo plazo (superior al año)
asociados a los ciclos económicos, es decir, a las etapas de prosperidad y recesión de la
actividad económica. Por ejemplo, la derivada de la crisis del petróleo del 73 con una
elevación de los precios del crudo que pasó a multiplicarse por 10 en precio en 5 años. O la
crisis actual a partir de la bancarrota de las subprime.
Su identificación es especialmente difícil debido a la ausencia de regularidad y a la posible
aparición de varios ciclos superpuestos. Por lo que no vamos a estudiarla de forma aislada
sino que lo analizaremos conjuntamente con la tendencia, analizando así la componente
ciclo-tendencia.
Todos estos componentes se pueden considerar sistemáticos, es decir predecibles, de tal
forma que se puede suponer que se mantendrán en el futuro de cara a hacer predicciones.
Sin embargo, como las series no son totalmente deterministas, existe otro componente no
sistemático que afecta a la serie de forma esporádica o aleatoria, es el componente irregular.
Componente irregular: It, o residual, recoge, por una parte, los cambios debidos a
situaciones imprevisibles de carácter esporádico (guerras, huelgas, terremotos,
inundaciones, actos terrorista como el 11-M, etc.) y por otro, los efectos de múltiples y
pequeños factores aleatorios, no recogidos en las otras componentes, con repercusiones de
amplitud débil en la serie. El carácter aleatorio de esta componente, impide su tratamiento
desde un punto de vista descriptivo, ya que para explicar su comportamiento se necesitan
modelos probabilísticos y técnicas de inferencia estadística2.
En definitiva, en los modelos deterministas, se trata de analizar la tendencia y la
estacionalidad en el periodo muestral y una vez conocidos, utilizarlos para predecir.
Una vez especificados los componentes de una serie, nos preguntamos de qué forma se
conjugan estas componentes para producir los valores de la variable que observamos. Dar
2
La diferencia del planteamiento determinista y el estocástico, es que éstos piensan que el componente
irregular si se puede estudiar mediante un modelo aleatorio y los otros dos componentes no son totalmente
deterministas.
3
Técnicas cuantitativas de previsión Curso 2011-2012
• Modelo multiplicativo: Yt = Tt ⋅ S t ⋅ I t
Para elegir entre estos dos modelos nos basaremos en la representación gráfica de la propia
serie de tal forma, que si las oscilaciones son de amplitud más o menos constante en torno
a la tendencia a lo largo de toda la serie ⇒ Modelo aditivo, ya que se suma el efecto de la
estacionalidad, permaneciendo más o menos constantes las fluctuaciones estacionales todos
los años. Por ejemplo pernoctaciones mensuales en establecimientos hoteleros.
Si la amplitud de las oscilaciones varía con la tendencia, es decir, a medida que la serie
aumenta el nivel, aumenta la amplitud de las oscilaciones ⇒ Modelo multiplicativo. En este
caso, el efecto de la estacionalidad se multiplica al resto de factores lo que hace que se
amplíen cada vez más las fluctuaciones estacionales. Por ejemplo el nº mensual de edificios
construidos en España.
4
Técnicas cuantitativas de previsión Curso 2011-2012
∑ e (l )T
H
H
∑ e (l ) T
∑ e (l ) 2
T
H
H
∑ e (l ) 2
T
∑ e (l ) / Y
T T +l
∑ e (l ) / Y
T T +l
5
Técnicas cuantitativas de previsión Curso 2011-2012
6
Técnicas cuantitativas de previsión Curso 2011-2012
Si el modelo es multiplicativo: Yt = Tt ⋅ I t
Si queremos determinar la tendencia desde un punto de vista descriptivo, existen varios
métodos posibles, entre ellos vamos a ver dos de los más utilizados:
• Método de ajuste analítico
• Método de alisado exponencial
Método de ajuste analítico
Con este método se pretende expresar la tendencia como una función matemática del
tiempo t. Esto se consigue ajustando a la nube de puntos (Yt,t) una función matemática de t
con un determinado criterio.
Por tanto tendremos que:
1) Decidir que función del tiempo queremos ajustar a la nube de puntos. Dado que
la serie evoluciona con el tiempo, buscamos la función f(t,Yt) que puede ser lineal,
exponencial, logarítmica, etc. En la práctica las funciones lineales son las más habituales.
Frecuentemente la función gráfica de la serie sugiere la forma funcional de Tt .
2) Una vez elegido el tipo de función (lineal, cuadrática etc.) se trata de buscar
aquella que mejor se ajuste a los datos (nube de puntos), para ello utilizamos un criterio de
decisión. El criterio elegido es el de Mínimos cuadrados que consiste en minimizar la suma
de los cuadrados de los residuos o errores3.
Ajuste a una función lineal
Supongamos que la tendencia es una función lineal del tiempo (aunque se podría plantear
cualquier otra) , tal que: Tt = β o + β1 t . En este caso, la serie observada Yt crece o decrece
conforme a una recta de pendiente β y puede representarse como la suma de dos
componentes: la tendencia lineal, Tt, más una perturbación aleatoria, εt, que representa las
desviaciones de la serie respecto a la tendencia. Es decir: Yt = β o + β 1 t + ε t
Se trata de determinar los coeficientes β o y β 1 que mejor ajustan la función a los datos,
T
es decir, aquellos que minimizan la suma de cuadrados de los residuos: ∑ et2 4.
t =1
3
Si la representación matemática no es muy clara sobre la función matemática a utilizar se podrían utilizar
varias y comparar cuál de ellas consigue minimizar la función objetivo.
4
Por tanto la función objetivo a minimizar se puede expresar como:
( )
T T
Min ∑ et2 = Min ∑ Yt − βˆ o − βˆ1 t .
2
t =1 t =1
El resultado de minimizar esta expresión permite obtener el estimador de los coeficientes como:
7
Técnicas cuantitativas de previsión Curso 2011-2012
Para los periodos postmuestrales: YˆT (l ) = βˆo + βˆ1 (T + l ) = βˆo + βˆ1T + βˆ1 l = YˆT −1 (1) + βˆ1 l
La predicción consiste, por tanto, en sustituir t en la recta para el periodo que quieres
predecir.
Si la tendencia de la serie no depende del tiempo sino que fuese una constante, Tt = β o la
predicción sería Yˆ (l ) = β̂ = Y tanto para el periodo muestral como el postmuestral.
T o
ACTM
560,000
520,000
480,000
440,000
400,000
360,000
01 02 03 04 05 06 07 08 09 10 11
Esta serie se caracteriza porque tiene una tendencia aproximadamente lineal con
pendiente constante a lo largo de toda la muestra. Los resultados de estimar por MCO una
función lineal son los siguientes:
∑ (Y − Y )(t − t )
T
t
Cov(Y , t ) S Y ,t
βˆ1 = t =1
= = 2 ; βˆo = Y − βˆ1 t
T
var(t ) SY
∑tt =1
2
−T t 2
8
Técnicas cuantitativas de previsión Curso 2011-2012
560,000
520,000
480,000
15,000
440,000
10,000
400,000
5,000
0 360,000
-5,000
-10,000
-15,000
01 02 03 04 05 06 07 08 09 10 11
En la práctica, es muy raro que una serie real tenga una tendencia determinista lineal
estable a lo largo de todo el periodo de observación. Lo más habitual en series reales,
especialmente si éstas son observadas a lo largo de periodos muy largos de tiempo, es que
existan rupturas en el comportamiento de la tendencia, tanto en la ordenada en el origen
como en la pendiente. Una posible forma de modelizar este comportamiento es mediante
tendencias lineales por tramos. Esto se consigue incluyendo variables ficticias en el modelo
de regresión para poder representar estas rupturas como vamos a ver en el ejemplo 2.
9
Técnicas cuantitativas de previsión Curso 2011-2012
ACTH
700,000
690,000
680,000
670,000
660,000
650,000
640,000
630,000
620,000
01 02 03 04 05 06 07 08 09 10 11
Esta serie se caracteriza porque tiene una tendencia que se podría considerar
aproximadamente lineal por tramos, con pendiente positiva hasta el 2º trimestre de 2008 y
negativa a partir de ese momento. Por tanto aunque suponemos una tendencia lineal, la
pendiente y el término independiente no son constantes sino que varían en los distintos
tramos.
Para estimar por MCO nos generamos una ficticia que llamaremos D1 que tomará los
0 si t ≤ 2008 : Q 2
valores: D1t = lo que se denomina variable “escalón”. Para que
1 si t > 2008 : Q 2
recoja los cambios en los dos coeficientes introducimos una variable ficticia aditiva y otra
multiplicativa. Los resultados de la estimación son los siguientes:
Dependent Variable: ACTH
Method: Least Squares
Sample: 2001Q1 2011Q3
Included observations: 43
Coefficient Std. Error t-Statistic Prob.
T 2181.670 123.2040 17.70779 0.0000
D1 112004.6 15807.71 7.085442 0.0000
D1*T -3998.126 450.1398 -8.881965 0.0000
C 626928.2 2080.530 301.3309 0.0000
R-squared 0.909262 Mean dependent var 663090.6
Adjusted R-squared 0.902283 S.D. dependent var 18684.80
S.E. of regression 5840.830 Akaike info criterion 20.27154
Sum squared resid 1.33E+09 Schwarz criterion 20.43537
Log likelihood -431.8381 Hannan-Quinn criter. 20.33196
F-statistic 130.2702 Durbin-Watson stat 1.334929
Prob(F-statistic) 0.000000
El siguiente gráfico, representa la serie observada, la tendencia por tramos ajustada y los
residuos del modelo
10
Técnicas cuantitativas de previsión Curso 2011-2012
700,000
680,000
20,000 660,000
15,000
10,000 640,000
5,000
620,000
0
-5,000
-10,000
-15,000
01 02 03 04 05 06 07 08 09 10 11
11
Técnicas cuantitativas de previsión Curso 2011-2012
2) Elección de α :
Al asignar un valor a α hay que tener en cuenta que, una valor pequeño de α implica
dar mucho peso a las observaciones pasadas ya que 1 − α aumenta y es, precisamente, el
coeficiente de Tt-1. Esto significa que de un período a otro cambia poco, la serie se alisa
mucho y por tanto habrá pocas oscilaciones en la serie tendencia. Por ejemplo , si α = 0.1 :
T40 = 0.1 Y40 + 0.9 T39 ⇒ T39 ≅ T40
Si el valor de α es grande se estará dando más importancia a las observaciones más
recientes y menos a las anteriores, esto implica que la serie se alisa poco y la tendencia será,
prácticamente, el valor de la serie. Por ej. si α = 0.9 : T40 = 0.9 Y40 + 0.1 T39 ⇒ T40 ≅ Y40
Eviews (y la mayoría de los programas), selecciona aquel valor de α para el que se
obtenga una RECM menor en la predicción muestral.
Predicción:
Si la tendencia es constante, se define la predicción mediante una suma ponderada de todos
los términos previos de la serie al periodo para el que se formula la predicción. Es un
método bastante utilizado.
Dentro del período muestral: Yˆt (1) = α Yt + (1 − α ) Yˆt −1 (1)
Para el periodo extramuestral:
1 periodo hacia delante: YˆT (1) = α YT + (1 − α ) YˆT −1 (1)
3 periodos hacia delante: YˆT (3) = α YT + 2 + (1 − α ) YˆT (2 ) = α YˆT (2 ) + (1 − α ) YˆT (2 ) = YˆT (1)
...................................................................
En definitiva, siempre se utiliza la misma predicción, es una constante, por eso este método
se utiliza para predecir a muy corto plazo, 1 periodo por delante.
Si la tendencia es variable, lo cual es habitual en la mayoría de las series económicas, si
predecimos una constante, estaríamos cometiendo un grave error por eso este método no es
válido ya que si Tt = β o + β1 t
TT +1 = β o + β 1 (t + 1) = β o + β 1t + β1 = Tt + β 1
Por tanto para predecir debería añadirle una cantidad como β 1 , es decir la tendencia crece
una cantidad β 1 cada periodo. En el método AES decíamos TT +1 = TT y suponíamos que la
tendencia en T era un buen predictor del periodo T+1 pero al no ser la tendencia
constante ya no es un buen predictor.
Así, si predecimos l periodos por delante: YT +l = TT +l + I T +l
12
Técnicas cuantitativas de previsión Curso 2011-2012
la tendencia ha crecido βˆ1 l veces. Por tanto para predecir habría que tener en cuenta la
tendencia del último periodo muestral y también el coeficiente βˆ . 1
BONITO
6,000
5,800
5,600
5,400
5,200
5,000
4,800
4,600
4,400
4,200
1975 1980 1985 1990 1995 2000 2005 2010
Para predecir con el método AES lo primero que tenemos que hacer es ampliar el rango
hasta 2012 y a continuación pinchamos dentro de la serie
Proc/Exponential Smoothing/ smoothing method/single/ estimation sample: 1974 2012
Dejamos por defecto todo lo demás como está, a la predicción de la variable dentro y fuera
de la muestra que denomina bonitosm.
Los resultados son los siguientes:
El valor de la constante de alisado que optimiza es α=0.102. Por otro lado nos ofrece la
suma de cuadrados residuales y la raíz del error cuadrático medio
El resultado de la predicción es constante para los dos años siguientes y es
bonitosm=4943.68
Para series con tendencia variable y sin componente estacional, existen dos métodos de
alisado que son el de alisado exponencial doble (Brown) y el de Holt. Veamos en que
consiste cada uno de ellos.
13
Técnicas cuantitativas de previsión Curso 2011-2012
2º alisado: Aˆ t = α Aˆ t + (1 − α ) Aˆ t −1
ˆ ˆ
ˆ
donde llamamos: Ât al primer alisado en t y Aˆ t al segundo alisado en t
Método de Holt
Es también un método de alisado exponencial que utiliza 2 parámetros en lugar de uno solo
como ocurre con el AED. Se aplica asimismo a series que tengan una tendencia
aproximadamente lineal y es uno de los métodos más utilizados dado los buenos resultados
en la previsión de distintas áreas de la economía empresarial: financiación, gestión de
stocks, ventas, etc.
5
Para la estimación de la pendiente ver: Pg. 101-110 Abraham Boves y Ledolter Johannes “Statistical
Methods for forecasting”. Plantea que los parámetros estimados se determinan minimizando
∑ w [Y ]
n −1 2
j
n− j − f ' (− j )β donde w < 1 , f ' (l )β es la predicción de una observación futura en n+l. En
j =0
definitiva se trata de calcular los estimadores de mínimos cuadrados generalizados.
14
Técnicas cuantitativas de previsión Curso 2011-2012
OCUM
440,000
400,000
360,000
320,000
280,000
240,000
96 98 00 02 04 06 08 10 12
Serie con tendencia y sin componente estacional por tanto podemos utilizar para
predecir el método de AED o el de Holt-Winters sin estacionalidad. Veamos los dos:
1.- Para predecir (una vez ampliado el rango) con el método AED, pinchamos
dentro de la serie:
Proc/Exponential Smoothing/ smoothing method/double/
15
Técnicas cuantitativas de previsión Curso 2011-2012
2.- Para predecir (una vez ampliado el rango) con el método H_W sin estacionalidad,
pinchamos dentro de la serie:
Proc/Exponential Smoothing/ smoothing method/Holt-Winters no seasonal/
Renombramos la serie para mantener las dos predicciones con el nombre ocusm2
Los resultados son los siguientes:
Sample: 1996Q1 2011Q3
Included observations: 63
Method: Holt-Winters No Seasonal
Original Series: OCUM
Forecast Series: OCUMSM2
Parameters: Alpha 1.0000
Beta 0.0000
Sum of Squared Residuals 2.63E+09
Root Mean Squared Error 6461.811
La raíz del error cuadrático medio nos permite seleccionar cuál de los dos métodos es
mejor. En este caso será el de Holt-Winters porque es el que menor estadístico tiene.
En el siguiente cuadro se encuentran las predicciones fuera del periodo muestral con los dos
métodos y a continuación la gráfica con la variable y las dos predicciones para todo el
período tanto muestral como de predicción
480,000
440,000
ocumsm ocumsm2
H_W sin 400,000
AED estacionalidad
360,000
430203.2 433683.1
2011Q4
320,000
431715.1 436670.2
2012Q1
280,000
433226.9 439657.3
2012Q2
240,000
434738.8 442644.4
2012Q3 200,000
96 98 00 02 04 06 08 10 12
16
Técnicas cuantitativas de previsión Curso 2011-2012
6
Uriel lo plantea como: Dado que está diseñado para series con tendencia lineal y con un factor estacional:
Yt = Tt + S t + I t donde Tt = β o + β 1t . Por tanto el modelo teórico será: Yt = (β o + β 1t ) + S t + I t .
7
Uriel: siendo s(t-s) una estimación del factor estacional para la misma estación de t pero un año anterior. Si
en lugar de s(t-s) se aplicase s(t) habría que resolver ecuaciones de forma simultánea, lo que complicaría
considerablemente los cálculos.
17
Técnicas cuantitativas de previsión Curso 2011-2012
Donde: (Yt − Tt ) es la variable sin tendencia, por tanto se obtiene mediante el alisado de
una serie en la que previamente se ha eliminado la tendencia.
α , γ y δ son las constantes de alisamiento de la tendencia, pendiente y componente
estacional, respectivamente y estarán comprendidas entre 0 y 1.
( )
Yˆt (1) = Tt + βˆ1 (t ) + st (t + 1 − s )
( )
siendo Tt + β̂1 (t ) la estimación de la tendencia y st (t + 1 − s ) el último componente
estacional calculado correspondiente al periodo t+1.
Para el periodo postmuestral: YT +l = TT +l + S (T + l ) + I T +l , esto implica que ya no se
actualiza ni la tendencia ni la componente estacional, la tendencia en T+l si es lineal es:
TT +l = TT + βˆ1 (l ) ⋅ l , por tanto la predicción para ese periodo será:
( )
YˆT (l ) = TT + βˆ1 (T ) ⋅ l + s t (T + l − s )
•
Yt
Ecuación de nivel: Tt = α [ ]
+ (1 − α ) Tt −1 + βˆ1 (t − 1)
s (t − s )
• Ecuación de la pendiente: βˆ (t ) = γ (T − T ) + (1 − γ )βˆ (t − 1)
1 t t −1 1
18
Técnicas cuantitativas de previsión Curso 2011-2012
Predicción:
Dentro del periodo muestral: Yt +1 = Tt +1 ⋅ S (t + 1) ⋅ I t +1
( )
Yˆt (1) = Tt + βˆ1 (t ) ⋅ s (t + 1 − s )
Para el periodo postmuestral: YT +l = TT +l ⋅ S (T + l ) ⋅ I T +l
( )
YˆT (l ) = TT + βˆ1 (T ) ⋅ l ⋅ s (T + l − s )
siendo s (T + l − s ) el último componente estacional calculado correspondiente al periodo
T+l. (es decir, (T + l − s ) es el último periodo calculado).
EJEMPLO 5: Disponemos de observaciones mensuales de la serie número de
pernoctaciones hoteleras en España (pernote) en el fichero pernoctaciones.wf1 para el
periodo 1999:01 a 2011:09, con objeto de predecir el número de pernoctaciones del año
siguiente al periodo muestral
Analizamos gráficamente la serie
PERNOTE
44,000,000
40,000,000
36,000,000
32,000,000
28,000,000
24,000,000
20,000,000
16,000,000
12,000,000
8,000,000
99 00 01 02 03 04 05 06 07 08 09 10 11
2010M11 -7613424.
2010M12 -9107625.
2011M01 -9359116.
2011M02 -7894878.
2011M03 -4551366.
2011M04 -1842295.
2011M05 1873689.
2011M06 5039765.
2011M07 10589443
2011M08 14576877
2011M09 7220865.
44,000,000
40,000,000
36,000,000
32,000,000
28,000,000
24,000,000
20,000,000
16,000,000
12,000,000
8,000,000
2000 2002 2004 2006 2008 2010 2012
PERNOTE PERNOTSM
8.3.- Regresión con variables ficticias en series con tendencia y componente estacional
Otra forma de predecir series con tendencia y componente estacional es realizar una
regresión donde la variable sea una función lineal del tiempo y de una serie de variables
ficticias que recojan la estacionalidad
Supongamos que la variable tiene una tendencia lineal: Yt = β o + β1t donde añadimos la
componente estacional introduciendo variables ficticias estacionales que identifican cada
estación, además del término aleatorio. Para que no haya multicolinealidad perfecta,
planteamos el modelo de la forma: Yt = β o + β 1 ⋅ t + γ 1 D1t + γ 2 D2t + γ 3 D3t + ε t
si los datos son trimestrales (4 estaciones)8.
donde D1t, D2t, D3t son las variables ficticias estacionales definidas como:
De esta forma, el modelo recogería una media constante pero diferente en cada estación:
α+γ1 en el 1º trimestre, α+γ2 en el segundo, α+γ3 en el tercero, y α en el cuarto. Por tanto,
los coeficientes γ asociados a las ficticias expresan el aumento o disminución estacional de
ese trimestre respecto al cuarto trimestre.
8
Si los datos fuesen mensuales introduciríamos once ficticias.
20
Técnicas cuantitativas de previsión Curso 2011-2012
Introducción
Como ya hemos señalado, hay series puramente deterministas (donde no existe componente
irregular) que son fácilmente predecibles y series puramente aleatorias que son muy
difíciles de predecir. La mayoría de las series económicas contienen una parte determinista
y una parte aleatoria. Las técnicas de predicción de los denominados modelos
deterministas, vistas en los temas anteriores, no tienen en cuenta el componente irregular
expresamente, es decir, lo derivan una vez descontado de la serie el efecto de las demás
componentes. En estos métodos, el analista establece un esquema a priori y después
procede a los cálculos estadísticos correspondientes.
Sin embargo, para aquellas series que tienen una componente irregular importante (muchas
de las series económicas) es necesario utilizar un modelo estocástico que permitirá predecir
dicha componente.
Pues bien, en esta parte del curso vamos a utilizar técnicas estadísticas que permiten
modelizar este tipo de series. En concreto, vamos a centrarnos en las técnicas de Box-
Jenkins, los llamados modelos ARIMA. En estos modelos se hace un planteamiento inicial
de carácter general, se considera que la serie a estudiar ha sido generada por un proceso
estocástico. Las técnicas de elaboración de los modelos ARIMA van dirigidas,
precisamente, a identificar el proceso generador de los datos, para después, en un proceso
iterativo, estimar y verificar el modelo que una vez aceptado se utilizará para predecir los
valores futuros de la serie temporal.
Como paso previo, antes de entrar a estudiar dicha técnica, vamos a definir una serie de
conceptos fundamentales.
Un proceso estocástico se define como un conjunto de variables aleatorias {Yt }t =1, 2L∞ cuya
distribución varía de acuerdo a un parámetro, que en nuestro caso es el tiempo. Esto
implica, que en cada instante del tiempo, la variable es una variable aleatoria. Por tanto,
cada una de estas variables aleatorias puede tomar “muchos” posibles valores con una
determinada distribución de probabilidad:
21
Técnicas cuantitativas de previsión Curso 2011-2012
Y1 Y2 ... YT
↓ ↓ ... ↓
y 1( 1 ) y 2( 1 ) ... y T( 1 )
y 1( 2 ) y 2( 2 ) ... y T( 2 )
y 1( 3 ) y 2( 3 ) ... y T( 3 )
... ... ... ...
Mientras que en el muestreo aleatorio simple, tenemos una colección de variables aleatorias
que son independientes entre ellas y todas siguen la misma distribución, por lo tanto para
caracterizarlas solo necesito caracterizar una de esas variables porque todas se distribuyen
igual, sin embargo, para caracterizar un proceso, necesito conocer cada una de esas
distribuciones (distribuciones marginales) y además la distribución conjunta. En definitiva
necesitamos conocer el comportamiento de cada individuo (variable aleatoria) y sus
relaciones con los demás.
Cuando se tiene un conjunto de valores generados por ese proceso, se tiene una realización
de ese proceso estocástico para unos momentos de tiempo t1 LtT . Al igual que en la
estadística convencional, se diferencian los conceptos de población y muestra, en series
temporales los conceptos equivalentes son, el proceso estocástico y la realización o series
observadas.
Así, una serie de tiempo, en el contexto de los procesos estocásticos, es una realización de
un proceso estocástico. Por tanto, para un instante de tiempo, digamos t, tenemos una v.a.
Yt que podría tomar, en principio, distintos valores con distinta probabilidad ⇒ una columna
en la representación anterior de los posibles valores del proceso.
Para un j fijo, tendríamos una muestra concreta del vector Y1, Y2,…, YT, digamos :
Y1( j ) , Y2( j ) ,..., YT( j ) que constituye una trayectoria o realización del proceso y es lo que
denominamos una serie temporal ⇒ una fila en la representación anterior. En definitiva, se
puede interpretar como una muestra de tamaño 1 tomada en períodos de tiempo sucesivos
en un proceso estocástico, de tal forma que para el instante t1 tendremos la realización Y1
para el t 2 la Y2 y así sucesivamente.
Por ejemplo: Supongamos una sucesión de precios ordenada, donde las observaciones se
corresponden a los periodos anuales 1985 a 2005, tal que: Yt : 7 9 10 11 12 14 .......
Esta sucesión se puede considerar como: 7 representa una observación extraída del
conjunto de precios posibles en 1985, 9 igual para 1986 y así sucesivamente. Aunque
aumentemos la serie hasta 2010, cada uno de los precios se sigue considerando como una
muestra única de los precios posibles en un año. Por tanto, el tamaño muestral T,
representa el conjunto de variables aleatorias del proceso que han podido observarse pero
no tiene ninguna relación con el conjunto de posibles valores de la variable para cada valor
de t. Esto implica que al aumentar T no aumentará la información disponible respecto de
cada una de las poblaciones Yt.
Gráficamente, estas trayectorias podrían representarse de la siguiente forma:
22
Técnicas cuantitativas de previsión Curso 2011-2012
Sin embargo, en la práctica, sólo disponemos de una única observación en cada instante de
tiempo y por tanto tenemos una única realización de todo el proceso:
Y1 Y2 ... YT
↓ ↓ ... ↓
y1 y 2 ... yT
Dicho de otra forma, en la práctica observamos únicamente una trayectoria del proceso.
Esa única trayectoria que observamos es la serie temporal (una línea concreta) pero ésta
debe entenderse como una de las posibles realizaciones o trayectorias del proceso. Aunque
he observado esta trayectoria, podría haber observado cualquier otra, debido a la naturaleza
aleatoria de la variable que observo.
instante ti podríamos repetir el experimento en condiciones casi idénticas y tener para cada
variable aleatoria diferentes observaciones y, supuesto un número de observaciones
suficientemente grande, se podría hacer inferencia acerca del proceso. Podríamos estimar su
media utilizando la media muestral de todos los valores observados en ese instante t. Así, la
media de la variable Yt podría estimarse mediante:
N
∑ y t( j )
µ̂ t =
j =1 , para t=1,2,…T,
N
Por tanto, las observaciones de una serie estacionaria se moverán alrededor de un nivel
constante a lo largo del tiempo (media constante) y su variabilidad en torno a ese nivel
(varianza) será más o menos de una amplitud constante a lo largo del tiempo.
Como señala Diebold (1999, p.107), si el proceso no fuera estacionario, la estructura
probabilística de nuestra variable estaría cambiando a lo largo del tiempo y no habría
manera de predecir correctamente el futuro a partir del pasado porque las leyes que rigen el
comportamiento futuro diferirían de aquellas que rigen el pasado. Si queremos predecir los
valores futuros de una serie, necesitaremos, como mínimo, que su media, su varianza y su
covarianza (relación entre valores actuales y pasados) sean estables a lo largo del tiempo.
Esto es, necesitaremos que la serie sea estacionaria.
Estimación de momentos:
Veamos cómo estimar la media, la varianza y la autocovarianza de un proceso
estacionario a partir de la serie Y1, Y2,…,YT. Éste es un problema de inferencia en el cual, a
partir de los datos, tratamos de inferir propiedades sobre el modelo que genera esos datos.
Como en cualquier problema de inferencia, se trata de cotejar “dos mundos”: el mundo
teórico donde se establece el modelo y sus propiedades (el proceso estacionario) y el
mundo real donde “habitan” los datos disponibles (la serie temporal observada); véase el
cuadro siguiente.
MODELO DATOS
Proceso estocástico estacionario Serie temporal
(Y1, Y2,…, YT,..) y1, y2,…,yT
MOMENTOS TEÓRICOS MOMENTOS MUESTRALES
E(Yt) = µ T
µ̂ = y = ∑ y i / T
i =T1
Var(Yt) = σ = γo
2 ∑ (y i − y)2
σˆ 2 = s y2 = t =1
T
T
Cov(Yt,Yt+k) = γk ∑(y t − y )( y t −h − y )
γˆ k =t =1+ h
T
* Nótese que γˆ (0) = s 2y .
25
Técnicas cuantitativas de previsión Curso 2011-2012
La segunda condición nos permite estimar la varianza σ2, común a todas las variables
del proceso, mediante la varianza muestral de las T observaciones: σˆ 2 = s Y2 .
26
Técnicas cuantitativas de previsión Curso 2011-2012
ACTT
1,200,000
1,160,000
1,120,000
1,080,000
1,040,000
1,000,000
960,000
1996 1998 2000 2002 2004 2006 2008 2010
16
12
0
60 62 64 66 68 70 72 74 76 78
Para definir estas funciones comenzamos por definir las autocovarianzas γ k obtenidas para
los distintos valores de k:
γ k = Cov (Yt , Yt + k ) = E (Yt − E (Yt ))(Yt + k − E (Yt + k ))
γ k = Cov (Yt , Yt + k ) = Cov (Yt + k , Yt ) = Cov (Yt , Yt − k ) = γ − k ∀ k = 0, ± 1, ± 2, L
dado que γ k = γ −k solo se definen para los positivos.
Si el proceso es estacionario solo depende de la distancia entre t y t+k.
27
Técnicas cuantitativas de previsión Curso 2011-2012
Las covarianzas miden la relación entre 2 variables, pero como son medidas absolutas no
podemos saber si la relación es mucha o poca porque depende de las unidades de medida y
además no está acotada. Por eso, en lugar de autocovarianzas vamos a trabajar con las
correlaciones que miden lo mismo pero en términos relativos y están acotadas.
También denominada función de autocorrelación simple, está formada por los valores que
toman los distintos coeficientes de autocorrelación ρ k . Estos coeficientes miden el grado
de correlación que existe entre las distintas observaciones de una variable. Definimos el
coeficiente de autocorrelación de orden 1:
Cov (Yt , Yt +1 )
ρ1 =
Var (Yt ) Var (Yt +1 )
si el proceso es estacionario: Var (Yt ) = Var (Yt +1 ) = γ o
Cov(Yt , Yt +1 ) γ 1
Por tanto ρ1 = =
Var (Yt ) γo
Cov(Yt , Yt + k ) γ k
Para cualquier retardo s: ρ k = = ∀ k = ±1, ± 2..... ρo = 1
Var (Yt ) γo
Al igual que en la función de autocovarianzas : ρ k = ρ −k y, por otro lado, ρ k ≤ 1 .
La condición de ergodicidad también se puede expresar en función de los coeficientes de
autocorrelación como: lim k →∞ ρ k = 0
Está formada por los distintos valores que toman los coeficientes de autocorrelación
parcial. Estos coeficientes miden la correlación existente entre dos observaciones
cualesquiera de la variable, una vez que hemos eliminado el efecto que sobre éstas tienen
las observaciones intermedias. Así, el coeficiente de autocorrelación parcial entre
Yt e Yt −k medirá la correlación entre Yt e Yt −k , una vez eliminada la influencia que
sobre ellas tienen Yt −1 L Yt −k +1 . Mide, en realidad, la correlación pura que existe entre
ellas: φ kk = corr (Yt Yt −k | Yt −1 , LYt −k +1 )
28
Técnicas cuantitativas de previsión Curso 2011-2012
Por ejemplo, si tenemos dos variables Y1 e Y2 que presentan una correlación muy alta :
rY1Y2 = 0.9 pueden ser debido a:
1) Que efectivamente estén muy correlacionadas.
2) Que estén relacionadas porque hay otras variables que influyen en ellas y esto
hace que el coeficiente de correlación sea muy alto si antes no hemos eliminado
el efecto que esas variables tienen sobre ellas
Hay varios métodos para calcular estos coeficientes de autocorrelación parcial:
R
1) Haciendo las regresiones de : Yt → Yt −1 , LYt −k +1
R
Yt −k → Yt −1 , LYt −k +1
y calculando el coeficiente de correlación lineal entre los residuos de esas regresiones.
Rk*
2) A partir de la matriz de correlaciones con la ecuación: φ kk = donde definimos
Rk
1 ρ1 ρ2 L ρ T −1
ρ1 1 ρ1 L ρT −2
la matriz de correlaciones como: R = ρ 2 ρ1 1 L ρ T −3
L L L L L
ρ ρ T −2 ρ T −3 L 1
T −1
siendo Rk la matriz de correlaciones de orden kxk y Rk* la matriz anterior donde se
ρ1
ρ2
sustituye la última columna por el vector .
M
ρ
k
1 ρ1
ρ1 ρ 2 ρ 2 − ρ12
Así, φ11 = ρ1 , φ 22 = = y así sucesivamente los distintos φ kk
1 ρ1 1 − ρ12
ρ1 1
3) Se puede demostrar que el coeficiente de autocorrelación parcial de orden k
coincide con el parámetro φ k en la regresión Yt = φ1Yt −1 + φ 2 Yt − 2 + L + φ k Yt −k + ε t ,
es decir el último coeficiente en la regresión. De tal forma que para cada coeficiente
habría que hacer una regresión distinta:
φ11 = ρ1
φ 22 → Yt = φ1Yt −1 + φ 2 Yt − 2 + ε t φ22 = φ2
φ33 → Yt = φ1Yt −1 + φ 2 Yt −2 + φ 3 Yt −3 + ε t φ33 = φ3
............................................................................
esto es debido a que φ 3 en la última regresión mide el efecto de la variable Yt-3 sobre Yt
eliminado el efecto de Yt-1 e Yt-2 (ceteris paribus).
29
Técnicas cuantitativas de previsión Curso 2011-2012
30
Técnicas cuantitativas de previsión Curso 2011-2012
31
Técnicas cuantitativas de previsión Curso 2011-2012
E (Yt ) = φ E (Yt −1 ) + E (ε t ) ⇒ µ =φ µ
123 1
424 3 123
µ µ 0
32
Técnicas cuantitativas de previsión Curso 2011-2012
Por lo tanto, la serie oscila alrededor de un nivel medio constante, µ. Teniendo en cuenta
que c=µ(1–φ), sustituimos este valor en (1) y podemos trabajar con una representación
equivalente del modelo en desviaciones respecto a la media, dada por:
Yt − µ = φ (Yt −1 − µ ) + ε t [2]
2.- Varianza marginal o incondicional:
(1 − φ L )Yt = ε t Yt =
1
ε
(1 − φ L ) t
Se dice que un proceso es estacionario si las raíces del polinomio en L: 1 − φ L = 0 caen
1
fuera del círculo unitario. Es decir, la raíz en módulo sea >1, ya que L = por tanto si
φ
φ < 1 ⇒ L > 1 . Condición necesaria y suficiente.
9
Se podría calcular igual en la ecuación (2) dando los mismo resultados
33
Técnicas cuantitativas de previsión Curso 2011-2012
La FAC:
k = 0 ρo = 1
γk γ 1 φγ o
ρk = = k = 1 ρ1 = = =φ
γo γo γo
γ
∀k ρk = k = φ k
γo
FACP:
k = 1 φ11 = ρ1 = φ
ρ − ρ2 φ2 −φ2
φ kk = k = 2 φ 22 = 2 21 = =0
1 − ρ 1 1 − φ 2
∀ k φ kk = 0
En un proceso AR(1) como φ < 1 la FAC teórica decrece (bien en forma regular, bien
alternando valores positivos y negativos) y la FACP presenta un solo coeficiente distinto
de cero (pudiendo ser positivo o negativo)
Características de un AR(1):
1) Es un proceso estacionario siempre que φ < 1 o lo que es lo mismo que la raíz
del polinomio en L sea en módulo mayor que 1.
2) Su función de autocorrelación es decreciente exponencialmente
3) Tiene memoria infinita aunque va decreciendo
4) La FACP se anula para k>1, es decir, solo tiene el primer coeficiente distinto de
cero
5) Siempre es invertible ya que se puede expresar como un MA(∞), es decir,
existe un proceso MA(∞) invertible que se corresponde con un AR(1) estacionario.
34
Técnicas cuantitativas de previsión Curso 2011-2012
PROCESOS AR(2)
Yt = φ1Yt −1 + φ2 Yt − 2 + ε t ( )
⇒ 1 − φ1 L − φ2 L2 Yt = ε t siendo ε t un ruido blanco
Al igual que en el caso anterior, veamos las condiciones para que el proceso sea
estacionario partiendo del supuesto de que lo es calculando los momentos:
1.-Media:
• E (Yt ) = φ1 E (Yt −1 ) + φ2 E (Yt − 2 ) + E (ε t )
123
0
123 1
( )
E (Yt Yt −1 ) = φ1 E Yt −1 + φ 2 E (Yt − 2Yt −1 ) + E (ε t Yt −1 ) ⇒ γ 1 = φ1γ o + φ2γ 1 ⇒
424 3
2
14243 1 424 3
γ1 γo γ1 0
φ1
γ1 = γo
1 − φ2
De igual forma: γ 2 = φ1γ 1 + φ2γ o
En general: γ k = φ1γ k −1 + φ 2 γ k −2 esquema autorregresivo
Calculamos la FAC
k = 0 ρo = 1
γ φ
k = 1 ρ1 = 1 = 1
γ o 1 − φ2
γ φ γ +φ γ φ
ρ k = k = k = 2 ρ 2 = 1 1 2 o = φ1 1 + φ 2
γo γo 1 − φ2
k = 3 ρ 3 = φ1 ρ 2 + φ 2 ρ1
φ1γ k −1 + φ 2 γ k −2
∀k ρk = = φ1 ρ k −1 + φ 2 ρ k −2
γo
A las ecuaciones derivadas de esta igualdad para los distintos valores de k se les llama las
ecuaciones de Yule-Walker.
Por tanto la FAC de un AR(2) sigue también un esquema AR(2)
3.-Varianza:
σ ε2 σ ε2 (1 − φ 2 )
Donde la varianza es: γ o = = al sustituir ρ1
1 − φ1 ρ1 − φ 2 ρ 2 (1 + φ 2 )(1 − φ1 − φ 2 )(1 + φ1 − φ 2 )
y ρ 2 por sus valores. Por tanto, para que la varianza sea finita y positiva se tiene que
35
Técnicas cuantitativas de previsión Curso 2011-2012
Características de un AR(p):
1) Es un proceso estacionario siempre que la raíces del polinomio en L sean, en
módulo, mayores que 1.
2) Su función de autocorrelación es decreciente exponencialmente bien continua o
alternando valores positivos y negativos si las raíces son reales, o bien mediante ondas
sinusoidales decrecientes si las raíces son complejas.
3) Tiene memoria infinita aunque va decreciendo
4) La FACP se anula para k>p.
5) Siempre es invertible
37
Técnicas cuantitativas de previsión Curso 2011-2012
* E(Yt ) = 0
(
* γ o = Var (Yt ) = σ ε2 1 + θ 2 )
* γ 1 = Cov(Yt , Yt −1 ) = −θσ ε2
* γ 2 = Cov(Yt .Yt −2 ) = 0
* γ k = Cov(Yt , Yt − k ) = 0 ∀ k = ± 2, ± 3.....
Siempre es estacionario porque su media, varianza y covarianzas no dependen del tiempo
La FAC vendrá dada por:
k =0 ρo = 1
γk γ1 θ
ρk = = k =1 ρ1 = =−
γo γo 1+θ 2
γ
∀ k > 1 ρk = k = 0
γo
FACP
θ
k =1 φ11 = ρ 1 = −
1+θ 2
φ kk
ρ −ρ
= k = 2 φ 22 = 2 21 = −
2
θ 2 1−θ 2 ( )
1 − ρ1 1−θ 6 ( )
φ kk = −
θ k 1−θ 2 ( )
∀ k (
1 − θ 2 (k +1) )
38
Técnicas cuantitativas de previsión Curso 2011-2012
1
=
(1 + θ ) = (1 + θ
2 2 4
+ 2θ 2 ) = (1 − θ ) 2 2
+ 4 ≥ 4 ⇒ ρ12 ≤
1
⇒
ρ 1
2
θ 2
θ 2
θ 2
4
1 1
− ≤ ρ1 ≤
2 2
4) La FACP no se anula, tenderá hacia 0, con todos los valores negativos si θ > 0 y
alternando de signo si θ < 0
5) Condición de invertibilidad. El proceso definido anteriormente, sin ningún tipo
de restricción sobre θ , plantea un problema de identificación. Es decir, supongamos el
1
siguiente proceso MA(1) : Yt = ε t − ε t −1
θ
1 1
−
θ θ θ
Donde ρ1 = =− =− y ρ k = 0, ∀ k > 1
1
2
θ +1
2
1+θ 2
1+
θ θ2
Por lo tanto tenemos un proceso distinto (con distinto parámetro) pero con la misma FAC.
Esto implica que los MA(1) tienen un problema de identificación.
De esta forma, cuando una serie tenga solo el coeficiente de autocorrelación de orden 1
distinto de cero, no sabremos a cuál de los dos procesos anteriores se debe asociar. Esto es
muy importante a la hora de hacer una predicción porque no será la misma con un proceso
que con el otro.
Solución: elegir aquel proceso que cumpla la propiedad de la invertibilidad. Un proceso es
invertible si se puede escribir como AR(∞): Yt = φ1 Yt −1 + φ2 Yt − 2 + ...... + ε t
Una forma sencilla de transformar un MA(1) en un AR(∞), especialmente cuando el orden
es mayor que 1 es utilizando el operador retardo:
Yt = ε t − θ ε t −1 = ε t − θ L ε t = (1 − θ L )ε t Despejando ε t
39
Técnicas cuantitativas de previsión Curso 2011-2012
1 1
εt = Yt donde es la suma de una progresión geométrica infinita de
1 −θ L 1−θ L
razón θ L . Esta progresión ilimitada converge a la suma cuando la razón es < 1. Por tanto,
para que esa suma converja, es necesario que θ < 1. De esta forma:
Si θ < 1 quiere decir que la influencia de las observaciones pasadas es cada vez menor
a medida que nos alejamos en el tiempo, es decir, que el pasado cercano es más importante
que el pasado más alejado, lo cual es razonable, por eso nos interesan especialmente las
series que cumplen esta condición.
Decir que θ < 1 es equivalente a decir que las raíces de la ecuación en L: 1 − θ L = 0
son, en módulo, mayores que 1.
1
1−θ L = 0 ⇒ θ L = 1 ⇒ L = tal que si θ <1 L1 = 1/θ> 1
θ
donde L1 es la solución de la ecuación 1 − θ L = 0 .
PROCESO MA(2):
(
Yt = ε t − θ 1 ε t −1 − θ 2 ε t − 2 = 1 − θ 1 L − θ 2 L2 ε t ) siendo ε t un ruido blanco.
* E(Yt ) = 0
(
* γ o = Var (Yt ) = σ ε2 1 + θ 1 + θ 22
2
)
* γ 1 = Cov(Yt , Yt −1 ) = σ ε2 (− θ1 + θ1θ 2 )
* γ 2 = Cov(Yt , Yt − 2 ) = −θ 2σ ε2
...........................................................
* γ k = Cov (Yt , Yt − k ) = 0 ∀ k = , ± 3 ± 4....
Siempre es estacionario porque su media, varianza y covarianzas no dependen del tiempo
La FAC vendrá dada por:
k = 0 ρo = 1
γ γ θ +θ θ
ρk = k = k = 1 ρ1 = 1 = − 1 2 1 2 2
γo γo 1 + θ1 + θ 2
γ2 θ2
k =2 ρ2 = =−
γo 1 + θ12 + θ 22
En general ρ k = 0 ∀k ≥3
La FACP al igual que en el MA(1) se demuestra que es decreciente y todos sus
coeficientes distintos de cero.
40
Técnicas cuantitativas de previsión Curso 2011-2012
41
Técnicas cuantitativas de previsión Curso 2011-2012
Características de un MA(q)
Yt = ε t − θ1 ε t −1 − θ 2ε t − 2 ............ − θ q ε t − q = ε t − θ1 L ε t − θ 2 L2ε t ........θ q Lqε t =
( )
= 1 − θ1 L − θ 2 L2 − .............. − θ q Lq ε t = Θq (L )ε t
Esto implica , a su vez, una serie de restricciones sobre los parámetros. Una condición
necesaria, aunque no suficiente, para que el proceso MA de cualquier orden sea invertible
q
es que: ∑θ i < 1 .
i =1
42
Técnicas cuantitativas de previsión Curso 2011-2012
Estos procesos serán estacionarios cuando lo sea su parte AR y serán invertibles cuando lo
sea su parte MA. Al igual que estos procesos se caracterizan por la FAC y la FACP, pero
en la práctica son los más difíciles de identificar. Normalmente, determinar el orden de p y
q no es fácil. Sin embargo, frecuentemente solo encontramos ARMA de orden pequeño.
En los ARMA(p,q) , la FAC se comporta como la de un AR(p) para valores de s>q .
Por ejemplo, en un ARMA(1,1) : Yt = φ Yt −1 + ε t − θ ε t −1 la FAC tiene el primer valor
distinto de cero (correspondiente al MA(1)) y a partir del segundo coeficiente la FAC
decrece lentamente (como en un AR(1)). Esto es debido a que en un ARMA(1,1), la media
móvil afecta al primer periodo pero no a los demás. Respecto a la FACP ésta se comporta
como la de un MA(q) para q > p.
Por tanto, son procesos más difíciles de identificar y la manera de conocer qué orden sigue
el proceso es ir probando distintos órdenes ARMA(1,1), ARMA(1,2) ….. y analizando si
los residuos son ruido blanco.
Correlogramas de un proceso ARMA(1,1)
43
Técnicas cuantitativas de previsión Curso 2011-2012
MA(2) c 2 2 2
σ ε (1 + θ1 + θ 2 ) θ1εt-1+θ2εt-2 σ ε2 0 para k>2 Decrecimiento
exponencial
Yt −1 = β o + β 1 (t − 1)
44
Técnicas cuantitativas de previsión Curso 2011-2012
En este caso bastaría con trabajar con la serie en diferencias, y una vez obtenida la
predicción, deshacer la transformación.
Si la tendencia no fuese lineal, se tomaría diferencias de orden superior, por ejemplo de
segundo orden, etc.
Yt = β o + β 1t + β 2 t 2
wt = (1 − L ) Yt = Yt + Yt − 2 − 2Yt −1 = 2 β 2
2
45
Técnicas cuantitativas de previsión Curso 2011-2012
Empecemos por el caso más simple: una serie con media µ distinta de cero pero sin
tendencia ⇒ queremos decidir, para dicha serie, entre un proceso no estacionario I(1) y un
proceso AR(1) estacionario: Yt − µ = φ (Yt −1 − µ ) + ε t [2]
Este modelo AR(1), postulado como alternativa, también puede rescribirse de la forma:
Yt = c + φYt −1 + ε t donde c=µ(1-φ).
Las hipótesis que vamos a contrastar son:
Ho:φ=1 ⇒ raíz unitaria: proceso no estacionario I(1)
H1:φ<1 ⇒ proceso estacionario I(0).
Nótese que bajo Ho, la constante c se hace cero (c=0) y el modelo resultante es:
Yt = Yt −1 + ε t un paseo aleatorio sin deriva
Por problemas de estabilidad numérica, el contraste se plantea para las primeras diferencias,
es decir, para la serie ∆Yt, de modo que las hipótesis son:
Ho: ∆Yt = ε t ⇒ paseo aleatorio
H1: ∆Yt = c + δ Yt −1 + ε t ⇒ AR(1) estacionario
donde δ = φ − 1 . Lo que se contrasta entonces es
Ho: δ = 0 (⇒ φ = 1)
H1: δ < 0
El estadístico del contraste es el estadístico t habitual para la significación de un parámetro
en modelos de regresión, pero con dos matizaciones: (1) la hipótesis alternativa es
unilateral; (2) bajo la hipótesis nula la serie no es estacionaria y esto hace que la
distribución del estadístico t no sea la habitual ⇒ utilizar unas tablas específicas (Dickey-
Fuller con término constante). Si la serie Yt tuviera media cero, se utilizan otras tablas
(Dickey-Fuller sin constante). Muchos autores recomiendan incluir siempre el término
constante en este contraste.
En el contraste anterior, el modelo estacionario de referencia es un AR(1) y se contrasta si
existe una raíz unitaria en dicho proceso (φ=1). Este contraste puede generalizarse a
procesos AR de mayor orden, en cuyo caso contrastamos la presencia de una raíz unitaria
en el polinomio autorregresivo del modelo. El contraste se denomina entonces
p contraste de
Dickey-Fuller aumentado (ADF). El modelo sería: ∆Yt = c + δ Yt −1 + ∑ α i ∆Yt −i + ε t
i =1
El programa Eviews 6 tiene una opción que selecciona automáticamente la longitud del
retardo en base a los criterios de información (Akaike, Schwarz…)
Antes de plantear los modelos integrados vamos a definir una clase de modelos no
estacionarios denominados “camino aleatorio”.
46
Técnicas cuantitativas de previsión Curso 2011-2012
Propiedades:
E (Yt ) = 0
( )
Var Yt = E Yt ( )2 = E (Yt −1 + ε t )2 = E (Yt −1 )2 + E{
ε t + 2 E (Yt −1ε t ) = E (Yt −2 ) + 2σ = L E (Yt −2 ) + nσ = L
2
1424 3
2 2 2 2
σ2 0
donde n tiende a ∞, por tanto el proceso no es estacionario porque la varianza aumenta
indefinidamente con el desfase temporal. De manera análoga se obtendrían las
autocovarianzas y las autocorrelaciones, ambas dependerán del periodo t de referencia.
Sin embargo, si tomamos diferencias de primer orden en la serie:
Yt − Yt −1 = ∆Yt = wt = ε t el proceso resultante, wt es ruido blanco que siempre es
estacionario.
A este tipo de procesos no estacionarios pero fácilmente convertibles en estacionarios al
tomar diferencias, se les llama integrados, ya que se pueden obtener sumando, o lo que es
lo mismo integrando, el proceso estacionario:
Yt = wt + Yt −1 = wt + wt −1 + Yt − 2 = wt + wt −1 + wt − 2 + wt −3 + LL
Es por ello por lo que se dice que el camino aleatorio pertenece a la clase de modelos
integrados.
Veamos su comportamiento gráficamente:
Para ello nos generamos una serie a partir de la expresión: Yt = Yt −1 + ε t siendo Yt la
variable randomw y vemos su representación gráfica y su correlograma
47
Técnicas cuantitativas de previsión Curso 2011-2012
RANDOMW
6
-2
-4
-6
-8
50 100 150 200 250 300
Como se puede ver en este caso, va hacia arriba y hacia debajo de forma aleatoria sin que
exista una tendencia a regresar a su valor medio. Por otro lado la FACE decrece muy
lentamente y el contraste de D-F no rechaza la hipótesis nula de una raíz unitaria. Sin
embargo si transformamos la serie tomando diferencias de orden 1, la serie resultante ya es
estacionaria, su diferencia oscila al azar entorno a cero y el contraste de D-F lo ratifica. En
este caso se dice que la serie original es I(1).
DRANDOMW 6
4
4
3
2
2
1 0
0
-2
-1
-4
-2
-3 -6
-4 -8
50 100 150 200 250 300
-5
50 100 150 200 250 300
RANDOMW DRANDOMW
48
Técnicas cuantitativas de previsión Curso 2011-2012
(1 − φ L − L φ L )w = (1 − θ L − L θ L )ε
1 p
p
t 1 q
q
t sustituyendo wt en esta expresión:
(1 − φ L − L φ
1 pL
p
)(1 − L ) Y = (1 − θ L − L θ L )ε
d
t 1 q
q
t
(1 − L )d φ p (L ) wt = θ q (L )ε t wt → ARIMA(p,d,q)
Se pueden plantear dos tipos de modelos estacionales: los puros y los multiplicativos donde
cada uno de ellos puede ser estacionario o no.
49
Técnicas cuantitativas de previsión Curso 2011-2012
1 k =0
Θ
ρ k = − ∀ k=s
1+ Θ
2
( ) (
Yt 1 − Φ 1 Ls − Φ 2 L2 s L − Φ P LPs = ε t 1 − Θ1 Ls − Θ 2 L2 s L − Θ Q LQs )
Al igual que los casos anteriores, la FAC y FACP se comporta como la de los ARMA(p,q)
pero solamente en los retardos s,2s,3s...
Si la serie tuviese un componente estacional no estacionario se eliminaría previamente
dicha componente no estacionaria tomando diferencias estacionales como ya hemos
comentado comportándose entonces como un modelo estacional puro. De esa forma un
modelo SARIMA(P,D,Q) será aquel que tomando diferencias estacionales de orden D se
comporta como un SARMA(P,Q).
B) Modelos estacionales multiplicativos
Frecuentemente se trabaja con series que no solo presentan problemas de correlación
estacional sino que además la serie puede presentar problemas de correlación no estacional,
es decir, una serie puede presentar correlación estacional combinada con otra de carácter
50
Técnicas cuantitativas de previsión Curso 2011-2012
( ) (
φ p (L ) Φ P Ls (1 − L )d 1 − Ls )
D
( )
Yt = θ q (L ) Θ Q Ls ε t
51
Técnicas cuantitativas de previsión Curso 2011-2012
52
Técnicas cuantitativas de previsión Curso 2011-2012
− Y )(Yt − k − Y )
T
∑ (Y t
rk = t = k +1
∑ (Y −Y )
T
2
t
t =1
53
Técnicas cuantitativas de previsión Curso 2011-2012
Rk*
donde φˆkk =
Rk
El número de coeficientes de autocorrelación muestral y de autocorrelación parcial muestral
que se pueden calcular son T-1 independientemente del proceso, por lo tanto, el problema
que deberíamos plantearnos es como se contrasta la significación de los coeficientes, es
decir, que contraste nos permitirá establecer unas bandas de confianza por encima de las
cuales los coeficientes resultan estadísticamente significativos con una determinada
probabilidad.
Para hacer ese contraste partimos del hecho de que rs es una variable aleatoria y por tanto
como tal tendrá su distribución de probabilidad que estará centrado en ρ k por ser un buen
estimador de dicho parámetro, de tal forma que rk fluctuará alrededor de unas bandas
centradas en ρ k .
Para poder aceptar si, a la vista de una muestra concreta, podemos rechazar o no la
hipótesis de que ρ k =0, haremos un contraste de hipótesis. Para hacer estos contrastes
necesitamos un estadístico llamado pivote cuya distribución sea conocida bajo la hipótesis
nula Ho si es cierta. De esta forma, el espacio muestral quedará dividido en 2 partes: la
región crítica y la región de aceptación.
Si el estadístico pertenece a la región crítica rechazaremos la Ho.
Si el estadístico pertenece a la región de aceptación no rechazaremos la Ho.
Para ello fijamos un nivel de significación α (probabilidad de rechazar la Ho aunque sea
cierta) que deberá ser muy pequeño, normalmente asumimos un error del 5%, es decir
α=0.05
Se demuestra que para muestras grandes en los modelos MA(q) los rk procedentes de un
proceso ruido blanco se distribuyen asintóticamente como una normal: rs → N (0, var(rk )) ,
a
de estar dentro de la RA el 95% de las veces (y un 5% de las veces estará fuera, por tanto, si
la Ho es cierta nos equivocaremos el 5% de las veces.
rk
Pr − 1,96 ≤ ≤ 1,96 = 0,95
Var (rk )
De esta forma se pueden construir unas bandas de confianza que nos marca un valor
mínimo que ha de ser superado para que un coeficiente sea estadísticamente significativo a
niveles habituales de confianza.
[ ]
Estas bandas vendrán dadas por : − 1,96 Var (rk ) , 1,96 Var (rk ) que variarán a medida
que cambien el orden del MA, aumentando a medida que aumentan los órdenes.
Por ejemplo, si queremos contrastar si es un MA(2) :
H o : ρ3 = ρ4 = L = 0
H1 : alguno distinto de 0
r3 a
1
( (
→ N 0, 1 + 2 r12 + r22
sin t . H o
))
T
r4 a
1
( (
→ N 0, 1 + 2 r12 + r22 + r32
sin t . H o
))
T
.......................................................
En el caso de modelos AR(p) la hipótesis a contrastar es:
H o : φ kk = 0 ∀ k>p
H 1 : φkk ≠ 0
55
Técnicas cuantitativas de previsión Curso 2011-2012
a) yt = 0.5 yt-1 + εt
Para ello hacemos lo siguiente:
(1) Creamos un fichero sin estructurar con 300 observaciones: File→New→ workfile
→Unstructured/Undate
(2) Generamos el error que supondremos sigue una distribución normal con el comando
nrnd (normal random). Hacemos por tanto: Genr error=nrnd. Si vemos el gráfico y el
correlograma de la serie veremos que tiene el aspecto esperado,: estacionaria, media 0,
varianza estable y está incorrelacionada ya que todas las correlaciones caen dentro de las
bandas de confianza
(3) Vamos a generar la serie de la ecuación anterior a partir de los T valores del ruido
blanco. Para ello necesitamos un valor inicial de Y para obtener las distintas
observaciones de Y desde 2 a T. Tomamos como valor inicial Y1=0 y hacemos lo siguiente:
Genr Y=0 y a continuación: Genr Y=0.5*Y(-1)+εt (para sample 2 300)
4
v
3
-1
-2
-3
-4
50 100 150 200 250 300
b) yt = 5 + 0.2 yt-1 + εt
10
3
25 50 75 100 125 150 175 200
AR(1) series: y(t)=5+0.2*y(t-1)+a(t)
56
Técnicas cuantitativas de previsión Curso 2011-2012
c) yt = 0.8 yt-1 + εt
6
-2
-4
-6
50 100 150 200 250 300
d) yt = –0.8 yt-1 + εt
6
-2
-4
-6
50 100 150 200 250 300
e) yt = 0.95 yt-1 + εt
10
-2
-4
-6
50 100 150 200 250 300
57
Técnicas cuantitativas de previsión Curso 2011-2012
Los ejemplos anteriores ilustran cómo el parámetro φ está relacionado con la memoria de la
serie: cuanto más próximo está φ a cero, menor es la memoria, pero a medida que φ se
incrementa en valor absoluto, la dependencia con respecto al pasado se hace mayor y tarda
más en desaparecer. En el caso extremo, cuando φ=1 (raíz unitaria), la serie ya no es
estacionaria. En este caso, una innovación tiene efectos permanentes sobre los valores
futuros de la variable y el modelo resultante es un paseo aleatorio como hemos visto.
Por otro lado cuando el proceso es estacionario φ<1 tiene tendencia a regresar a un
determinado punto, su valor medio. Sin embargo en el ejemplo e) esto no ocurre por no ser
estacionario.
10
-5
-10
50 100 150 200 250 300
-2
-4
-6
-8
50 100 150 200 250 300
58
Técnicas cuantitativas de previsión Curso 2011-2012
h) yt = 0.9 yt-4 + εt
8
-2
-4
-6
50 100 150 200 250 300
i) yt =5 + εt – 0.5 εt-1
8
1
50 100 150 200 250 300
j) yt = εt + 0.5 εt-1
4
-1
-2
-3
-4
-5
50 100 150 200 250 300
-2
-4
-6
50 100 150 200 250 300
59
Técnicas cuantitativas de previsión Curso 2011-2012
-1
-2
-3
-4
50 100 150 200 250 300
-2
-4
-6
-8
50 100 150 200 250 300
-2
-4
-6
50 100 150 200 250 300
60
Técnicas cuantitativas de previsión Curso 2011-2012
61
Técnicas cuantitativas de previsión Curso 2011-2012
permitirá ver si existen sesgos sistemáticos (indicio de correlación) así como valores
atípicos (outliers).
c) Analizar la correlación de los residuos mediante el correlograma de los residuos
para ver si los coeficientes de correlación son significativamente iguales a 0. Los residuos
son ruido blanco si todas las autocorrelaciones son cero, es decir si ρ1 = ρ 2 = L0 , pero
dado que estos coeficientes son desconocidos utilizamos la FACE de los residuos y por
tanto tendremos, al igual que con la identificación de la serie, contrastar la hipótesis:
H o : ρk = 0 ∀ k
H1 : ρ k ≠ 0
Para realizar este contraste se utiliza el estadístico:
1
rk a → N 0, ∀ k
sin tot .
T
1 1
Por tanto, las bandas vendrán dadas por: − 1,96 , 1,96
T T
1 1
Si rk ∈ − 1,96 , 1,96 No Rechazamos la Ho lo cual implica que la serie
T T
de los residuos son ruido blanco.
d) Realizar un contraste de incorrelación utilizando el estadístico de Ljung-Box.
Este es un contraste que trata de evaluar la nulidad conjunta de todos los coeficientes de
autocorrelación
H o : ρ1 = ρ 2 = L = 0
H 1 : ρ1 = ρ 2 ≠ L ≠ 0
m
rk2 (et )
Estadístico de Ljung- Box : Q * = T (T + 2)∑
k =1 T − k
62
Técnicas cuantitativas de previsión Curso 2011-2012
H1 : φi ≠ 0 y θj ≠0 ∀ j = 1L q
φˆi
utilizando la t de Student : →
Ho
tT −K
Sφˆ
i
siendo K el número de coeficientes del modelo. (De igual forma para los parámetros θ ).
Así, cuando un coeficiente del modelo no sea significativo, debe pensarse que se ha
incurrido en un problema de sobreparametrización, con lo que será preciso eliminar dicho
parámetro del modelo antes de volver a estimar y contrastar.
En la práctica se comienza por el orden del proceso menor, se analiza el modelo y se van
aumentando solo el orden del proceso AR o el del MA pero nunca a la vez, analizando cada
vez el modelo correspondiente y eligiendo finalmente el mejor modelo. Para ello se utiliza
el principio de parsimonia que consiste en elegir el modelo más simple de todos los
estimados que cumplan la validación.
63
Técnicas cuantitativas de previsión Curso 2011-2012
CONFIANZA
64
60
56
52
48
44
40
36
32
25 50 75 100 125 150
LOG(CONFIANZA)
4.2
4.1
4.0
3.9
3.8
3.7
3.6
3.5
3.4
25 50 75 100 125 150
64
Técnicas cuantitativas de previsión Curso 2011-2012
12
-4
-8
25 50 75 100 125 150
65
Técnicas cuantitativas de previsión Curso 2011-2012
t-Statistic Prob.*
Augmented Dickey-Fuller test statistic -4.378051 0.0005
Test critical values: 1% level -3.472259
5% level -2.879846
10% level -2.576610
ESTIMACIÓN:
66
Técnicas cuantitativas de previsión Curso 2011-2012
Analizamos la estructura:
.2
Autocorrelation
1.0
-.4
2 4 6 8 10 12 14 16 18 20 22 24
0.0
Partial autocorrelation
.2
-0.5 .0
-.2
-1.0
-.4
2 4 6 8 10 12 14 16 18 20 22 24
-1.5
-1.5 -1.0 -0.5 0.0 0.5 1.0 1.5 Actual Theoretical
67
Técnicas cuantitativas de previsión Curso 2011-2012
VALIDACIÓN
A) Análisis de los residuos: analizamos la representación gráfica así como su
correlograma y el estadístico Q que estudia la autocorrelación:
12
-4
-8
25 50 75 100 125 150
CONFIANZA Residuals
A partir del correlograma (todas las correlaciones caen dentro de las bandas) y el
estadístico Q que no rechaza la Ho para cualquier retardo, se detecta que los residuos se
comportan como un ruido blanco. Los errores se mueven alrededor de cero aunque con
algunos valores un poco elevados, especialmente los referentes a la observación 90 y en
menor medida la 111 y la 79. Por lo que se podría estimar el modelo incluyendo unas tres
ficticias que recojan esos valores atípicos, dando el siguiente resultado:
Dependent Variable: D(CONFIANZA)
Method: Least Squares
Sample (adjusted): 4 172
Included observations: 169 after adjustments
Convergence achieved after 8 iterations
Coefficient Std. Error t-Statistic Prob.
C -0.266107 0.121934 -2.182386 0.0305
D79 7.262823 2.245333 3.234631 0.0015
D89 11.95467 2.209099 5.411560 0.0000
D111 7.200784 2.198403 3.275461 0.0013
AR(1) -0.286222 0.077200 -3.707555 0.0003
AR(2) -0.200690 0.077398 -2.592960 0.0104
R-squared 0.309863 Mean dependent var -0.123077
S.E. of regression 2.312686 Akaike info criterion 4.549554
Sum squared resid 871.8084 Schwarz criterion 4.660675
Log likelihood -378.4373 Hannan-Quinn criter. 4.594649
F-statistic 14.63701 Durbin-Watson stat 2.024266
Prob(F-statistic) 0.000000
Inverted AR Roots -.14+.42i -.14-.42i
Analizamos la estructura:
68
Técnicas cuantitativas de previsión Curso 2011-2012
.2
Inverse Roots of AR/MA Polynomial(s)
Autocorrelation
1.5 .0
1.0 -.2
-.4
0.5 2 4 6 8 10 12 14 16 18 20 22 24
AR roots
Actual Theoretical
0.0
-0.5
Partial autocorrelation
.2
-1.0
.0
-1.5 -.2
-1.5 -1.0 -0.5 0.0 0.5 1.0 1.5
-.4
2 4 6 8 10 12 14 16 18 20 22 24
Actual Theoretical
16 Mean -1.37e-14
Median -0.013079
Maximum 6.296701
12 Minimum -5.762298
Std. Dev. 2.278011
8 Skewness 0.025533
Kurtosis 3.181232
4 Jarque-Bera 0.249647
Probability 0.882653
0
-6 -4 -2 0 2 4 6
-2
-4
-6
25 50 75 100 125 150
D(CONFIANZA) Residuals
69
Técnicas cuantitativas de previsión Curso 2011-2012
Estructura ARMA:
.2
Inverse Roots of AR/MA Polynomial(s)
Autocorrelation
.0
1.5
-.2
1.0
-.4
2 4 6 8 10 12 14 16 18 20 22 24
0.0
Partial autocorrelation
.2
-0.5
.0
-1.0 -.2
-.4
2 4 6 8 10 12 14 16 18 20 22 24
-1.5
-1.5 -1.0 -0.5 0.0 0.5 1.0 1.5 Actual Theoretical
Este modelo recoge mejor la FAP pero peor la FAS que el anterior.
Análisis de residuos:
-2
-4
-6
-8
25 50 75 100 125 150
D(CONFIANZA) Residuals
70
Técnicas cuantitativas de previsión Curso 2011-2012
20
Series: Residuals
Sample 2 172
16 Observations 171
Mean 0.016311
12 Median -0.038252
Maximum 6.818761
Minimum -6.077603
8 Std. Dev. 2.263927
Skewness 0.061142
Kurtosis 3.305935
4
Jarque-Bera 0.773413
Probability 0.679291
0
-6 -4 -2 0 2 4 6
Los residuos se distribuyen como una normal y también se comportan como un ruido
blanco
Análisis de coeficientes:
Todas las variables son significativas individualmente.
71
Técnicas cuantitativas de previsión Curso 2011-2012
1.0
0.5
AR roots 0.0
MA roots
-0.5
-1.0
-1.5
-1.5 -1.0 -0.5 0.0 0.5 1.0 1.5
72
Técnicas cuantitativas de previsión Curso 2011-2012
1.0
0.5
AR roots 0.0
MA roots
-0.5
-1.0
-1.5
-1.5 -1.0 -0.5 0.0 0.5 1.0 1.5
Autocorrelaciones de los
residuos:
73
Técnicas cuantitativas de previsión Curso 2011-2012
Criterios de información:
1º ETAPA: IDENTIFICACIÓN
Gráfico de la serie:
AERLINE
20
16
12
0
60 62 64 66 68 70 72 74 76
74
Técnicas cuantitativas de previsión Curso 2011-2012
LAERLINE
3.0
2.5
2.0
1.5
1.0
0.5
60 62 64 66 68 70 72 74 76
DLAERLINE
.3
.2
.1
.0
-.1
-.2
-.3
-.4
60 62 64 66 68 70 72 74 76
Esta serie tiene tendencia constante y ya no tiene una raíz unitaria sin embargo su
correlograma detecta no estacionariedad en la parte estacional ya que los coeficientes
correspondientes a los retardos 12, 24 y 36 no decrecen así que se pueden plantear dos
posibilidades:
a) Introducir 11 variables ficticias que recojan la estacionalidad
75
Técnicas cuantitativas de previsión Curso 2011-2012
Genr dd12laerline=d(laerline,1,12)
DD12LAERLINE
.6
.4
.2
.0
-.2
-.4
-.6
60 62 64 66 68 70 72 74 76
ARIMA(0,1,2) x ARIMA(0,1,1)
ARIMA(2,1,0) x ARIMA(0,1,1)
ARIMA(1,1,1) x ARIMA(0,1,1)
ARIMA(1,1,2) x ARIMA(0,1,1)
76
Técnicas cuantitativas de previsión Curso 2011-2012
Estructura
ARMA:
Inverse Roots of AR/MA Polynomial(s)
1.5
1.0
0.5
MA roots
0.0
-0.5
-1.0
-1.5
-1.5 -1.0 -0.5 0.0 0.5 1.0 1.5
Análisis de residuos:
.3
.2
.1
.0
-.1
-.2
-.3
-.4
62 64 66 68 70 72 74 76
D(LOG(AERLINE),1,12) Residuals
77
Técnicas cuantitativas de previsión Curso 2011-2012
Estructura ARMA:
Inverse Roots of AR/MA Polynomial(s)
1.5
1.0
0.5
AR roots 0.0
MA roots
-0.5
-1.0
-1.5
-1.5 -1.0 -0.5 0.0 0.5 1.0 1.5
.3
.2
.1
.0
-.1
-.2
-.3
-.4
62 64 66 68 70 72 74 76
D(LOG(AERLINE),1,12) Residuals
78
Técnicas cuantitativas de previsión Curso 2011-2012
Estructura ARMA:
Inverse Roots of AR/MA Polynomial(s)
1.5
1.0
0.5
AR roots 0.0
MA roots
-0.5
-1.0
-1.5
-1.5 -1.0 -0.5 0.0 0.5 1.0 1.5
Análisis de residuos:
.3
.2
.1
.0
-.1
-.2
-.3
-.4
62 64 66 68 70 72 74 76
D(LOG(AERLINE),1,12) Residuals
79
Técnicas cuantitativas de previsión Curso 2011-2012
80
Técnicas cuantitativas de previsión Curso 2011-2012
( )
E YT +l − YˆT +l / I T . El mejor predictor bajo este criterio se denomina predictor de
2
“mínimo error cuadrático medio”.
Este predictor es aquel que se forma como : YˆT (l ) = E (YT +l / I T ) = ET (YT +l ) donde se
demuestra que es el óptimo y es la media condicional, esto es, el valor esperado de la serie
en el futuro, condicional a la información disponible en el momento actual, puesto que es el
que menor error cuadrático medio tiene.
81
Técnicas cuantitativas de previsión Curso 2011-2012
MA(2) : Yt = c + ε t − θ1 ε t −1 − θ 2 ε t − 2
82
Técnicas cuantitativas de previsión Curso 2011-2012
Esquemas autorregresivos:
AR(1) con constante y parámetro conocido: Yt = c + φ Yt −1 + ε t
Puesto que los esquemas autorregresivos tienen memoria infinita (aunque decreciente), la
predicción tendrá el mismo comportamiento, es decir se pueden predecir infinitos periodos
pero será cada vez menos fiable a medida que aumenta el horizonte de predicción.
Para l=1 queremos predecir: YT +1 = c + φ YT + ε T +1
La predicción es función de los valores anteriores, como φ < 1 las predicciones son
decrecientes hasta llegar al valor medio
AR(2)
Para l=1 queremos predecir: YT +1 = c + φ1 YT + φ 2YT −1 + ε T +1
83
Técnicas cuantitativas de previsión Curso 2011-2012
Esquemas ARMA
ARMA(1,1) : Yt − φ Yt −1 = ε t − θ ε t −1
[
Varianza del error de predicción: σ e2T + 2 = σ ε2 (φ − θ ) + 1
2
]
En general: YˆT (l ) = φ YˆT (l − 1) ∀l > 1
Es decir, una vez superado el orden de la parte de medias móviles (en este caso 1) la
predicción es idéntica a la que se obtiene en un esquema AR(1). Así, el perfil de predicción
de un modelo ARMA(1,1) es idéntico al de un AR(1) a partir de un periodo de predicción.
En todos los modelos ARMA donde las predicciones estén en función de las
perturbaciones, el problema para calcular dichas predicciones radica en que las
perturbaciones son inobservables, por tanto es necesario sustituirlas por sus estimaciones
que se obtienen como la diferencia entre realizaciones y predicciones.
Así sabemos que el error de predicción un periodo hacia delante es ε T +1 = YT +1 − YˆT (1) que
está en función de YˆT (1) que a su vez está en función de ε T Lε T +1− q . De igual forma para
estimar ε = Y − Yˆ (1) es necesario calcular Yˆ (1) que es función de ε Lε
T T T −1 T −1 T −1 T −q y así
sucesivamente.
En la práctica se procede a evaluar todas las innovaciones desde la primera, esto plantea un
problema de valores iniciales dado que para estimar ε 1 es necesario conocer Yˆ1 que es
función de ε o , ε −1 L ε − q que no sólo son inobservables sino que, además, caen fuera del
periodo muestral. En la práctica lo que se hace en este caso es tomar para estos valores su
esperanza matemática que es cero. Esta solución es aceptable siempre que el proceso sea
invertible puesto que en estos casos los valores iniciales tienden a desaparecer a medida que
aumenta el tamaño muestral.
Una vez estimados los errores de predicción se sustituyen en YˆT (1) y una vez realizada la
predicción a un periodo se pueden calcular de forma recursiva para los demás periodos.
valorar la confianza que se puede depositar en ellas. Por ello existe un interés creciente en
las predicciones por intervalo, es decir, en proponer un rango de posibles valores (no un
único valor) entre los cuales es muy probable que se encuentre el valor futuro de la
variable. Para construir dichos intervalos necesitamos: (1) tener una medida de la
“precisión” de las predicciones; (2) realizar un supuesto sobre la distribución de
probabilidad de los errores de predicción. Analizamos estas dos cuestiones a continuación.
La medida más habitual para cuantificar la “precisión” de las predicciones es la varianza de
los errores de predicción. Los errores dependen de cuál sea el modelo concreto que se ha
ajustado a los datos como hemos visto. En general, ya vimos que la varianza del error
aumenta cuando el horizonte de predicción se incrementa: es más difícil predecir un futuro
lejano que predecir un futuro próximo. Sin embargo, si el modelo es estacionario, la
varianza de los errores tiende a estabilizarse cuando el horizonte de predicción se
incrementa y converge a la varianza marginal. En cambio, en modelos no estacionarios, la
varianza de los errores de predicción crece indefinidamente hasta infinito al aumentar el
horizonte.
Una predicción es tanto más fiable cuanto más precisa es, es decir, cuanto menor sea su
varianza, por tanto dado que el intervalo de confianza depende de la varianza del predictor,
cuanto menor sea ese intervalo mejor será la predicción.
Construimos este intervalo de confianza partiendo de la distribución del error de predicción,
puesto que : eT (l ) → N (0,Var(eT (l )))
Donde eT (l ) = YT +l − YˆT (l )
2 2
[ ]
Var (eT (l )) = E [eT (l ) − E (eT (l ))] = E [eT (l )] = E YT +1 − YˆT (l ) = ECM de la predicción
2
YT +l − YˆT (l )
→
a
N (0,1)
Var [eT (l )]
Y − YˆT (l )
P − 1,96 ≤ T +l ≤ 1,96 = 0,95 Despejamos YT +l :
Var [eT (l )]
[ ]
P YˆT (l ) − 1,96 Var[eT (l )] ≤ YT +l ≤ YˆT (l ) + 1,96 Var[eT (l )] = 0,95
El Intervalo de Confianza para YT+l vendrá dado por:
[Yˆ (l ) ± 1,96
T Var[eT (l )] ]
La amplitud del intervalo dependerá de la varianza del error de predicción, en definitiva de
su precisión, cuanto más pequeña sea la varianza más precisa será.
85
Técnicas cuantitativas de previsión Curso 2011-2012
CONFIANZAF
65
60
55
50
45
40
35
30
25 50 75 100 125 150 175
87
Técnicas cuantitativas de previsión Curso 2011-2012
26 AERLINEF
24
24
22 20
20 16
18
12
16
8
14
4
12
1978Q1 1978Q2 1978Q3 1978Q4
0
60 62 64 66 68 70 72 74 76 78
AERLINEF ± 2 S.E.
88