Material Teoria SeriesTCP 2011 2012

Material Docente de
Técnicas cuantitativas de previsión

Curso 2011-2012. Segunda parte
Material de teoría: Análisis univariante de series
temporales
Segundo curso del grado de Marketing e Investigación de

Mercados (MIM)
Profesora:
Carmen Lorenzo Lago
Técnicas cuantitativas de previsión Curso 2011-2012
Tema 7. Conceptos fundamentales
7.1.- Concepto de serie temporal. Representación gráfica
Una serie temporal consiste en una sucesión de observaciones ordenadas sobre una(s)
variable(s) determinada a lo largo del tiempo:
y1, y2,…, yT
Las series temporales tienen tres características: están ordenadas cronológicamente, las
observaciones se toman periódicamente y de forma regular, anual, mensual, trimestral,
diario etc. y finalmente, tienen un alto grado de autocorrelación.
Un primer análisis de la serie que intentamos estudiar se realiza a través de su evolución a
lo largo del tiempo, es decir, su representación gráfica en un eje cartesiano donde en
abscisas se representa el tiempo y en ordenadas la variable1.
Ejemplos :
i) Población activa femenina en España (datos trimestrales: 2001:Q1-2011:Q3)
ACTM
560,000
520,000
480,000
440,000
400,000
360,000
01 02 03 04 05 06 07 08 09 10 11
ii) Pernoctaciones mensuales en establecimientos hoteleros (millones) en España: 1999:01-

2011:09
PERNOTE
44,000,000
40,000,000
36,000,000
32,000,000
28,000,000
24,000,000
20,000,000
16,000,000
12,000,000
8,000,000
99 00 01 02 03 04 05 06 07 08 09 10 11
1
Otra alternativa sería dibujar un histograma tal que sobre cada valor t se dibujaría una barra o rectángulo de
altura igual a Yt.
1
iii) Número mensual de edificios construidos en España (1991:11 – 2007:04)

4000
Miles
3500
3000
2500
2000
1500
1000
500
0
91 92 93 94 95 96 97 98 99 00 01 02 03 04 05 06
iv) Nº mujeres muertas (mensualmente) por violencia de género: 1999:01 – 2009:12

12
10
0
99 00 01 02 03 04 05 06 07 08 09
Al observar la línea que une las distintas observaciones en la sucesión temporal, podemos
sacar algunas conclusiones sobre su patrón de comportamiento detectando las
características más sobresalientes como por ejemplo, si tiene una tendencia (creciente o
decreciente) como la población activa femenina o el número de edificios construidos en
España, si tiene o no componente estacional (pernoctaciones, número de edificios
construidos) o si la variabilidad permanece o no constante (en las pernoctaciones
permanece constante mientras que en el número de edificios construidos aumenta con la
tendencia).
Los objetivos del análisis de series temporales son, esencialmente, describir esas
características y su dependencia respecto al pasado y proyectar dichas características hacia
el futuro con fines predictivos.
Sin embargo, las series económicas recogen fenómenos sociales que, normalmente, no se
ajustan a ninguna función que las describa, es decir, son imposibles de determinar por una
ley porque son fenómenos aleatorios. Para poder describir estas series y predecir su futuro
planteamos dos soluciones:
1era solución: Los modelos deterministas que suponen que una serie está compuesta por una
serie de componentes.
2da solución: consiste en buscar un modelo aleatorio, llamado modelos estocásticos que
describa el comportamiento de la serie.
2
7.2.- Componentes no observables de una serie
Los modelos deterministas suponen que las series (el valor que toma una variable a lo largo
del tiempo) son el resultado de una serie de componentes que interactúan entre si. Estos
componentes son: la tendencia, la componente estacional, la componente cíclica y la
componente irregular.
Componente tendencia Tt: recoge el movimiento a largo plazo de la serie. Es el
componente más importante porque representa el patrón de comportamiento de la serie, es
decir, indica hacia donde va la serie a largo plazo y refleja condiciones coyunturales de la
economía.
Componente estacional: St, recoge los movimientos a corto plazo que se repiten de forma
más o menos sistemática con una periodicidad inferior al año. Son por tanto, variaciones
mensuales, cuatrimestrales, etc y no pueden darse en series anuales porque hablamos de
variaciones a corto plazo. Su rasgo definitivo es la periodicidad lo cual permite
cuantificarla fácilmente e incluso eliminarla.
Esta componente distorsiona mucho las series, por lo que se suele eliminarla y trabajar con
las series desestacionalizadas.
Componente cíclico: Ct, refleja oscilaciones a medio y largo plazo (superior al año)
asociados a los ciclos económicos, es decir, a las etapas de prosperidad y recesión de la
actividad económica. Por ejemplo, la derivada de la crisis del petróleo del 73 con una
elevación de los precios del crudo que pasó a multiplicarse por 10 en precio en 5 años. O la
crisis actual a partir de la bancarrota de las subprime.
Su identificación es especialmente difícil debido a la ausencia de regularidad y a la posible
aparición de varios ciclos superpuestos. Por lo que no vamos a estudiarla de forma aislada
sino que lo analizaremos conjuntamente con la tendencia, analizando así la componente
ciclo-tendencia.
Todos estos componentes se pueden considerar sistemáticos, es decir predecibles, de tal
forma que se puede suponer que se mantendrán en el futuro de cara a hacer predicciones.
Sin embargo, como las series no son totalmente deterministas, existe otro componente no
sistemático que afecta a la serie de forma esporádica o aleatoria, es el componente irregular.
Componente irregular: It, o residual, recoge, por una parte, los cambios debidos a
situaciones imprevisibles de carácter esporádico (guerras, huelgas, terremotos,
inundaciones, actos terrorista como el 11-M, etc.) y por otro, los efectos de múltiples y
pequeños factores aleatorios, no recogidos en las otras componentes, con repercusiones de
amplitud débil en la serie. El carácter aleatorio de esta componente, impide su tratamiento
desde un punto de vista descriptivo, ya que para explicar su comportamiento se necesitan
modelos probabilísticos y técnicas de inferencia estadística2.
En definitiva, en los modelos deterministas, se trata de analizar la tendencia y la
estacionalidad en el periodo muestral y una vez conocidos, utilizarlos para predecir.
Una vez especificados los componentes de una serie, nos preguntamos de qué forma se
conjugan estas componentes para producir los valores de la variable que observamos. Dar
2
La diferencia del planteamiento determinista y el estocástico, es que éstos piensan que el componente
irregular si se puede estudiar mediante un modelo aleatorio y los otros dos componentes no son totalmente
deterministas.
3
una respuesta exacta es imposible, por lo que el problema se resuelve, normalmente,

aceptando alguna hipótesis simplificada como modelo. Las más habituales son:
• Modelo aditivo: Yt = Tt + S t + I t
• Modelo multiplicativo: Yt = Tt ⋅ S t ⋅ I t
Para elegir entre estos dos modelos nos basaremos en la representación gráfica de la propia
serie de tal forma, que si las oscilaciones son de amplitud más o menos constante en torno
a la tendencia a lo largo de toda la serie ⇒ Modelo aditivo, ya que se suma el efecto de la
estacionalidad, permaneciendo más o menos constantes las fluctuaciones estacionales todos
los años. Por ejemplo pernoctaciones mensuales en establecimientos hoteleros.
Si la amplitud de las oscilaciones varía con la tendencia, es decir, a medida que la serie
aumenta el nivel, aumenta la amplitud de las oscilaciones ⇒ Modelo multiplicativo. En este
caso, el efecto de la estacionalidad se multiplica al resto de factores lo que hace que se
amplíen cada vez más las fluctuaciones estacionales. Por ejemplo el nº mensual de edificios
construidos en España.
7.3.- Predicción en series temporales

Predecir consiste en obtener valores futuros de la variable objeto de estudio. Definimos el
predictor como la variable que nos permitirá hacer predicciones y la denotamos por YˆT (l )
donde el subíndice T indica de cuanta información se dispone y el índice (l) indica el
número de periodos que se va a predecir.
Si queremos predecir l periodos: Y1 , Y2 , LYT YT +1YT + 2 LYT + l
1 4243 144244 3
conocido queremos predecir
Llamamos predictor a la predicción en el instante T de la observación futura de Y en T+l.

Así el predictor de YT + l será YˆT (l ) ∀l = 1, 2 L
La predicción de una misma observación en dos momentos distintos de tiempo no es la
misma. Por ejemplo, el predictor de YT + 2 será YˆT (2 ) o también YˆT +1 (1) pero
YˆT (2) ≠ YˆT +1 (1)
Criterios de evaluación de la capacidad predictiva

Definimos el error de predicción como la diferencia entre el valor predicho y el valor real
de la variable: eT (l ) = YT + l − YˆT (l )
Características: Para cada valor predicho hay un error de predicción. La predicción será
tanto mejor cuanto menor sea el error de predicción y, finalmente debe comportarse de
forma aleatoria alrededor de cero y no sistemática, es decir no debe de presentar
autocorrelación.
A la hora de evaluar la capacidad predictiva tenemos que tener en cuenta los siguientes
problemas:
1. Necesidad de resumir la información contenida en la serie de los errores por
medio de algún estadístico.
4
2. Al predecir periodos futuros no se conocen los errores ya que solo disponemos

de una muestra de tamaño T de tal forma que YT + l ∀l = 1, 2 L es desconocida.
1. Los estadísticos que resumen la información son:
H
∑ e (l )T
1. Media aritmética de los errores: EM = l =1
H
H
∑ e (l ) T
Error absoluto medio: EAM =

l =1
2.
H
H
∑ e (l ) 2
T
3. Error cuadrático medio: ECM = l =1
H
H
∑ e (l ) 2
T
Raíz del error cuadrático medio: REM =

l =1
4.
H
Otras medidas en términos relativos que permiten comparar series con distintas unidades de
medida son:
H
∑ e (l ) / Y
T T +l
5. Error absoluto medio en porcentaje: EAMP = l =1

∗ 100
H
H
∑ e (l ) / Y
T T +l
Error medio en porcentaje: EMP = ∗ 100

l =1
6.
H
2. Existen dos posibles soluciones al problema de los errores desconocidos en el

periodo de predicción que son:
1. Reservar un número final de observaciones, utilizando el método de predicción

para el resto aplicando la predicción para las observaciones reservadas.
2. Consiste en calcular el error predicho dentro del periodo muestral, prediciendo
siempre un periodo hacia delante utilizando en cada paso mayor información. Así, para
calcular el primer error se utilizaría 1 observación, para el segundo 2, para el tercero 3 etc.
5
6
Tema 8: Predicción de series deterministas

8.1.- Tratamiento de la tendencia determinista
Partimos de que la serie no tiene componente estacional, solamente tiene tendencia y
componente irregular por lo que:
Si el modelo es aditivo: Yt = Tt + I t
Si el modelo es multiplicativo: Yt = Tt ⋅ I t
Si queremos determinar la tendencia desde un punto de vista descriptivo, existen varios
métodos posibles, entre ellos vamos a ver dos de los más utilizados:
• Método de ajuste analítico
• Método de alisado exponencial
Método de ajuste analítico
Con este método se pretende expresar la tendencia como una función matemática del
tiempo t. Esto se consigue ajustando a la nube de puntos (Yt,t) una función matemática de t
con un determinado criterio.
Por tanto tendremos que:
1) Decidir que función del tiempo queremos ajustar a la nube de puntos. Dado que
la serie evoluciona con el tiempo, buscamos la función f(t,Yt) que puede ser lineal,
exponencial, logarítmica, etc. En la práctica las funciones lineales son las más habituales.
Frecuentemente la función gráfica de la serie sugiere la forma funcional de Tt .
2) Una vez elegido el tipo de función (lineal, cuadrática etc.) se trata de buscar
aquella que mejor se ajuste a los datos (nube de puntos), para ello utilizamos un criterio de
decisión. El criterio elegido es el de Mínimos cuadrados que consiste en minimizar la suma
de los cuadrados de los residuos o errores3.
Ajuste a una función lineal
Supongamos que la tendencia es una función lineal del tiempo (aunque se podría plantear
cualquier otra) , tal que: Tt = β o + β1 t . En este caso, la serie observada Yt crece o decrece
conforme a una recta de pendiente β y puede representarse como la suma de dos
componentes: la tendencia lineal, Tt, más una perturbación aleatoria, εt, que representa las
desviaciones de la serie respecto a la tendencia. Es decir: Yt = β o + β 1 t + ε t
Se trata de determinar los coeficientes β o y β 1 que mejor ajustan la función a los datos,
T
es decir, aquellos que minimizan la suma de cuadrados de los residuos: ∑ et2 4.
t =1
3
Si la representación matemática no es muy clara sobre la función matemática a utilizar se podrían utilizar
varias y comparar cuál de ellas consigue minimizar la función objetivo.
4
Por tanto la función objetivo a minimizar se puede expresar como:
( )
T T
Min ∑ et2 = Min ∑ Yt − βˆ o − βˆ1 t .
2
t =1 t =1
El resultado de minimizar esta expresión permite obtener el estimador de los coeficientes como:
7
donde: et = Yt − Yˆt siendo Yˆt = βô + βˆ1 t la tendencia estimada.

Ventajas de este método:
Es fácil de aplicar y existen medidas para cuantificar la bondad del ajuste, como por
ejemplo el coeficiente de determinación. Por otro lado, la predicción es inmediata basta con
dar valores a t.
Inconvenientes:
Es muy rígido, ya que una vez fijada la pendiente, ésta no se modifica con el tiempo lo cual
no siempre se cumple en muchas series económicas.
Predicción:
Dentro del periodo muestral en t+1 que es el predictor de Yt+1 :
Yˆt (1) = βô + βˆ1 (t + 1) = Tt + βˆ1
Para los periodos postmuestrales: YˆT (l ) = βô + βˆ1 (T + l ) = βô + βˆ1T + βˆ1 l = YˆT −1 (1) + βˆ1 l
La predicción consiste, por tanto, en sustituir t en la recta para el periodo que quieres
predecir.
Si la tendencia de la serie no depende del tiempo sino que fuese una constante, Tt = β o la
predicción sería Yˆ (l ) = β̂ = Y tanto para el periodo muestral como el postmuestral.
T o
EJEMPLO1: Supongamos que queremos determinar la tendencia de la serie población

activa femenina (ACTM) de la EPA para el periodo 2001Q1:2011Q3 recogida en el
fichero activos.wf1.
ACTM
560,000
520,000
480,000
440,000
400,000
360,000
01 02 03 04 05 06 07 08 09 10 11
Esta serie se caracteriza porque tiene una tendencia aproximadamente lineal con
pendiente constante a lo largo de toda la muestra. Los resultados de estimar por MCO una
función lineal son los siguientes:
∑ (Y − Y )(t − t )
T
t
Cov(Y , t ) S Y ,t
βˆ1 = t =1
= = 2 ; βô = Y − βˆ1 t
T
var(t ) SY
∑tt =1
2
−T t 2
8
Dependent Variable: ACTM

Method: Least Squares
Sample: 2001Q1 2011Q3
Included observations: 43
Coefficient Std. Error t-Statistic Prob.
T 3909.405 81.04408 48.23801 0.0000
C 371987.5 1976.878 188.1692 0.0000
R-squared 0.982685 Mean dependent var 454085.0
Adjusted R-squared 0.982263 S.D. dependent var 49519.18
S.E. of regression 6595.016 Akaike info criterion 20.47141
Sum squared resid 1.78E+09 Schwarz criterion 20.55333
Log likelihood -438.1353 Hannan-Quinn criter. 20.50162
F-statistic 2326.906 Durbin-Watson stat 0.554599
Prob(F-statistic) 0.000000
El siguiente gráfico representa la serie ACTM (“Actual”) junto con la tendencia ajustada
(“Fitted”) y los residuos e = Y − 371987 .5 − 3909.4 t (“Residual”). Los residuos ya no
t t
tienen tendencia y se mueven alrededor de cero de forma aleatoria.
560,000
520,000
480,000
15,000
440,000
10,000
400,000
5,000
0 360,000
-5,000
-10,000
-15,000
01 02 03 04 05 06 07 08 09 10 11
Residual Actual Fitted
En la práctica, es muy raro que una serie real tenga una tendencia determinista lineal
estable a lo largo de todo el periodo de observación. Lo más habitual en series reales,
especialmente si éstas son observadas a lo largo de periodos muy largos de tiempo, es que
existan rupturas en el comportamiento de la tendencia, tanto en la ordenada en el origen
como en la pendiente. Una posible forma de modelizar este comportamiento es mediante
tendencias lineales por tramos. Esto se consigue incluyendo variables ficticias en el modelo
de regresión para poder representar estas rupturas como vamos a ver en el ejemplo 2.
EJEMPLO 2: Supongamos ahora que queremos determinar la tendencia de la serie

población activa masculina (ACTH) de la EPA para el periodo 2001Q1:2011Q3 recogida
en el fichero activos.wf1.
9
ACTH
700,000
690,000
680,000
670,000
660,000
650,000
640,000
630,000
620,000
01 02 03 04 05 06 07 08 09 10 11
Esta serie se caracteriza porque tiene una tendencia que se podría considerar
aproximadamente lineal por tramos, con pendiente positiva hasta el 2º trimestre de 2008 y
negativa a partir de ese momento. Por tanto aunque suponemos una tendencia lineal, la
pendiente y el término independiente no son constantes sino que varían en los distintos
tramos.
Para estimar por MCO nos generamos una ficticia que llamaremos D1 que tomará los
0 si t ≤ 2008 : Q 2
valores: D1t =  lo que se denomina variable “escalón”. Para que
1 si t > 2008 : Q 2
recoja los cambios en los dos coeficientes introducimos una variable ficticia aditiva y otra
multiplicativa. Los resultados de la estimación son los siguientes:
Dependent Variable: ACTH
Sample: 2001Q1 2011Q3
T 2181.670 123.2040 17.70779 0.0000
D1 112004.6 15807.71 7.085442 0.0000
D1*T -3998.126 450.1398 -8.881965 0.0000
C 626928.2 2080.530 301.3309 0.0000
Sum squared resid 1.33E+09 Schwarz criterion 20.43537
El siguiente gráfico, representa la serie observada, la tendencia por tramos ajustada y los
residuos del modelo
10
700,000
680,000
20,000 660,000
15,000
10,000 640,000
5,000
620,000
0
-5,000
-10,000
-15,000
01 02 03 04 05 06 07 08 09 10 11
Residual Actual Fitted
8.2.- Métodos de alisado exponencial

Dentro de los métodos de alisado vamos a ver tres, el alisado exponencial simple, el doble
alisado exponencial (Brown) y el de Holt Winters, la utilización de uno u otro depende de
las características de la serie.
En estos métodos se ponderan las observaciones haciendo que tengan un mayor peso las
más recientes y las lejanas uno menor. El nombre de alisado proviene porque suaviza o
alisa las oscilaciones que tiene la serie, dando más importancia a las más recientes y menos
al resto. Se denomina exponencial, porque las ponderaciones decrecen exponencialmente a
medida que nos alejamos del momento actual, lo que implica que las observaciones
alejadas tienen muy poca incidencia en el valor que toma la tendencia.
Alisado exponencial simple (AES)

Este método se utiliza para series que se mueven aleatoriamente por encima o debajo de
una constante, es decir para aquellas series que no tienen ni tendencia ni componente
estacional.
La tendencia, que no es más que la serie alisada se deduce de forma recursiva como:
Tt = α Yt + (1 − α ) Tt −1
Al coeficiente α se le llama normalmente coeficiente de alisado, y está comprendido
entre 0 y 1 0 ≤ α ≤ 1 .
Por lo tanto a la hora de calcular Tt se plantean dos problemas:
1) Se necesita un punto de partida o valor inicial To para empezar a calcular la
tendencia recursiva
2) La elección del coeficiente de alisado : α
1) Elección de los valores iniciales
En la asignación de To se suelen hacer uno de estos dos supuestos:
• To = Y1 ⇒ T1 = Y1 se suele tomar este valor si la serie tiene muchas
oscilaciones.
• To = Y utilizando una parte de las observaciones disponibles (Eviews utiliza
la media de las (T+1)/2 primeras observaciones)
11
2) Elección de α :
Al asignar un valor a α hay que tener en cuenta que, una valor pequeño de α implica
dar mucho peso a las observaciones pasadas ya que 1 − α aumenta y es, precisamente, el
coeficiente de Tt-1. Esto significa que de un período a otro cambia poco, la serie se alisa
mucho y por tanto habrá pocas oscilaciones en la serie tendencia. Por ejemplo , si α = 0.1 :
T40 = 0.1 Y40 + 0.9 T39 ⇒ T39 ≅ T40
Si el valor de α es grande se estará dando más importancia a las observaciones más
recientes y menos a las anteriores, esto implica que la serie se alisa poco y la tendencia será,
prácticamente, el valor de la serie. Por ej. si α = 0.9 : T40 = 0.9 Y40 + 0.1 T39 ⇒ T40 ≅ Y40
Eviews (y la mayoría de los programas), selecciona aquel valor de α para el que se
obtenga una RECM menor en la predicción muestral.
Predicción:
Si la tendencia es constante, se define la predicción mediante una suma ponderada de todos
los términos previos de la serie al periodo para el que se formula la predicción. Es un
método bastante utilizado.
Dentro del período muestral: Yˆt (1) = α Yt + (1 − α ) Yˆt −1 (1)
Para el periodo extramuestral:
1 periodo hacia delante: YˆT (1) = α YT + (1 − α ) YˆT −1 (1)
2 periodos hacia delante: YˆT (2 ) = α YT +1 + (1 − α ) YˆT (1)
como YT+1 es desconocido lo sustituimos por su predicción YˆT (1) :
YˆT (2 ) = α YˆT (1) + (1 − α ) YˆT (1) = YˆT (1)
3 periodos hacia delante: YˆT (3) = α YT + 2 + (1 − α ) YˆT (2 ) = α YˆT (2 ) + (1 − α ) YˆT (2 ) = YˆT (1)
...................................................................
En definitiva, siempre se utiliza la misma predicción, es una constante, por eso este método
se utiliza para predecir a muy corto plazo, 1 periodo por delante.
Si la tendencia es variable, lo cual es habitual en la mayoría de las series económicas, si
predecimos una constante, estaríamos cometiendo un grave error por eso este método no es
válido ya que si Tt = β o + β1 t
TT +1 = β o + β 1 (t + 1) = β o + β 1t + β1 = Tt + β 1
Por tanto para predecir debería añadirle una cantidad como β 1 , es decir la tendencia crece
una cantidad β 1 cada periodo. En el método AES decíamos TT +1 = TT y suponíamos que la
tendencia en T era un buen predictor del periodo T+1 pero al no ser la tendencia
constante ya no es un buen predictor.
Así, si predecimos l periodos por delante: YT +l = TT +l + I T +l
TT +l = βô + βˆ1 (T + l ) = βô + βˆ1T + βˆ1 l = TT + βˆ1 l
12
la tendencia ha crecido βˆ1 l veces. Por tanto para predecir habría que tener en cuenta la
tendencia del último periodo muestral y también el coeficiente βˆ . 1
EJEMPLO 3: Supongamos que estamos interesados en predecir la captura de bonito

(BONITO) en los dos próximos años para ello disponemos de datos anuales de dicha serie
desde 1974 a 2010 recogidos en el fichero bonito.wf1.
La representación gráfica de la serie detecta que la tendencia es constante, por lo que o
predecimos con la media muestral (5047) o con el método de AES
BONITO
6,000
5,800
5,600
5,400
5,200
5,000
4,800
4,600
4,400
4,200
1975 1980 1985 1990 1995 2000 2005 2010
Para predecir con el método AES lo primero que tenemos que hacer es ampliar el rango
hasta 2012 y a continuación pinchamos dentro de la serie
Proc/Exponential Smoothing/ smoothing method/single/ estimation sample: 1974 2012
Dejamos por defecto todo lo demás como está, a la predicción de la variable dentro y fuera
de la muestra que denomina bonitosm.
Los resultados son los siguientes:
Sample: 1974 2010

Method: Single Exponential
Original Series: BONITO
Forecast Series: BONITOSM
Parameters: Alpha 0.1020
Sum of Squared Residuals 6815082.
Root Mean Squared Error 429.1753
El valor de la constante de alisado que optimiza es α=0.102. Por otro lado nos ofrece la
suma de cuadrados residuales y la raíz del error cuadrático medio
El resultado de la predicción es constante para los dos años siguientes y es
bonitosm=4943.68
Para series con tendencia variable y sin componente estacional, existen dos métodos de
alisado que son el de alisado exponencial doble (Brown) y el de Holt. Veamos en que
consiste cada uno de ellos.
13
Método de alisado exponencial doble (AED): Método de Brown

Se aplica a modelos con tendencia y sin componente estacional. Con este método se somete
a la variable a una doble operación de alisado, de ahí su nombre. En el primer paso se alisa
directamente la variable objeto de estudio como ya hemos estudiado y en el segundo paso
se alisa la variable alisada en el paso anterior.
El modelo teórico al que se aplica es el modelo lineal donde suponemos que la pendiente
evoluciona en el tiempo (no es constante) sabiendo que los métodos de alisado da menos
peso a las observaciones alejadas que a las más próximas. De esta forma definiremos dos
ecuaciones una para la pendiente y otra para la tendencia.
Con el método de alisado exponencial simple calculábamos la tendencia como:
Tt = α Yt + (1 − α ) Tt −1 y éste era el método que utilizábamos cuando la tendencia era
constante. Sin embargo si lo utilizamos en series con tendencias crecientes se infravalorará
la serie original.
En definitiva, para evitar este problema, se trata de alisar 2 veces y se le suma al primer
alisado la diferencia entre los alisados ya que se demuestra que la diferencia entre los
dos alisados es aproximadamente igual a la diferencia entre la serie y el primer alisado:
1er alisado: Aˆ t = α Yt + (1 − α ) Aˆ t −1
2º alisado: Aˆ t = α Aˆ t + (1 − α ) Aˆ t −1
ˆ ˆ
ˆ
donde llamamos: Ât al primer alisado en t y Aˆ t al segundo alisado en t
Definimos la tendencia: Tt = Aˆ t +  Aˆ t − Aˆˆ t  = 2 Aˆ t − Aˆˆ t

 
α  ˆ ˆˆ 
Estimamos la pendiente como5 : βˆ1 (t ) =  At − At 
1−α  
Calculadas la pendiente y la tendencia pasamos a predecir:
Predicción de un periodo por delante dentro del periodo muestral: Yˆt (1) = Tt + βˆ1 (t )
Predicción en el periodo extramuestral: YˆT (l ) = TT + βˆ1 (T ) ⋅ l
Método de Holt
Es también un método de alisado exponencial que utiliza 2 parámetros en lugar de uno solo
como ocurre con el AED. Se aplica asimismo a series que tengan una tendencia
aproximadamente lineal y es uno de los métodos más utilizados dado los buenos resultados
en la previsión de distintas áreas de la economía empresarial: financiación, gestión de
stocks, ventas, etc.
5
Para la estimación de la pendiente ver: Pg. 101-110 Abraham Boves y Ledolter Johannes “Statistical
Methods for forecasting”. Plantea que los parámetros estimados se determinan minimizando
∑ w [Y ]
n −1 2
j
n− j − f ' (− j )β donde w < 1 , f ' (l )β es la predicción de una observación futura en n+l. En
j =0
definitiva se trata de calcular los estimadores de mínimos cuadrados generalizados.
14
Dado que la ecuación de alisado es: Tt = αYt + (1 − α )Tt −1

Holt propone que la tendencia sea una combinación del valor de Yt y de la estimación de la
tendencia en t:
[ ]
Tt = αYt + (1 − α ) Tt −1 + βˆ1 (t − 1) a esta ecuación se le llama ecuación de nivel
Esta ecuación de nivel es la primera ecuación del sistema propuesto por Holt. Nos
proporciona el valor del nivel de la tendencia en el momento t y juega el mismo papel que
Tt en el AED.
La segunda ecuación propuesta por Holt permite calcular la pendiente βˆ1 (t ) de forma
recursiva, mediante la siguiente ecuación de alisado:
βˆ1 (t ) = γ (Tt − Tt −1 ) + (1 − γ )βˆ1 (t − 1) llamada ecuación de la pendiente
Por tanto en este método tenemos 2 coeficientes α , γ .
Predicción
La predicción dentro del periodo muestral: Predicción del periodo t+1 en t:
Yˆt (1) = Tt +1 = Tt + βˆ1 (t )
donde Tt y βˆ1 se calculan por el método de Holt.
La predicción extramuestral viene dada por: YˆT (l ) = TT + βˆ1 (T ) ⋅ l
EJEMPLO 4: Supongamos que queremos predecir población ocupada femenina (OCUM)

para el año siguiente al periodo muestral. Para ello, en el fichero ocupados.wf1 se recogen
las observaciones de la serie para el periodo 1996Q1:2011Q3 obtenidas de la EPA
OCUM
440,000
400,000
360,000
320,000
280,000
240,000
96 98 00 02 04 06 08 10 12
Serie con tendencia y sin componente estacional por tanto podemos utilizar para
predecir el método de AED o el de Holt-Winters sin estacionalidad. Veamos los dos:
1.- Para predecir (una vez ampliado el rango) con el método AED, pinchamos
dentro de la serie:
Proc/Exponential Smoothing/ smoothing method/double/
15

Sample: 1996Q1 2011Q3
Method: Double Exponential
Original Series: OCUM
Forecast Series: OCUMSM
Sum of Squared Residuals 2.99E+09
2.- Para predecir (una vez ampliado el rango) con el método H_W sin estacionalidad,
pinchamos dentro de la serie:
Proc/Exponential Smoothing/ smoothing method/Holt-Winters no seasonal/
Renombramos la serie para mantener las dos predicciones con el nombre ocusm2
Sample: 1996Q1 2011Q3
Method: Holt-Winters No Seasonal
Original Series: OCUM
Forecast Series: OCUMSM2
Beta 0.0000
La raíz del error cuadrático medio nos permite seleccionar cuál de los dos métodos es
mejor. En este caso será el de Holt-Winters porque es el que menor estadístico tiene.
En el siguiente cuadro se encuentran las predicciones fuera del periodo muestral con los dos
métodos y a continuación la gráfica con la variable y las dos predicciones para todo el
período tanto muestral como de predicción
480,000
440,000
ocumsm ocumsm2
H_W sin 400,000
AED estacionalidad
360,000
430203.2 433683.1
2011Q4
320,000
431715.1 436670.2
2012Q1
280,000
433226.9 439657.3
2012Q2
240,000
434738.8 442644.4
2012Q3 200,000
96 98 00 02 04 06 08 10 12
OCUM OCUMSM OCUMSM2
16
Método de Holt Winters

Se utiliza para aquellas series que además de tendencia tiene componente estacional. Como
ya hemos comentado, los componentes de una serie pueden estar integrados de forma
aditiva o multiplicativa y en el análisis de la estacionalidad es importante el esquema que
siguen. Veamos por qué:
Modelo aditivo: Yt = Tt + S t + I t
Modelo multiplicativo: Yt = Tt ⋅ S t ⋅ I t
Por tanto, el primer paso consistirá en determinar el esquema que siguen las componentes
de la serie utilizando por ejemplo, el gráfico de la serie: Si las oscilaciones son constantes
alrededor de la media el esquema será aditivo, pero si las oscilaciones crecen o decrecen
con el valor de la tendencia, será multiplicativo.
Eviews plantea dos métodos aditivo y multiplicativo dependiendo de las características de
la serie
Este método se basa en la restimación, a lo largo de todos los periodos muestrales, de la
tendencia, la pendiente y la componente estacional.6
La predicción en un periodo se formula en términos de los valores estimados de la
pendiente, la tendencia y la componente estacional en el periodo en el que se formula la
predicción.
Esquema aditivo:
Dado que: Yt +1 = Tt +1 + S t +1 + I t +1 si se quiere predecir en t+1 habrá que calcular la
tendencia y la componente estacional en t+1.
Como hemos visto, si no hay componente estacional, el método de Holt propone predecir:
Yˆt (1) = Tt + βˆ1 (t )
Pero si hay componente estacional, la predicción sería: Yˆt (1) = Tt + βˆ1 (t ) + s (t )

Siendo las ecuaciones las siguientes:
[
• Ecuación de nivel: Tt = α (Yt − st (t − s )) + (1 − α ) Tt −1 + βˆ1 (t − 1)]
Es decir, para poder estimar la tendencia, no podemos hacer una media solo entre Yt y
[ ]
Tt −1 + βˆ1 (t − 1) porque la serie tiene componente estacional y por tanto, Yt no es una buena
estimación de la tendencia, por ello, es necesario quitarle la estacionalidad, así
(Yt − s (t − s )) será la serie desestacionalizada.7
• Ecuación de la pendiente: βˆ1 (t ) = γ (Tt − Tt −1 ) + (1 − γ )βˆ1 (t − 1) es la misma que en
el método de Holt.
• Ecuación de la componente estacional: st (t ) = δ (Yt − Tt ) + (1 − δ ) s t (t − s )
6
Uriel lo plantea como: Dado que está diseñado para series con tendencia lineal y con un factor estacional:
Yt = Tt + S t + I t donde Tt = β o + β 1t . Por tanto el modelo teórico será: Yt = (β o + β 1t ) + S t + I t .
7
Uriel: siendo s(t-s) una estimación del factor estacional para la misma estación de t pero un año anterior. Si
en lugar de s(t-s) se aplicase s(t) habría que resolver ecuaciones de forma simultánea, lo que complicaría
considerablemente los cálculos.
17
Donde: (Yt − Tt ) es la variable sin tendencia, por tanto se obtiene mediante el alisado de
una serie en la que previamente se ha eliminado la tendencia.
α , γ y δ son las constantes de alisamiento de la tendencia, pendiente y componente
estacional, respectivamente y estarán comprendidas entre 0 y 1.
Problemas que plantea este método:

1) Hay que fijar α γ y δ , lo cual no es fácil, Elegimos el que minimice el ECM
2) Fijar los valores iniciales. Lo más frecuente es realizar una regresión con variables
ficticias: Yt = β o + β 1 ⋅ t + γ 1 (D1t − D4t ) + γ 2 (D2t − D4t ) + γ 3 (D3t − D4t ) + ε t
To = βô , βˆ1 (0) = βˆ1 se fija To y βˆ1 (0)

γˆ1 = s1 (0)
γˆ 2 = s 2 (0)
γˆ3 = s3 (0 )
γˆ 4 = s 4 (0) = −γˆ1 − γˆ 2 − γˆ3
Predicción:
Dentro del periodo muestral: Yt +1 = Tt +1 + S (t + 1) + I t +1
( )
Yˆt (1) = Tt + βˆ1 (t ) + st (t + 1 − s )
( )
siendo Tt + β̂1 (t ) la estimación de la tendencia y st (t + 1 − s ) el último componente
estacional calculado correspondiente al periodo t+1.
Para el periodo postmuestral: YT +l = TT +l + S (T + l ) + I T +l , esto implica que ya no se
actualiza ni la tendencia ni la componente estacional, la tendencia en T+l si es lineal es:
TT +l = TT + βˆ1 (l ) ⋅ l , por tanto la predicción para ese periodo será:
( )
YˆT (l ) = TT + βˆ1 (T ) ⋅ l + s t (T + l − s )
siendo st (T + l − s ) el último componente estacional calculado correspondiente al periodo

T+l. (es decir, (T + l − s ) es el último periodo calculado).
Esquema multiplicativo : Yt +1 = Tt +1 ⋅ S t +1 ⋅ I t +1
Siendo las ecuaciones las siguientes:
•
 Yt 
Ecuación de nivel: Tt = α  [ ]
 + (1 − α ) Tt −1 + βˆ1 (t − 1)
 s (t − s ) 
• Ecuación de la pendiente: βˆ (t ) = γ (T − T ) + (1 − γ )βˆ (t − 1)
1 t t −1 1
• Ecuación de la componente estacional: s (t ) = δ (Yt / Tt ) + (1 − δ ) s (t − s )
18
Predicción:
Dentro del periodo muestral: Yt +1 = Tt +1 ⋅ S (t + 1) ⋅ I t +1
( )
Yˆt (1) = Tt + βˆ1 (t ) ⋅ s (t + 1 − s )
Para el periodo postmuestral: YT +l = TT +l ⋅ S (T + l ) ⋅ I T +l
( )
YˆT (l ) = TT + βˆ1 (T ) ⋅ l ⋅ s (T + l − s )
siendo s (T + l − s ) el último componente estacional calculado correspondiente al periodo
T+l. (es decir, (T + l − s ) es el último periodo calculado).
EJEMPLO 5: Disponemos de observaciones mensuales de la serie número de
pernoctaciones hoteleras en España (pernote) en el fichero pernoctaciones.wf1 para el
periodo 1999:01 a 2011:09, con objeto de predecir el número de pernoctaciones del año
siguiente al periodo muestral
Analizamos gráficamente la serie
PERNOTE
44,000,000
40,000,000
36,000,000
32,000,000
28,000,000
24,000,000
20,000,000
16,000,000
12,000,000
8,000,000
99 00 01 02 03 04 05 06 07 08 09 10 11
Se detecta claramente que tiene estacionalidad y un aligera tendencia creciente y además

la forma de integración de las componentes es aditiva puesto que la variabilidad de la
serie se mantiene aproximadamente constante. El método de estimación más adecuado
sería el método de Holt-Winters con estacionalidad aditiva. Por tanto después de ampliar
el rango un año, pinchamos en:
Proc/Exponential Smoothing/ smoothing method/Holt-Winters-additive/
Los resultados son:
Sample: 1999M01 2011M09
Method: Holt-Winters Additive Seasonal
Original Series: PERNOTE
Forecast Series: PERNOTSM
Beta 0.0000
Gamma 0.0000
End of Period Levels: Mean 25661970
Trend 23121.11
Seasonals: 2010M10 1068066.
19
2010M11 -7613424.
2010M12 -9107625.
2011M01 -9359116.
2011M02 -7894878.
2011M03 -4551366.
2011M04 -1842295.
2011M05 1873689.
2011M06 5039765.
2011M07 10589443
2011M08 14576877
2011M09 7220865.
44,000,000
40,000,000
36,000,000
32,000,000
28,000,000
24,000,000
20,000,000
16,000,000
12,000,000
8,000,000
2000 2002 2004 2006 2008 2010 2012
PERNOTE PERNOTSM
8.3.- Regresión con variables ficticias en series con tendencia y componente estacional
Otra forma de predecir series con tendencia y componente estacional es realizar una
regresión donde la variable sea una función lineal del tiempo y de una serie de variables
ficticias que recojan la estacionalidad
Supongamos que la variable tiene una tendencia lineal: Yt = β o + β1t donde añadimos la
componente estacional introduciendo variables ficticias estacionales que identifican cada
estación, además del término aleatorio. Para que no haya multicolinealidad perfecta,
planteamos el modelo de la forma: Yt = β o + β 1 ⋅ t + γ 1 D1t + γ 2 D2t + γ 3 D3t + ε t
si los datos son trimestrales (4 estaciones)8.
donde D1t, D2t, D3t son las variables ficticias estacionales definidas como:
1 si t = 1º trimestre 1 si t = 2º trimestre 1 si t = 3º trimestre

D1t =  , D2t =  , D3t =  , .
0 si t ≠ 1º trimestre 0 si t ≠ 2º trimestre 0 si t ≠ 3º trimestre
De esta forma, el modelo recogería una media constante pero diferente en cada estación:
α+γ1 en el 1º trimestre, α+γ2 en el segundo, α+γ3 en el tercero, y α en el cuarto. Por tanto,
los coeficientes γ asociados a las ficticias expresan el aumento o disminución estacional de
ese trimestre respecto al cuarto trimestre.
8
Si los datos fuesen mensuales introduciríamos once ficticias.
20
Tema 9.- Procesos estocásticos
Introducción
Como ya hemos señalado, hay series puramente deterministas (donde no existe componente
irregular) que son fácilmente predecibles y series puramente aleatorias que son muy
difíciles de predecir. La mayoría de las series económicas contienen una parte determinista
y una parte aleatoria. Las técnicas de predicción de los denominados modelos
deterministas, vistas en los temas anteriores, no tienen en cuenta el componente irregular
expresamente, es decir, lo derivan una vez descontado de la serie el efecto de las demás
componentes. En estos métodos, el analista establece un esquema a priori y después
procede a los cálculos estadísticos correspondientes.
Sin embargo, para aquellas series que tienen una componente irregular importante (muchas
de las series económicas) es necesario utilizar un modelo estocástico que permitirá predecir
dicha componente.
Pues bien, en esta parte del curso vamos a utilizar técnicas estadísticas que permiten
modelizar este tipo de series. En concreto, vamos a centrarnos en las técnicas de Box-
Jenkins, los llamados modelos ARIMA. En estos modelos se hace un planteamiento inicial
de carácter general, se considera que la serie a estudiar ha sido generada por un proceso
estocástico. Las técnicas de elaboración de los modelos ARIMA van dirigidas,
precisamente, a identificar el proceso generador de los datos, para después, en un proceso
iterativo, estimar y verificar el modelo que una vez aceptado se utilizará para predecir los
valores futuros de la serie temporal.
Como paso previo, antes de entrar a estudiar dicha técnica, vamos a definir una serie de
conceptos fundamentales.
9.1.- Concepto de Proceso Estocástico
Un proceso estocástico se define como un conjunto de variables aleatorias {Yt }t =1, 2L∞ cuya
distribución varía de acuerdo a un parámetro, que en nuestro caso es el tiempo. Esto
implica, que en cada instante del tiempo, la variable es una variable aleatoria. Por tanto,
cada una de estas variables aleatorias puede tomar “muchos” posibles valores con una
determinada distribución de probabilidad:
En teoría, un proceso estocástico puede generar infinitas series temporales:
21
Y1 Y2 ... YT
↓ ↓ ... ↓
y 1( 1 ) y 2( 1 ) ... y T( 1 )
y 1( 2 ) y 2( 2 ) ... y T( 2 )
y 1( 3 ) y 2( 3 ) ... y T( 3 )
... ... ... ...
Mientras que en el muestreo aleatorio simple, tenemos una colección de variables aleatorias
que son independientes entre ellas y todas siguen la misma distribución, por lo tanto para
caracterizarlas solo necesito caracterizar una de esas variables porque todas se distribuyen
igual, sin embargo, para caracterizar un proceso, necesito conocer cada una de esas
distribuciones (distribuciones marginales) y además la distribución conjunta. En definitiva
necesitamos conocer el comportamiento de cada individuo (variable aleatoria) y sus
relaciones con los demás.
Cuando se tiene un conjunto de valores generados por ese proceso, se tiene una realización
de ese proceso estocástico para unos momentos de tiempo t1 LtT . Al igual que en la
estadística convencional, se diferencian los conceptos de población y muestra, en series
temporales los conceptos equivalentes son, el proceso estocástico y la realización o series
observadas.
Así, una serie de tiempo, en el contexto de los procesos estocásticos, es una realización de
un proceso estocástico. Por tanto, para un instante de tiempo, digamos t, tenemos una v.a.
Yt que podría tomar, en principio, distintos valores con distinta probabilidad ⇒ una columna
en la representación anterior de los posibles valores del proceso.
Para un j fijo, tendríamos una muestra concreta del vector Y1, Y2,…, YT, digamos :
Y1( j ) , Y2( j ) ,..., YT( j ) que constituye una trayectoria o realización del proceso y es lo que
denominamos una serie temporal ⇒ una fila en la representación anterior. En definitiva, se
puede interpretar como una muestra de tamaño 1 tomada en períodos de tiempo sucesivos
en un proceso estocástico, de tal forma que para el instante t1 tendremos la realización Y1
para el t 2 la Y2 y así sucesivamente.
Por ejemplo: Supongamos una sucesión de precios ordenada, donde las observaciones se
corresponden a los periodos anuales 1985 a 2005, tal que: Yt : 7 9 10 11 12 14 .......
Esta sucesión se puede considerar como: 7 representa una observación extraída del
conjunto de precios posibles en 1985, 9 igual para 1986 y así sucesivamente. Aunque
aumentemos la serie hasta 2010, cada uno de los precios se sigue considerando como una
muestra única de los precios posibles en un año. Por tanto, el tamaño muestral T,
representa el conjunto de variables aleatorias del proceso que han podido observarse pero
no tiene ninguna relación con el conjunto de posibles valores de la variable para cada valor
de t. Esto implica que al aumentar T no aumentará la información disponible respecto de
cada una de las poblaciones Yt.
Gráficamente, estas trayectorias podrían representarse de la siguiente forma:
22
Sin embargo, en la práctica, sólo disponemos de una única observación en cada instante de
tiempo y por tanto tenemos una única realización de todo el proceso:
Y1 Y2 ... YT
↓ ↓ ... ↓
y1 y 2 ... yT
Dicho de otra forma, en la práctica observamos únicamente una trayectoria del proceso.
Esa única trayectoria que observamos es la serie temporal (una línea concreta) pero ésta
debe entenderse como una de las posibles realizaciones o trayectorias del proceso. Aunque
he observado esta trayectoria, podría haber observado cualquier otra, debido a la naturaleza
aleatoria de la variable que observo.
Caracterización de un proceso estocástico: Las características de un proceso estocástico

se pueden deducir de dos formas alternativas, a partir de las funciones de distribución o a
partir de los momentos.
Por lo tanto, un proceso estocástico está caracterizado cuando puedes conocer la función de
distribución conjunta para cada conjunto finito de variables del proceso, es decir para cada
valor finito de T.
En definitiva, Yti es una variable aleatoria y por tanto, como tal, tiene una distribución de
probabilidad, sin embargo, cuando tienes una serie económica (ventas de una empresa, las
series monetarias del B. De E., las series de la Contabilidad Nacional, Regional, etc.) lo que
tienes es un valor concreto de esa variable, o sea solo se dispone de una única realización
para cada proceso estocástico. Sin embargo, en las ciencias experimentales, para el
23
instante ti podríamos repetir el experimento en condiciones casi idénticas y tener para cada
variable aleatoria diferentes observaciones y, supuesto un número de observaciones
suficientemente grande, se podría hacer inferencia acerca del proceso. Podríamos estimar su
media utilizando la media muestral de todos los valores observados en ese instante t. Así, la
media de la variable Yt podría estimarse mediante:
N
∑ y t( j )
µ̂ t =
j =1 , para t=1,2,…T,
N
donde N es el número de realizaciones del proceso en ese instante t e y t( j ) es la observación

j’ésima de la variable Yt, con j=1,2,…,N. Igualmente, podríamos estimar, para cada t, la
varianza de Yt mediante la varianza muestral de esas N observaciones. Esto podría hacerse
en todos los instantes t=1,2,…T, de modo que tendríamos estimadas las medias de las T
variables, µˆ 1 , µˆ 2 ,..., µˆ T , así como sus varianzas.
Ahora bien, en las ciencias sociales, al disponer de una sola realización, aunque ésta sea
muy larga, siempre tendremos que estimar un número superior de parámetros, ya que dado
T observaciones, necesitaremos conocer, T medias, T varianzas y las autocovarianzas
necesarias todas ellas para caracterizar el proceso, por tanto, es imposible realizar
inferencia. Para poder hacerlo a partir de una sola realización, es necesario introducir
ciertas restricciones al proceso estocástico y esto se consigue introduciendo el concepto de
estacionariedad y ergodicidad. En realidad lo que se hace es estudiar solo determinados
tipos de procesos que cumplen unas determinadas condiciones que son los procesos
estocásticos estacionarios que si se pueden estimar y hacer inferencia.
Por lo tanto, el objetivo inicial de las series de tiempo es hacer inferencia con respecto a las
características básicas de los procesos estocásticos desde la información contenida en las
series observadas. Así, en primer lugar, se trata de construir determinados estadísticos con
el fin de elaborar un modelo a partir de los datos, modelo que tendrá propiedades o
características similares a las del mecanismo generador del proceso estocástico.
9.2.- Procesos estocásticos estacionarios y ergódicos

La estacionariedad se puede definir en función de las funciones de distribución o en función
de los momentos. Lo hacemos en función de los momentos.
Se dice que el proceso es estacionario en sentido amplio, o débilmente estacionario cuando
se verifica:
1) E (Yt ) = µ ∀ t . Es decir la media teórica es independiente del tiempo, o lo que es
lo mismo, permanece constante a lo largo del tiempo.
2) Cov (Yt , Yt + k ) = γ k siendo γ k la autocovarianza de orden k. La covarianza entre 2

periodos de tiempo distintos únicamente viene afectada por el lapso de tiempo transcurrido
entre esos dos periodos y no depende del tiempo. Esto implica que:
Cov (Y2 , Y10 ) = Cov (Y4 , Y12 ) = Cov (Y8 , Y16 ) = .... al haber la misma distancia entre las
variables tienen la misma covarianza. Esta condición implica la siguiente:
3) Var (Yt ) = Cov(Yt , Yt ) = γ o = cte. Es decir, la varianza también ha de ser independiente
del tiempo.
Gráficamente, sería algo así:
24
Por tanto, las observaciones de una serie estacionaria se moverán alrededor de un nivel
constante a lo largo del tiempo (media constante) y su variabilidad en torno a ese nivel
(varianza) será más o menos de una amplitud constante a lo largo del tiempo.
Como señala Diebold (1999, p.107), si el proceso no fuera estacionario, la estructura
probabilística de nuestra variable estaría cambiando a lo largo del tiempo y no habría
manera de predecir correctamente el futuro a partir del pasado porque las leyes que rigen el
comportamiento futuro diferirían de aquellas que rigen el pasado. Si queremos predecir los
valores futuros de una serie, necesitaremos, como mínimo, que su media, su varianza y su
covarianza (relación entre valores actuales y pasados) sean estables a lo largo del tiempo.
Esto es, necesitaremos que la serie sea estacionaria.
Estimación de momentos:
Veamos cómo estimar la media, la varianza y la autocovarianza de un proceso
estacionario a partir de la serie Y1, Y2,…,YT. Éste es un problema de inferencia en el cual, a
partir de los datos, tratamos de inferir propiedades sobre el modelo que genera esos datos.
Como en cualquier problema de inferencia, se trata de cotejar “dos mundos”: el mundo
teórico donde se establece el modelo y sus propiedades (el proceso estacionario) y el
mundo real donde “habitan” los datos disponibles (la serie temporal observada); véase el
cuadro siguiente.
MODELO DATOS
Proceso estocástico estacionario Serie temporal
(Y1, Y2,…, YT,..) y1, y2,…,yT
MOMENTOS TEÓRICOS MOMENTOS MUESTRALES
E(Yt) = µ T
µ̂ = y = ∑ y i / T
i =T1
Var(Yt) = σ = γo
2 ∑ (y i − y)2
σˆ 2 = s y2 = t =1
T
T
Cov(Yt,Yt+k) = γk ∑(y t − y )( y t −h − y )
γˆ k =t =1+ h
T
* Nótese que γˆ (0) = s 2y .
25
La primera condición de estacionariedad, E(Yt) = µ, nos permite utilizar todas las

observaciones de la serie para poder estimar la media de cada variable Yt, ya que ésta es
común a todas las variables del proceso. Por tanto, la media común µ se estima con la
media muestral de todas las observaciones Y1, Y2,…,YT, es decir µ̂ = Y .
La segunda condición nos permite estimar la varianza σ2, común a todas las variables
del proceso, mediante la varianza muestral de las T observaciones: σˆ 2 = s Y2 .
La tercera condición nos permite estimar la covarianza entre dos observaciones

separadas por k periodos de tiempo, γk, mediante la covarianza muestral: γˆ k .
Sin embargo, aunque el proceso sea estacionario no es posible la estimación de todos los
parámetros que definen la distribución conjunta de las variables ya que no hay grados de
libertad suficientes puesto que el número de parámetros a estimar (1 media, 1 varianza y
T-1 covarianzas) sigue siendo superior al tamaño disponible de la muestra T. Por tanto,
nuestro objetivo, consistirá en reducir el número de covarianzas que son necesarias para
conocer el proceso. Por otro lado, al crecer k se dispone de menos observaciones en el
cálculo de γˆ k de tal forma que para calcular γˆT −1 solamente se dispondría de 1
observación.
Así, es necesario que además de la estacionariedad, el proceso goce de la propiedad de
ergodicidad. Veamos intuitivamente en que consiste esta propiedad.
Un proceso estocástico ergódico es aquel en el que a partir de una cierta distancia temporal
de las variables, éstas pasan a ser independientes, o lo que es lo mismo, sus covarianzas a
partir de ese punto se anulan . Esto se puede expresar como :
lim k →∞ γ k = 0 Condición necesaria aunque no suficiente.
Esta condición posibilita obtener estimadores consistentes de los parámetros ya que si no se
cumpliese, es decir si el valor de γ k tuviese valores elevados para órdenes de k altos,
significaría que al aumentar el tamaño muestral disponible, se añadiría poca información
nueva, ya que habría que calcular un mayor número de autocovarianzas para caracterizar
adecuadamente el proceso. Esto desde el punto de vista estadístico nos llevaría a que los
estimadores obtenidos no serían consistentes.
Sin embargo, si se cumple la condición de ergodicidad todo el problema de la inferencia se
simplifica considerablemente ya que el número de parámetros desconocidos del proceso
será inferior al tamaño muestral (1 media, 1 varianza y n autocovarianzas para n<k).
En definitiva, cuando un proceso es estacionario y ergódico no tenemos ningún problema
para hacer inferencia, no obstante, en la práctica, cuando trabajamos con series económicas
la mayoría no están generadas por procesos estocásticos estacionarios (por ejemplo, el PIB,
el IPC, la oferta monetaria, etc), sin embargo, en la mayoría de los casos, sencillas
transformaciones (tomando logaritmos o diferencias) como veremos más adelante, las
convierten en series aproximadamente estacionarias, siendo entonces aplicable el proceso
de inferencia correspondiente a procesos de este tipo.
26
Ejemplos de series no estacionarias:

La serie trimestral (ACTT) número total de activos en Castilla y León presenta una clara
tendencia creciente ⇒ la media de las variables que componen el proceso va
incrementándose a lo largo del tiempo y en consecuencia la serie no es estable en media ⇒
no se cumple la condición 1) de estacionariedad:
ACTT
1,200,000
1,160,000
1,120,000
1,080,000
1,040,000
1,000,000
960,000
1996 1998 2000 2002 2004 2006 2008 2010
La serie mensual (AERLINE) número de pasajeros en avión en vuelos internacionales

tiene un comportamiento estacional, en los meses de verano son mayores que en los meses
de invierno ⇒ el valor medio de la variable es distinto dependiendo de la época de año en
que se observe dicha variable ⇒ no se cumple la condición 1) de estacionariedad. Además,
hay una cierta tendencia creciente. Por otro lado, la variabilidad aumenta con la tendencia
⇒ tampoco se cumple la condición 2) de estacionariedad
AERLINE
20
16
12
0
60 62 64 66 68 70 72 74 76 78
9.3.- Función de Autocorrelación y autocorrelación parcial
Para definir estas funciones comenzamos por definir las autocovarianzas γ k obtenidas para
los distintos valores de k:
γ k = Cov (Yt , Yt + k ) = E (Yt − E (Yt ))(Yt + k − E (Yt + k ))
γ k = Cov (Yt , Yt + k ) = Cov (Yt + k , Yt ) = Cov (Yt , Yt − k ) = γ − k ∀ k = 0, ± 1, ± 2, L
dado que γ k = γ −k solo se definen para los positivos.
Si el proceso es estacionario solo depende de la distancia entre t y t+k.
27
Las covarianzas miden la relación entre 2 variables, pero como son medidas absolutas no
podemos saber si la relación es mucha o poca porque depende de las unidades de medida y
además no está acotada. Por eso, en lugar de autocovarianzas vamos a trabajar con las
correlaciones que miden lo mismo pero en términos relativos y están acotadas.
Función de autocorrelación teórica: FAC o FAS
También denominada función de autocorrelación simple, está formada por los valores que
toman los distintos coeficientes de autocorrelación ρ k . Estos coeficientes miden el grado
de correlación que existe entre las distintas observaciones de una variable. Definimos el
coeficiente de autocorrelación de orden 1:
Cov (Yt , Yt +1 )
ρ1 =
Var (Yt ) Var (Yt +1 )
si el proceso es estacionario: Var (Yt ) = Var (Yt +1 ) = γ o
Cov(Yt , Yt +1 ) γ 1
Por tanto ρ1 = =
Var (Yt ) γo
Cov(Yt , Yt + k ) γ k
Para cualquier retardo s: ρ k = = ∀ k = ±1, ± 2..... ρo = 1
Var (Yt ) γo
Al igual que en la función de autocovarianzas : ρ k = ρ −k y, por otro lado, ρ k ≤ 1 .
La condición de ergodicidad también se puede expresar en función de los coeficientes de
autocorrelación como: lim k →∞ ρ k = 0
Al conjunto de valores que toma ρ k se llama FAC y a su representación gráfica se llama

Correlograma
La FAC contiene toda la información necesaria para caracterizar el proceso, dado que en
función de los valores que tomen los ρ k tendremos distintos procesos estacionarios.
De esa forma, una vez tengamos caracterizados varios procesos teóricos, analizaremos la
serie en estudio para ver cuál es el proceso estacionario que sigue dicha serie.
Un problema de la FAC es que existen diversos procesos con FAC muy similar. Es decir
que cuando estimamos la FAC de una serie, esta FAC se puede parecer a varios procesos
teóricos, en cuyo caso nos será muy difícil tomar una decisión. Cuando la identificación no
es fácil, utilizaremos otro elemento de identificación de los procesos estacionarios que es la
FACP.
Función de Autocorrelación Parcial Teórica FACP
Está formada por los distintos valores que toman los coeficientes de autocorrelación
parcial. Estos coeficientes miden la correlación existente entre dos observaciones
cualesquiera de la variable, una vez que hemos eliminado el efecto que sobre éstas tienen
las observaciones intermedias. Así, el coeficiente de autocorrelación parcial entre
Yt e Yt −k medirá la correlación entre Yt e Yt −k , una vez eliminada la influencia que
sobre ellas tienen Yt −1 L Yt −k +1 . Mide, en realidad, la correlación pura que existe entre
ellas: φ kk = corr (Yt Yt −k | Yt −1 , LYt −k +1 )
28
Por ejemplo, si tenemos dos variables Y1 e Y2 que presentan una correlación muy alta :
rY1Y2 = 0.9 pueden ser debido a:
1) Que efectivamente estén muy correlacionadas.
2) Que estén relacionadas porque hay otras variables que influyen en ellas y esto
hace que el coeficiente de correlación sea muy alto si antes no hemos eliminado
el efecto que esas variables tienen sobre ellas
Hay varios métodos para calcular estos coeficientes de autocorrelación parcial:
R
1) Haciendo las regresiones de : Yt → Yt −1 , LYt −k +1
R
Yt −k → Yt −1 , LYt −k +1
y calculando el coeficiente de correlación lineal entre los residuos de esas regresiones.
Rk*
2) A partir de la matriz de correlaciones con la ecuación: φ kk = donde definimos
Rk
 1 ρ1 ρ2 L ρ T −1 
 
 ρ1 1 ρ1 L ρT −2 
la matriz de correlaciones como: R =  ρ 2 ρ1 1 L ρ T −3 
 
 L L L L L 
ρ ρ T −2 ρ T −3 L 1 
 T −1
siendo Rk la matriz de correlaciones de orden kxk y Rk* la matriz anterior donde se
 ρ1 
 
 ρ2 
sustituye la última columna por el vector   .
M
 
ρ 
 k
1 ρ1
ρ1 ρ 2 ρ 2 − ρ12
Así, φ11 = ρ1 , φ 22 = = y así sucesivamente los distintos φ kk
1 ρ1 1 − ρ12
ρ1 1
3) Se puede demostrar que el coeficiente de autocorrelación parcial de orden k
coincide con el parámetro φ k en la regresión Yt = φ1Yt −1 + φ 2 Yt − 2 + L + φ k Yt −k + ε t ,
es decir el último coeficiente en la regresión. De tal forma que para cada coeficiente
habría que hacer una regresión distinta:
φ11 = ρ1
φ 22 → Yt = φ1Yt −1 + φ 2 Yt − 2 + ε t φ22 = φ2
φ33 → Yt = φ1Yt −1 + φ 2 Yt −2 + φ 3 Yt −3 + ε t φ33 = φ3
............................................................................
esto es debido a que φ 3 en la última regresión mide el efecto de la variable Yt-3 sobre Yt
eliminado el efecto de Yt-1 e Yt-2 (ceteris paribus).
29
30
Tema 10.-Modelos lineales de series temporales

En este tema introducimos una familia de procesos estacionarios lineales, denominados
modelos ARMA, que sirven para representar la dependencia temporal de series
estacionarias, es decir, de series que ya no tienen tendencia ni estacionalidad. En este
contexto, parece razonable pensar que la “historia” de una variable contiene alguna
información sobre su presente y su futuro, es decir, que el presente depende de alguna
forma de su pasado. Los modelos ARMA tratan de modelizar esa dependencia (lineal). En
este tema estudiaremos los distintos modelos ARMA y en concreto sus funciones de
autocorrelación, para poder ver cuál de ellas se “aproxima más” al correlograma que
nosotros tenemos en la serie concreta que analizamos. En cualquier caso, debemos tener
siempre presente que los modelos son aproximaciones a la realidad y no una representación
“exacta” de las propiedades de nuestros datos.
10.1.1.-Ruido blanco
Un proceso aleatorio es ruido blanco si :
E (ε t ) = 0 ∀t
( )
Var (ε t ) = E (ε t − E (ε t ) )2 = E ε t2 = σ ε2 → cte
( ) [ (
Cov ε i ,ε j = E (ε i − E (ε i )) ε j − E ε j ( ))] = E (ε i ε j ) = 0 ∀i ≠ j
Una serie estacionaria es ruido blanco si : Yt . = ε t

FAC de un proceso que sigue un ruido blanco:
γ k Cov(Yt Yt −k )
Si un proceso es estacionario: ρ k = = → FAC
γo Var (Yt )
E (Yt ) = E (ε t ) = 0 ∀t
( ) ( )
γ o = Var (Yt ) = E Yt2 = E ε t2 = σ ε2 → cte
( )
γ 1 = Cov(Yt , Yt −1 ) = [(Yt − E (Yt ))(Yt −1 − E (Yt −1 ))] = E Yt Yt −1 = E (ε t ε t −1 ) = 0
( )
Por
γ 2 = Cov(Yt , Yt −2 ) = [(Yt − E (Yt ))(Yt −2 − E (Yt −2 ))] = E Yt Yt −2 = E (ε t ε t −2 ) = 0
....................................................................................
( )
γ k = Cov(Yt , Yt −k ) = E Yt Yt −k = E (ε t ε t −k ) = 0
tanto: ρ o = 1
γ1 0
ρ1 = = 2 =0
γ o σε
γ2 0
ρ2 = = 2 =0
γ o σε
.............................
γk 0
ρk = = 2 =0
γo σε
Es decir, la FAC de un ruido blanco es: ρ k = 0 ∀k ≠ 0
31
La FACP también es cero φ kk = 0

Si la serie se comporta como un ruido blanco con media cte. pero distinta de cero:
Yt = K + ε t
E (Yt ) = E (K ) + E (ε t ) = K ∀t
γ o = Var (Yt ) = E (Yt − K ) = E (ε t2 ) = σ ε2 → cte
2
γ 1 = Cov (Yt , Yt −1 ) = [(Yt − E (Yt ))(Yt −1 − E (Yt −1 ))] = E (ε t ε t −1 ) = 0

....................................................................................
γ k = Cov (Yt , Yt −k ) = E (ε t ε t − k ) = 0
Por tanto la FAC sigue siendo:
γk 0
ρk = = 2 =0
γo σε
y de igual forma para la FACP
10.1.2.- Modelos Autorregresivos AR(p)

En este tipo de modelos se plantea que la variable en t es una combinación de sus valores
retardados (su historia) más un ruido blanco, de la forma:
AR ( p ) → Yt = φ1Yt −1 + φ 2Yt − 2 + .......... . + φ pYt − p + ε t ⇒ Φ p (L )Yt = ε t
El ruido ε t representa la parte desconocida en t y es la nueva información que se añade al

proceso en cada instante y se denomina innovación. Dando valores a p definimos varios
procesos AR.
PROCESOS AR(1) : Yt = φYt −1 + ε t ⇒ (1 − φL )Yt = ε t
Propiedades:
1.- Media marginal o incondicional: tomamos esperanzas en ambos lados de la ecuación:
E (Yt ) = φ E (Yt −1 ) + E (ε t )
1424 3 123
no lo conocemos 0
En definitiva, la función a estudiar es una función de ella misma, lo que dificulta su

estudio.
Suponiendo que un proceso AR(1) es estacionario: E (Yt ) = E (Yt −1 ) = µ
E (Yt ) = φ E (Yt −1 ) + E (ε t ) ⇒ µ =φ µ
123 1
424 3 123
µ µ 0
Así que, salvo que φ = 1 , se cumple que µ = 0 , por tanto E (Yt ) = 0
Si lo planteamos con término constante: Yt = c + φYt −1 + ε t [1]

⇒ µ = c + φ µ ⇒ µ = E (Yt ) =
c
E (Yt ) = c + φ E (Yt −1 ) + E (ε t )
123 1
424 3 123 1−φ
µ µ 0
32
Por lo tanto, la serie oscila alrededor de un nivel medio constante, µ. Teniendo en cuenta
que c=µ(1–φ), sustituimos este valor en (1) y podemos trabajar con una representación
equivalente del modelo en desviaciones respecto a la media, dada por:
Yt − µ = φ (Yt −1 − µ ) + ε t [2]
2.- Varianza marginal o incondicional:
Calculamos la varianza9: γ o = E (Yt ) puesto que E (Yt ) = 0

2
γ o = Var (Yt ) = σ ε2 dado que E (Yt −1ε t ) = 0

1
1−φ2
Sustituyendo Yt-1, Yt-2…. Podemos expresar Yt como una función de los ruidos pasados,
es decir como un MA(∞):
Yt = φ (φYt − 2 + ε t −1 ) + ε t = φ 2 (φYt −3 + ε t − 2 ) + φε t −1 + ε t = ε t + φε t −1 + φ 2ε t − 2 + φ 3ε t −3 + .......
( )
E (Yt −1ε t ) = E ε t −1 + φε t − 2 + φ 2ε t −3 + φ 3ε t − 4 + ....... ε t = 0
Si φ es igual a 1 la varianza sería infinita , en ese caso estaríamos en un modelo no
estacionario denominado paseo aleatorio que veremos más adelante. Por otro lado, φ 2 no
puede ser mayor que 1 porque tendríamos una varianza negativa, por tanto si el proceso
AR(1) es estacionario φ 2 < 1 ⇒ φ < 1
3.- Autocorrelaciones: calculamos la función de autocorrelación y autocorrelación parcial:
Calculamos la covarianzas multiplicando el modelo por Yt − k para todas:
γ k = Cov (Yt , Yt − k ) = φγ k −1 = φ k γ o ∀ k = ±1, ± 2,......
El proceso será estacionario, solamente, si φ < 1 . La condición de estacionariedad también

se suele expresar de la siguiente forma:
(1 − φ L )Yt = ε t Yt =
1
ε
(1 − φ L ) t
Se dice que un proceso es estacionario si las raíces del polinomio en L: 1 − φ L = 0 caen
1
fuera del círculo unitario. Es decir, la raíz en módulo sea >1, ya que L = por tanto si
φ
φ < 1 ⇒ L > 1 . Condición necesaria y suficiente.
9
Se podría calcular igual en la ecuación (2) dando los mismo resultados
33
La FAC:


k = 0 ρo = 1
γk  γ 1 φγ o
ρk = = k = 1 ρ1 = = =φ
γo  γo γo
 γ
∀k ρk = k = φ k
 γo
Si el proceso es estacionario, como φ < 1 la FAC va decreciendo, es decir, la correlación

con el pasado cada vez es menor. En definitiva, la FAC es decreciente de forma
exponencial.
Por otro lado, la FAC sigue a su vez el mismo esquema AR(1) ya que : ρ k = φ ρ k −1 .
Más adelante veremos que cualquier proceso AR tiene una FAC similar a la del AR(1) por
tanto, al analizar una FAC de una serie podemos determinar si es un AR o un MA pero no
podremos identificar que orden sigue el AR. En ese caso, es necesario calcular la FACP.
FACP:
k = 1 φ11 = ρ1 = φ
 ρ − ρ2 φ2 −φ2
φ kk = k = 2 φ 22 = 2 21 = =0
 1 − ρ 1 1 − φ 2
 ∀ k φ kk = 0
En un proceso AR(1) como φ < 1 la FAC teórica decrece (bien en forma regular, bien
alternando valores positivos y negativos) y la FACP presenta un solo coeficiente distinto
de cero (pudiendo ser positivo o negativo)
Características de un AR(1):
1) Es un proceso estacionario siempre que φ < 1 o lo que es lo mismo que la raíz
del polinomio en L sea en módulo mayor que 1.
2) Su función de autocorrelación es decreciente exponencialmente
3) Tiene memoria infinita aunque va decreciendo
4) La FACP se anula para k>1, es decir, solo tiene el primer coeficiente distinto de
cero
5) Siempre es invertible ya que se puede expresar como un MA(∞), es decir,
existe un proceso MA(∞) invertible que se corresponde con un AR(1) estacionario.
34
PROCESOS AR(2)
Yt = φ1Yt −1 + φ2 Yt − 2 + ε t ( )
⇒ 1 − φ1 L − φ2 L2 Yt = ε t siendo ε t un ruido blanco
Al igual que en el caso anterior, veamos las condiciones para que el proceso sea
estacionario partiendo del supuesto de que lo es calculando los momentos:
1.-Media:
• E (Yt ) = φ1 E (Yt −1 ) + φ2 E (Yt − 2 ) + E (ε t )
123
0
suponemos que es estacionario: E (Yt ) = E (Yt −1 ) = ..... = µ
µ = 0 salvo que 1 − φ1 − φ2 = 0 lo cual veremos que no puede ser si el proceso AR(2) es

estacionario.
2.- Autocovarianzas y autocorrelaciones:
YtYt −1 = φ1Yt 2−1 + φ2Yt − 2Yt −1 + ε tYt −1
123 1
( )
E (Yt Yt −1 ) = φ1 E Yt −1 + φ 2 E (Yt − 2Yt −1 ) + E (ε t Yt −1 ) ⇒ γ 1 = φ1γ o + φ2γ 1 ⇒
424 3
2
14243 1 424 3
γ1 γo γ1 0
φ1
γ1 = γo
1 − φ2
De igual forma: γ 2 = φ1γ 1 + φ2γ o
En general: γ k = φ1γ k −1 + φ 2 γ k −2 esquema autorregresivo
Calculamos la FAC
k = 0 ρo = 1
 γ φ
k = 1 ρ1 = 1 = 1
 γ o 1 − φ2
γ  φ γ +φ γ φ
ρ k = k = k = 2 ρ 2 = 1 1 2 o = φ1 1 + φ 2
γo  γo 1 − φ2
k = 3 ρ 3 = φ1 ρ 2 + φ 2 ρ1
 φ1γ k −1 + φ 2 γ k −2
 ∀k ρk = = φ1 ρ k −1 + φ 2 ρ k −2
 γo
A las ecuaciones derivadas de esta igualdad para los distintos valores de k se les llama las
ecuaciones de Yule-Walker.
Por tanto la FAC de un AR(2) sigue también un esquema AR(2)
3.-Varianza:
σ ε2 σ ε2 (1 − φ 2 )
Donde la varianza es: γ o = = al sustituir ρ1
1 − φ1 ρ1 − φ 2 ρ 2 (1 + φ 2 )(1 − φ1 − φ 2 )(1 + φ1 − φ 2 )
y ρ 2 por sus valores. Por tanto, para que la varianza sea finita y positiva se tiene que
35
cumplir: φ2 < 1 , φ2 − φ1 < 1 , φ1 + φ2 < 1 . Estas son las condiciones de

estacionariedad.
Pero estas condiciones también se pueden expresar como: Un proceso AR(2) será
estacionario cuando las raíces del polinomio en L caigan fuera del círculo unitario. Es decir,
la condición de estacionariedad implica que las raíces del polinomio en L :
1 − φ1 L − φ 2 L = 0 sean >1.
2
El correlograma de la FAC de un proceso AR(2) decrece de forma exponencial o de forma

sinusoidal si las raíces son complejas.
FACP:
 φ1
 k =1 φ11 = ρ1 =
1 − φ2

 φ12 φ12
+ φ2 −
 ρ − ρ2 1 − φ2 (1 − φ 2 )2
φ kk =  k = 2 φ 22 = 2 21 = = φ2
 1 − ρ1 φ12
1−
 (1 − φ 2 )2
 k =3 φ33 = 0

∀ k > 2 φ kk = 0
Características de un AR(2):
1) Es un proceso estacionario siempre que la raíces del polinomio en L sean, en
módulo, mayores que 1.
2) Su función de autocorrelación es decreciente exponencialmente bien continua o
alternando valores positivos y negativos si las raíces son reales, o bien mediante ondas
sinusoidales decrecientes si las raíces son complejas.
4) La FACP se anula para k>2, es decir, solo tiene los dos primeros coeficientes
distintos de cero
5) Siempre es invertible ya que se puede expresar como un MA(∞), es decir,
existe un proceso MA(∞) invertible que se corresponde con un AR(2) estacionario.
Cuando el orden del proceso es >1 o 2 deducir la FAC a través de las expresiones anteriores
suele ser muy engorroso, en este caso es más sencillo deducir los distintos coeficientes a
través de las denominadas ecuaciones de Yule –Walker de la forma:
Yt − φ1Yt −1 − φ2 Yt − 2 = ε t
Si se multiplican los dos lados de la igualdad por Yt-k , se aplican Esperanzas matemáticas y
se dividen ambos lados entre la Var(Yt) que se supone finita, se da lugar a:
ρ k − φ1 ρ k −1 − φ 2 ρ k −2 = 0 que al sustituir k obtenemos un sistema de ecuaciones que
permiten determinar los parámetros.
En general, se demuestra que en todos los proceso AR, la FAC decrece siempre y la FACP
presenta tantos coeficientes de autocorrelación parcial distintos de cero como el orden del
proceso. Así, un AR(2) presentará dos coeficientes de autocorrelación parcial distintos de
cero y el resto serán iguales a cero. Además los coeficientes de autocorrelación parcial de
36
un proceso AR coinciden, a nivel teórico, con el último coeficiente de un modelo AR de

orden igual al orden del coeficiente de autocorrelación parcial:
AR(1) → φ11
AR(2 ) → φ1 φ 2 : φ 22 = φ 2
AR(3) → φ1φ 2φ3 : φ33 = φ3
……………………
Correlogramas de un AR(1) y un AR(2):
Características de un AR(p):
1) Es un proceso estacionario siempre que la raíces del polinomio en L sean, en
2) Su función de autocorrelación es decreciente exponencialmente bien continua o
alternando valores positivos y negativos si las raíces son reales, o bien mediante ondas
sinusoidales decrecientes si las raíces son complejas.
4) La FACP se anula para k>p.
5) Siempre es invertible
37
10.1.3.- Modelos de medias móviles (MA)

Los procesos AR que acabamos de ver se caracterizan porque el valor actual de la serie está
correlacionado linealmente con todos sus valores anteriores, aunque esa correlación va
decreciendo con el tiempo. En ese sentido, decimos que los AR tienen una “memoria
relativamente larga”. Por tanto, no serán adecuados para series cuyos valores actuales sólo
estén correlacionados con lo ocurrido en unos pocos periodos anteriores. Para este tipo de
series con “memoria más corta” son más adecuados los modelos de Medias Móviles,
denominados MA (Moving Average).
Un proceso de medias móviles de orden q MA(q) se define:
Yt = ε t − θ1 ε t −1 − θ 2ε t − 2 ............ − θ q ε t − q = ε t − θ1 L ε t − θ 2 L2ε t ........θ q Lqε t =
( )
= 1 − θ1 L − θ 2 L2 − .............. − θ q Lq ε t = Θ q ( L )ε t
Dando valores a q se definen distintos procesos

PROCESOS MA(1) :
Yt = ε t − θ ε t −1 = (1 − θ L )ε t siendo ε t un ruido blanco
* E(Yt ) = 0
(
* γ o = Var (Yt ) = σ ε2 1 + θ 2 )
* γ 1 = Cov(Yt , Yt −1 ) = −θσ ε2
* γ 2 = Cov(Yt .Yt −2 ) = 0
* γ k = Cov(Yt , Yt − k ) = 0 ∀ k = ± 2, ± 3.....
Siempre es estacionario porque su media, varianza y covarianzas no dependen del tiempo
La FAC vendrá dada por:


 k =0 ρo = 1
γk  γ1 θ
ρk = =  k =1 ρ1 = =−
γo  γo 1+θ 2
 γ
∀ k > 1 ρk = k = 0
 γo
FACP
 θ
k =1 φ11 = ρ 1 = −
 1+θ 2
φ kk
 ρ −ρ
=  k = 2 φ 22 = 2 21 = −
2
θ 2 1−θ 2 ( )
 1 − ρ1 1−θ 6 ( )

φ kk = −
θ k 1−θ 2 ( )
∀ k (
1 − θ 2 (k +1) )

38
En un proceso MA(1) la FAC tendrá sólo un coeficiente de autocorrelación distinto de cero

mientras que será la FACP la que irá decreciendo hacia cero. Se dice que un proceso MA(1)
sólo tiene memoria de un periodo.
Características de un MA(1):
1) Es un proceso estacionario
2) La FAC se anula para retardos mayores que 1, esto implica que tiene memoria
de 1 período, sólo recuerda el período anterior pero bruscamente se olvida de todo lo
anterior.
1 1
3) En un MA(1) necesariamente se cumple la restricción: − ≤ ρ1 ≤ dado
2 2
que:
1
=
(1 + θ ) = (1 + θ
2 2 4
+ 2θ 2 ) = (1 − θ ) 2 2
+ 4 ≥ 4 ⇒ ρ12 ≤
1
⇒
ρ 1
2
θ 2
θ 2
θ 2
4
1 1
− ≤ ρ1 ≤
2 2
4) La FACP no se anula, tenderá hacia 0, con todos los valores negativos si θ > 0 y
alternando de signo si θ < 0
5) Condición de invertibilidad. El proceso definido anteriormente, sin ningún tipo
de restricción sobre θ , plantea un problema de identificación. Es decir, supongamos el
1
siguiente proceso MA(1) : Yt = ε t − ε t −1
θ
1 1
−
θ θ θ
Donde ρ1 = =− =− y ρ k = 0, ∀ k > 1
1
2
θ +1
2
1+θ 2
1+  
θ  θ2
Por lo tanto tenemos un proceso distinto (con distinto parámetro) pero con la misma FAC.
Esto implica que los MA(1) tienen un problema de identificación.
De esta forma, cuando una serie tenga solo el coeficiente de autocorrelación de orden 1
distinto de cero, no sabremos a cuál de los dos procesos anteriores se debe asociar. Esto es
muy importante a la hora de hacer una predicción porque no será la misma con un proceso
que con el otro.
Solución: elegir aquel proceso que cumpla la propiedad de la invertibilidad. Un proceso es
invertible si se puede escribir como AR(∞): Yt = φ1 Yt −1 + φ2 Yt − 2 + ...... + ε t
Una forma sencilla de transformar un MA(1) en un AR(∞), especialmente cuando el orden
es mayor que 1 es utilizando el operador retardo:
Yt = ε t − θ ε t −1 = ε t − θ L ε t = (1 − θ L )ε t Despejando ε t
39
1 1
εt = Yt donde es la suma de una progresión geométrica infinita de
1 −θ L 1−θ L
razón θ L . Esta progresión ilimitada converge a la suma cuando la razón es < 1. Por tanto,
para que esa suma converja, es necesario que θ < 1. De esta forma:
ε t = (1 + θ L + θ 2 L2 + θ 3 L3 + ..........)Yt = Yt + θ Yt −1 + θ 2Yt − 2 + ........

Despejando: Yt = −θ Yt −1 − θ 2Yt − 2 − ....... + ε t → AR(∞).
Si θ < 1 quiere decir que la influencia de las observaciones pasadas es cada vez menor
a medida que nos alejamos en el tiempo, es decir, que el pasado cercano es más importante
que el pasado más alejado, lo cual es razonable, por eso nos interesan especialmente las
series que cumplen esta condición.
Decir que θ < 1 es equivalente a decir que las raíces de la ecuación en L: 1 − θ L = 0
son, en módulo, mayores que 1.
1
1−θ L = 0 ⇒ θ L = 1 ⇒ L = tal que si θ <1  L1  = 1/θ> 1
θ
donde L1 es la solución de la ecuación 1 − θ L = 0 .
PROCESO MA(2):
(
Yt = ε t − θ 1 ε t −1 − θ 2 ε t − 2 = 1 − θ 1 L − θ 2 L2 ε t ) siendo ε t un ruido blanco.
* E(Yt ) = 0
(
* γ o = Var (Yt ) = σ ε2 1 + θ 1 + θ 22
2
)
* γ 1 = Cov(Yt , Yt −1 ) = σ ε2 (− θ1 + θ1θ 2 )
* γ 2 = Cov(Yt , Yt − 2 ) = −θ 2σ ε2
...........................................................
* γ k = Cov (Yt , Yt − k ) = 0 ∀ k = , ± 3 ± 4....
Siempre es estacionario porque su media, varianza y covarianzas no dependen del tiempo
La FAC vendrá dada por:


k = 0 ρo = 1
γ  γ θ +θ θ
ρk = k =  k = 1 ρ1 = 1 = − 1 2 1 2 2
γo  γo 1 + θ1 + θ 2
 γ2 θ2
k =2 ρ2 = =−
 γo 1 + θ12 + θ 22
En general ρ k = 0 ∀k ≥3
La FACP al igual que en el MA(1) se demuestra que es decreciente y todos sus
coeficientes distintos de cero.
40
Condición de invertibilidad: Se puede demostrar que existen 4 combinaciones de

θ1 y θ 2 que proporcionan la misma FAC, por tanto, al igual que en el MA(1) tenemos
un problema de identificación. De entre los 4 posibles modelos (derivados de las 4
combinaciones) nos quedaremos con aquella combinación de los parámetros que hacen que
el proceso sea invertible (es decir que se pueda expresar como un AR).
Para que el proceso sea invertible se requiere que las raíces del polinomio en L
1 − θ1L − θ 2 L2 = 0 caigan fuera del círculo unitario, es decir, que dichas raíces sean, en
Este es un polinomio de 2º grado que tendrá 2 raíces que, al ser un polinomio de 2º grado
podrán ser reales o complejas. Llamamos L1 y L2 a dichas raíces:
En ese caso, un proceso MA(2) será invertible si se puede expresar como un AR(∞) y eso
sólo es posible si L1  > 1 y L2  > 1
Características de un MA(2)
1) Siempre es un proceso estacionario
2) La FAC se anula para retardos mayores que 2, tiene por tanto una memoria de 2
periodos.
3)La FACP no se anula, tenderá hacia 0 de forma amorgiguada si las raíces son
reales y en forma sinusoidal si son complejas.
4) Es invertible si las raíces de la ecuación en L tienen módulo mayor que 1. Esto
implica una serie de restricciones sobre los parámetros, en concreto
θ1 + θ 2 < 1 , θ 2 − θ1 < 1 , θ 2 < 1 .
41
Correlogramas de los procesos MA(1) y MA(2)
Características de un MA(q)
Yt = ε t − θ1 ε t −1 − θ 2ε t − 2 ............ − θ q ε t − q = ε t − θ1 L ε t − θ 2 L2ε t ........θ q Lqε t =
( )
= 1 − θ1 L − θ 2 L2 − .............. − θ q Lq ε t = Θq (L )ε t
1) Siempre es un proceso estacionario

2) La FAC se anula para retardos mayores que q, tiene por tanto una memoria de q
periodos.
3)La FACP no se anula, tenderá hacia 0 .
4) Es invertible si las raíces de la ecuación en L tienen módulo mayor que 1. Es
decir:
1 − θ1L − θ 2 L2 − ......... − θ q Lº = 0 donde L1 > 1 , L2 > 1 L Lq > 1 .
Esto implica , a su vez, una serie de restricciones sobre los parámetros. Una condición
necesaria, aunque no suficiente, para que el proceso MA de cualquier orden sea invertible
q
es que: ∑θ i < 1 .
i =1
42
10.1.4.- Modelos ARMA(p,q)

Son una generalización de los procesos AR y MA:
Yt = φ1Yt −1 + φ2Yt − 2 + ........... + φ pYt − p + ε t − θ1ε t −1 − .......... − θ qε t − q
Estos procesos serán estacionarios cuando lo sea su parte AR y serán invertibles cuando lo
sea su parte MA. Al igual que estos procesos se caracterizan por la FAC y la FACP, pero
en la práctica son los más difíciles de identificar. Normalmente, determinar el orden de p y
q no es fácil. Sin embargo, frecuentemente solo encontramos ARMA de orden pequeño.
En los ARMA(p,q) , la FAC se comporta como la de un AR(p) para valores de s>q .
Por ejemplo, en un ARMA(1,1) : Yt = φ Yt −1 + ε t − θ ε t −1 la FAC tiene el primer valor
distinto de cero (correspondiente al MA(1)) y a partir del segundo coeficiente la FAC
decrece lentamente (como en un AR(1)). Esto es debido a que en un ARMA(1,1), la media
móvil afecta al primer periodo pero no a los demás. Respecto a la FACP ésta se comporta
como la de un MA(q) para q > p.
Por tanto, son procesos más difíciles de identificar y la manera de conocer qué orden sigue
el proceso es ir probando distintos órdenes ARMA(1,1), ARMA(1,2) ….. y analizando si
los residuos son ruido blanco.
Correlogramas de un proceso ARMA(1,1)
43
El siguiente cuadro resume las principales características de los modelos considerados:

Momentos marginales Momentos condicionales FAC FACP
Media Varianza Media* Varianza
AR(1) c σ ε2 φ yt-1 σ ε2 Decrecimiento 0 para k>1

exponencial
1−φ 1−φ 2
AR(2) c (1−φ2 )σε2 φ1 yt-1+φ2 yt-2 σ ε2 Decrecimiento 0 para k>2

exponencial
1−φ1 −φ2
[
(1+φ2 ) (1−φ2 )2 −φ12 ]
MA(1) c σ ε2 (1 + θ 2 ) θ at-1 σ ε2 0 para k>1 Decrecimiento
exponencial
MA(2) c 2 2 2
σ ε (1 + θ1 + θ 2 ) θ1εt-1+θ2εt-2 σ ε2 0 para k>2 Decrecimiento
exponencial
ARMA(1,1) c 1 + θ 2 + 2φθ φ yt-1+θ at-1 σ a2 Decrecimiento Decrecimiento

σ a2 exponencial exponencial
1−φ 1−φ2
* Suponiendo modelos sin término constante (c=0)
10.2 - Modelos lineales no estacionarios

Hemos visto cómo identificar modelos estacionarios, sin embargo la mayoría de las series
económicas no son estacionarias, es decir integradas bien porque presentan tendencia, bien
porque tengan un componente estacional (no estacionariedad en media) o bien porque la
varianza no es constante (no estacionariedad en varianza). Ahora bien, sencillas
transformaciones pueden convertir series no estacionarias en estacionarias, siendo estas
transformaciones un paso previo a cualquier análisis.
Formas de detectar si una serie es estacionaria:
Vamos a ver tres formas (aunque no son las únicas) de detectar si una serie es estacionaria:
• Analizando el gráfico de la serie
• Analizando la función de autocorrelación estimada
• Contraste de raíces unitarias
A) Mediante el gráfico de la serie

Si la serie tiene tendencia, la media de la serie no será constante y por tanto es no
estacionaria, pero con una transformación muy simple podemos transformarla en
estacionaria, por ejemplo tomando diferencias de primer orden:
Yt = β o + β1t
Yt −1 = β o + β 1 (t − 1)
wt = Yt − Yt −1 = β o + β1t − β o − β1 (t − 1) = β1 por tanto es constante
44
En este caso bastaría con trabajar con la serie en diferencias, y una vez obtenida la
predicción, deshacer la transformación.
Si la tendencia no fuese lineal, se tomaría diferencias de orden superior, por ejemplo de
segundo orden, etc.
Yt = β o + β 1t + β 2 t 2
wt = (1 − L ) Yt = Yt + Yt − 2 − 2Yt −1 = 2 β 2
2
Una forma de comprobar si la serie transformada es estacionaria consistiría en analizar el

gráfico de dicha serie y ver si sigue existiendo tendencia o se ha eliminado.
Por otro lado, si la serie no es estacionaria y al tomar primeras diferencias la serie resultante
sigue un proceso AR(1), la serie original seguirá un proceso ARIMA(1,1,0).
Si la serie tiene componente estacional la media tampoco es constante, en realidad
depende de donde se calcule la media y por tanto no es estacionaria. Para resolverlo
podemos:
→ desestacionalizar la serie
→ tomar diferencias estacionales wt = ∆ s Yt = Yt − Yt −4 si s = 4
Si la serie no tiene variabilidad constante es decir, aumenta o disminuye a lo largo del
tiempo, la serie será no estacionaria en varianza, es decir su varianza no será constante. En
este caso para convertirla se podría tomar logaritmos lo cual estabiliza la serie y trabajar
con la serie en logaritmos. Existe otro tipo de transformación que se denomina de Box-Cox.
 Yt λ − 1
Transformación de Box-Cox: Se define como: Yt (λ ) 
= λ λ≠0
ln Yt λ=0
B) Mediante la función de autocorrelación estimada FACE
Nos permite analizar si las covarianzas dependen o no del tiempo. La serie es estacionaria
si la FACE tiende a cero, en caso de que dicha función decrezca muy lentamente, eso es
indicio de que la serie no es estacionaria.
En el caso en el que la serie sea no estacionaria en media y en varianza, primero se toman
logaritmos y a continuación se toman diferencias de la serie en logaritmos, el orden es
debido, en primer lugar, a que no está definido el logaritmo de un número negativo y las
diferencias pueden darnos números negativos y, en segundo lugar, porque el ∆ ln Yt es de
gran interés en economía, se le denomina tasa de variación natural siendo una aproximación
a la tasa de variación relativa.
C) Raíces unitarias: el contraste de Dickey-Fuller

En ciertas series, analizando únicamente el gráfico de la serie y su correlograma, resulta
difícil decidir si estamos ante un proceso AR(1) estacionario con φ≈1 o ante un proceso no
estacionario con φ=1 (paseo aleatorio); véase el ejemplo de la página 31. Es por ello que en
la literatura econométrica se han propuesto varios contrastes para discernir entre estos dos
modelos. Uno de estos contrastes más populares es el contraste de Dickey-Fuller.
45
Empecemos por el caso más simple: una serie con media µ distinta de cero pero sin
tendencia ⇒ queremos decidir, para dicha serie, entre un proceso no estacionario I(1) y un
proceso AR(1) estacionario: Yt − µ = φ (Yt −1 − µ ) + ε t [2]
Este modelo AR(1), postulado como alternativa, también puede rescribirse de la forma:
Yt = c + φYt −1 + ε t donde c=µ(1-φ).
Las hipótesis que vamos a contrastar son:
Ho:φ=1 ⇒ raíz unitaria: proceso no estacionario I(1)
H1:φ<1 ⇒ proceso estacionario I(0).
Nótese que bajo Ho, la constante c se hace cero (c=0) y el modelo resultante es:
Yt = Yt −1 + ε t un paseo aleatorio sin deriva
Por problemas de estabilidad numérica, el contraste se plantea para las primeras diferencias,
es decir, para la serie ∆Yt, de modo que las hipótesis son:
Ho: ∆Yt = ε t ⇒ paseo aleatorio
H1: ∆Yt = c + δ Yt −1 + ε t ⇒ AR(1) estacionario
donde δ = φ − 1 . Lo que se contrasta entonces es
Ho: δ = 0 (⇒ φ = 1)
H1: δ < 0
El estadístico del contraste es el estadístico t habitual para la significación de un parámetro
en modelos de regresión, pero con dos matizaciones: (1) la hipótesis alternativa es
unilateral; (2) bajo la hipótesis nula la serie no es estacionaria y esto hace que la
distribución del estadístico t no sea la habitual ⇒ utilizar unas tablas específicas (Dickey-
Fuller con término constante). Si la serie Yt tuviera media cero, se utilizan otras tablas
(Dickey-Fuller sin constante). Muchos autores recomiendan incluir siempre el término
constante en este contraste.
En el contraste anterior, el modelo estacionario de referencia es un AR(1) y se contrasta si
existe una raíz unitaria en dicho proceso (φ=1). Este contraste puede generalizarse a
procesos AR de mayor orden, en cuyo caso contrastamos la presencia de una raíz unitaria
en el polinomio autorregresivo del modelo. El contraste se denomina entonces
p contraste de
Dickey-Fuller aumentado (ADF). El modelo sería: ∆Yt = c + δ Yt −1 + ∑ α i ∆Yt −i + ε t
i =1
El programa Eviews 6 tiene una opción que selecciona automáticamente la longitud del
retardo en base a los criterios de información (Akaike, Schwarz…)
Antes de plantear los modelos integrados vamos a definir una clase de modelos no
estacionarios denominados “camino aleatorio”.
46
10.2.1.- Camino aleatorio

También denominado “paseo aleatorio” o con terminología inglesa “random walk”, es en
realidad un proceso AR(1) con el coeficiente φ = 1 .
Yt = Yt −1 + ε t
Este proceso es no estacionario ya que la raíz del polinomio en L es igual a 1.
Yt − Yt −1 = ε t ⇒ (1 − L )Yt = εt
1− L = 0 ⇒ L =1
Por tanto, la varianza no es constante, ya que suponiendo que el proceso se inicia en un
pasado remoto, mediante sustituciones sucesivas, la variable Yt se pude expresar como:
∞
Yt = ∑ ε t − j
j =1
Propiedades:
E (Yt ) = 0
( )
Var Yt = E Yt ( )2 = E (Yt −1 + ε t )2 = E (Yt −1 )2 + E{
ε t + 2 E (Yt −1ε t ) = E (Yt −2 ) + 2σ = L E (Yt −2 ) + nσ = L
2
1424 3
2 2 2 2
σ2 0
donde n tiende a ∞, por tanto el proceso no es estacionario porque la varianza aumenta
indefinidamente con el desfase temporal. De manera análoga se obtendrían las
autocovarianzas y las autocorrelaciones, ambas dependerán del periodo t de referencia.
Sin embargo, si tomamos diferencias de primer orden en la serie:
Yt − Yt −1 = ∆Yt = wt = ε t el proceso resultante, wt es ruido blanco que siempre es
estacionario.
A este tipo de procesos no estacionarios pero fácilmente convertibles en estacionarios al
tomar diferencias, se les llama integrados, ya que se pueden obtener sumando, o lo que es
lo mismo integrando, el proceso estacionario:
Yt = wt + Yt −1 = wt + wt −1 + Yt − 2 = wt + wt −1 + wt − 2 + wt −3 + LL
Es por ello por lo que se dice que el camino aleatorio pertenece a la clase de modelos
integrados.
Veamos su comportamiento gráficamente:
Para ello nos generamos una serie a partir de la expresión: Yt = Yt −1 + ε t siendo Yt la
variable randomw y vemos su representación gráfica y su correlograma
47
RANDOMW
6
-2
-4
-6
-8
50 100 150 200 250 300
Como vemos es claramente no estacionaria que ratificamos con el test de Dickey-Fuller:
Null Hypothesis: RANDOMW has a unit root

Exogenous: Constant
Lag Length: 15 (Automatic based on SIC, MAXLAG=15)
t-Statistic Prob.*
Augmented Dickey-Fuller test statistic -2.042986 0.2684
Test critical values: 1% level -3.453234
5% level -2.871510
10% level -2.572154
Como se puede ver en este caso, va hacia arriba y hacia debajo de forma aleatoria sin que
exista una tendencia a regresar a su valor medio. Por otro lado la FACE decrece muy
lentamente y el contraste de D-F no rechaza la hipótesis nula de una raíz unitaria. Sin
embargo si transformamos la serie tomando diferencias de orden 1, la serie resultante ya es
estacionaria, su diferencia oscila al azar entorno a cero y el contraste de D-F lo ratifica. En
este caso se dice que la serie original es I(1).
DRANDOMW 6
4
4
3
2
2
1 0
0
-2
-1
-4
-2
-3 -6
-4 -8
50 100 150 200 250 300
-5
50 100 150 200 250 300
RANDOMW DRANDOMW
48
Null Hypothesis: D(RANDOMW) has a unit root

t-Statistic Prob.*
5% level -2.871546
10% level -2.572174
10.2.2.- Modelos integrados

Los modelos integrados son aquellos modelos no estacionarios que se pueden transformar
en estacionarios mediante la toma de diferencias de un determinado orden o lo que es lo
mismo, son aquellos que se pueden obtener mediante suma (o integración) de un proceso
estacionario. A estos modelos denotados como ARIMA (procesos autorregresivos
integrados de medias móviles) también se les llama modelos no estacionarios homogéneos.
De esta forma, si la serie estacionaria (wt), resultante después de d diferencias, sigue un
proceso ARMA(p,q), diremos que la serie original (Yt) es integrada de orden d I(d) y que
sigue un proceso ARIMA(p,d,q).
wt = ∆d Yt = (1 − L ) Yt
d
Así, se tendría que: si wt sigue un ARMA(p,q):
(1 − φ L − L φ L )w = (1 − θ L − L θ L )ε
1 p
p
t 1 q
q
t sustituyendo wt en esta expresión:
(1 − φ L − L φ
1 pL
p
)(1 − L ) Y = (1 − θ L − L θ L )ε
d
t 1 q
q
t
en forma compacta un proceso ARIMA(p,d,q) se puede expresar:

Φ p (L )(1 − L )d Yt = Θ q (L )ε t
10.2.3.- Modelos estacionales integrados

Como hemos visto, una posible causa de no estacionariedad es la componente estacional de
muchas series económicas de carácter mensual, trimestral, etc.(con periodicidad siempre
inferior al año). Por tanto, en la elaboración de modelos de series temporales se debe
considerar el factor estacional cuando los datos son de esta naturaleza.
Una forma de eliminar la componente estacional y convertirla por tanto en estacionaria, es
tomando diferencias estacionales. Así, si la serie es trimestral, se construiría la serie
wt = Yt − Yt −4 y de forma similar para cualquier otra periodicidad.
También es posible que haya que diferenciar más de una vez: ( )D

∆DsYt = 1 − Ls Yt = wt
donde s: período estacional y D: nº de veces que se diferencia.
La variable transformada (no estacional) wt se puede comportar como un ARMA(p,q) o un
ARIMA(p,d,q):
φ p (L ) wt = θ q (L )ε t wt → ARMA(p,q)
(1 − L )d φ p (L ) wt = θ q (L )ε t wt → ARIMA(p,d,q)
Se pueden plantear dos tipos de modelos estacionales: los puros y los multiplicativos donde
cada uno de ellos puede ser estacionario o no.
49
A) Modelos estacionales puros

Se caracterizan porque las observaciones correlacionadas son aquellas que distan entre si s
periodos o múltiplos de s, siendo s el periodo estacional (4 si los datos son trimestrales, 12
si son mensuales , etc.), por ejemplo las ventas de turrón. Un modelo estacional puro
estacionario se identifica mediante la FAC y la FACP. Dichas funciones son similares a las
obtenidas en los procesos no estacionales ARMA, con la salvedad de considerar solamente
los coeficientes correspondientes a los retardos s, 2s, 3s,........
Así, en un proceso estacional autorregresivo de 1er orden denotado como SAR(1) o bien
AR(1)s : Yt = ΦYt − s + ε t o en forma compacta: Φ Ls Yt = ε t ( )
se puede demostrar que aplicando los resultados obtenidos para un AR(1), la FAC es
 1 k =0

ρ k = Φρ k − j ∀ j=s
 0 en los demás casos

Es decir, se comporta como la de un AR(1) solamente en los coeficientes de correlación
correspondientes a los retardos estacionales.
De igual forma se podría generalizar para un proceso SAR(P) o AR(P)s. Al orden de los
procesos estacionales y a los parámetros se les identifica con la misma letra en mayúsculas
para diferenciarla de la parte no estacional.
Un proceso medias móviles estacional SMA(1) o MA(1)s se expresa como:
Yt = ε t − Θε t − s o en forma compacta: Yt = Θ(Ls )ε t La FAC vendrá dada por:
 1 k =0
 Θ
ρ k = − ∀ k=s
 1+ Θ
2
 0 en los demás casos

En general un SARMA(P,Q) o ARMA(P,Q)s vendrá dado por:
Yt − Φ 1Yt − s − Φ 2Yt − 2 s − L − Φ P Yt − Ps = ε t − Θ1ε t − s − Θ 2 ε t − 2 s − L − Θ Q ε t −Qs
utilizando el operador polinomial de retardos: ( ) ( )

Φ P Ls Yt = Θ Q Ls ε t
( ) (
Yt 1 − Φ 1 Ls − Φ 2 L2 s L − Φ P LPs = ε t 1 − Θ1 Ls − Θ 2 L2 s L − Θ Q LQs )
Al igual que los casos anteriores, la FAC y FACP se comporta como la de los ARMA(p,q)
pero solamente en los retardos s,2s,3s...
Si la serie tuviese un componente estacional no estacionario se eliminaría previamente
dicha componente no estacionaria tomando diferencias estacionales como ya hemos
comentado comportándose entonces como un modelo estacional puro. De esa forma un
modelo SARIMA(P,D,Q) será aquel que tomando diferencias estacionales de orden D se
comporta como un SARMA(P,Q).
B) Modelos estacionales multiplicativos
Frecuentemente se trabaja con series que no solo presentan problemas de correlación
estacional sino que además la serie puede presentar problemas de correlación no estacional,
es decir, una serie puede presentar correlación estacional combinada con otra de carácter
50
regular. Por ejemplo, supongamos la serie trimestralizada de Empleo en el sector “Servicios

destinados a la venta” de la EPA, si nos fijamos en esta serie veremos que todos los
trimestres de verano aumenta considerablemente, por lo tanto tiene un claro componente
estacional, ahora bien, el empleo correspondiente al trimestre de verano, no sólo está
correlacionado con el empleo del verano anterior, sino que seguramente, con el empleo en
la primavera de ese mismo año, es decir con el período anterior.
Pues bien, este problema se intenta recoger en los modelos denominados estacionales
multiplicativos o mixtos que se denotan como un ARMA(p,q) x SARMA(P,Q)
( )
φ (L ) Φ P Ls Yt = θ q (L ) Θ Q Ls ε t
suponiendo que es estacionario p
( )
De igual forma, si la serie fuese no estacionaria pero fuese un proceso integrado tal, que
tomando diferencias se convierte en estacionaria, se puede hablar de modelos estacionales
multiplicativos integrados denotándolos por: ARIMA(p,d,q) x SARIMA(P,D,Q)
( ) (
φ p (L ) Φ P Ls (1 − L )d 1 − Ls )
D
( )
Yt = θ q (L ) Θ Q Ls ε t
51
52
Tema11.- Metodología Box-Jenkins

Hasta ahora hemos visto las propiedades teóricas de los modelos ARMA. Ahora vamos a
ver cómo aplicar estos modelos a series reales. Para ello utilizamos la metodología
conocida como Box-Jenkins, para el análisis de series temporales univariantes, que consta
de tres etapas: identificación, estimación y diagnóstico o validación.
11.1.-Identificación de modelos ARIMA
En esta primera etapa se trata de identificar cuál es el modelo más apropiado para la serie
objeto de estudio. Esta identificación requiere:
• Identificar la estructura no estacionaria, si existe, y determinar la transformación
adecuada para conseguir una serie estacionaria. Para ello utilizaremos la representación
gráfica, el correlograma y el contraste de Dickey-Fuller
• Identificar la estructura estacionaria: es decir, determinar los órdenes p y q del
modelo (o los modelos) ARMA apropiado(s) para la transformación estacionaria. El
instrumento utilizado en esta etapa es el correlograma y las autocorrelaciones parciales de
la serie estacionaria. En esta etapa pueden identificarse varios modelos, los cuales serán
estimados en la etapa siguiente donde seleccionaremos entre ellos el mejor, con ciertos
criterios estadísticos que veremos más adelante.
Sin embargo para identificar la estructura estacionaria, en la práctica los coeficientes ρ k y
φ kk no se conocen por ser coeficientes teóricos de un proceso estocástico general, por lo
tanto es necesario calcular los coeficientes de autocorrelación y autocorrelación parcial
estimados a partir de una muestra de la variable Yt. La FACE estará formada por los
distintos coeficientes de autocorrelación estimados rk :
− Y )(Yt − k − Y )
T
∑ (Y t
rk = t = k +1
∑ (Y −Y )
T
2
t
t =1
donde rk es un estimador consistente de ρ k y por tanto, al ser un estimador es una variable

aleatoria que para nuestra muestra concreta toma un valor estimado.
Aunque el número de coeficientes estimados que podemos calcular es T-1, el problema
radica en que en el numerador vamos perdiendo observaciones a medida que s aumenta, por
ello no se calculan todos los coeficientes, normalmente se calculan los T/4 primeros
coeficientes. Por ese motivo se requieren series largas (al menos 50 observaciones).
La representación gráfica de estos coeficientes constituyen el correlograma estimado .
De igual forma se deducen los coeficientes de autocorrelación parcial estimados FACPE .
Una de las formas de deducir dichos coeficientes es a partir de la matriz de correlaciones
muestrales, siendo esta matriz:
 1 r1 L rT −1 
 
 r 1 L rT − 2 
R= 1
L L L L 
 
r rT − 2 L 1 
 T −1
53
Rk*
donde φˆkk =
Rk
El número de coeficientes de autocorrelación muestral y de autocorrelación parcial muestral
que se pueden calcular son T-1 independientemente del proceso, por lo tanto, el problema
que deberíamos plantearnos es como se contrasta la significación de los coeficientes, es
decir, que contraste nos permitirá establecer unas bandas de confianza por encima de las
cuales los coeficientes resultan estadísticamente significativos con una determinada
probabilidad.
Para hacer ese contraste partimos del hecho de que rs es una variable aleatoria y por tanto
como tal tendrá su distribución de probabilidad que estará centrado en ρ k por ser un buen
estimador de dicho parámetro, de tal forma que rk fluctuará alrededor de unas bandas
centradas en ρ k .
Para poder aceptar si, a la vista de una muestra concreta, podemos rechazar o no la
hipótesis de que ρ k =0, haremos un contraste de hipótesis. Para hacer estos contrastes
necesitamos un estadístico llamado pivote cuya distribución sea conocida bajo la hipótesis
nula Ho si es cierta. De esta forma, el espacio muestral quedará dividido en 2 partes: la
región crítica y la región de aceptación.
Si el estadístico pertenece a la región crítica rechazaremos la Ho.
Si el estadístico pertenece a la región de aceptación no rechazaremos la Ho.
Para ello fijamos un nivel de significación α (probabilidad de rechazar la Ho aunque sea
cierta) que deberá ser muy pequeño, normalmente asumimos un error del 5%, es decir
α=0.05
Se demuestra que para muestras grandes en los modelos MA(q) los rk procedentes de un
proceso ruido blanco se distribuyen asintóticamente como una normal: rs → N (0, var(rk )) ,
a
∀k > q bajo la hipótesis nula Ho.

Ho : ρk = 0 ∀k > q
k −1
1 
H1 : ρ k ≠ 0 siendo Var (rk ) = 1 + 2∑ ri 2 
T i =1 
Esto quiere decir que la distribución del pivote es conocida cuando T tiende a ∞, lo cual
implica que el contraste solo tiene validez aproximada cuando T es grande, de ahí que se
requiera valores de T>50.
Si tipificamos rk encontraremos un estadístico que se distribuye como una N(0,1):
rk
→
Ho
N (0,1)
Var (rk )
Las tablas estadísticas de la N(0,1) nos dan el valor crítico que permite separar la región
crítica de la región de aceptación, en definitiva me indica la probabilidad de que el valor
muestral del estadístico caiga dentro de la región de aceptación o de la región crítica
Los valores críticos para un α=5% es 1,96 de tal modo que la probabilidad de que el pivote
pertenezca a (-1,96, 1,96)=0,95. Si la Ho es cierta el valor muestral del estadístico debería
54
de estar dentro de la RA el 95% de las veces (y un 5% de las veces estará fuera, por tanto, si
la Ho es cierta nos equivocaremos el 5% de las veces.
 rk 
Pr − 1,96 ≤ ≤ 1,96 = 0,95
 Var (rk ) 
De esta forma se pueden construir unas bandas de confianza que nos marca un valor
mínimo que ha de ser superado para que un coeficiente sea estadísticamente significativo a
niveles habituales de confianza.
[ ]
Estas bandas vendrán dadas por : − 1,96 Var (rk ) , 1,96 Var (rk ) que variarán a medida
que cambien el orden del MA, aumentando a medida que aumentan los órdenes.
Por ejemplo, si queremos contrastar si es un MA(2) :
H o : ρ3 = ρ4 = L = 0
H1 : alguno distinto de 0
r3 a
 1
( (

→ N  0, 1 + 2 r12 + r22 
sin t . H o
))
 T 
r4 a
 1
( ( 
→ N  0, 1 + 2 r12 + r22 + r32 
sin t . H o
))
 T 
.......................................................
En el caso de modelos AR(p) la hipótesis a contrastar es:
H o : φ kk = 0 ∀ k>p
H 1 : φkk ≠ 0
En estos procesos se demuestra que los estimadores de dichos coeficientes φˆkk se

 1
distribuyen también como una normal φˆkk a
sin tót .
 → N  0,  ∀k > p
 T
φˆkk
o → N (0,1) .
a sin tót. H
Tipificando: 
1/ T
 r 
Bajo la hipótesis nula, si el esquema es un AR: Pr − 1,96 ≤ s ≤ 1,96 = 0,95
 1/ T 
[ ]
En este caso, las bandas vendrán dadas por : − 1,96 1 / T , 1,96 1 / T por lo que si el
valor muestral del estadístico no pertenece al intervalo rechazamos Ho pero si pertenece no
rechazamos dicha hipótesis.
Dado que la distribución es asintótica, al igual que en el caso del MA el contraste solo debe
realizarse si T es grande.
Con los procesos ARMA no se pueden hacer contrastes sino que hay que probar con
distintos órdenes de p y q y analizar los residuos.
55
Ejemplos de procesos AR(1):

Vamos a simular con el programa Eviews el siguiente proceso:
a) yt = 0.5 yt-1 + εt
Para ello hacemos lo siguiente:
(1) Creamos un fichero sin estructurar con 300 observaciones: File→New→ workfile
→Unstructured/Undate
(2) Generamos el error que supondremos sigue una distribución normal con el comando
nrnd (normal random). Hacemos por tanto: Genr error=nrnd. Si vemos el gráfico y el
correlograma de la serie veremos que tiene el aspecto esperado,: estacionaria, media 0,
varianza estable y está incorrelacionada ya que todas las correlaciones caen dentro de las
bandas de confianza
(3) Vamos a generar la serie de la ecuación anterior a partir de los T valores del ruido
blanco. Para ello necesitamos un valor inicial de Y para obtener las distintas
observaciones de Y desde 2 a T. Tomamos como valor inicial Y1=0 y hacemos lo siguiente:
Genr Y=0 y a continuación: Genr Y=0.5*Y(-1)+εt (para sample 2 300)
4
v
3
-1
-2
-3
-4
50 100 150 200 250 300
b) yt = 5 + 0.2 yt-1 + εt
10
3
25 50 75 100 125 150 175 200
AR(1) series: y(t)=5+0.2*y(t-1)+a(t)
56
c) yt = 0.8 yt-1 + εt
6
-2
-4
-6
50 100 150 200 250 300
d) yt = –0.8 yt-1 + εt
6
-2
-4
-6
50 100 150 200 250 300
e) yt = 0.95 yt-1 + εt
10
-2
-4
-6
50 100 150 200 250 300
57
Los ejemplos anteriores ilustran cómo el parámetro φ está relacionado con la memoria de la
serie: cuanto más próximo está φ a cero, menor es la memoria, pero a medida que φ se
incrementa en valor absoluto, la dependencia con respecto al pasado se hace mayor y tarda
más en desaparecer. En el caso extremo, cuando φ=1 (raíz unitaria), la serie ya no es
estacionaria. En este caso, una innovación tiene efectos permanentes sobre los valores
futuros de la variable y el modelo resultante es un paseo aleatorio como hemos visto.
Por otro lado cuando el proceso es estacionario φ<1 tiene tendencia a regresar a un
determinado punto, su valor medio. Sin embargo en el ejemplo e) esto no ocurre por no ser
estacionario.
Ejemplos de otros procesos AR
f) yt = 1.6 yt-1 – 0.8 yt-2 + εt

15
10
-5
-10
50 100 150 200 250 300
g) yt = –1.5 yt-1 – 0.7 yt-2 + εt

8
-2
-4
-6
-8
50 100 150 200 250 300
58
h) yt = 0.9 yt-4 + εt
8
-2
-4
-6
50 100 150 200 250 300
Ejemplos de procesos MA:
i) yt =5 + εt – 0.5 εt-1
8
1
50 100 150 200 250 300
j) yt = εt + 0.5 εt-1
4
-1
-2
-3
-4
-5
50 100 150 200 250 300
k) yt = εt – 0.8 εt-1 –0.5 εt-2
-2
-4
-6
50 100 150 200 250 300
59
En los ejemplos MA(1) puede observarse que si θ es positivo, valores consecutivos de Yt

tienen una correlación positiva: ρ(1)>0. En este caso, valores de la variable por encima de
su media (positivos, si la media es cero) tienden a estar seguidos por valores por encima de
la media (positivos) y la serie tiene una evolución más suave que la del ruido blanco. Por
otra parte, cuando θ es negativo, valores de Yt por encima de su media (positivos) tienden a
estar seguidos de valores por debajo de la media (negativos) y la serie tiene una evolución
más errática que la de un ruido blanco. En cualquier caso, lo más característico del MA(1)
es que tiene muy poca memoria: sólo existe dependencia lineal entre dos observaciones
consecutivas, independientemente del valor de θ.
Ejemplos de ARMA(1,1)
l) yt = 0.5 yt-1 + εt – 0.9 εt-1
-1
-2
-3
-4
50 100 150 200 250 300
m) yt = 0.8 yt-1 + εt + 0.5 εt-1

8
-2
-4
-6
-8
50 100 150 200 250 300
n) yt = 0.5 yt-1 + εt + 0.5 εt-1

6
-2
-4
-6
50 100 150 200 250 300
60
11.2.- Estimación de los parámetros

Una vez detectada la no estacionariedad de la serie e identificada la estructura ARMA de la
transformación estacionaria, se procede a su estimación. La estimación de los modelos de
series temporales se realiza habitualmente por Máxima Verosimilitud. Bajo el supuesto de
estacionariedad, las propiedades del estimador máximo verosímil suelen ser las habituales
(buenas propiedades asintóticas) por lo que la inferencia se realiza de la forma habitual. En
esta etapa, pueden estimarse varios modelos que parezcan “compatibles” con el
correlograma y las correlaciones parciales y seleccionar entre ellos con algún criterio. Los
criterios más habituales son el AIC (Akaike), el SIC (Schwarz) y el HQ (Hannan-Quinn),
definidos como:
2 2k
AIC= − lnL + ,
T T
2 k lnT
SIC= − lnL + ,
T T
2 2k ln(lnT )
HQ = − lnL +
T T
donde k denota el nº de parámetros estimados, T es el nº de observaciones y lnL es el
logaritmo de la verosimilitud. La diferencia entre ambos criterios radica en la distinta
penalización por el nº de parámetros estimados. Como regla general, elegimos el modelo
que tenga un valor menor de AIC y SIC. En caso de discrepancia entre ambos criterios, SIC
suele elegir modelos más parsimoniosos (menos parámetros).
11.3.- Validación del modelo

La tercera etapa en la elaboración de un modelo ARIMA es la etapa de validación o
contrastación, que tiene por finalidad comprobar que el modelo estimado es adecuado para
representar el comportamiento de la serie que estudiamos, es decir, si se ha elegido de
forma correcta los órdenes de integración d y D y los órdenes de los procesos p, q, P y Q
de la estructura ARIMA del modelo.
Por ello, tras estimar el modelo ARIMA es esencial realizar una serie de criterios
estadísticos que nos permitan llevar a cabo un análisis de los coeficientes y de los residuos
del modelo con el objetivo de detectar posibles indicios de mala especificación.
Análisis de los residuos.
Este análisis es el más importante para evaluar la validez general de un modelo. Un modelo
es válido si los residuos se comportan como un ruido blanco, es decir no presentan ninguna
correlación y por tanto son imposibles de predecir. En definitiva la serie de los residuos del
modelo debe cumplir: et → N 0, σ 2( )
a) Distribuirse como una normal realizando el contraste de Jarque Bera que se
define en función de los coeficientes de curtosis y de simetría.
b) Analizar el gráfico de los residuos lo que nos permite evaluar si tienen media
cero y varianza constante tal que, si la evolución de los residuos muestra variabilidad, ello
implica que es preciso volver a la especificación del modelo y estabilizar dicha varianza a
través de una nueva transformación (Box-Cox). Por otro lado, este gráfico también nos
61
permitirá ver si existen sesgos sistemáticos (indicio de correlación) así como valores
atípicos (outliers).
c) Analizar la correlación de los residuos mediante el correlograma de los residuos
para ver si los coeficientes de correlación son significativamente iguales a 0. Los residuos
son ruido blanco si todas las autocorrelaciones son cero, es decir si ρ1 = ρ 2 = L0 , pero
dado que estos coeficientes son desconocidos utilizamos la FACE de los residuos y por
tanto tendremos, al igual que con la identificación de la serie, contrastar la hipótesis:
H o : ρk = 0 ∀ k
H1 : ρ k ≠ 0
Para realizar este contraste se utiliza el estadístico:
 1
rk a → N  0,  ∀ k
sin tot .
 T
 1 1 
Por tanto, las bandas vendrán dadas por:  − 1,96 , 1,96 
 T T 
 1 1 
Si rk ∈  − 1,96 , 1,96  No Rechazamos la Ho lo cual implica que la serie
 T T 
de los residuos son ruido blanco.
d) Realizar un contraste de incorrelación utilizando el estadístico de Ljung-Box.
Este es un contraste que trata de evaluar la nulidad conjunta de todos los coeficientes de
autocorrelación
H o : ρ1 = ρ 2 = L = 0
H 1 : ρ1 = ρ 2 ≠ L ≠ 0
m
rk2 (et )
Estadístico de Ljung- Box : Q * = T (T + 2)∑
k =1 T − k
siendo m el número de coeficientes evaluados. Los autores demostraron que este

estadístico se distribuye asintóticamente como una χ 2 con m-p-q grados de libertad .
Si el valor muestral del estadístico es menor que la χ 2 No rechazo la Ho ⇒ los residuos

son Ruido Blanco
Si el valor muestral del estadístico es mayor que la χ 2 Rechazo la Ho ⇒ Hay que
cambiar de modelo.
Análisis de los coeficientes:
a) Siempre se deben de cumplir las condiciones de estacionariedad e
invertibilidad, puesto que su incumplimiento nos puede indicar la forma en que se puede
transformar el modelo original. Por tanto, si se estiman modelos de orden >1 siempre se
deben de calcular sus raíces para poder evitar el problema de la sobreparametrización como
consecuencia de la existencia de factores comunes y el de la sobrediferenciación del
proceso.
62
De hecho, la no estacionariedad en la parte AR (la existencia de raíces del polinomio en L

menores o iguales a 1) implica que no se han efectuado todas las transformaciones
necesarias para que sea estacionaria, por lo que será necesaria una nueva diferenciación
regular o estacional según sea conveniente. Por último, un modelo no invertible, es decir la
existencia de raíces unitarias en la parte MA, normalmente es producido por un problema
de sobrediferenciación en la serie original.
b) Los coeficientes sólo serán relevantes si el algoritmo numérico de optimización
ha llegado a converger
c) Deben de ser significativamente distintos de 0, para ello se realiza el siguiente
contraste: H o : φ i = 0 y θ j = 0 ∀ i = 1L p
H1 : φi ≠ 0 y θj ≠0 ∀ j = 1L q
φî 
utilizando la t de Student : →
Ho
tT −K 
Sφˆ 
i
Si t o < tT − K (α / 2) No rechazamos la Ho.
siendo K el número de coeficientes del modelo. (De igual forma para los parámetros θ ).
Así, cuando un coeficiente del modelo no sea significativo, debe pensarse que se ha
incurrido en un problema de sobreparametrización, con lo que será preciso eliminar dicho
parámetro del modelo antes de volver a estimar y contrastar.
En la práctica se comienza por el orden del proceso menor, se analiza el modelo y se van
aumentando solo el orden del proceso AR o el del MA pero nunca a la vez, analizando cada
vez el modelo correspondiente y eligiendo finalmente el mejor modelo. Para ello se utiliza
el principio de parsimonia que consiste en elegir el modelo más simple de todos los
estimados que cumplan la validación.
EJEMPLO 1: Analizamos el indicador de confianza política recogido en los Indicadores de

Situación Política del barómetro del CIS, en el periodo 1996:02 a 2011:09 (la serie no
presenta datos para el mes de agosto, por lo que creamos un fichero sin estructurar).
Identificación: El primer paso previo a la identificación consiste en analizar si la serie es o
no estacionaria para ello realizamos los siguientes pasos.
1. Analizar el gráfico de la serie
2. Analizar el correlograma
3. Realizar el contraste de raíces unitarias
Para ello hacemos click en la variable confianza y dentro de ella:
Veiw→Graph→line
View→Correlogram
View→Unit root test
63
CONFIANZA
64
60
56
52
48
44
40
36
32
25 50 75 100 125 150
La serie tiene tendencia decreciente y la variabilidad parece que disminuye con la

tendencia por lo que analizamos el gráfico de la serie en logaritmos:
LOG(CONFIANZA)
4.2
4.1
4.0
3.9
3.8
3.7
3.6
3.5
3.4
25 50 75 100 125 150
La serie no cambia sustancialmente por lo que no hace falta transformar en logaritmos. Si

analizamos el correlograma decrece muy lentamente por lo que parece no estacionaria.
Veamos el test de Dickey-Fuller:
La siguiente salida especifica un modelo con término independiente, donde se contraste si
la serie tiene o no una raíz unitaria, es decir si es I(1) o I(0), para ello dejamos las
especificaciones que aparecen por defecto:
Contrastamos Ho=I(1) frente a H1:I(0)
64
Obtenemos los siguientes resultados:
Null Hypothesis: CONFIANZA has a unit root

Exogenous: Constant
t-Statistic Prob.*
5% level -2.878515
10% level -2.575899
No rechazamos Ho→la serie es al menos I(1) y por tanto no estacionaria, necesitamos

hacer las transformaciones adecuadas para convertirla en estacionaria. Para ello
comenzamos tomando primeras diferencias obteniendo la serie ∆ . Para ello generamos
una nueva variable llamada dconfianza de la siguiente forma:
Gener→dconfianza=d(confianza)
Veamos el gráfico y el correlograma:
12
-4
-8
25 50 75 100 125 150
La serie tiene tendencia constante y el correlograma decrece a cero rápidamente por lo

que parece que ya es estacionaria. Realizamos el test de Dickey-Fuller. Para ello hay dos
formas de hacerlo:
a) Aplicar el tes en niveles a la serie transformada dconfianza
b) Aplicar el test a la serie original en primeras diferencias es decir:
65
Dando el siguiente resultado:
Null Hypothesis: D(CONFIANZA) has a unit root

Exogenous: Constant
t-Statistic Prob.*
5% level -2.879846
10% level -2.576610
Rechazamos Ho→la serie es I(1) ya que la serie transformada ya es estacionaria es decir

I(0) y no hace falta hacer más transformaciones.
El segundo paso es la identificación del proceso analizando los correlogramas de la serie
transformada (dconfianza):
Las funciones de autocorrelación y autocorrelación parcial son muy similares, los dos
primeros coeficientes sobresalen las bandas por lo que se podrían plantear los siguientes
modelos:
AR(2), MA(2), ARMA(2,2)
ESTIMACIÓN:
1º MODELO ESTIMADO: AR(2)

Para realizar la estimación pinchamos:
Quick→Estimate equation
Los resultados de la estimación AR(2) son los siguientes
66
Dependent Variable: D(CONFIANZA)

Sample (adjusted): 4 172
Included observations: 169 after adjustments
Convergence achieved after 3 iterations
C -0.108920 0.132692 -0.820844 0.4129
AR(1) -0.224158 0.073936 -3.031799 0.0028
AR(2) -0.284632 0.073984 -3.847232 0.0002
R-squared 0.110078 Mean dependent var -0.123077
Sum squared resid 1124.185 Schwarz criterion 4.823856
Inverted AR Roots -.11-.52i -.11+.52i
Analizamos la estructura:
Pinchando dentro de la estimación en:

View→ ARMA structure
Seleccionamos cada uno de los diagnósticos:

a) Análisis de las raíces invertidas: Pinchar Roots ⇒ caen dentro del círculo unitario
b) Análisis de la comparación entre los correlogramas de las funciones estimadas con
las teóricas hipotéticas: Pinchar Correlogram
.2
Autocorrelation
Inverse Roots of AR/MA Polynomial(s)

.0
1.5
-.2
1.0
-.4
2 4 6 8 10 12 14 16 18 20 22 24
0.5 Actual Theoretical

AR roots
0.0
Partial autocorrelation
.2
-0.5 .0
-.2
-1.0
-.4
2 4 6 8 10 12 14 16 18 20 22 24
-1.5
-1.5 -1.0 -0.5 0.0 0.5 1.0 1.5 Actual Theoretical
67
VALIDACIÓN
A) Análisis de los residuos: analizamos la representación gráfica así como su
correlograma y el estadístico Q que estudia la autocorrelación:
1.- Representación gráfica: 2.- Correlogrma:

16
12
-4
-8
25 50 75 100 125 150
CONFIANZA Residuals
A partir del correlograma (todas las correlaciones caen dentro de las bandas) y el
estadístico Q que no rechaza la Ho para cualquier retardo, se detecta que los residuos se
comportan como un ruido blanco. Los errores se mueven alrededor de cero aunque con
algunos valores un poco elevados, especialmente los referentes a la observación 90 y en
menor medida la 111 y la 79. Por lo que se podría estimar el modelo incluyendo unas tres
ficticias que recojan esos valores atípicos, dando el siguiente resultado:
C -0.266107 0.121934 -2.182386 0.0305
D79 7.262823 2.245333 3.234631 0.0015
D89 11.95467 2.209099 5.411560 0.0000
D111 7.200784 2.198403 3.275461 0.0013
AR(1) -0.286222 0.077200 -3.707555 0.0003
AR(2) -0.200690 0.077398 -2.592960 0.0104
Inverted AR Roots -.14+.42i -.14-.42i
Analizamos la estructura:
68
.2
Autocorrelation
1.5 .0
1.0 -.2
-.4
0.5 2 4 6 8 10 12 14 16 18 20 22 24
AR roots
Actual Theoretical
0.0
-0.5
.2
-1.0
.0
-1.5 -.2
-1.5 -1.0 -0.5 0.0 0.5 1.0 1.5
-.4
2 4 6 8 10 12 14 16 18 20 22 24
Actual Theoretical
Se mantiene la misma estructura.

Analizamos los residuos:
a) Test de normalidad
b) Representación gráfica
c) Análisis de autocorrelación
24
Series: Residuals
Sample 4 172
20
Observations 169
16 Mean -1.37e-14
Median -0.013079
Maximum 6.296701
12 Minimum -5.762298
Std. Dev. 2.278011
8 Skewness 0.025533
Kurtosis 3.181232
4 Jarque-Bera 0.249647
Probability 0.882653
0
-6 -4 -2 0 2 4 6
-2
-4
-6
25 50 75 100 125 150
D(CONFIANZA) Residuals
La distribución es normal y también se comportan como un ruido blanco. Sin embargo si

comparamos ambos modelos los coeficientes de Akaike, Schwart y Hannan Quinn son
menores en este segundo modelo por lo tanto la verosimilitud de los datos es mayor en este
modelo.
Analizamos los coeficientes del modelo seleccionado:
Todos los coeficientes son significativos
69
2º MODELO ESTIMADO: MA(2)

Los resultados de la estimación MA(2) son:
C -0.241211 0.085387 -2.824899 0.0053
D79 6.415923 2.157327 2.974015 0.0034
D89 10.86117 2.073428 5.238266 0.0000
D111 6.243643 2.081916 2.998989 0.0031
MA(1) -0.318723 0.077554 -4.109700 0.0001
MA(2) -0.217378 0.076304 -2.848834 0.0049
Inverted MA Roots .65 -.33
Estructura ARMA:
.2
Autocorrelation
.0
1.5
-.2
1.0
-.4
2 4 6 8 10 12 14 16 18 20 22 24
0.5 Actual Theoretical

MA roots
0.0
.2
-0.5
.0
-1.0 -.2
-.4
2 4 6 8 10 12 14 16 18 20 22 24
-1.5
-1.5 -1.0 -0.5 0.0 0.5 1.0 1.5 Actual Theoretical
Este modelo recoge mejor la FAP pero peor la FAS que el anterior.
Análisis de residuos:
-2
-4
-6
-8
25 50 75 100 125 150
D(CONFIANZA) Residuals
70
20
Series: Residuals
Sample 2 172
16 Observations 171
Mean 0.016311
12 Median -0.038252
Maximum 6.818761
Minimum -6.077603
8 Std. Dev. 2.263927
Skewness 0.061142
Kurtosis 3.305935
4
Jarque-Bera 0.773413
Probability 0.679291
0
-6 -4 -2 0 2 4 6
Los residuos se distribuyen como una normal y también se comportan como un ruido
blanco
Análisis de coeficientes:
Todas las variables son significativas individualmente.
3º MODELO ESTIMADO: ARMA(2,2)

Veamos qué ocurriría si planteamos una estructura más compleja suponiendo de entrada
que el orden de la parte autorregresiva y de la de medias móviles es igual a 2
MA Backcast: 2 3
C -0.267136 0.088376 -3.022717 0.0029
D79 6.798884 2.073186 3.279437 0.0013
D89 11.69805 2.012506 5.812678 0.0000
D111 7.136262 2.019833 3.533095 0.0005
AR(1) -0.569475 0.161373 -3.528941 0.0005
AR(2) 0.317612 0.154168 2.060172 0.0410
MA(1) 0.301766 0.126842 2.379068 0.0185
MA(2) -0.683983 0.127208 -5.376877 0.0000
Inverted AR Roots .35 -.92
Inverted MA Roots .69 -.99
Una de las raíces MA y otra AR están próximas a 1.

Vemos la estructura ARMA:
71

1.5
1.0
0.5
AR roots 0.0
MA roots
-0.5
-1.0
-1.5
-1.5 -1.0 -0.5 0.0 0.5 1.0 1.5
Si eliminamos los coeficientes de orden dos y planteamos un modelo ARMA(1,1)

tendríamos:
MA Backcast: 2
C -0.260177 0.085599 -3.039508 0.0028
D79 6.715706 2.174232 3.088772 0.0024
D89 11.47846 2.094145 5.481213 0.0000
D111 6.444032 2.112093 3.051017 0.0027
AR(1) 0.363042 0.156076 2.326060 0.0212
MA(1) -0.706893 0.120068 -5.887414 0.0000
Inverted AR Roots .36
Inverted MA Roots .71
72

1.5
1.0
0.5
AR roots 0.0
MA roots
-0.5
-1.0
-1.5
-1.5 -1.0 -0.5 0.0 0.5 1.0 1.5
Autocorrelaciones de los
residuos:
SELECCIÓN DE MODELOS: Hemos planteado cuatro modelos con ficticias, en todos

ellos los residuos son ruido blanco por tanto la selección se debería hacer en función del
resto de criterios, significación de las variables, condiciones de estacionariedad e
invertibilidad, análisis entre las funciones de autocorrelación estimadas y teóricas y los
criterios de Akaike, Schwarz y Hannan.
Significación de las variables: en todos ellos son significativas aunque en el modelo
ARMA(2,2) el coeficiente AR(2) no lo sería para un nivel de significación > o = 4.
Condiciones de estacionariedad e invertibilidad: Todos cumplen las condiciones, las raíces
del polinomio de la parte AR y de la parte MA caen dentro del círculo unitario
estrictamente aunque en el ARMA(2,2) una ce las raíces del MA es igual a 0,99 y por tanto
está muy próxima a 1.
Funciones de autocorrelación estimadas y teóricas: no hay grandes diferencias entre los
distintos modelo aunque recoge algo menor la FAP el modelo MA(2)
73
Criterios de información:
AR(2) MA(2) ARMA(2,2) ARMA(1;1)
Akaike 4,546 4,536 4,496 4,536
Schwarz 4,661 4,647 4,647 4,647
Hannan-Quin 4,595 4,581 4,559 4,581
EJEMPLO 2: Número de pasajeros en avión en vuelos internacionales 1960:01 a 1977:12

de Box-Jenkins (1970) denotada como airline.
1º ETAPA: IDENTIFICACIÓN
Gráfico de la serie:
AERLINE
20
16
12
0
60 62 64 66 68 70 72 74 76
Serie caracterizada por poseer una tendencia creciente, componente estacional y la

variabilidad aumenta con la tendencia por lo que parece no ser estacionaria tanto en
media como en varianza. Por otro lado su correlograma y el contraste de raíces unitarias
nos lo corrobora.
Null Hypothesis: AERLINE has a unit root

Exogenous: Constant
t-Statistic Prob.*
5% level -2.874804
10% level -2.573917
Para transformarla en estacionaria:

1) Transformamos la serie en logaritmos (laerline) para convertirla en estacionaria
en varianza:
74
LAERLINE
3.0
2.5
2.0
1.5
1.0
0.5
60 62 64 66 68 70 72 74 76
Sigue sin ser estacionaria en media (tendencia creciente y estacionalidad) pero ya lo es en

varianza, la variabilidad se mantiene constante a lo largo de la serie.
2) Tomamos primeras diferencias de esta serie (dlaerline)
DLAERLINE
.3
.2
.1
.0
-.1
-.2
-.3
-.4
60 62 64 66 68 70 72 74 76
Null Hypothesis: DLAERLINE has a unit root

Exogenous: Constant
t-Statistic Prob.*
5% level -2.875825
10% level -2.574462
Esta serie tiene tendencia constante y ya no tiene una raíz unitaria sin embargo su
correlograma detecta no estacionariedad en la parte estacional ya que los coeficientes
correspondientes a los retardos 12, 24 y 36 no decrecen así que se pueden plantear dos
posibilidades:
a) Introducir 11 variables ficticias que recojan la estacionalidad
75
b) Tomar diferencias estacionales (dado que hay suficientes observaciones, es decir,

hacer una nueva diferencia sobre la serie anterior de orden 12 tal que la nueva
variable sería :
Genr dd12laerline=d(laerline,1,12)
DD12LAERLINE
.6
.4
.2
.0
-.2
-.4
-.6
60 62 64 66 68 70 72 74 76
Null Hypothesis: DD12LAERLINE has a unit root

Exogenous: Constant
t-Statistic Prob.*
5% level -2.876759
10% level -2.574962
Finalmente esta serie es totalmente estacionaria y ya podemos identificar los distintos

modelos más adecuados:
Identificamos la parte regular: La FAP decrece y la FAS tiene los dos primeros
coeficientes distintos de cero por lo que parece un MA(2) aunque se pueden plantear otras
alternativas tales como p=1, 2
Identificamos la parte estacional: La FAP decrece en los coeficientes 12, 24, 36 y la FAS
tiene el primer coeficiente distinto de cero por lo que parece un SMA(1).
Por tanto los modelos ARIMA(p,d,q) x ARIMA(P,D,Q)S propuestos serían:
ARIMA(0,1,2) x ARIMA(0,1,1)
76
ESTIMACIÓN DE LOS MODELOS
Modelo 1: ARIMA(0,1,2) x ARIMA(0,1,1)
Dependent Variable: D(LOG(AERLINE),1,12)

Sample (adjusted): 1961M02 1977M12
MA Backcast: 1959M12 1961M01
C -0.000372 0.000389 -0.955748 0.3404
MA(1) -0.296375 0.068444 -4.330148 0.0000
MA(2) -0.258704 0.068111 -3.798253 0.0002
SMA(12) -0.924985 0.017771 -52.04901 0.0000
S.E. of regression 0.058473 Akaike info criterion -2.820982
Sum squared resid 0.680408 Schwarz criterion -2.755697
Log likelihood 290.3297 Hannan-Quinn criter. -2.794570
Inverted MA Roots .99 .86-.50i .86+.50i .68
.50-.86i .50+.86i .00+.99i -.00-.99i
-.38 -.50+.86i -.50-.86i -.86+.50i
-.86-.50i -.99
Estructura
ARMA:
1.5
1.0
0.5
MA roots
0.0
-0.5
-1.0
-1.5
-1.5 -1.0 -0.5 0.0 0.5 1.0 1.5
.3
.2
.1
.0
-.1
-.2
-.3
-.4
62 64 66 68 70 72 74 76
D(LOG(AERLINE),1,12) Residuals
77
La existencia de algunos valores excesivamente grandes o excesivamente pequeños

en los residuos (como por ejemplo el referente a enero de 1970 o a julio de 1966) del
modelo podría plantear la posibilidad de introducir ficticias para esos atípicos. Sin
embargo su introducción no mejora el modelo. Dejamos para el alumno su comprobación.
Modelo 2: ARIMA(2,1,0) x ARIMA(0,1,1)

C -0.000354 0.000740 -0.478184 0.6330
AR(1) -0.195265 0.068791 -2.838538 0.0050
AR(2) -0.232457 0.068567 -3.390220 0.0008
MA(12) -0.841388 0.035456 -23.73071 0.0000
Inverted AR Roots -.10+.47i -.10-.47i
Inverted MA Roots .99 .85+.49i .85-.49i .49-.85i
.49+.85i .00+.99i -.00-.99i -.49-.85i
-.49+.85i -.85+.49i -.85-.49i -.99
Estructura ARMA:
1.5
1.0
0.5
AR roots 0.0
MA roots
-0.5
-1.0
-1.5
-1.5 -1.0 -0.5 0.0 0.5 1.0 1.5
Análisis de los residuos

.4
.3
.2
.1
.0
-.1
-.2
-.3
-.4
62 64 66 68 70 72 74 76
78
MODELO 3: ARIMA(1,1,1) x ARIMA(0,1,1)

C -0.000416 0.000409 -1.017512 0.3102
AR(1) 0.476258 0.116451 4.089777 0.0001
MA(1) -0.796114 0.078472 -10.14517 0.0000
SMA(12) -0.843904 0.035142 -24.01387 0.0000
Inverted AR Roots .48
Inverted MA Roots .99 .85+.49i .85-.49i .80
.49+.85i .49-.85i .00-.99i -.00+.99i
-.49-.85i -.49+.85i -.85-.49i -.85+.49i
-.99
Estructura ARMA:
1.5
1.0
0.5
AR roots 0.0
MA roots
-0.5
-1.0
-1.5
-1.5 -1.0 -0.5 0.0 0.5 1.0 1.5
Se deja para el alumno el planteamiento y estimación de otros modelos alternativos
.3
.2
.1
.0
-.1
-.2
-.3
-.4
62 64 66 68 70 72 74 76
79
SELECCIÓN DEL MODELO:

a) Los tres modelos tienen un comportamiento similar en cuanto a la estructura ARMA
aunque es el primero y el tercero el que tiene una función de correlación estimada
más aproximada a la teórica que el segundo.
b) El segundo modelo presenta autocorrelación en los residuos como se ve con el
estadístico Q. En los otros dos los residuos son ruido blanco
c) Según los criterios de información, es el tercer modelo el que presenta los
estadísticos más pequeños.
Por tanto, el modelo seleccionado es el ARIMA(1,1,1) x ARIMA(0,1,1)
80
Tema 12.- Predicción
12.1.-Predicción de error cuadrático mínimo
El objetivo final y primordial del análisis univariante de series temporales es la predicción.

Por tanto, una vez que el modelo ha sido identificado, estimado y sometido a todos los
contrastes para su validación (en definitiva que los residuos sean ruido blanco y los
coeficientes significativos) se podrá realizar la última etapa que consiste en predecir valores
futuros de la serie objeto de estudio.
Supongamos que el proceso generador de los datos es un proceso ARMA (p,q)
estacionario. Denotamos por YT +l el valor de Y en el período T+l, que se desea predecir, se
supone que se dispone de información hasta el momento T, tal que al conjunto de
información disponible hasta T lo denotamos por I T = (YT , YT −1 ,L) . Y sea YˆT +l el predictor
óptimo para el período T+l utilizando toda la información disponible hasta T que
denotaremos por YˆT (1) .
Definimos el predictor óptimo como aquel que minimiza el error cuadrático medio de
predicción (o varianza del error de predicción), es decir, aquel que hace mínima la

( )
E  YT +l − YˆT +l / I T  . El mejor predictor bajo este criterio se denomina predictor de
2

“mínimo error cuadrático medio”.
Este predictor es aquel que se forma como : YˆT (l ) = E (YT +l / I T ) = ET (YT +l ) donde se
demuestra que es el óptimo y es la media condicional, esto es, el valor esperado de la serie
en el futuro, condicional a la información disponible en el momento actual, puesto que es el
que menor error cuadrático medio tiene.
12.2.- Predicción de modelos ARMA

Supongamos, en primer lugar que la serie es integrada de orden cero I(0), es decir,
estacionaria. Así, calcularemos el predictor de diferentes modelos ARMA.
Supuestos:
1. Se supone que todos los ruidos (ε t ) presentes y pasados ε T , ε T −1 , ε T −2 Lε 1 , ε 0 L
son conocidos para los periodos muestrales pero tienen carácter de ruido blanco para
periodos posteriores a los incluidos en la base informativa.
 εT+ j ∀j ≤ 0
ET (ε T + j ) = 
 E (ε T + j ) = 0 ∀j > 0
2. Supongamos, asimismo, que los parámetros del modelo son conocidos
Esquemas de Medias móviles:

MA(1) con constante y θ conocido : Yt = c + ε t − θ ε t −1
Para l=1 queremos predecir: YT +1 = c + ε T +1 − θ ε T
81
El predictor: YˆT (1) = ET (YT +1 ) = ET (c + ε T +1 − θ ε T ) = c − θ ε T
El error de predicción: eT (1) = YT +1 − YˆT (1) = ε T +1
Varianza del error de predicción: σ e2T +1 = σ ε2
Para l=2 queremos predecir: YT + 2 = c + ε T + 2 − θ ε T +1
El predictor: YˆT (2 ) = ET (YT + 2 ) = ET (c + ε T + 2 − θ ε T +1 ) = c
El error de predicción: eT (2 ) = YT + 2 − YˆT (2 ) = ε T + 2 − θ ε T +1
Varianza del error de predicción: σ e2T + 2 = σ ε2 1 + θ 2( )

Y así sucesivamente para cualquier valor de l ≠ 1 . Esto es debido a que predice con el
mismo esquema de autocorrelación y por tanto solo tiene memoria de 1 periodo, por lo que
a partir de un periodo predice su valor medio.
Sin embargo, podemos predecir YT + 2 cuando ya conocemos YˆT +1 y por tanto el error de
predicción ε T +1 es conocido. En realidad suponemos que la muestra t=1......T+1. De esta
forma: Yˆ (l ) = c − θ ε
T ∀ l >1 .
T + l −1
MA(2) : Yt = c + ε t − θ1 ε t −1 − θ 2 ε t − 2
Para l=1 queremos predecir: YT +1 = c + ε T +1 − θ1 ε T − θ 2 ε T −1
El predictor: YˆT (1) = ET (YT +1 ) = ET (c + ε T +1 − θ 1 ε T − θ 2 ε T −1 ) = c − θ 1 ε T − θ 2 ε T −1
Para l=2 queremos predecir: YT + 2 = c + ε T + 2 − θ1 ε T +1 − θ 2 ε T
El predictor: YˆT (2 ) = ET (YT + 2 ) = c − θ 2 ε T
El error de predicción: eT (2 ) = YT + 2 − YˆT (2 ) = ε T + 2 − θ1 ε T +1
Varianza del error de predicción: σ e2T + 2 = σ ε2 1 + θ12( )

Para l=3 queremos predecir: YT +3 = c + ε T + 3 − θ 1 ε T + 2 − θ 2 ε T +1
El predictor: YˆT (3) = ET (YT +3 ) = c
Por tanto YˆT (l ) = ET (YT +l ) = c ∀l > 2

El MA(2) solo guarda memoria de 2 periodos, por tanto la forma de obtener más de dos
predicciones futuras es recursiva igual que en el modelo anterior.
En general, un MA(q) se caracteriza porque predice los “q” primeros periodos, pero
después solo predice con la media. Es decir: MA(q ) → YˆT (l ) = c ∀ l > q
82
Esquemas autorregresivos:
AR(1) con constante y parámetro conocido: Yt = c + φ Yt −1 + ε t
Puesto que los esquemas autorregresivos tienen memoria infinita (aunque decreciente), la
predicción tendrá el mismo comportamiento, es decir se pueden predecir infinitos periodos
pero será cada vez menos fiable a medida que aumenta el horizonte de predicción.
Para l=1 queremos predecir: YT +1 = c + φ YT + ε T +1
El predictor: YˆT (1) = ET (YT +1 ) = c + φ ET (YT ) + ET (ε T +1 ) = c + φ YT
Para l=2 queremos predecir: YT + 2 = c + φ YT +1 + ε T + 2
El predictor: YˆT (2 ) = ET (YT + 2 ) = c + φ ET (YT +1 ) + ET (ε T + 2 ) = c + φ YˆT (1) = c + φ 2 YT
El error de predicción: eT (2 ) = φYT +1 + ε T + 2 − φ 2YT
Varianza del error de predicción: σ e2T + 2 = σ ε2 1 + φ 2 ( )

En general: YˆT (l ) = c + φ l YT = c + φYT +l −1
Varianza del error de predicción: σ e2+l = σ ε2 (1 + φ 2 + φ 4 + Lφ 2 (l −1) )
La predicción es función de los valores anteriores, como φ < 1 las predicciones son
decrecientes hasta llegar al valor medio
AR(2)
Para l=1 queremos predecir: YT +1 = c + φ1 YT + φ 2YT −1 + ε T +1
YˆT (1) = ET (YT +1 ) = c + φ1 ET (YT ) + φ 2 ET (YT −1 ) + ET (ε T +1 ) = c + φ1 YT + φ 2YT −1
Para l=2 queremos predecir: YT + 2 = c + φ1 YT +1 + φ 2YT + ε T + 2
YˆT (2 ) = ET (YT + 2 ) = c + φ1 ET (YT +1 ) + φ 2 ET (YT ) + ET (ε T + 2 ) = c + φ1 YˆT (1) + φ 2YT
El error de predicción: eT (2 ) = φ1YT +1 + ε T + 2 − φ1YˆT (1) = ε T + 2 + φ1 eT +1

Varianza del error de predicción: σ e2+ 2 = σ ε2 (1 + φ12 )
En general:
YˆT (l ) = ET (YT +l ) = c + φ1 ET (YT +1−1 ) + φ 2 ET (YT +l − 2 ) + ET (ε T +l ) = c + φ1 YˆT (l − 1) + φ 2YˆT (l − 2)
Es el mismo esquema que sigue la FAC de un AR(2)
83
Esquemas ARMA
ARMA(1,1) : Yt − φ Yt −1 = ε t − θ ε t −1
Para l=1 queremos predecir: YT +1 = φ YT + ε T +1 − θ ε T
El predictor: YˆT (1) = φ YT − θ ε T
Para l=2 queremos predecir: YT + 2 = φ YT +1 + ε T + 2 − θ ε T +1
El predictor: YˆT (2 ) = φ YˆT (1)

El error de predicción: eT (2) = (φ − θ )ε T +1 + ε T + 2
[
Varianza del error de predicción: σ e2T + 2 = σ ε2 (φ − θ ) + 1
2
]
En general: YˆT (l ) = φ YˆT (l − 1) ∀l > 1
Es decir, una vez superado el orden de la parte de medias móviles (en este caso 1) la
predicción es idéntica a la que se obtiene en un esquema AR(1). Así, el perfil de predicción
de un modelo ARMA(1,1) es idéntico al de un AR(1) a partir de un periodo de predicción.
En todos los modelos ARMA donde las predicciones estén en función de las
perturbaciones, el problema para calcular dichas predicciones radica en que las
perturbaciones son inobservables, por tanto es necesario sustituirlas por sus estimaciones
que se obtienen como la diferencia entre realizaciones y predicciones.
Así sabemos que el error de predicción un periodo hacia delante es ε T +1 = YT +1 − YˆT (1) que
está en función de YˆT (1) que a su vez está en función de ε T Lε T +1− q . De igual forma para
estimar ε = Y − Yˆ (1) es necesario calcular Yˆ (1) que es función de ε Lε
T T T −1 T −1 T −1 T −q y así
sucesivamente.
En la práctica se procede a evaluar todas las innovaciones desde la primera, esto plantea un
problema de valores iniciales dado que para estimar ε 1 es necesario conocer Yˆ1 que es
función de ε o , ε −1 L ε − q que no sólo son inobservables sino que, además, caen fuera del
periodo muestral. En la práctica lo que se hace en este caso es tomar para estos valores su
esperanza matemática que es cero. Esta solución es aceptable siempre que el proceso sea
invertible puesto que en estos casos los valores iniciales tienden a desaparecer a medida que
aumenta el tamaño muestral.
Una vez estimados los errores de predicción se sustituyen en YˆT (1) y una vez realizada la
predicción a un periodo se pueden calcular de forma recursiva para los demás periodos.
Predicción por intervalos

A la predicción anterior se le denomina predicción puntual que, como hemos visto siempre
lleva asociado un error de predicción. Los usuarios de predicciones necesitan saber,
además, cuál es la precisión con la que se están realizando esas predicciones para poder
84
valorar la confianza que se puede depositar en ellas. Por ello existe un interés creciente en
las predicciones por intervalo, es decir, en proponer un rango de posibles valores (no un
único valor) entre los cuales es muy probable que se encuentre el valor futuro de la
variable. Para construir dichos intervalos necesitamos: (1) tener una medida de la
“precisión” de las predicciones; (2) realizar un supuesto sobre la distribución de
probabilidad de los errores de predicción. Analizamos estas dos cuestiones a continuación.
La medida más habitual para cuantificar la “precisión” de las predicciones es la varianza de
los errores de predicción. Los errores dependen de cuál sea el modelo concreto que se ha
ajustado a los datos como hemos visto. En general, ya vimos que la varianza del error
aumenta cuando el horizonte de predicción se incrementa: es más difícil predecir un futuro
lejano que predecir un futuro próximo. Sin embargo, si el modelo es estacionario, la
varianza de los errores tiende a estabilizarse cuando el horizonte de predicción se
incrementa y converge a la varianza marginal. En cambio, en modelos no estacionarios, la
varianza de los errores de predicción crece indefinidamente hasta infinito al aumentar el
horizonte.
Una predicción es tanto más fiable cuanto más precisa es, es decir, cuanto menor sea su
varianza, por tanto dado que el intervalo de confianza depende de la varianza del predictor,
cuanto menor sea ese intervalo mejor será la predicción.
Construimos este intervalo de confianza partiendo de la distribución del error de predicción,
puesto que : eT (l ) → N (0,Var(eT (l )))
Donde eT (l ) = YT +l − YˆT (l )
2 2
[ ]
Var (eT (l )) = E [eT (l ) − E (eT (l ))] = E [eT (l )] = E YT +1 − YˆT (l ) = ECM de la predicción
2
Por tanto, la predicción es fiable si el ECM es pequeño.

Para construir el intervalo tipificamos:
eT (l )

→
a
N (0,1) sustituyendo:
Var [eT (l )]
YT +l − YˆT (l )

→
a
N (0,1)
Var [eT (l )]
 Y − YˆT (l ) 
P − 1,96 ≤ T +l ≤ 1,96 = 0,95 Despejamos YT +l :
 Var [eT (l )] 
[ ]
P YˆT (l ) − 1,96 Var[eT (l )] ≤ YT +l ≤ YˆT (l ) + 1,96 Var[eT (l )] = 0,95
El Intervalo de Confianza para YT+l vendrá dado por:
[Yˆ (l ) ± 1,96
T Var[eT (l )] ]
La amplitud del intervalo dependerá de la varianza del error de predicción, en definitiva de
su precisión, cuanto más pequeña sea la varianza más precisa será.
85
Predicción de modelos ARIMA

Si la serie objeto de análisis, Yt, es no estacionaria y se ha estimado un modelo para las
primeras diferencias estacionarias, ∆Yt, las predicciones de la serie original, YˆT + k , se
pueden construir recursivamente a partir de las predicciones de las primeras diferencias de
la siguiente forma. Dado que ∆YT +1 = YT +1 − YT ⇒ YT +1 = ∆YT +1 + YT
Por tanto:
YˆT +1 = ∆YT +1 + YT
YˆT + 2 = ∆YT + 2 + YˆT +1

…………………….
YˆT + k = ∆YT + k + YˆT + k −1
No obstante, programas informáticos como EViews obtienen directamente la predicción de
Yt a partir del modelo estimado para ∆Yt, evitándonos hacer estas recursiones.
Veamos cómo se predice una serie con el programa Ewiews, para ello retomamos los
ejemplos del tema anterior.
EJEMPLO 1: Predecimos la variable indicador de confianza política confianza con el

modelo seleccionado. Supongamos que queremos predecir los próximos 12 meses (1 año),
en primer lugar debemos cambiar el rango ampliándolo 12 observaciones, y en segundo
lugar, como el modelo tiene variables ficticias debemos introducir los datos para esas
variables ficticias (que son cero) para el periodo de predicción. Una vez realizado estos
pasos, en la ecuación del modelo MA(2) pinchamos:
Forecast
Aparece la siguiente ventana:
Donde está especificado:

• La serie a predecir, en nuestro caso confianza
• El nombre de la serie con los valores predichos: confianzaf
• El nombre de las desviaciones típicas (standard Error) de las predicciones que
permitirán construir los intervalos de confianza se_confianzaf
86
• El periodo de predicción. Si especificamos solo el periodo de predicción nos creará la

serie predicha que toma los valores observados dentro de la muestra y los predichos fuera
de la muestra.
CONFIANZAF
65
60
55
50
45
40
35
30
25 50 75 100 125 150 175
La parte sombreada se corresponde con el periodo de predicción que como se ve sigue la

tendencia de los valores observados de la serie.
Se podría analizar la capacidad predictiva de este modelo al igual que lo visto en el tema
de predicción de regresión, haciendo una predicción dentro de la muestra con la que
estamos trabajando, prediciendo, por ejemplo el último año (los doce últimos datos de la
muestra con la que estamos trabajando) para varios modelo y utilizar la capacidad
predictiva del modelo para la selección. Esta parte queda abierta para realizar por los
alumnos.
EJEMPLO2: Predecimos el número de pasajeros internacionales para el año 1978

Al igual que en el modelo anterior seleccionamos el mejor modelo para predecir, en
nuestro caso el modelo ARIMA(1,1,1) x ARIMA(0,1,1)S y ampliamos el rango un año.
Pinchamos en forecasting dentro de la ecuación y aparece lo siguiente, donde
especificamos el periodo de predicción y el error estándar de predicción.
87
La predicción con sus bandas de confianza aparecen en el primer gráfico y en el segundo

la propia serie con su predicción en la parte oscura. Como se puede ver la predicción
pertenece al intervalo de confianza al 95% y mantiene la pauta de los valores observados
en el primero y cuarto trimestre disminuye y en el tercero aumenta
26 AERLINEF
24
24
22 20
20 16
18
12
16
8
14
4
12
1978Q1 1978Q2 1978Q3 1978Q4
0
60 62 64 66 68 70 72 74 76 78
AERLINEF ± 2 S.E.
88

Material Teoria SeriesTCP 2011 2012

Hochgeladen von

Dokumentinformationen

Copyright

Verfügbare Formate

Dieses Dokument teilen

Dokument teilen oder einbetten

Freigabeoptionen

Stufen Sie dieses Dokument als nützlich ein?

Sind diese Inhalte unangemessen?

Copyright:

Verfügbare Formate

Material Teoria SeriesTCP 2011 2012

Hochgeladen von

Copyright:

Verfügbare Formate

Material Docente de

Técnicas cuantitativas de previsión

Segundo curso del grado de Marketing e Investigación de

Tema 7. Conceptos fundamentales

7.1.- Concepto de serie temporal. Representación gráfica

ii) Pernoctaciones mensuales en establecimientos hoteleros (millones) en España: 1999:01-

iii) Número mensual de edificios construidos en España (1991:11 – 2007:04)

iv) Nº mujeres muertas (mensualmente) por violencia de género: 1999:01 – 2009:12

7.2.- Componentes no observables de una serie

una respuesta exacta es imposible, por lo que el problema se resuelve, normalmente,

7.3.- Predicción en series temporales

Llamamos predictor a la predicción en el instante T de la observación futura de Y en T+l.

Criterios de evaluación de la capacidad predictiva

2. Al predecir periodos futuros no se conocen los errores ya que solo disponemos

1. Media aritmética de los errores: EM = l =1

Error absoluto medio: EAM =

3. Error cuadrático medio: ECM = l =1

Raíz del error cuadrático medio: REM =

5. Error absoluto medio en porcentaje: EAMP = l =1

Error medio en porcentaje: EMP = ∗ 100

2. Existen dos posibles soluciones al problema de los errores desconocidos en el

1. Reservar un número final de observaciones, utilizando el método de predicción

Tema 8: Predicción de series deterministas

donde: et = Yt − Yˆt siendo Yˆt = βˆo + βˆ1 t la tendencia estimada.

EJEMPLO1: Supongamos que queremos determinar la tendencia de la serie población

Dependent Variable: ACTM

Residual Actual Fitted

EJEMPLO 2: Supongamos ahora que queremos determinar la tendencia de la serie

Residual Actual Fitted

8.2.- Métodos de alisado exponencial

Alisado exponencial simple (AES)

2 periodos hacia delante: YˆT (2 ) = α YT +1 + (1 − α ) YˆT (1)

como YT+1 es desconocido lo sustituimos por su predicción YˆT (1) :

YˆT (2 ) = α YˆT (1) + (1 − α ) YˆT (1) = YˆT (1)

TT +l = βˆo + βˆ1 (T + l ) = βˆo + βˆ1T + βˆ1 l = TT + βˆ1 l

EJEMPLO 3: Supongamos que estamos interesados en predecir la captura de bonito

Sample: 1974 2010

Método de alisado exponencial doble (AED): Método de Brown

Definimos la tendencia: Tt = Aˆ t +  Aˆ t − Aˆˆ t  = 2 Aˆ t − Aˆˆ t

Predicción en el periodo extramuestral: YˆT (l ) = TT + βˆ1 (T ) ⋅ l

Dado que la ecuación de alisado es: Tt = αYt + (1 − α )Tt −1

donde Tt y βˆ1 se calculan por el método de Holt.

La predicción extramuestral viene dada por: YˆT (l ) = TT + βˆ1 (T ) ⋅ l

EJEMPLO 4: Supongamos que queremos predecir población ocupada femenina (OCUM)

Los resultados son los siguientes:

OCUM OCUMSM OCUMSM2

Método de Holt Winters

Pero si hay componente estacional, la predicción sería: Yˆt (1) = Tt + βˆ1 (t ) + s (t )

Problemas que plantea este método:

To = βˆo , βˆ1 (0) = βˆ1 se fija To y βˆ1 (0)

siendo st (T + l − s ) el último componente estacional calculado correspondiente al periodo

• Ecuación de la componente estacional: s (t ) = δ (Yt / Tt ) + (1 − δ ) s (t − s )

Se detecta claramente que tiene estacionalidad y un aligera tendencia creciente y además

1 si t = 1º trimestre 1 si t = 2º trimestre 1 si t = 3º trimestre

Tema 9.- Procesos estocásticos

9.1.- Concepto de Proceso Estocástico

En teoría, un proceso estocástico puede generar infinitas series temporales:

Caracterización de un proceso estocástico: Las características de un proceso estocástico

donde N es el número de realizaciones del proceso en ese instante t e y t( j ) es la observación

9.2.- Procesos estocásticos estacionarios y ergódicos

2) Cov (Yt , Yt + k ) = γ k siendo γ k la autocovarianza de orden k. La covarianza entre 2

La primera condición de estacionariedad, E(Yt) = µ, nos permite utilizar todas las

La tercera condición nos permite estimar la covarianza entre dos observaciones

Ejemplos de series no estacionarias: