You are on page 1of 5

DC-Vine para los principales ndices bursatiles del mundo

Danna Lesley Cruz Reyes1 .

1
Universidad Santo Tomas
1
dcruzreyes@gmail.com

Resumen

Las copulas han sido estudiadas como una alternativa para modelar la dependencia es-
tocastica entre dos variables aleatorias, sin embargo, son un desafo cuando se trata de mas
de dos variables. Las copulas vine permite superar estas limitaciones permitiendo, en forma
ordenada y factorizada, manejar muchas variables bajo la teora de grafos complementada
con las copulas bivariadas. El prop
osito de este trabajo es presentar herramientas para anali-
sis exploratorio y selecci
on de la copula, asi como una estructura de dependencia en forma
de grafo o vine y el metodo de estimacion. Esto se realiza utilizando las series de retornos
diarios de algunas de las acciones mas importantes del mundo, bajo la premisa de que estas,
de alguna manera comparten una estructura de dependencia.

1. Introducci
on
En el u
ltimo estudio de competencias ciudadanas en la educacion basica, en el a uo 2012,
el ICFES tuvo como objetivo indagar por las creencias, percepciones, actitudes y acciones
de los estudiantes en torno a diferentes aspectos de la ciudadana. Fundamentalmente, estos
estudios generan una fuente de informacion en busca de reconocer factores que inhiben o po-
tencian el desarrollo de competencias ciudadanas en un estudiante. Por otro lado, en estudios
enfocados finanzas, riesgo y economa, se trabaja con un conjunto de variables que permiten
generar inferencias sobre un interes especifico, por ejemplo, en el calculo de las primas de
los seguros de autom oviles, las variables de interes pueden ser la edad, sexo, antecedentes de
accidentes, puntaje de credito, entre otros.

En cualquiera de los dos casos expuestos anteriormente, el objetivo es buscar la posible


relaci
on entre todas las variables. En busca de esta respuesta, surge el analisis de regre-
si
on, uno de las mayores metodologas utilizadas, que indagan por la relacion estocastica
entre una o mas variables dependientes o de respuesta, Y, que se relacionan, bajo algu-
na funcion, con un conjunto de variables independientes o covariables X1 , X2 , . . . , Xk , de
forma tal que E[Y |X1 = x1 , . . . , Xn = xn ] = f (X1 , X2 , . . . , Xn ), de manera que Yi =
0 + 1 X1 + 2 X2 + + n Xn . Luego de definir la relacion funcional, se procede a estimar
los valores de i y uno de los metodos es el mnimos cuadrados ordinarios, el cual, estima
los parametros desconocidos minimizando la suma de las distancias verticales al cuadrado
entre las covariables y las respuestas. Otro metodo que estima los valores desconocidos es el
1
metodo m axima verosimilitud. Si la distribucion se asume normal con varianza constante, el
metodo de mnimos cuadrados y m axima verosimilitud coinciden.
Ahora, suponga que se define una funcion g(.), llamada funcion de enlace, tal que E[Y |X1 =
x1 , . . . , Xk = xk ] = g 1 (X1 , X2 , . . . , Xn ) tomando xi , i = 1, 2, . . . , n. Entonces, es posible
definir una metodologa llamada modelos lineales generalizados, tal que la distribucion de
Y debe ser miembro de la familia exponencial. Los parametros se pueden estimar usando
maxima verosimilitud usando metodos numericos

Como alternativa a los metodos anteriores, se propone el uso de funciones copula, es-
tas funciones y por medio del teorema de Sklar, permite una representacion de las fun-
ciones de distribuci on multivariadas en terminos de sus marginales. Es decir, para cual-
quier funci on de distribuci on H(x1 , x2 , . . . , xn ) = C(FX1 (x1 ), FX2 (x2 ) . . . , FXn (xn ) don-
de, FX1 (x1 ), FX2 (x2 ), . . . , FXn (xn ) son las distribuciones marginales de las variables Xi ,
i = 1, . . . , n.

[3] proponen el uso de funciones copula en analisis de regresion multivariado a mode-


los de variables latentes, el cual, concluye que las funciones copulas son herramientas utiles
cuando los datos son asimetricos y el comportamiento de la cola es pesada, ademas funciona
particularmente bien cuando el objetivo es la prediccion. Una de las ventajas del uso de
c
opulas, es que sugieren naturalmente asociaciones y / o correlaciones entre las variables
aleatorias que pueden diferir en el dominio de la distribucion conjunta formando una estruc-
tura completa de dependencia. Sin embargo, no es facil computacionalmente, debido a que
se debe estimar los par
ametros de la copula y los parametros de las distribuciones marginales.

[5] ofrece una alternativa usando funciones copulas en analisis de regresion multivariado,
donde tiene la posibilidad de proporcionar un mejor ajuste a los datos observados. En este
artculo se supone que todas las variables (respuesta y covariables) son observaciones alea-
torias con alguna distribuci on de probabilidad conjunta. La ventaja que proporciona esta
radicada en la capacidad de elegir las distribuciones para las variables dependientes que no
son miembros de la familia exponencial, permitiendo al investigador elegir arbitrariamente
distribuciones para las marginales.

En ambos artculos, se desarrollan metodos de estimacion como maxima verosimilitud, o


estimacion bayesiana, sin embargo, y ya que el objetivo es representar una distribucion F de
un conjunto de variables aleatorias (X1 , X2 , . . . , Xk ), incluso en el caso mas simple, donde
estas variables son de valor binario , una distribucion conjunta requiere la especificacion de
2n 1 n umeros, es decir, las probabilidades de los 2n asignaciones diferentes de los valores
(X1 , X2 , . . . , Xk ). Incluso para el valor mas peque uo de n , la representacion explcita de
la distribuci on conjunta es inmanejable desde cualquier perspectiva . Computacionalmente
, es muy costoso de manipular y generalmente se necesita demasiada memoria que permita
manejar grandes cantidades de datos. Estadsticamente, si se desea conocer la distribucion de
los datos, se hara necesario tomar grandes cantidades de datos para estimar esta cantidad
de parametros de forma robusta. Por tanto, se propone el uso de los modelos graficos de
c
opulas, esta metodologa, ha sido introducida por Bedford y Cooke (2001, 2002), Kurowicka
y Cooke (2006) y Dissmann, Czado y Kurowicka (2010).
Los modelos gr aficos son una representacion de conjuntos de independencias siendo la

2
grafica un esqueleto que permite factorizar una distribucion. Las propiedades de la indepen-
dencia de la distribucion son, precisamente, lo que permite que sea representada de manera
compacta y en forma factorizada.
Se proponen describir las representaciones graficas de distribuciones, llamadas copulas
vine, junto con el uso de funciones copulas, cada nodo corresponde a una variable aleatoria y
cada arista representa la relaci
on directa estocastica. Se propone construir un modelo grafico
flexible para el modelado de dependencias utilizando solo pares de copulas como bloques de
construccion. En trabajos como en Brechmann, Czado y Aas (2010), proponen simplificar
el tipo de grafos, ya que estos modelos pueden resultar difciles de manejar en dimensiones
altas, debido a que la complejidad de estos modelos aumenta fuertemente en dimensiones mas
grandes (el numero de pares de c opulas de un grafo aumenta cuadraticamente y el n umero
de aristas diferentes crece incluso exponencialmente).

[6] y [7] en sus tesis doctorales del ano 2013, propone un analisis multivariado basado
en copulas utilizando modelos gr aficos probabilsticos y redes bayesianas, en ambos casos,
se propone el uso de estos modelos ya que evita el problema de especificar una funcion
multivariada, si no que se propone un modelo de dependencia d dimensional bajo la eleccion
de una descomposici on de factores y funciones copulas bivariadas.
Siguiendo a [2], se expondr a como funciona las copulas vine, la metodologa, el analisis
bivariado y la inferencia, por medio del analisis del comportamiento de los retornos diarios
de los principales ndices del mundo: SP 500, Japanese Nikkei 225, Chinese SSE Composite
Index, German DAX, French CAC 40 y British FTSE 100, esperando algun comportamiento
de dependencia entre estos ndices.

2. Metodologa y resultados esperados


En esta secci
on se describe las ideas basicas de como se aplicaran las funciones copulas y
los modelos graficos.

Se debe realizar una consulta bibliografica sobre los conceptos basicos necesarios, pos-
teriormente se propone un metodo usando copulas para describir la dependencia. En ese
sentido es necesario realizar un an
alisis sobre los datos, con el fin de verificar que variables
poseen dependencia estadstica. Esta dependencia se representa por medio de una arista.

Con el fin es lograr representar la funcion de densidad f (x1 , . . . , xn ) como un producto de


pares de densidades de c opulas y de densidades marginales, se propone el uso de las copulas
vine, de tal manera que se puede escribir como:1

n1
Y n1
Y n
Y
f (x1 , . . . , xn ) = ci,j|i1 ,...,ik (F (xi |xi ), F (xj |xj )) fk (xk )
j=1 i=1 k=1

Este tipo de descomposicion es llamada una D-vine, ya que esta expresion se puede
representar por medio de una gr afica con una secuencia de arboles anidados no dirigidos,
llamada vine, donde las aristas indican los indices usados para la copula condicional.

1
Tomado de [4]
3
La construcci on del modelo con un arbol regular consiste en asociar el conjunto de nodos
N = N1 , . . . , Nn1 y el conjunto de aristas E = {E1 , . . . , En1 } por medio de la arista
e = {j(e), k(e)|D(e)} en Ei con una copula cj(e),k(e)|D(e) tal que:

n1
Y Y n
Y
f (x1 , . . . , xn ) = cj(e),k(e)|D(e) (F (xj(e) |xD(e) ), F (xj(e) |xD(e) )) fk (xk )
i=1 eEi k=1

Las aristas en el
arbol Ti son denotadas como jk|D, con j < k y D el conjunto de varia-
bles condicionales . La notacion de la arista en e en Ti depende de las aristas en Ti1 el cual
tendran un nodo en com un.

a = j(a), k(a)|D(a)
b = j(b), k(b)|D(b)

V (a) = {j(a), k(a), D(a)} y V (b) = {j(b), k(b), D(b)}

arbol Ti son unidos por las aristas e = {j(e), k(e)|D(e)}, donde:


Los nodos a y b en el

j(e) := min{i : i (V (a) V (b))|D(e)}


k(e) := max{i : i (V (a) V (b))|D(e)}
D(e) := V (a) V (b).

Siguiendo a [1], existen varios tipos de arboles que se clasifican debido a condiciones
particulares:

RDrawable -Vine: Para i = 2, . . . , n 1 el arbol Ti tiene N1 = {Ei1 } nodos.


DDrawable -Vine: Si cada nodo en T 1 tiene al menos dos aristas.
CC anonico -Vine: Cada arbol Ti tiene una unico nodo con n i aristas. El nodo con
n 1 aristas es el
arbol T1 y se llama raiz.

Finalmente, la funcion queda representada por la copula, por lo que se debe suponer un
metodo que permita un optimo desarrollo de esta eleccion. Ademas, esta descomposicion no
nica, ya existe la posibilidad de tomar un D vine o cualquier otro que sea acorde a las
es u
necesidades de la investigacion. Se debe tambien desarrollar un metodo de eleccion para este
tipo de arreglo. Finalmente, con las funciones construidas se realiza estimacion e inferencia.
Se espera que se pueda desarrollar los fundamentos teoricos para la construccion de es-
tos modelos proporcionando algoritmos genericos para el muestreo aleatorio e inferencia de
probabilidad, as como las rutinas de seleccion de ordenamientos de los nodos y las aristas
en los gr
aficos subyacentes. Se pretende realizar estimacion por medio del metodo maxima
verosimilitud. Se indaga por la investigacion de estrategias en busca de reducir la complejidad
computacional, explorando y desarrollando nuevos modelos en busca de una mejor eleccion
4
para un grafo aleatorio en un conjunto de variables, con el fin de desarrollar una nueva me-
todologa de an
alisis de regresi
on multivariada. Finalmente, este modelo se aplica a los datos
obtenidos por el ICFES en su u ltimo estudio sobre competencias ciudadanas en Colombia y
en el
area de finanzas y riesgo.

Referencias
[1] C. Czado A. Frigessi H. Bakken Aas, K. Pair-copula constructions of multiple dependence.
Insurance, Mathematics and Economics 44, 182198., 2009.
[2] Schepsmeier U. Brechmann, E. Modeling Dependence with C- and D-Vine Copulas: The
R Package CDVine, volume 52. 2013.
[3] E. Frees. multivariate regression using copulas. University of Wisconsin, 2010.
[4] U. Kramer, N. Schepsmeier. introduction to vine copulas. NIPS Workshop, 2011.
[5] S. Parsa, R. Klugman. copula regression. Casualty actuarial society, 2012.
[6] A. Stober. Regular vine copulas with the simplifying assumption, time-variation, and
mixed discrete and continuous margins. PhD thesis, Technische Universitat M unchen,
2013.
[7] A. Xaver. Pair-copula constructions for non-Gaussian Bayesian networks. PhD thesis,
Technische Universit
at M
unchen, 2013.