Pruebas Kolmogorov-Smirnov y Anderson-Darling

Fabio Prez Simulacin Financiera
Pruebas Estadsticas
No Paramtricas
Para modelos estadsticos, pruebas estadsticas e inferencia no paramtrica. Estos son mtodos
libres de distribucin, es decir, no se basan en supuestos de que los datos provengan de una
distribucin de probabilidad determinada. Son importantes en la econometra porque con
frecuencia no se conocen los parmetros de las series de tiempo con las que se trabajan. El
termino estadstico no paramtrico tambin puede hacer referencia a un estadstico (funcin
sobre una muestra) cuya interpretacin no depende de que la poblacin se ajuste a cualquier
distribucin parametrizada.
Estos mtodos se usan cuando los datos tienen un ranking pero no una interpretacin numrica
clara, Ej. Las preferencias. Como hacen pocos supuestos, su aplicacin es ms amplia que los
mtodos paramtricos. Se aplican en situaciones donde se conoce poco sobre la aplicacin en
cuestin. Adems, por basarse en menos supuestos, estos mtodos son ms robustos. Tambin
son ms simples de implementar. Aunque en algunas situaciones se justifique la caracterizacin
de parmetros, los mtodos no paramtricos son ms fciles de usar. Todo esto deja poco espacio
para el mal uso y mal interpretacin. (mayor objetividad)
Los modelos no paramtricos difieren de los modelos paramtricos en que la estructura del
modelo no es especificada a priori, si no que es determinada con los datos. Esto no significa que
el modelo carezca de parmetros, si no que el nmero y naturaleza de los parmetros es flexible
y no fijada en adelanto. Muchas pruebas de bondad de ajuste no parametricas se basan en la
estimacin de mnima distancia contrastando la estimacin de mxima verosimilitud en las
paramtricas.
Un histograma es un estimado no paramtrico simple de una distribucin de probabilidad. La
estimacin de densidad kernel (Kernel density estimation - Parzen window) provee mejores
estimados de la densidad que los histogramas. La regresin no paramtrica y semi-paramtrica se
basan en kernels, splines, y wavelets.
Mtodos:
Coeficiente de correlacin de rangos Spearman
Mann-Whitney U
Kruskal-Wallis anlisis de varianza (ANOVA) de una va
Friedman anlisis de varianza (ANOVA) de dos vas
Prueba Durbin
Prueba de corridas Wald-Wolfowitz
Prueba Kolmogorov-Smirnov
Prueba Anderson-Darling
Mtodos utilizados como complementos:
Estadstico Durbin-Watson (detecta la presencia de autocorrelacin en los residuos de un
anlisis de regresin solo valido para regresores estocsticos)
Prueba LM de correlacin serial Breusch-Godfrey (ms general y complemento de DW)
Prueba Jarque-Bera (bondad de ajuste que mide discrepancia con normalidad basada en la
custosis y asimetra de la muestra)
Prueba 2 (bsica)

Estimacin de mnima distancia
Es un mtodo estadstico para ajustar un modelo matemtico a datos, usualmente la distribucin
emprica. La prueba Kolmogorov-Smirnov utiliza el supremo (mximo) de la diferencia absoluta
entre la distribucin emprica y el estimado. La prueba Anderson-Darling es similar a la KS, pero
en vez de utilizar el punto de diferencia mxima entre la distribucin empirica y el estimado,
utiliza pesos suaves basados en integracin de diferencias sobre el intervalo completo y luego
pesando por el reciproco de la varianza.
Funcin de distribucin empirica (f.d.e.)
Es una funcin de distribucin de probabilidad acumulada que concentra probabilidad 1/n en
cada n nmeros en la muestra.
Sea X1,,Xn una variable aleatoria i.i.d. en R con f.d.c. F(x). La funcin de distribucin empirica
Fn(x) basada en la muestra X1,,Xn es una funcin step (escalera) definida por
nmero de elementos en la muestra x 1 n
= I ( X i x) donde I(A) es el indicador del
n
n i =1
evento A. Para x fija, I(Xi x) es una variable aleatoria Bernoulli con parmetro p = F(x), por
ende nFn(x) es una variable aleatoria Binomial con media nF(x) y varianza nF(x)(1 - F(x)).
Fn ( x) =
Propiedades asintticas
a.s.
Por la ley fuerte de los nmeros grandes Fn(x)

F(x) para x fija.
Por el teorema del lmite central

n (Fn ( x) F ( x) ) N (0, F ( x)(1 F ( x)) ). El
teorema Berry-Essen provee la tasa de esta convergencia.
Kolmogorov demostr que n Fn ( x) F ( x) converge en distribucin a la distribucin
Kolmogorov, provisto que F(x) es continua. La prueba Kolmogorov-Smirnov de bondad

de ajuste se basa en este hecho.
Funcin caracterstica (indicadora)
Es una funcin definida sobre el conjunto X que indica la membresa de un elemento del
subconjunto A de X. 1A(x) = 1 si x A, 0 si x A. Se relaciona al concepto de las variables
dummy (en anlisis de regresin, estadstica no confundir con el significado del trmino en
matemticas, variable libre).
Prueba Kolmogorov-Smirnov
La prueba KS es una forma de estimacin de mnima distancia usada como prueba
no paramtrica de igualdad de distribuciones de probabilidad unidimensionales, utilizada para
comparar una muestra con una distribucin de probabilidad de referencia (KS 1-muestra), o para
comparar dos muestras (KS 2-muestra). El estadstico KS cuantifica una distancia entre la
funcin de distribucin empirica de la muestra y la funcin de distribucin acumulada de la
distribucin de referencia, o entre las funciones de distribucin empirica de dos muestras.
La distribucin nula (distribucin de probabilidad del estadstico de prueba cuando la H0 es
verdadera) de este estadstico es calculada bajo la hiptesis nula que las muestras son extradas
de la misma distribucin (en el caso de 2-muestra) o que la muestra es extrada de la distribucin
de referencia (en el caso 1-muestra). En cada caso, las distribuciones consideradas bajo la H0 son
distribuciones continuas sin restricciones.
La prueba KS se puede modificar para servir como prueba de bondad de ajuste. En el caso
especial de probar la normalidad de la distribucin, muestras son estandarizadas y comparadas
con la distribucin normal estndar. Esto es equivalente a cuadrar la media y varianza de la
distribucin de referencia igual a los estimados muestral, y es sabido que utilizar la muestra para
modificar la H0 reduce la potencia de la prueba. La prueba Lilliefors es una adaptacin que
intenta corregir este sesgo, pero no es tan potente como la AD.
La funcin de distribucin empirica Fn para n i.i.d. observaciones Xi es definida como
1 n
Fn ( x) = I ( X i x) donde I(Xi x) es igual a 1 si Xi x ; y 0 en cualquier otro caso.
n i =1
El estadstico KS para una f.d.c. F(x) dada es
Dn = sup Fn ( x) F ( x)
donde sup S es el supremo del conjunto S. Por el teorema
x
a.s.
0.
Glivenko-Cantelli, si la muestra proviene de la distribucin F(x), entonces Dn
Kolmogorov fortaleci este resultado proveyendo efectivamente la tasa de esta convergencia. El
teorema Donsker provee un resultado ms fuerte (utilizando el limite del proceso G como un
proceso Gaussiano).
La distribucin Kolmogorov es la distribucin de la variable aleatoria
K = sup B (t )
donde B(t) es el Brownian bridge (proceso estocstico tiempo continuo,
t[0,1]
cuya distribucin de probabilidad es la distribucin de probabilidad condicional de un proceso

Wiener B(t) Brownian motion dada la condicin B(0) = B(1) = 0). La f.d.c. de K esta dada
2 ( 2i 1) 2 2 /(8 x 2 )
i 1 2i 2 x 2
por P( K x ) = 1 2 ( 1) e
=
e
x
i =1
i =1

Prueba KS
Bajo la hiptesis nula que la muestra proviene de una distribucin hipottica F(x),
n
n Dn sup B ( F (t )) converge en distribucin, donde B(t) es el Brownian bridge.
t
Si F es continua, entonces bajo la hiptesis nula n Dn converge a la distribucin Kolmogorov,
la cual no depende de F. Este resultado se conoce como el teorema de Kolmogorov (existen otros
teoremas de Kolmogorov en otras reas de la matemtica). La bondad de ajuste, o prueba KS, es
construida utilizando los valores crticos de la distribucin de Kolmogorov. La H0 se rechaza
para el nivel si n Dn > K ; donde K se encuentra de P(K K) = 1 . La potencia
asinttica de esta prueba es 1. Si la forma o parmetros de F(x) son determinados de Xi, la
inigualdad puede no sostenerse. En este caso, mtodos de Monte Carlo son requeridos para
determinar el nivel de rechazo de .
Prueba KS 2-muestra
La prueba KS se puede utilizar para probar si dos distribuciones de probabilidad
unidimensionales subyacentes difieren. En este caso el estadstico KS es
Dn,n = sup Fn ( x) Fn ( x)
y la H0 se rechaza para el nivel si
nn
Dn, n > K
n + n
Limites de confianza para la forma de la funcin de distribucin

Mientras que la prueba KS es usualmente usada para probar si una F(x) dada es la distribucin
de probabilidad subyacente de Fn(x), el procedimiento puede ser invertido para dar limites de
confianza en F(x) misma. Si se elige un valor critico del estadstico de prueba D tal que
P(Dn > D) = ; entonces una banda de ancho D alrededor de Fn(x) contendr en su totalidad
a F(x) con probabilidad 1 .
Casos donde se utiliza la prueba KS
La prueba KS se utiliza en casos donde, por ejemplo, no se deba confiar en la
prueba t de Student. A pesar del teorema del limite central, existen situaciones en donde es un
error confiar en la prueba t. Situaciones donde los grupos muestrales no difieren en media, pero
si difieren en otra medida, Ej. Sustancialmente en variabilidad. Esos grupos de datos son
diferentes pero la prueba t no vera la diferencia. Situaciones donde los grupos muestrales son
muy pequeos (Ej. < 20) que difieren en media, pero distribuciones no-normales cubren la
diferencia. Ej. Dos sets provenientes extrados de distribuciones lognormales con medias
sustancialmente distintas. Para conjuntos de datos grandes, el TLC sugiere que la prueba t
produce resultados validos aun cuando los datos no se distribuyen normalmente. Sin embargo,
sets de datos altamente no-normales causan que la prueba t arroje resultados fallidos, aun para N
grande.

Ilustracin grfica de la prueba KS
La prueba KS esta basada en la mxima distancia entre estas dos curvas.

Limitaciones de la prueba KS
Solo aplica a distribuciones continuas.

Tiende a ser ms sensible cerca del centro de la distribucin que en las colas.
La distribucin tiene que estar totalmente especificada. Es decir, si localizacin, escala, y
parmetros de forma son estimados de los datos, la regin crtica de la prueba KS ya deja
de ser valida. Se debe determinar por simulacin.
Es por esto que la prueba de bondad de ajuste AD es preferible, aunque solo se puede usar para
pocas distribuciones especificas.
Prueba Anderson-Darling
La prueba AD es una forma de estimacin de mnima distancia, y uno de los estadsticos ms
potentes para detectar discrepancia con respecto a normalidad. Se puede utilizar con un tamao
muestral bajo (n 25). Tamaos muestrales muy grandes pueden rechazar el supuesto de
normalidad con tan solo pequeas imperfecciones.
La prueba AD ve si la muestra proviene de una distribucin especfica. La frmula del
estadstico A para ver si los datos provienen de una distribucin con f.d.c. F es A2 = n S. Para
ello, los datos {Y1 < < Yn} deben estar ordenados.
S=
n 2k 1
k =1 n
[ln F (Yk ) + ln(1 F (Yn +1 k ))]
El estadstico de prueba puede entonces ser comparado contra los valores crticos de la
distribucin terica (dependiendo de que F es utilizada) para determinar el p-valor. La prueba
AD para normalidad es una prueba de distancia o prueba de funcin de distribucin empirica.
Esta basada en el concepto de que cuando se da una distribucin subyacente hipottica, los datos
pueden ser transformados a una distribucin uniforme. Los datos muestrales transformados
pueden entonces ser probados para uniformidad con una prueba de distancia.
Procedimiento
Esta explicacin esta basada en una prueba para una distribucin normal
Los datos Xi para i = 1,,n de la variable X que se quiere probar se organizan ascendentemente
(menor a mayor). La media X y desviacin estndar s son calculadas para la muestra X. Los
valores Xi se estandarizan como Yi =
Xi X
. Con la f.d.c. normal estndar , A2 se calcula
s
como
1 n
A2 = n S = n (2i 1)[ln (Yi ) + ln(1 (Yn +1i ))]
n =1
144i4
444442444444443
1 n
n [( 2i 1) ln (Yi ) + ( 2( n i ) +1) ln(1 (Yi ))]
n i =1
La prueba es unidireccional (una cola), entonces si el estadstico A = A2 es mayor al valor
critico, se rechaza la hiptesis nula de que la distribucin sigue una forma especifica.

Si la desviacin estndar s = 0 (Yi) = (0 1), entonces A2 no puede ser calculado y es
indefinido. (notar que lim LnX = ). Cualquier otra distribucin terica se puede asumir
x0
utilizando la respectiva f.d.c. Cada distribucin terica tiene sus propios valores crticos. La H0
sigue la verdadera distribucin (en el ejemplo N(0,1) ).
La prueba AD es una modificacin de la prueba KS y da mayor peso a las colas que KS. La KS
es libre de distribucin en el sentido que los valores crticos no dependen en la distribucin
especifica que se esta probando. La AD hace uso de la distribucin especfica al calcular los
valores crticos. Esto tiene la ventaja de permitir una prueba ms sensible y la desventaja de tener
que calcular los valores crticos para cada distribucin.

Pruebas Kolmogorov-Smirnov y Anderson-Darling

Hochgeladen von

Dokumentinformationen

Copyright

Verfügbare Formate

Dieses Dokument teilen

Dokument teilen oder einbetten

Freigabeoptionen

Stufen Sie dieses Dokument als nützlich ein?

Sind diese Inhalte unangemessen?

Copyright:

Verfügbare Formate

Pruebas Kolmogorov-Smirnov y Anderson-Darling

Hochgeladen von

Copyright:

Verfügbare Formate

Fabio Prez Simulacin Financiera

Fabio Prez Simulacin Financiera

Por la ley fuerte de los nmeros grandes Fn(x)

Por el teorema del lmite central

Kolmogorov, provisto que F(x) es continua. La prueba Kolmogorov-Smirnov de bondad

Fabio Prez Simulacin Financiera

donde sup S es el supremo del conjunto S. Por el teorema

donde B(t) es el Brownian bridge (proceso estocstico tiempo continuo,

cuya distribucin de probabilidad es la distribucin de probabilidad condicional de un proceso

Fabio Prez Simulacin Financiera

y la H0 se rechaza para el nivel si

Limites de confianza para la forma de la funcin de distribucin

Fabio Prez Simulacin Financiera

La prueba KS esta basada en la mxima distancia entre estas dos curvas.

Solo aplica a distribuciones continuas.

Fabio Prez Simulacin Financiera

[ln F (Yk ) + ln(1 F (Yn +1 k ))]

Fabio Prez Simulacin Financiera

Das könnte Ihnen auch gefallen