Beruflich Dokumente
Kultur Dokumente
Pruebas
estadsticas no
paramtricas
de escala ordinal
14
Prueba de Kolmogorov Smirnov
Para una muestra.
La prueba de Kolmogorov Smirnov para una muestra se considera un padecimiento de
bondad de ajuste, es decir, permite medir el grado de concordancia existente entre la
distribucin de un conjunto de datos y una distribucin terica especfica. Su objetivo es
sealar si los datos provienen de una poblacin que tiene la distribucin terica
especificada.
Mediante la prueba se compara la distribucin acumulada de las frecuencias tericas (ft)
con la distribucin acumulada de las frecuencias observadas (f obs), se encuentra el punto
de divergencia mxima y se determina que probabilidad existe de que una diferencia de esa
magnitud se deba al azar.
En las tareas de investigacin se pudo obtener un conjunto de observaciones, en las cuales
se supone que tienen una distribucin normal, binominal, de Poisson, etc. Para el caso, las
frecuencias de las distribuciones tericas deben contrastar con las frecuencias observadas, a
fin de conocer cual distribucin se adecua mejor al modelo.
Algoritmo.
Calcular las frecuencias esperadas de la distribucin terica especfica por considerar para
determinado nmero de clases, en un arreglo de rangos de menor a mayor.
Aplicar la ecuacin:
D= ft- f obs, donde D es la mxima discrepancia de ambas.
Ecuacin
(14.1)
D = ft - fobs
En sta ecuacin se aprecia que el procedimiento es muy simple y quiz lo que parezca ms
complicado corresponde al clculo de la frecuencia esperada de cada tipo de distribucin
terica. Por tanto, en la marcha de los ejercicios se presentar cada uno de ellos y la manera
de aplicar la prueba estadstica.
Ejemplo 14.1.
En una investigacin, consistente en medir la talla de 100 nios de 5 aos (vease tabla
14.1), se desea saber si las observaciones provienen de una poblacin normal.
Eleccin de la prueba estadstica cuando en el modelo experimental se tiene una muestra y
es factible un arreglo en el carcter ordinal o en los rangos de las series de clases. Se
revisa el flujograma , del cual se presenta una reproduccin parcial.
Planteamiento de la hiptesis.
Hiptesis de trabajo o alterna (Ha): los valores observados de las frecuencias para cada
clase son diferentes de las frecuencias tericas de una distribucin normal.
Tabla 14.1 Tabla de 100 nios. Los valores X + son 99.2 2.85
Serie de clases (talla en cm.) Frecuencia
Frecuencia acumulada
De 90 a 93
5
5
De 94 a 97
21
26
De 98 a 101
48
74
De 102 a 105
19
93
De 106 a 109
7
100
Total
100
Diseo
experimental con
una muestra
Prueba de
Kolmogorov-Smirnov
Captulo 14
ordinal
Tipo de
escala
Hiptesis de nulidad (Ho): las diferencias entre los valores observados y los tericos de la
distribucin normal se deben al azar.
Nivel de significancia: para todo valor de probabilidad mayor que 0.05, se acepta Ho y se
rechaza Ha.
Aplicacin de la prueba estadstica, de acuerdo con el algoritmo.
Primero se elaboran los clculos de los valores tericos esperados para la distribucin
normal, como se ve en la tabla 14.2.
Inicialmente se determina el valor Z (vase el captulo 6) de los lmites de cada clase en la
serie, por ejemplo: en la primera clase se determinan el lmite inferior y el superior (90 y
93), y en las subsecuentes slo los lmites superiores (97, 101, 105 y 109). Para cada valor
de Z, se localiza el rea bajo la curva normal tipificada (tabla A.3).
Los clculos de valores Z son de la forma siguiente:
Z90 = X - X
= 90 - 99.2 = - 3.23
2.85
Z93 = X - X
= 93 - 99.2 = - 2.18,
2.85
y as sucesivamente
Para cada valor Z, se localiza el rea de la curva tipificada de la tabla A.1. A partir
de stos valores, se obtiene la diferencia entre los lmites de clases entre el superior y el
inferior, por ejemplo 0.4997-0.4993: 0.020, 0.4793-0.2357 = 0.2436, 0.2357-(-0.2794) =
0.5151, -0.2794-(-0.4854) = 0.206 y 0.4854-(-0.4994) = 0.014.
Estos resultados de diferencias se multiplican por el tamao de la muestra ( 100
nios ), luego se obtienen las frecuencias tericas y despus se arreglan en frecuencias
acumuladas.
Tabla 14.2 Clculos de los valores tericos
Limites
de Valor Z de rea bajo la Diferencias
clase
los lmites
curva
entre clases
tipificada
90
-3.23
-0.4994
93
-2.18
-0.4854
0.014
97
-0.77
-0.2794
0.206
101
0.63
0.2357
0.5151
105
2.04
0.4793
0.2436
109
3.44
0.4997
0.0200
Total
Diferencia
N(100)=F1
1.4
20.6
51.5
24.4
2.0
99.9
Frecuencia
acumulada
1.4
22.0
73.5
77.9
99.9
La diferencia mxima D es igual a 0.049, valor que se compara con los valores crticos de
la tabla A.6 y se obtiene la probabilidad de la existencia de esa magnitud de acuerdo con la
prueba Kolmogorov-Smirnov. El valor N es 100 y el mayor nmero de N en la tabla es 35,
por lo cual se aplica la frmula al pie de la tabla:
Para la probabilidad de 0.05 =
1.36
N
1.36
100
= 0.136
Lo anterior quiere decir que para todo valor menor que el crtico para una probabilidad de
0.05, la probabilidad correspondiente es mayor que 0.05, y todo valor mayor que D al
calculado tiene una probabilidad menor que 0.05, o sea es inversamente proporcional al
crtico determinado o localizado en la tabla.
Decisin. En virtud de lo anterior, el estadstico de Kolmogorov-Smirnov obtenido es
menor que el crtico y su probabilidad mayor que 0.05, por tanto se acepta Ho y se rechaza
Ha.
14.3 Calculo estadstico D de Kolmogorov - Smirnov
Rangos
1
2
3
4
5
ft acumulada
1.4/100
22/100
73.5/100
97.9/100
99.9/100
fobs
5/100
26/100
74/100
93/100
100/100
ft - fobs
-0.036
-0.04
-0.005
0.049
-0.001
D = ft - fobs = -0.036
INTERPRETACIN.- Las frecuencias observadas y las tericas calculadas no difieren
significativamente. Por tanto, las observaciones tienen una distribucin normal como se ve
en la figura 14.2
Fig 14.2 Distribucin normal
Ejemplo 14.2
En una investigacin realizada con 1000 familias de origen rural, al estudiar el riesgo de
que al tener 5 hijos, asociado a determinadas condiciones socioeconmicas y culturales, se
presente mayor frecuencia de nios con desnutricin clnica grave en un mismo ncleo
familiar, un investigador obtiene los datos que se muestran en la tabla 14.4.
El encargado del estudio se halla ante la incertidumbre de saber si las observaciones tienen
una distribucin binomial o de Poisson (existe el antecedente de que la frecuencia de ste
padecimiento es del 7%)
Frecuencia acumulada
712
962
993
1000
1000
Cabe aclarar que 2.7183-0.07 se puede resolver mediante logaritmos, es decir: Antilog 0.07
log 2.7183 = antilog 0.07 x 0.4343
= antilog 0.0030 = 0.932
Una vez calculado los valores tericos especficos para la distribucin binomial y de
Poisson, se aplica la prueba de Kolmogorov Smirnov y se elaboran las tablas
correspondientes (14.5 y 14.6).
Tabla 14.5 Arreglo de los valores tericos
este caso, se acepta Ho y se rechaza Ha. El valor D 0.221, correspondiente al centraste con
la distribucin de Poisson, es mayor que el crtico, por lo cual la probabilidad es menor que
0.05. En virtud de esto, se acepta Ha y se rechaza Ho.
INTERPRETACIN: Las frecuencias observadas de las 100 familias con cinco hijos y el
riesgo de presentar estos desnutricin clnica grave, muestran una distribucin binomial, en
razn de que las diferencias con este modelo no son significativas, en cambio, con una
distribucin de Poisson existe una diferencia altamente significativa, al nivel de confianza
menor que 0.01. Para comprender mejor esto, vase la figura 14.3.
La prueba estadstica de Kolmogorov Smirnov, an cuando se recomienda como
procedimiento de bondad de ajuste , no tiene una aplicacin limitada y es til para el
contraste de hiptesis en ensayos experimentales en los que tiene una muestra y de alguna
manera se ajusta a un arreglo ordinal, como se ve en el ejemplo: 14.3
Triangular
4
1
1/3
4/30
0.2
2
2/3
12/30
0.267
3
3/3
30/30
0.0