Sie sind auf Seite 1von 16

Brian Angeles

PRUEBAS DE NORMALIDAD NO PARAMETRICAS

PRUEBA DE KOLMOGOROV SMIRNOV

Tal vez el mtodo ms recomendable para el caso en que F(x) es una


distribucin continua es el mtodo para una muestra de Kolmogorov-Smirnov o
(K-S). Consiste en una prueba de hiptesis en el que la hiptesis nula afirma
que los datos s se ajustan a la distribucin F(x) y la hiptesis alterna
establece que no se ajustan. El estadstico de prueba est dado por

Dc Max H i1
Fi

, H i Fi

Este valor se compara con el valor crtico que se encuentra en una tabla. Se
rechaza la hiptesis nula si Dc es mayor que el valor de tabla para el nivel de
confianza y el tamao de muestra que se estn considerando.

DURACIONES DE LAS BATERIAS DE UN AUTOMOVIL


2.2
3.4
2.5
3.3
4.7

4.1
1.6
4.3
3.1
3.8

3.5
3.1
3.4
3.7
3.2

4.5
3.3
3.6
4.4
2.6

3.2
3.8
2.9
3.2
3.9

3.7
3.1
3.3
4.1
3.0

Probar que los datos si se ajustan a una distribucin normal


con

3.0
4.7
3.9
1.9
4.2

2.6
3.7
3.1
3.4
3.5

3.5 y 0.7

METODO DE KOLMOGOROV Y SMIRNOV (K-S)


------------------------------------------------------------------------OBSERVACION

F.REL.ACM

F(X)

H i1

H i Fi

Fi
------------------------------------------------------------------------1.60000
0.02500
0.0033
0.0033
0.02
0
17
1.90000
0.05000
0.0111
0.0139
0.03
0
89
2.20000
0.07500
0.0317
0.0183
0.04
0
33
2.50000
0.10000
0.0766
0.0016
0.02
0
34
2.60000
0.15000
0.0993
0.0007
0.05
0
07
2.90000
0.17500
0.1957
0.0457
0.02
0
07
3.00000
0.22500
0.2375
0.0625
0.01
0
25
3.10000
0.32500
0.2839
0.0589
0.04
0
11
3.20000
0.40000
0.3341
0.0091
0.06
0
59
3.30000
0.47500
0.3875
0.0125
0.08
0
75
3.40000
0.55000
0.4432
0.0318
0.10
*
0
68
3.50000
0.60000
0.5000
0.0500
0.10
0
00
3.60000
0.62500
0.5568
0.0432
0.06
0
82
3.70000
0.70000
0.6125
0.0125
0.08
0
75
3.80000
0.75000
0.6659
0.0341
0.08
0
41
3.90000
0.80000
0.7161
0.0339
0.08
0
39
4.10000
0.85000
0.8043
0.0043
0.04
0
57
4.20000
0.87500
0.8414
0.0086
0.03
0
36
4.30000
0.90000
0.8735
0.0015
0.02
0
65
4.40000
0.92500
0.9007
0.0007
0.02
0
43
4.50000
0.95000
0.9234
0.0016
0.02
0
66
4.70000
1.00000
0.9568
0.0068
0.04
------------------------------------------------------------------------0
32

Dc 0.1068 , Es el mayor valor de las dos ltimas columnas.


DT 0.2150 , Para un nivel de significancia

y n=40.

0.05
Como Dc p DT , no se rechaza la hiptesis nula de que los datos se ajustan a una
distribucin normal con 3.5 y 0.7

PRUEBA DE SHAPIRO Y WILKS


Esta prueba mide el ajuste de la muestra al dibujarla en papel probabilstico
normal a una recta. Se rechaza la normalidad cuando el ajuste es malo, que
corresponde a valores pequeos del estadstico. El estadstico es:

2
ih
1

W
a j,n xnj1 x j
ns2 i1

A
ns

2
2

Donde:
2

i n

ns X
2

i
1

xi

Los coeficientes

n
2

Si n es par. Si no,

a j , n estn tabulados (tabla 10), y x

h n 1
2

es el valor ordenado en

la muestra que ocupa el lugar j. La distribucin de w est tabulada (tabla 11) y se


rechaza la normalidad cuando el valor calculado es menor que el valor crtico
dado en las tablas.

EJEMPLO
Contrastar la hiptesis de que los datos siguientes provienen de una distribucin
normal: (20, 22, 24, 30, 31, 32, 38). Para aplicar el test calcularemos los valores

a j,

directamente en la tabla 10, entonces:

a17= 0.6233
a27= 0.3031
a37= 0.1401
Por lo tanto, A ser:
A a17 x7 x1 a27 x6 x2 a37 x5 x2
= 0.6233. (18) + 0.3031 (10) + 0.1401(7)=15.2311
Como:
2

s = 34.9796,

ns = 244.8571

A = 231.9864
El estadstico resultante ser:

= 231.9864 = 0.9474
244.8571
El valor de para n=7 y un nivel de significacin de 0.05 es, 0.803, menor que el
obtenido, por lo que aceptamos la hiptesis de normalidad.

PRUEBA DE ANDERSON DARLING

Esta prueba es aplicada para evaluar el ajuste a cualquier distribucin de probabilidades. Se basa
en al comparacin de la distribucin de probabilidades acumulada emprica (resultado de los
datos) con la distribucin de probabilidades acumulada terica (definida por H0).
Hiptesis
:


La variable no sigue una distribucin Normal
2

Ho: La variable sigue una distribucin Normal


H1 :

Estadstico de Prueba:
2

A n S

S
n
1

ln F
Yi

2i

ln 1F Y

i1

n1i

Donde n es el nmero de observaciones, F(Y) es la distribucin de probabilidades acumulada


normal con media y varianza especificadas a partir de la muestra y Yi son los datos obtenidos en
la muestra, ordenados de menor a mayor.
Regla
Decisin:

de

La hiptesis nula se rechaza con un nivel de significancia


2

si A2 es mayor

que el valor critico

AT . Aunque la prueba de Anderson Darling puede ser aplicada a cualquier distribucin, no se


dispone de tablas para todos los casos. A continuacin se presenta una tabla para la prueba a la
distribucin normal.

AT2

0.1
0.6
31

0.0
5
0.7
52

0.0
25
0.8
73

0.01
1.0
35

Ejemplo:
Pruebe si los siguientes datos se distribuyen o no en forma normal

0.2
5
0.5
00.4

0.0
0
0.1
00.0

0.7
0
0.2
60.6

0.1
0.5
5
0.2
0

0.1
0.1

0.6
0.0
5

0.0
0.2

0.1
0.5
6

0,
Los datos no siguen una distribucin Normal 0,

Ho: Los datos siguen una distribucin Normal


H1:

0.4
0.3
2

22

22

i1

S=

i=1

22 x
i
i
2
x 1
i

0.3708

n 1

n
(2i1)1
3
5
7
9
1
1
3
1
5
1
7
1
9
2
1
2
3
2
5
2
7
2
9
3
1
3
3
5
3
7
3
9
4
1
4
3
TOTA
L

Yi
0.6
0.6
-0.4
-0.4
-0.3
0.2
-0.1
-0.1
-0.1
0.1
-0.0
0.0
0.0
0
0.0
5
0.1
0
0.2
0
0.2
5
0.2
6
0.5
0
0.5
5
0.5
6
0.7
0

Yn+
1-i
0.7
0
0.5
6
0.5
5
0.5
0
0.2
6
0.2
5
0.2
0
0.1
0
0.0
5
0.0
-0
-0.04
-0.05
-0.10
0.10
-0.14
-0.15
-0.20
0.30
-0.40
-0.40
-0.64
0.65

F(Y
i)
0.03
98
0.04
22
0.14
03
0.14
03
0.20
92
0.29
48
0.34
29
0.35
29
0.39
37
0.39
37
0.44
64
0.45
70
0.50
00
0.55
36
0.60
63
0.70
52
0.74
99
0.75
84
0.91
12
0.93
10
0.93
45
0.97
05

F(Yn+1
-i)0.970

1F(Yn+1-i)
0.0295

ln(F(Y
i))-

5
0.934
5
0.931
0
0.911
2
0.758
4
0.749
9
0.705
2
0.606
3
0.553
6
0.500
0
0.457
0
0.446
4
0.393
7
0.393
7
0.352
9
0.342
9
0.294
8
0.209
2
0.140
3
0.140
3
0.042
2
0.039
8

0.0655
0.0690
0.0888
0.2416
0.2501
0.2948
0.3937
0.4464
0.5000
0.5430
0.5536
0.6063
0.6063
0.6471
0.6571
0.7052
0.7908
0.8597
0.8597
0.9578
0.9602

3.224
3.166
-1.964
-1.964
-1.564
1.221
-1.070
-1.042
-0.932
0.932
-0.807
-0.783
-0.693
0.591
-0.500
-0.349
-0.288
0.277
-0.093
-0.071
-0.068
0.030

ln(1-F(Yn+1i)) -3.522
-2.726
-2.674
-2.422
-1.420
-1.386
-1.221
-0.932
-0.807
-0.693
-0.611
-0.591
-0.500
-0.500
-0.435
-0.420
-0.349
-0.235
-0.151
-0.151
-0.043
-0.041

Si
0.307
0.803
-1.054
-1.395
-1.221
1.304
-1.354
-1.346
-1.344
1.404
-1.353
-1.437
-1.356
1.340
-1.233
-1.084
-0.956
0.813
-0.411
-0.395
-0.207
0.138
22.25

A 22 22.253 0.2532
Este valor es menor inclusive al valor crtico correspondiente a
el supuesto de normalidad de los datos

0.1 . Por lo tanto se acepta

PRUEBA DE RYAN-JOINER
Esta prueba es una modificacin de la prueba de Kolmogorov-Smirnov donde se le da ms peso a las
colas de la distribucin que la prueba de Kolmogorov-Smirnov.
En estadstica, la prueba de Ryan -Joiner es una prueba no paramtrica sobre si, los datos de una
muestra provienen de una distribucin especfica.
La frmula para el estadstico determina si los datos (observar que los datos se deben
ordenar) vienen de una distribucin con funcin acumulativa F.
Esta prueba evala la normalidad calculando la correlacin entre sus datos y las puntuaciones
normales de sus datos. Si el coeficiente de correlacin se encuentra cerca de 1, es probable que la
poblacin sea normal. La estadstica de Ryan-Joiner evala la solidez de esta correlacin; si se
encuentra por debajo del valor crtico apropiado, usted rechazar la hiptesis nula de normalidad en la
poblacin.
Ecuacin:
A2= N S
Usos:
La prueba de Ryan - Joiner es usada para probar si una muestra viene de una distribucin especfica.
Ejemplo:
En la prctica, se tienen valores reales de promedio diferentes de cero y con desviacin estndar
diferentes de uno, para determinar la probabilidad o rea bajo la curva, se determina el nmero de
desviaciones estndar Z entre algn valor X y la media de la poblacin o de la muestra X como
sigue:

s se consideran los datos completos del proceso.

X X
s

s se consideran slo los datos de una muestra.

El departamento de personal de una empresa requiere que los solicitantes a un puesto en cierta
prueba alcancen una calificacin de 500. Si las calificaciones de la prueba se distribuyen
normalmente con media 485 y desviacin estndar 30 Qu porcentaje de los solicitantes
pasar la prueba?
Buscamos el valor correspondiente Z en las tablas de distribucin normal estndar. Z 0.5 = 0.69146 =
69.146%. Donde la probabilidad de que la calificacin sea menor a 500 es P (X <= 500). Dado que el

P ( X 500)

porcentaje pedido es
la solucin es 1-0.69146 =0.3085, por tanto slo 30.85% de los
participantes pasarn la prueba.
Otra forma es tomando la Z como negativa con P(Z <= -0.5) = 0.3085.

PRUEBA DE KRUSKAL-WALLIS

La Prueba de Kruskal-Wallis Se emplea cuando se quieren comparar tres o ms poblaciones. Es


el equivalente a un anlisis de varianza de una sola va Procedimiento paramtrico: Diseo
completamente al azar. Prueba de Kruskal-Wallis. No requiere supuesto de normalidad No
requiere supuesto de varianzas iguales (homogeneidad de varianzas).

1. El estadstico est dado por:

, donde:

es el nmero de observaciones en el grupo

es el rango (entre todas las observaciones) de la observacin

es el nmero total de observaciones entre todos los grupos

en el grupo

es el promedio de

Note que el denominador de la expresin para

exactamente

.
es

. Luego

2. Se puede realizar una correccin para los valores repetidos dividiendo


por

, donde

repetidos, y

es el nmero de grupos de diferentes rangos

es el nmero de observaciones repetidas dentro del grupo

que tiene

observaciones repetidas para un determinado valor. Esta correccin hace cambiar a


muy poco al menos que existan un gran nmero de observaciones repetidas.
3. Finalmente, el p-value es aproximado por
) la distribucin de

Procedimiento general:
Planteamiento de hiptesis
Calcular el estadstico de prueba

. Si algn

puede ser distinta de la chi-cuadrado.

es pequeo (

Regla de decisin
Conclusiones Prueba de Kruskal-Wallis

Ejemplo
La manufacturera A recluta y contrata personal para su equipo gerencial en tres escuelas
diferentes. Se dispone de calificaciones de desempeo en muestras independientes de cada una
de las escuelas. Se dispone de calificaciones de 7 empleados de la escuela A, 6 de la B y 7 de la
C. La calificacin de cada gerente est en escala de 0 a 100. El lmite superior es la mxima
nota.

A
25
70
60
85
95
90
80

B
60
20
30
15
40
35

C
50
70
60
80
90
70
75

Determinar si las tres escuelas son idnticas en cuanto a las evaluaciones de desempeo.
Planteamiento de Hiptesis
Ho: Las poblaciones son idnticas en trminos de las evaluaciones de desempeo.
Ha: Las dos poblaciones no son idnticas en trminos de las evaluaciones de desempeo.
Ordenar todos los datos en forma ascendente.
Asignar rangos a los datos ordenados.
Ubicar los rangos asignados de acuerdo a la clasificacin original (escuelas)
Sumar las columnas de rangos
Usar la siguiente ecuacin para el clculo de K.

Escuela
B
B
A
B
B
B

Calificacion
15
20
25
30
35
40

Rango
1
2
3
4
5
6

C
A
B
C
A
C
C
C
A
C
A
A
C
A

50
60
60
60
70
70
70
75
80
80
85
90
90
95

7
9
9
9
12
12
12
14
15.15
15.15
17
18.5
18.5
20

8
9
10
11
12
13

15
16

15.5

18
19

18.5

Reordenamiento de Rangos
ESCUELA A
25
70
60
85
95
90
80

RANGO
3
12
9
17
20
18.5
15.5
95

ESCUELA B
60
20
30
15
40
35

RANGO
9
2
4
1
6
5
27

Clculo del estadstico de Prueba

W=

(95) (27) (88)


12
+
+
3 (20+ 1 )=8.92
20( 20+ 1) 7
6
7

Regla de decisin Si

X 2c

X 2tab se rechaza Ho

X 2tab con k-1 grados de libertad (3-1=2)


Valor tabla = 5.99147

ESCUELA C
50
70
60
80
90
70
75

RANGO
7
12
9
15.5
18.5
12
14
88

Conclusin El desempeo de los gerentes vara segn la escuela a la que asistan


Considerando que la escuela B presenta las menores calificaciones deber tenerse
precaucin con seleccionar personas de este lugar.

CORRIDAS POR ARRIBA Y POR ABAJO DEL PROMEDIO


Este procedimiento consiste en determinar una secuencia de unos y ceros de acuerdo a la
comparacin de cada nmero que cumpla con la condicin de ser mayor o igual a 0.5 (en el
caso de los ceros) o ser menor a 0.5 (en el caso de los unos)

Luego se determina el nmero de corridas y los valores de n1 y n2.


Procedimiento
Generar la muestra de tamao N de nmeros aleatorios.

Con base en esta muestra, obtener una nueva sucesin binaria, segn el criterio siguiente:
Ho: Si rj es menor o igual a 0.50 entonces asignarle a rj el smbolo 0.
Ha: Si rj es mayor a 0.50 entonces asignarle a rj el smbolo 1.

La frecuencia esperada para cada longitud de corrida i, es:

EJEMPLO Dada la siguiente muestra de tamao 30 de nmeros aleatorios, aplicar la prueba de


corridas, para la independencia
0.15

0.31

0.81

0.48

0.01

0.60

0.26

0.34

0.70

0.31

0.07

0.06

0.33

0.49

0.77

0.04

0.43

0.92

0.25

0.83

0.68

0.97

0.11

0.00

0.18

0.11

0.03

0.59

0.25

0.55

Comparando los nmeros aleatorios segn el criterio establecido, se obtiene la siguiente sucesin
binaria. Leyendo de izquierda a derecha se agrupan los smbolos del mismo tipo para formar las
corridas.
0

En la siguiente tabla se resume la informacin necesaria para el clculo de la Ji-cuadrada


Longitud de
corrida i

FE

FO

(FE-FO)2/FE

8.000

0.125

3.875

0.197

1.875

0.008

0.906

0.010

0.438

0.721

Como para las longitudes de corrida i = 2, 3, 4, 5; las frecuencias observadas son menores o igual a
cinco, agrupamos estas longitudes de corridas en una sola longitud de corrida.
i

FE

FO

(FE-FO)2/FE

0.125

>=2

7.04

0.936
2
0

X = 1.061
El valor en tablas de X21.5%= 3.84; entonces no se puede rechazar la independencia de los nmeros
aleatorios.

CORRIDAS ASCENDENTES Y DESCENDENTES


Procedimiento
1. Generar la muestra de tamao N de nmeros aleatorios.
2. Construir la sucesin binaria de acuerdo al siguiente criterio:
Si rj es menor o igual a rj+1 entonces asignarle a rj el smbolo 0.
Si rj es mayor que rj+1 entonces asignarle a rj el smbolo 1.
3. Con base en la distribucin X2, efectuar la prueba, donde la frecuencia esperada de las longitudes
de corrida i se calcular con:

EJEMPLO. Aplicar la prueba de las corridas ascendentes y descendentes a la muestra de nmeros


aleatorios del ejemplo anterior. Compararemos a los nmeros por fila, pero es indistinto hacerlo por
columna.
0.15

0.31

0.81

0.48

0.01

0.60

0.26

0.34

0.70

0.31

0.07

0.06

0.33

0.49

0.77

0.04

0.43

0.92

0.25

0.83

0.68

0.97

0.11

0.00

0.18

0.11

0.03

0.59

0.25

0.55

Ahora la sucesin binaria es


0

Obsrvese que la ltima celda se deja en blanco, pues no hay con qu nmero comparar. (Aqu N =
29)
Longitud de
corrida i

FE

FO

(FE-FO)2/FE

11.500

11

0.020

5.083

0.001

1.400

0.257

0.292

0.005

FE

FO

(FE-FO)2/FE

11.500

11

0.020

>=2

6.483

0.004
2
0

X = 0.024
Como el valor calculado de 0.024 es menor que el valor en tablas de Ji-cuadrada X21.5%= 3.84, no se
puede rechazar la independencia de los nmeros aleatorios.

Das könnte Ihnen auch gefallen