Beruflich Dokumente
Kultur Dokumente
APLICADA
DISTRIBUCIN NO
PARAMTRICA
Las pruebas paramtricas requieren supuestos acerca de la
naturaleza o forma de las poblaciones involucradas. Las pruebas no
paramtricas no requieren estos supuestos. Consecuentemente, las
pruebas no paramtricas de hiptesis son frecuentemente llamadas
pruebas de libre distribucin.
DISTRIBUCIN NO PARAMTRICA
FACULTAD
ESCUELA
: INGENIERA QUMICA
DOCENTE
CURSO
: ESTADSTICA APLICADA
TRABAJO
: DISTRIBUCIN NO PARAMTRICA
CICLO
:V
SEMESTRE
: 2016-I
ALUMNOS
:
*
*
*
*
*
DISTRIBUCIN NO PARAMTRICA
DEDICATORIA
INTRODUCCIN
DISTRIBUCIN NO PARAMTRICA
CONTENIDO
DEDICATORIA.................................................................................................. 2
INTRODUCCIN............................................................................................... 3
UN POCO DE HISTORIA..................................................................................... 5
3
DISTRIBUCIN NO PARAMTRICA
DEFINICIN..................................................................................................... 6
VENTAJAS................................................................................................... 6
DESVENTAJAS............................................................................................. 6
ANALISIS DE VARIANZA DE UNA CLASIFICACION POR RANGOS DE KRUSKALWALLIS........................................................................................................... 7
FUNDAMENTO Y MTODO...........................................................................7
EJEMPLO 1: PARA MUESTRAS PEQUEAS....................................................8
EL CASO DE k MUESTRAS INDEPENDIENTES..............................................10
EJEMPLO 2: PARA MUESTRAS GRANDES....................................................10
POTENCIA EFICIENCIA........................................................................... 13
LA PRUEBA DE RANGOS SEALADOS Y PARES IGUALADOS DE WILCOXON.......16
FUNDAMENTO Y MTODO.........................................................................16
EJEMPLO 1: PARA MUESTRAS PEQUEAS..................................................17
EJEMPLO 2: PARA MUESTRAS GRANDES....................................................20
RESUMEN DEL PROCEDIMIENTO...............................................................21
POTENCIA EFICIENCIA........................................................................... 23
EL USO DE LAS PRUEBAS ESTADISTICAS EN INVESTIGACIN...........................24
LA HIPTESIS DE NULIDAD.......................................................................24
LA ELECCION DE LA PRUEBA ESTADSTICA..............................................25
NIVEL DE SIGNIFICAIN Y EL TAMAO DE LA MUESTRA..........................25
LA DISTRIBUCION MUESTRAL...................................................................28
LA REGION DE RECHAZO..........................................................................30
LA DECISION............................................................................................. 31
EJEMPLO 1:.............................................................................................. 31
CONCLUSIONES............................................................................................. 34
BIBLIOGRAFIA............................................................................................... 34
UN POCO DE HISTORIA
Uno de los trabajos ms antiguos conocidos en estadstica no paramtrica data en el ao
1710 y fue realizado por Arbuthnot. En l se utiliza la prueba del signo para examinar
4
DISTRIBUCIN NO PARAMTRICA
DEFINICIN
Una distribucin no paramtrica est basada en un modelo que especifica solo
condiciones muy generales y ninguna a cerca de la forma especfica de la distribucin
de la cual fue obtenida la muestra. Ciertas suposiciones estn asociadas con la mayora
de las distribuciones no paramtricas, a saber: que las observaciones son independientes
5
DISTRIBUCIN NO PARAMTRICA
y quiz que l variable en estudio es continua; pero estas suposiciones son menores y
ms dbiles que aquellas asociadas con la distribucin paramtrica.
La estadstica no paramtrica es una rama de la estadstica que estudia las pruebas y
modelos estadsticos cuya distribucin subyacente no se ajusta a los llamados criterios
paramtricos. Su distribucin no puede ser definida a priori, pues son los datos
observados los que la determinan. La utilizacin de estos mtodos se hace
recomendable cuando no se puede asumir que los datos se ajusten a una distribucin
conocida, cuando el nivel de medida empleado no sea, como mnimo, de intervalo.
La distribucin no paramtrica prueban diferentes hiptesis a cerca de la poblacin, que
la distribucin paramtrica no lo hace. Por ultimo a diferencia de las paramtricas,
existen no paramtricas que puedan aplicarse apropiadamente a datos medidos en una
escala ordinal, y otras pruebas para datos a escala nominal o categrica.
VENTAJAS
1. Si el tamao de la muestra es muy pequeo, puede no haber otra opcin que usar
una distribucin no paramtrica, a menos que la naturaleza de la distribucin de
la poblacin se conozca con exactitud.
2. Tpicamente hacen menos suposiciones a cerca de los datos y pueden ser ms
relevantes a una situacin particular. Adems las hiptesis probadas por una
distribucin no paramtrica pueden ser ms adecuadas para la investigacin.
3. Las distribuciones no paramtricas estn disponibles para tratar datos que son
simplemente clasificatorios, es decir, que son medidos en una escala nominal.
4. Pueden frecuentemente ser aplicados a datos no numricos, tal como el gnero
de los que contestan una encuesta.
5. Existen distribuciones no paramtricas que son adecuadas para tratar muestras
obtenidas de observaciones de diferentes poblaciones.
6. Son ms fciles de aprender y aplicar. Adems, su interpretacin suele ser ms
directa.
DESVENTAJAS
1. Los mtodos no paramtricos tienden a perder informacin porque datos
numricos exactos son frecuentemente reducidos a una forma cualitativa.
2. Una de las objeciones es que no son sistemticas.
3. No tiene una distribucin fija para este tipo de estadstica, por lo que en
ocasiones puede ser un problema el elegir la adecuada.
4. En varios casos se requieren transformar los datos en rangos, perdiendo la
informacin puntual.
DISTRIBUCIN NO PARAMTRICA
cuestin radica en que las diferencias entre las muestras signifiquen diferencias
genuinas de poblacin o simples variaciones aleatorias, semejantes a las esperadas entre
distintas muestras aleatorias de la misma poblacin. La tcnica de kruskal-Wallis
examina la hiptesis de nulidad que supone que las k muestras proceden de la misma
poblacin o de poblaciones idnticas con respecto a los promedios. La prueba supone
que la variable en estudio tiene como base una distribucin continua. Requiere por lo
menos, una medida ordinal de la variable.
FUNDAMENTO Y MTODO
Al calcular la prueba de kruskal-Wallis, cada una de las N observaciones es
reemplazada por rangos. Esto es, todos los puntajes de las k muestras combinadas se
ordenan en una sola serie. El puntaje ms pequeo es reemplazado por el rango 1, el
siguiente en tamao por el rango 2 y el siguiente por el rango N. N es el nmero total de
observaciones independientes en las k muestras.
Cuando se ha hecho esto, se encuentra la suma de los rangos de cada muestra. La
prueba de kruskal-Wallis, determina si la desigualdad entre las sumas de rangos es tan
grande que probablemente no procedan de muestras tomadas de la misma poblacin.
Puede demostrarse que si las k muestras efectivamente proceden de la misma poblacin
o de poblaciones idnticas, es decir, si H 0 es verdadera, H est distribuida como chi
cuadrada
con
12
Rj 2
H=
3( N +1) ..( 1)
N (N +1) j=1 nj
Donde:
k= nmero de muestras
nj
j=1
nj ) suficientemente grandes.
Cuando hay ms de 5 casos en los diversos grupos, esto es,
con la ocurrencia conforme, a
H0
DISTRIBUCIN NO PARAMTRICA
puede determinarse en la tabla del apndice. Si el valor observado de H es igual o mayor que el
valor de chi cuadrado dado en la tabla O en el nivel de significacin fijado previamente y
gl=k 1 ,
H0
significacin.
Cuando k=3 y el nmero de casos en cada una de las 3 muestras es 5 o menos, la
aproximacin de chi cuadrada a la distribucin muestral de H no es suficientemente
cercana. Para tales casos se han tabulado probabilidades exactas a partir de la frmula
(1), que aparecen en la tabla O. La primera columna de esta tabla contiene el nmero de
casos de las 3 muestras, varios valores posibles de n1 , n2 , n3 . La segunda contiene
diferentes valores de H, calculados con la frmula (1). La tercera contiene las
probabilidades asociadas con la ocurrencia conforme a H 0 de valores tan grandes
como el de una H observada. Por ejemplo, si
H 5.8333
contienen 4,3 y 1 casos, la tabla O seala que la hiptesis de nulidad puede rechazarse al
nivel de significacin 0.021.
F2
n3=4 , el
nmero de administradores.
8
DISTRIBUCIN NO PARAMTRICA
n j , de la tabla O
H0
de valores
=0.05 .
Profesores orientados a la
administracin
82
124
Administradores
83
61
101
132
135
109
166
147
115
149
1. Decisin: para este estudio ficticio, los puntajes F para los diversos educadores
se muestran en la tabla 1. Si ordenamos estos 14 puntajes F del ms bajo al ms
alto, obtenemos los rangos mostrados en la tabla 2. Estos rangos se han sumado
para los tres grupos, obtenindose R1=22, R2=37, R3=46 , como se muestra
en la tabla 2.
Tabla 2. Rangos de autoritarismo de tres grupos de educadores
(Datos ficticios)
Profesores orientados a la
enseanza
4
9
3
1
5
Profesores orientados a la
administracin
2
8
10
11
6
Administradores
R1=22
R2=37
R3=46
7
13
14
12
Ahora con estos datos podemos calcular el valor de H con la formula (1):
k
H=
12
Rj 2
3( N +1)(1)
N (N +1) j=1 nj
DISTRIBUCIN NO PARAMTRICA
H=
rechazar
y aceptar
H 6.4
tiene una
T
N 3N
. (2)
Donde:
T =t 3 t
ligados).
N= Nmero de observaciones en las k muestras juntas, esto es,
N= n j
As, una expresin general para H, corrigiendo el efecto de las ligas, es:
k
12
Rj2
3 ( N +1 )
N ( N +1 ) j=1 nj
H=
..(3)
T
1 3
N N
La correccin del efecto de las ligas resulta en un incremento del valor e H y de este
modo el resultado es an ms significativo de lo que habra sido sin la correccin. Por
consiguiente, si se puede rechazar H 0 sin la correccin [es decir, con la frmula (1)
al calcular H], se podr rechazar
H0
medio de la correccin.
DISTRIBUCIN NO PARAMTRICA
correccin, es decir, mediante la frmula (1), rara vez cambia en ms de 10% cuando se
corrige el efecto de las ligas, esto es, si H es calculada con la formula (3), de acuerdo
con Kruskal-Wallis.
En el siguiente ejemplo, H es calculada en primer lugar con la formula (1) y despus
corregida debido a las ligas. Ntese que aun cuando hay 13 grupos de ligas que implican
a 47 de las 56 observaciones, el cambio de H que resulta al aplicar la correccin es
solamente de H=18.464 a H=18.566.
Como suele suceder, la magnitud del factor de correccin depende de la longitud de las
ligas, es decir, de los valores de t, as como del porcentaje de las observaciones
implicadas.
11
DISTRIBUCIN NO PARAMTRICA
2.0
2.8
3.3
3.2
4.4
3.6
1.9
3.3
2.8
1.1
3.5
2.8
3.2
3.5
2.3
2.4
2.0
1.6
3.3
3.6
2.6
3.1
3.2
3.3
2.9
3.4
3.2
3.2
3.2
3.3
3.2
2.9
3.3
2.5
2.6
2.8
2.6
2.6
2.9
2.0
2.0
2.1
3.1
2.9
3.1
2.5
2.6
2.2
2.2
2.5
1.2
1.2
2.5
2.4
3.0
1.5
2
52.5
27.5
41.0
52.5
14.0
15.5
8.5
5.0
3
47.5
54.5
23.0
36.0
41.0
47.5
31.5
51.0
41.0
41.0
4
41.0
47.5
41.0
31.5
47.5
18.5
23.0
27.5
5
23.0
23.0
31.5
8.5
8.5
11.0
6
36.0
31.5
36.0
18.5
7
23.0
12.5
12.5
18.5
2.5
2.5
8
18.5
15.5
34.0
4.0
R1=
R2=
R3=
R4 =
R5=
R6=
R7=
R8=
317.0
216.5
414.0
277.5
105.5
122.0
71.5
72.0
k
Rj
12
3 ( N + 1 ) . (1)
N ( N + 1 ) j =1 n j
H=
12
DISTRIBUCIN NO PARAMTRICA
H=
12
( 10048,9+5859,031+ 17139,6+9625,781+1855,042+ 3721,0+852,042+1296,0 )171
3192
H=18,464
La referencia a la tabla C
H 18,464
con
gl=k 1=7
Tiene una probabilidad de ocurrencia conforme a
H 0 de
p<0,02.
Para corregir el efecto de las ligas empezaremos por determinar cuntos grupos ligados
ocurrieron y cuantos puntajes estaban ligados en cada grupo. La primera liga ocurri
entre dos cerdos en la camada 7 (que pesaron 1,2 libras). Ambos se les asigno el rango
de 2,5. Aqu, t el nmero de observaciones ligadas, 2 . Para este suceso,
T =t 3 t=82=6
La siguiente liga ocurri entre cuatro cerdos a los que se asign el rango ligado 8,5.
3
Aqu, t=4 y T =t t=644=60 .
Prosiguiendo de esta manera a travs de los datos de la tabla 4, encontraremos que
ocurrieron 13 grupos ligados. Al contar el nmero de observaciones en cada grupo
ligado, se determinan los diferentes valores de t , y calculamos el valor de
T =t 3 t
60
60
120
60
60
24
336
210
T
N 3N
(2)
Este valor viene a ser el denominador de la formula (3), y el valor que ya hemos
calculado con la formula (1) es el numerador.
13
DISTRIBUCIN NO PARAMTRICA
De este modo, necesitamos solamente hacer una operacin adicional para obtener el
valor de H , corregido el efecto de las ligas:
k
Rj
12
3 ( N +1 )
N ( N +1 ) j=1 n j
H=
.(3)
T
1 3
N N
2
H=
18,464
=18,566
0,9945
C
La tabla
H=18,566 ,
gl=7 , es
H 0 de un
H0.
N .
rangos de 1 a
2. Se determina el valor de
grupos de rangos.
3. Si una gran proporcin de las observaciones estn ligadas, se calcula el valor
la formula (3). de otra manera, se usa la formula (1).
4. El mtodo para determinar la significacin del valor observado de
tamao de
a) Si
k =3
k
con
depende del
n1 , n2 , n3 , 5 , la tabla
H0
de una
observada.
b) En los otros casos, la significacin de un valor tan grande como el valor observado
de
C , con
gl=k 1
5. Si la probabilidad asociada con el valor observado de
nivel de significacin,
H 0 y se acepta
H1.
14
DISTRIBUCIN NO PARAMTRICA
POTENCIA EFICIENCIA
Comparada con la prueba paramtrica ms poderosa, la prueba
F ,
En las condiciones donde las suposiciones asociadas con el mtodo estadstico de la prueba
3
=95,5 por ciento.
15
Tamao
Tamao
de
H
p
HH
pp
O . deTabla de H
de muestras
probabilidades Tamao
asociadas
con valores tan grandes como
muestras
muestras
TABLA
nn1
nn2
nn3
nn1
nn2
nn3
1
2
3
1
2
3
DISTRIBUCIN
NO PARAMTRICA
2
1
1
2.700
.500
6.444
4
3
2
.008
5
2
2
6.53
.008
5.63
.050
0
4
33
08
6.300
.011
TABLA O .
Tabla de probabilidades
asociadas
con
valores
tan
grandes
como valores
0
6.13 .013
4.54
.099
3.600
5.444
33
87
2
2
.200
.046
H 1en el anlisis
observados
de
de
varianza de una clasificacin por
0
4 rangos de Kruskal
5.16
.034
4.52
.103
5.400
.051
00
31
0
5.04 .056
4.571
4.511
2
2
2
.067
.098
4
1
00
3.714
.200
4.444
.102
4.37 .090
5
4
4
7.76
.009
3
4
33
04
4.29
.122
7.74
.011
3.200
33
40
3
1
1
0
.300
6.745 .049
5.65
4
3
3
.010
5
71
4.285
6.709
6.40 .012
5.61
.050
35
23
11
.100
.013
7
1
00
76
3.857
5.790
.133
.046
4.96
.058
4.61
.100
1
9
5.727
00
87
.050
3
4.87 .052
4.55
.102
5.357
4.709
3
2
2
.029
.092
11
27
2
1
4.01
.095
4.714
4.700
.101
.048
3
0
78
4.500
.067
3.84 .123
5
5
1
7.30 .009
0
00
91
4.464
6.666
.105
4
4
1
.010
6.83
.011
3
7
64
6.166
.022
7
5
3
2
6.90 .009
5.12
.046
5.142
4.966
91
73
3
3
2
.043
.048
9
7
6.82
.010
4.90
.053
4.571
4.866
.100
.054
18
91
4
7
4.000
4.166 .086
5.25 .049
4.10
.129
.082
0
7
09
91
4.066
.102
5.10 .052
4.03
.105
7
55
64
3
3
2
6.250
.011
4.65
.091
0
5.361
7.036
09
.032
4
4
2
.006
1
4
4.49 .101
5
5
2
7.33
.010
5.138
6.872
.061
.011
45
85
9
7
7.26
.010
4.555
5.454
.100
.046
6
92
5
4.250
5.236 .047
5
3
3
7.07 .009
5.33
.121
.052
0
4
88
85
4.554
.098
6.98 .011
5.24
.051
5
18
62
7.200
4.445
.103
3
3
3
.004
0
5
5.64
.049
4.62
.097
6.488
.011
85
31
9
5.51
.051
4.50
.100
5.688
7.143
.029
4
4
3
.010
52
77
9
9
4.53 .097
5.600
7.136
.050
.011
0
4
33
5.066
5.598 .010
4.41 .109
5
5
3
7.57
.086
.049
7
5
21
80
4.622
5.575
.100
.051
7.54
.010
2
8
29
3.571
4.545 .046
5
4
1
6.95
.008
5.70
4
1
1
.200
.099
16
4
5
45
55
4.477
.102
6.84 .011
5.62
.051
3
00
64
4
1
2
4.821
.057
4.98
.044
4.54 .100
4
DISTRIBUCIN NO PARAMTRICA
FUNDAMENTO Y MTODO
Sea
los puntajes del par bajo los dos tratamientos. Cada par tiene una
Wilcoxon, se clasifican todas las
pequea
el signo, a una
En seguida se aade a cada rango el signo de la diferencia, indicando que rangos procedieron de
d i , negativas y de
d i positivas.
di
H0
es verdadera,
di
di
signo de ms y tambin los que tienen signo menos, las dos sumas deberan ser iguales
conforme a
17
DISTRIBUCIN NO PARAMTRICA
H0
di
Ligas. Ocasionalmente, los dos puntajes de algn par son iguales y no se observa diferencia
entre los dos tratamientos para ese par, de manera que
es cero.
casos ligados asignamos el mismo rango. El rango asignado es el promedio de los rangos que se
habran asignado si las d
1+2+3
=2 . La siguiente
3
reribiria el rango de 4,
observaciones ligadas el promedio de los rangos en lugar de los que realmente pueden
obtener un efecto despreciable sobre T , la estadstica en la que se basa la prueba de
Wilcoxon.
Para la aplicacin de estos principios en el manejo de ligas, vase ms adelante el
ejemplo para muestras grandes.
Muestras pequeas
Sea T
es la suma de los
rangos positivos cuando es menor que la suma de los rangos negativos, o viceversa. En
la tabla G del apndice hay diferentes valores de T y sus niveles asociados de
significacin. Es decir, si una
N , la
H0
T =3
al nivel
al afirmar
H1
N=9 , se puede
DISTRIBUCIN NO PARAMTRICA
asimismo se rechaza
H0
en el nivel
=0.01
H1
si
Hiptesis de nulidad.
H 1 : la
2.
capacidad de3 percepcin social de los dos grupos de nios difiere, es decir, la suma
de los rangos positivos no equivale a la suma de los rangos negativos.
Prueba estadstica. La de rangos sealados y pares igualados de Wilcoxon se
escoge como adecuada en un estudio que emplea dos muestras relacionadas y da
puntajes de diferencia que pueden clasificarse en orden de magnitud absoluta.
3.
4.
6.
resulte cero.
5.
=0.05 y
T , para
de la
N 25 .
conforme
c y g , mostraron diferencias en la
19
DISTRIBUCIN NO PARAMTRICA
direccin de mayor percepcin social con respecto al gemelo de casa. Y estos
puntajes de diferencia son muy pequeos: sus rangos son 1 y 3.
La menor de las sumas de los rangos sealados es
N=8 , una
=0.05
H0
y aceptamos
H1
para una
en este estudio
ficticio, concluyendo que las experiencias del jardn de los nios afectan la capacidad de
percepcin social de nio.
Vale la pena sealar que los datos de la tabla 5 se pueden tratar con la prueba de los signos,
menos poderosa. Para esa prueba,
de su ocurrencia conforme a
H0
H0
en
=0.05 ,
Puntaje de la
capacidad de
percepcin
social
del
gemelo
asignado
al
jardn de nios
82
Puntaje de la
capacidad de
percepcin
social
del
gemelo
que
permaneci en
su casa
63
69
c
d
Rango de
19
42
27
73
74
-1
-1
43
37
Rango
de
signo menos
frecuente
20
DISTRIBUCIN NO PARAMTRICA
58
51
56
43
13
76
80
-4
-3
65
82
T =4
H0
Sugiere rechazar
T , est
N ( N +1 )
4
desviacion estandar : T =
N ( N + 1)(2 N +1)
24
Por lo tanto,
N (N + 1)
T
T T
4
z=
=
..(5)
T
N ( N +1)(2 N + 1)
24
Esta prximamente distribuida en forma normal con media de cero y varianza de uno.
Asi, en la tabla A del apndice encontramos la probabilidad asociada con la ocurrencia
conforme a H 0 de varios valores tan extremos como cierto valor observado de z ,
calculado con la formula (5).
Para observar la excelencia de esta aproximacin, aun con muestras pequeas
trataremos los datos de la tabla 5.6, donde N=8 y por consiguiente, T =4 .
Sustituyendo los valores en la formula (5.5), tenemos:
(8)(9)
4
z=
=1,96
( 8)(9)(17)
24
4
21
DISTRIBUCIN NO PARAMTRICA
H0
1.96 , es
de
Hiptesis de nulidad.
2.
3.
: los
N se reduce si la
de algn
prisionero es cero.)
22
DISTRIBUCIN NO PARAMTRICA
4.
H 0 , los valores de
z calculado con
5.
(obtenidos de
ocurrencia conforme a
6.
(d )
(26)(27)
4
z=
=3.11
(26)(27)( 53)
24
53
fueron cero.
d
estn en
23
DISTRIBUCIN NO PARAMTRICA
direccin opuesta a la predicha; por tanto, se procede con una prueba de una cola. La
tabla A muestra que un valor de z tan extremo como 3.11 tiene una
H 0 , de
esta en
(d 1)
ligadas, se asignan el
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
-2
0
0
1
0
0
4
4
1
1
5
3
5
3
-1
1
-1
5
8
2
2
2
-3
-2
Rango de
-11.5
4.5
20.0
20.0
4.5
4.5
23.0
16.5
23.0
16.5
-4.5
4.5
-4.5
23.0
25.5
11.5
11.5
11.5
-16.5
-11.5
4.5
4.5
16.5
11.5
24
DISTRIBUCIN NO PARAMTRICA
25
26
27
28
29
30
1
4
8
2
3
-1
4.5
20.0
25.5
11.5
16.5
-4.5
4.5
T =53.0
3. Se aade a cada rango el signo (+ o -) de la
que representa.
depende
del lado de N :
a) Si
diferentes tamaos de
N . Si el valor observado de T
para
particular,
, se rechaza
menor que
p . Si la
obtenida es igual o
H0 .
POTENCIA EFICIENCIA
Cuando las suposiciones de la prueba paramtrica
asinttica cercana a
H0
es de
3
=95.5 (Mood, 1954). Esto significa que 3/
es
la proporcin lmite de tamaos de muestras necesarias para que las pruebas de Wilcoxon y
95 .
25
DISTRIBUCIN NO PARAMTRICA
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
.005
.01
11
5
14
7
17
10
21
13
25
16
.02
.01
-
2
3
5
7
10
13
16
20
30
20
35
23
40
28
46
32
52
38
24
59
43
66
49
73
55
81
61
89
68
49
28
33
38
43
56
62
69
77
26
DISTRIBUCIN NO PARAMTRICA
(N)
4. Encuentro (o suposicin) de la distribucin muestral de la prueba estadstica
conform ( H 0 ) .
5. Sobre la base de incisos II,III,IV, definicion de la regin de rechazo
6.
( H0)
debe
27
DISTRIBUCIN NO PARAMTRICA
LA HIPTESIS DE NULIDAD
El primer paso en el procesimiento de hacer decisiones es enunciar la hipotesis de
nulidad ( H 0 ) . La hipotesis de nulidad es una hiptesis de diferencias nulas. Es
formuladas por lo comn con la intencin expresa de ser rechazada. Si se rechaza,
puede aceptarse entonces la hiptesis alterna ( H 1 ) . La hipoteis alterna es la
aseveracin operacional de la hipotesis de investigacin del experimentador. La
hiptesis de investigacion es la prediccin que se de rivade la teoria que se est
probando. Al hacer una decisin acerca de diferencias, sometemos a prueba a ( H 0 )
frente a ( H 1 ) . ( H 1 ) constituye la firmacin aceptada cuando ( H 0 ) es rechazada.
Supongamos que cierta teora cientificosocial nos conduce a predecir que dos grupoes
especificos de personas difieren en cuanto al tiempo que pasan leyendo el periodico
(esto constituir nuestra hiptesis de investigacin). Al comfirmarse esta prediccion
recibira apoyo la teoria cientificosocial de la que derivada. Para probar esta hipoteis de
investigacion, la enunciamos en forma operacional como hiptesis de investigacion, la
enunciamos en forma operacional como la hiptesis alterna, ( H 1 ) .
( H0)
peridico por los miembros de las dos poblaciones es la misma.Si los datos nos
permitieran rechazar ( H 0 ) , entonces ( H 1 ) , podria ser aceptada, y esto apoyaria la
hipotesis de investigacion y la teoria en la que se basa.
La naturaleza de la hipteis determina cmo debe ser formulada
( H 1 ) . Si la hipotesis
de investigacion simplemente dice que los dos grupos difieren con respecto a las
medias, entonces ( H 1 ) ser 1 2 . Pero si la teora predice la direccin de la
diferencia, es decir, que un grupo especifico tiene una media mayor que el otro,
entonces ( H 1 ) puede ser 1 > 2 o que 1 < 2 (donde significa mayor
que y significa menor que).
DISTRIBUCIN NO PARAMTRICA
( )
y seleccionar un tamao de la
muestra (N).
En forma breve, este es el procedimiento para hacer decisiones: antes de escoger los
datos, se especifica el conjunto de todas las posibles muestras que se encuentran si
( H 0 ) es verdadera. De este conjunto se extrae un subconjunto de muestras de
caracteristicas tan extremas que
hecho se observa est entre ellas. Por tanto, si en la investigacion se observa una
muestra incluida en ese subconjunto, se rechaza ( H 0 ) .
Dicho de otra manera, nuestro procedimiento es rechazar
por
de
ocurre en
( H0)
y aceptamos
( H1)
, rechazamos
investigacin.
Puede verse que en el nivel
( H0)
falsa o
tipo I.
Puesto que el valor de
( H 0 ) o su
quede indicado
antes de
recoger los debera determinarse por la estimacion que haga de la importancia o del
posible significado practico de sus descubrimientos. Por ejemplo, al estudiar los
posibles efectos reapeuticos de la cirugia del cerebro, el investigador debe escoger un
nivel de significacion mas bien severo, pues el peligro implicado en un rechazo
incorrecto de la hiptesis de nulidad es muy grande. Al imformar acerca de sus
descubrimientos, el investigador debe indicar el nivel de probabilidad real asociado con
ellos, de manera que el lector pueda juzgar por si mismo si la hipoteisi de nulidad debio
ser efectivamente rechazada. Un investigador puede escoger para su trabajo el nivel
29
DISTRIBUCIN NO PARAMTRICA
0.05, pero algn lector podra rehusarse a aceptar la validez de cualquier descubrimiento
que no sea significativo a los nivles 0.0.1, 0.005 o 0.001, mientras otro lector puede
interesarse en cualquier descubrimiento a niveles 0,08 o 0,10. El investigador debe dar a
sus lectores, cuando ello sea posible, informacion suficiente por medio del nivel de
probabilidad asociado con su estudio.
En la teoria contemporanea de la decision estadistica se han rechazado los
procedimientos que implican una adhesion a nivle de significacion, por ejemplo de 0,05
o 0,01, escogido arbitrariamente, y se favorece el uso de procedimientos en los que las
decisones se hacen con terminos de funciones de perdida, utilizando principios como el
de minimax( minimizar la prdida mxima). El lector interesado en este enfoque puede
consulatr los estudios de BLACKWELL y GIRSHICK (1954), Savage (1954) o Wald
1950. Aunque es evidente la conveniencia de esta tecnica para establecer un criterrio de
decision, las posibilidades de aplicacion practica son dudosas en una buena parte de la
investigacion relativa a las ciencias de las conductas, debido a que crecemos de la
informacion que construiria la base del uso de las funciones de perdida.
Una practica comn, que ilustra esta idea de diferentes investigadores y lectores
manteniendo con diferentes con diferentes puntos de vista acerca de las perdidas o
ganancias involucradas al llevar a cabo un descubrimiento cientificosocial, consiste para
el investigador en reportar simplemente el nivel de probabilidad asociado con su
descubrimiento sealando que la hiptesis de nulidad puede rechazarse a ese nivel.
Hay dos tipos de errores que pueden contenerse al decidir acerca de ( H 0 )
( H 0 ) siendo falsa.
probable es que se comete el error tipo I. El error tipo II se suele representar por
es:
p(error tipo I )=
p(error tipo II )=
En condiciones ideales, los valores de
DISTRIBUCIN NO PARAMTRICA
relacion inversa entre las probabilidades de cometer uno de los dos tipos de errores, al decrecer
se incrementara
( H0)
cuando es
N= 100
( H0)
es 0,05 cuando
( H0)
0.
N= 50 N= 20
1
.9
.8
.7
( H0)
.6
Probabilidad de rechazar
= 0.5
.4
.1
.3
.2
.1
0
3
0 0
+2
+3
=0.05
con diferentes
tamaos de muestra.
31
DISTRIBUCIN NO PARAMTRICA
=0.05
siendo verdadera.
El lector debe comprender los cinco puntos siguientes, que resumen lo dicho acerca del
nivel de significacin y del tamao de la muestra:
1. El nivel de significacin
LA DISTRIBUCION MUESTRAL
Una vez que un experimentador ha escogido una prueba estadstica para aplicarla a sus
datos, en seguida debe determinar cul es la distribucin muestral de la estadstica de la
prueba.
La potencia esta tambin relacionada con la naturaleza de
H1
. Si
H1
tiene
direccion, se usa una prueba de una cola.Una prueba de una cola es mas poderosa que
una de dos. Esto es claro al considerar la definicion de potencia.
La distribucion muestral es una distribucin terica. La obtendramos al tomar al azar
todas las muestras posibles de un mismo tamao extradas de una misma poblacin.
Expresado de otra manera, la distribucin muestral es la distribucin, conforme a
( H 0 ) , de todos los valores posibles que es una estadstica (por ejemplo, la media
maestral
( H 0 ) " se
DISTRIBUCIN NO PARAMTRICA
ocurrencia conforme a
prueba estadistica. En este libro usaremos frecuentemete las frases anteriores y en cada
caso tendran el significado ya expresado.
Supongamos que nos interesara la probabilidad, de que caigan tres caras cuando se tiran
tres monedas 'legales' simultneamente. La distribucin muestral del nmero de las
caras podra sacarse de la lista de todos los resultados posibles de esa accin que
aparece en la tabla 7. El nmero total de eventos posibles (combinaciones de caras y
cruces) es ocho, de los cuales solo uno nos interesa: la ocurrencia conforme ha ( H 0 ) ,
de tres caras al tirar tres monedas es 48. Aqu,
monedas son 'legales', lo que significa que para cada moneda la probabilidad de una
cara es igual a la probabilidad de una cruz.
Tabla 7. Resultados posibles del lanzamiento de tres monedas
RESULTADOS
1
Moneda 1
Cara
Cara
Cara
Cara
Cruz
Cruz
Cruz
Cruz
Moneda 2
Cara
Cara
Cruz
Cruz
Cara
Cara
Cruz
Cruz
Cruz
Cara
Cruz
Cara
Cruz
Cara
Cruz
Moneda
Cara
DISTRIBUCIN NO PARAMTRICA
( H 0 ) , de la
las
, cuando la
y desviaciones
y desviaciones estndar de
/ N
grande.
En otras palabras, si N es suficientemente grande, la distribucin muestral de
x .
El teorema del lmite central nos dice que la distribucin muestral de las
de todas
LA REGION DE RECHAZO
La regin de rechazo es una regin de la distribucin muestral. Esta incluye todos los
valores posibles que una prueba estadstica puede tomar conforme a H0; la regin de
rechazo se compone de un subconjunto de estos posibles valores, de manera que la
probabilidad de ocurrencia de una prueba estadstica conforme a H 0 cuyo valor este en
ese subconjunto, sea .
34
DISTRIBUCIN NO PARAMTRICA
por ciento del rea total comprendida bajo la curva de la distribucin muestral. Las
regiones de rechazo de una y de dos colas en = 0.05 aparecen en la figura 2.
Obsrvese que estas dos regiones de rechazo difieren en su localizacin pero no en su
tamao total
LA DECISION
Si la prueba estadstica de un valor que est en la regin de rechazo, se rechaza H 0. De
dos maneras: suponiendo que la hiptesis de nulidad es falsa o que un evento raro e
improbable he sucedido. En este proceso de decisin, escogemos la primera de las
explicaciones. Ocasionalmente, por supuesto, la segunda puede ser la correcta. De
hecho, la probabilidad de que la segunda explicacin sea correcta est dada por ,
pues el rechazo de H0 cuando es verdadera es el error tipo I.
Cuando la probabilidad asociada con un valor observado de una prueba estadstica es
igual o menor que el valor previamente determinado de , concluimos que H0 es
falsa. El valor observado es llamado significativo. La hiptesis en prueba, H 0, se
rechaza siempre que ocurra un resultado significativo. Por tanto, se llama valor
significativo a aquel cuya probabilidad asociada de ocurrencia de acuerdo con H0 (tal
como la presenta la distribucin muestral) es igual o menor que .
EJEMPLO 1:
Las exposiciones de las diversas pruebas estadsticas no paramtricas van acompaadas
de muchos ejemplos de decisiones estadsticas en este libro. He aqu un ejemplo del
proceso de una decisin estadstica, que ilustra los puntos tratados en este captulo.
Supongamos que tenemos sospechas de que cierta moneda no es legal. Nuestra
sospecha proviene que la moneda tiende a caer de cara. Para probar esta sospecha (que
podemos dignificar llamndola hiptesis de investigacin), decidimos tirar la moneda
12 veces para observar la frecuencia con que ocurre la cara.
35
DISTRIBUCIN NO PARAMTRICA
1
2 . Esto es, para la moneda
12
11
10
Distribucin muestral
(Frecuencia espera de ocurrencia si
se tomara 212 muestras de 12
lanzamientos)
1
12
66
36
DISTRIBUCIN NO PARAMTRICA
9
8
7
6
5
4
3
2
1
0
220
495
792
924
792
495
220
66
12
1
______
Total = 212 = 4096
1
=0.00024 . Puesto que p =
4096
37
DISTRIBUCIN NO PARAMTRICA
CONCLUSIONES
Cuando las suposiciones de la prueba paramtrica
de la prueba de
3
=95.5
3/
es la proporcin
95 .
Podemos concluir que las pruebas estadsticas no paramtricas son tpicamente
muchos ms fciles de aplicar que las pruebas paramtricas.
Analizando el estimador de la media muestral se concluye que para las
distribuciones continuas y discretas los dos mtodos de estimacin trabajados
proporcionan las mismas medidas descriptivas con una precisin de tres dgitos
como lo son: la media, la varianza, el error promedio de estimacin
El estimador insesgado de la varianza y el estimador de la media poblacional
que tambin es insesgado para distintos valores de los parmetros poblacionales
en distribuciones continuas y discretas
Aplicar los datos una vez escogida la prueba estadstica.
El anlisis de varianza de una clasificacin por rangos de KRUSKAL-WALLIS
es una prueba extremadamente til para decidir si k muestras independientes son
de poblaciones diferentes.
38
DISTRIBUCIN NO PARAMTRICA
Los pasos para desarrollar el mtodo de KRUSKAL-WALLIS, son muy
importantes.
BIBLIOGRAFIA
DOCUMENTOS DE TESIS PDF (S.F). ESTADISTCA APLICADA, 23 de
junio
del
2016.
Sitio
Web:
http://tesis.uson.mx/digital/tesis/docs/10048/Capitulo4.pdf
GOOGLE BOOKS (S.F). DISTRIBUCION NO PARAMETRICA, 4 de julio del
2016.
Sitio
Web:
https://books.google.com.pe/books?
id=paXp0kwQB8sC&pg=PA11&dq=distribucion+no+parametrica&hl=es&sa=
X&ved=0ahUKEwiTnJvnoLrNAhWCKiYKHUSJAHEQ6AEINjAD#v=onepag
e&q=distribucion%20no%20parametrica&f=false
MODULO EXEL (2005). ESTADISTICA NO PRARAMETRICA, 4 de julio del
2016.
Sitio
Web:
http://datateca.unad.edu.co/contenidos/208041/Modulo_EXE/leccin_11_estadsti
ca_no_paramtrica.html
GEOCIENCIAS UNAM PDF (S.F). ESTADISTICA NO PARAMETRICA, 7 de
julio
del
2016.
Sitio
Web:
http://www.geociencias.unam.mx/~ramon/MCenP2/Clase9.pdf
39
DISTRIBUCIN NO PARAMTRICA
ANEXOS
40
DISTRIBUCIN NO PARAMTRICA
41