Sie sind auf Seite 1von 13

Tema 4: Introduccin a la Estadstica No Paramtrica

4.1 Introduccin
Gran parte de los procedimientos de contrastes de hiptesis se encuentran basados en el
supuesto de que las muestras aleatorias son seleccionadas de poblaciones normales. La
mayor parte de estas pruebas son confiables, an cuando se experimentan ligeras
desviaciones de la normalidad, particularmente cuando el tamao de muestra es grande.
Tradicionalmente, estos procedimientos son llamados mtodos paramtricos; mientras
que los procedimientos a desarrollar en el tema, son considerados procedimientos
alternativos de prueba denominados mtodos no paramtricos o de distribucin libre, los
cuales, frecuentemente suponen un desconocimiento acerca de las correspondientes
distribuciones poblacionales.
Las pruebas no paramtricas poseen ciertas ventajas; en primer lugar los clculos
involucrados son por lo general rpidos de efectuar. Segundo, los datos no necesitan ser
mediciones cuantitativas y quiz la ms importante, es que se encuentran sujetas a menos
suposiciones restrictivas que las paramtricas. A su vez, se debe sealar que hay una serie
de desventajas asociadas a las primeras referidas. Como no utilizan toda la informacin
proporcionada por la muestra, una prueba no paramtrica ser menos eficiente que el
procedimiento paramtrico correspondiente cuando ambos mtodos sean aplicables. En
consecuencia, una prueba no paramtrica requerir un tamao de muestra ms grande que
el de la prueba paramtrica correspondiente, para lograr la misma probabilidad de cometer
un error tipo II.
En concordancia con las ltimas ideas proporcionadas en el pargrafo anterior, si tanto una
prueba paramtrica como una prueba no paramtrica son aplicables al mismo conjunto de
datos, se debe evitar quiz aplicar la no paramtrica y efectuar la del tipo paramtrico ms
eficiente. Sin embargo, reconociendo el hecho de que las suposiciones de normalidad no
pueden ser a menudo justificadas, y que a su vez, no siempre se tienen mediciones
cuantitativas, las pruebas del tipo no paramtrico representan una opcin fundamental para
el anlisis de diversos casos de estudio en diversas ciencias.

Pedro Harmath
Estadstica II

Introduccin a la Estadstica No Paramtrica

4.2. Prueba de la bondad del ajuste


Similarmente como pueden realizarse contrastes de hiptesis estadsticos acerca de los

12
parmetros sencillos de una poblacin tales como , , P, o 2 entre otros, es posible
2
2

considerar una prueba para determinar si una poblacin sigue una distribucin estadstica
especfica: la prueba de bondad de ajuste.
El contraste se encuentra basado en qu tan bueno es un ajuste entre la frecuencia de
ocurrencia de observaciones en una muestra observada y las frecuencias esperadas
obtenidas de la distribucin hipottica. Para la realizacin del contraste, se parte de la
hiptesis de que los datos muestrales tomadas de una poblacin especfica siguen una
distribucin hipottica. El estadstico apropiado para llevar a cabo una prueba del tipo es el
siguiente:
k

(O

c2 =

Ei ) 2

i =1

Ei

~ 2 ( v =k m 1) (4.1)

en donde, Oi y Ei representan las frecuencias observada y esperada para la i sima


k

clase, respectivamente; mientras que k representa el nmero total de clases ( Oi = n ) y m


i =1

el nmero de parmetros a estimar de la distribucin terica hipottica. Las frecuencias


esperadas se calculan a travs de la expresin Ei = pi n ; donde pi representa la
probabilidad de ocurrencia de la i sima clase. El contraste siempre debe realizarse por la
derecha, por lo que se rechaza la H 0 si y solo si c2 > v2; . Un aspecto importante a tomar
en cuenta es que todas las frecuencias esperadas deben ser al menos iguales a 5; as esta
restriccin puede requerir la combinacin de clases adyacentes, dando como resultado
una reduccin del nmero de grados de libertad.
Ejemplo 4.1. Supngase que se tienen datos referentes al contenido de nicotina medido en
miligramos observado para una muestra de 40 cigarrillos, medido en miligramos. Los datos
han sido se presentan a continuacin:
Pedro Harmath
Estadstica II

Introduccin a la Estadstica No Paramtrica

Tabla 4.1. Distribucin de frecuencias para la cantidad de nicotina (mg.)


observada en los cigarrillos:

Lmites de clase

Frecuencias observadas (Oi )

1,45-1,95

1,95-2,45

2,45-2,95

2,95-3,45

15

3,45-3,95

10

3,95-4,45

4,45-4,95

Existen razones para pensar que los datos siguen una distribucin normal con media

= 3,5 y desviacin estndar = 0,7 ? Use = 0,05.


1. Formulacin de las hiptesis:
H 0 : El contenido de nicotina observado en los cigarrillos sigue una distribucin normal,

H 1 : El contenido de nicotina observado en los cigarrillos no sigue una distribucin


normal.
2. Fijacin del nivel de significacin: = 0,05.
k

(O

3. Establecimiento del estadstico de contraste: c =

Ei ) 2

i =1

Ei

~ 2 ( v = k m 1) .

4. Clculo del estadstico de prueba: para la obtencin del c2 , en primer lugar se obtiene la
probabilidad

pi

correspondiente a cada una de las clases de la distribucin

correspondiente. En el caso de la cuarta clase se tiene:


2,95 3,5 X 3,5 3,45 3,5
<
<
P (2,95 < X < 3,45) = P
= P(0,79 < Z < 0,07)
0,7
0,7
0,7

Pedro Harmath
Estadstica II

Introduccin a la Estadstica No Paramtrica

=0,4721-0,2148=0,2573.
Por lo que la frecuencia esperada para la cuarta clase es:
E 4 = n p 4 = (40)(0,2573) = 10,3.
Tabla 4.2. Frecuencias observadas y esperadas para la cantidad de nicotina (mg.)
de los cigarrillos suponiendo normalidad

Lmites de clase

Frecuencias

Frecuencias

observadas (Oi )

esperadas ( Ei )

1,45-1,95

0,5

1,95-2,45

2,45-2,95

5,9

2,95-3,45

15

10,3

3,45-3,95

10

10,7

3,95-4,45

4,45-4,95

2,1

7,0

8,5

10,5

3,5

En consecuencia, el valor del estadstico de contraste viene dado por:

c2 =

(7 8,5) 2 (15 10,3) 2 (10 10,7) 2 (8 10,5) 2


+
+
+
= 3,05.
8,5
10,3
10,7
10,5

5. Decisin y conclusin: Dado que se cumple 3,05 < 4201;0, 05 (3,05 < 7,815) no se rechaza
la hiptesis nula y por ende, con un nivel de confianza del 95% se concluye que la
distribucin normal con = 3,5 = 0,7 proporciona un buen ajuste para la distribucin de
la cantidad de nicotina en miligramos contenido en los cigarrillos.
4.3. Prueba de independencia

Dada una tabla de contingencia, donde se tienen r categoras de una variable y c de otra;

Pedro Harmath
Estadstica II

Introduccin a la Estadstica No Paramtrica

seleccionando un conjunto de observaciones considerando un tamao muestral n. La


distribucin 2 puede ser utilizada para probar la hiptesis de independencia estadstica de
dos variables o caractersticas. Para el entendimiento del contraste, es importante introducir
los siguientes trminos:
Oij : frecuencia observada correspondiente a la i-sima categora de la primera variable y a

la j-sima categora de la segunda

= n (4.2)

ij

Oi. : frecuencia marginal observada correspondiente a la i-sima categora de la primera


variable
k

Oi. = Oij

(4.3)

j =1

O. j : frecuencia marginal observada correspondiente a la j-sima categora de la primera

variable
r

O. j = Oij

(4.4)

i =1

El estadstico de prueba es:


r

c2 =
i =1 j =1

con Eij =

Oi. O. j
n

(Oij Eij ) 2
Eij

~ v2=( r 1)( c 1);

(4.5)

Ejemplo 4.2. Supngase que una fbrica quiere determinar si existe una relacin entre la

antigedad de los trabajadores y las mquinas utilizadas en la obtencin de un determinado

Pedro Harmath
Estadstica II

Introduccin a la Estadstica No Paramtrica

producto. Para ello, se observa el proceso en un perodo determinado obteniendo los


siguientes resultados:

Tabla 4.3. Frecuencias observadas por combinaciones de categoras

Antigedad
laboral

Tipo de mquina
A

Total

182

213

203

598

antiguos

154

138

110

402

Total

336

351

313

1000

Empleados
nuevos
Empleados

Existen razones para pensar que la antigedad de los empleados es independiente del tipo
de mquina? Use = 0,05.
1. Planteamiento de hiptesis:

H 0 : las variables objeto de estudio son independientes,


H 1 : la antigedad del trabajadador no es independiente del tipo de mquina.
2. Nivel de significacin: = 0,05.
r

3. Fijacin del estadstico de contraste: =


2
c

i =1 j =1

(Oij Eij ) 2
Eij

~ v2=( r 1)( c 1); .

4. Clculo de de la regin crtica o de rechazo: v2=( 21)( 31);0,05 = 22;0, 05 = 5,991 .

5. Clculo del estadstico de contraste: en primer lugar, deben hallarse las frecuencias
esperadas E ij . Para hallar la primera frecuencia de la tabla 4.3 se tiene:

Pedro Harmath
Estadstica II

Introduccin a la Estadstica No Paramtrica

E11 =

O1. O.1 (598)(336)


=
= 200,9
n
1000

los resultados obtenidos se muestran en la tabla, con las frecuencias esperadas en ( ):


Tabla 4.4. Frecuencias observadas y esperadas por combinaciones de categoras

Antigedad
laboral

Tipo de mquina
A

Total

182 (200,9)

213 (209,9)

203 (187,2)

598

antiguos

154 (135,1)

138 (141,1)

110 (125,8)

402

Total

336

351

313

1000

Empleados
nuevos
Empleados

Por lo que se obtiene el siguiente resultado:

c2 =
+

(182 200,9) 2 (213 209,9) 2 (203 187,2) 2 (154 135,1) 2 (138 141,1) 2
+
+
+
+
200,9
209,9
187,2
135,1
141,1

(138 141,1) 2 (110 125,8) 2


+
= 7,85.
141,1
125,8

6. Decisin y conclusin: Como se cumple que c2 > t2 (7,85 > 5,991) se rechaza la
hiptesis nula. Con un nivel de significacin del 5% hay evidencias estadsticas suficientes
para pensar que las variables antigedad laboral de los trabajadores y tipo de mquinas
utilizadas no son independientes.
4.4. Prueba de rangos de Wilcoxon-Mann-Whitney

Es la alternativa no paramtrica de la prueba t de dos muestras. En este sentido, los distintos


procedimientos de prueba se muestran en la siguiente tabla:

Pedro Harmath
Estadstica II

Introduccin a la Estadstica No Paramtrica

Tabla 5.5. Prueba de la suma de rangos

Hiptesis nula

1 = 2

Alternativas posibles

Calcular

Decisin

1 < 2

u1

Re. H 0 si u1 v.c.d .

1 > 2

u2

Re. H 0 si u 2 v.c.d .

1 2

Re. H 0 si u v.c.d .

En primer lugar, se selecciona una muestra aleatoria de cada una de las poblaciones; donde
n1 representa el nmero de observaciones para la muestra ms pequea, y n2 el nmero de

observaciones de la muestra ms grande. Cuando las muestras son del mismo tamao, n1 y
n2 pueden ser asignadas en forma aleatoria.

Posteriormente, se ordenan las observaciones combinadas en forma creciente y se


sustituyen por valores 1,2,3 En caso de empates, se reemplazan las observaciones por la
media de los valores; la suma de los valores correspondientes a las observaciones n1 en la
muestra ms pequea se denota por w1 . Por otra parte:

w2 =

(n1 + n 2 )(n1 + n 2 1)
w1 , (4,6)
2

as se puede obtener:

u1 = w1

n1 (n1 + 1)
(4.7)
2

u 2 = w2

n 2 (n 2 + 1)
(4.8)
2

u = min(u1 , u 2 ) .

Pedro Harmath
Estadstica II

(4.9)

Introduccin a la Estadstica No Paramtrica

La aproximacin a la distribucin normal cuando n1 y n2 son lo suficientemente grandes,


viene dada por la expresin:

Z=

con u =

n1 n 2
y u =
2

(u u )

, (4.10)

n1n2 (n1 + n2 1)
.
12

Ejemplo 4.3. El contenido de nicotina de dos marcas de cigarrillos, medido en miligramos

es el siguiente:

Marca A

2,1

4,0

6,3

5,4

4,8

3,7

6,1

3,3

Marca B

4,1

0,6

3,1

2,5

4,0

6,2

1,6

2,2

1,9

5,4

Pruebe la hiptesis, con un nivel de significacin de 0,05, de que los contenidos promedio
de nicotina de las dos marcas son iguales, contra la alternativa de que no son iguales.

1. H 0 : 1 = 2 ,
H 1 : 1 = 2 .

2. = 0,05
3. Regin crtica: v.c.d. = v(n1=8, n2=10; = 0,05 bilateral) = 17
4. Las observaciones deben ordenarse en forma creciente y asignrseles valores del 1 al 18:

Pedro Harmath
Estadstica II

Introduccin a la Estadstica No Paramtrica

Tabla 5.6. Asignacin de valores

Datos originales

Valores

0,6

1,6

1,9

2,1

2,2

2,5

3,1

3,3

3,7

4,0

10,5

4,0

10,5

4,1

12

4,8

13

5,4

14,5

5,4

14,5

6,1

16

6,2

17

6,3

18

Los valores de las observaciones que pertenecen a la marca A, aparecen remarcadas, as:
w1 = 4 + 8 + 9 + 10,5 + 13 + 14,5 + 18 = 93

(18)(19)
w2 =
93 = 78 .
2

Pedro Harmath
Estadstica II

Introduccin a la Estadstica No Paramtrica

10

Posteriormente:
(8)(9)
u1 = 93
= 57
2

(10)(11)
u 2 = 78
= 23
2

as pues, u = min(57,23) = 23.


5. Decisin y conclusin: Como 23 > 17 no se rechaza la hiptesis nula. Con un nivel de
significacin del 5% se puede concluir que no existen diferencias significativas en cuanto a
los contenidos promedio de nicotina en las dos marcas de cigarrillos.
4.5. Prueba de rachas

La prueba de rachas o corridas, basada en el orden en el cual se obtienen las observaciones


muestrales, es una tcnica til para probar la hiptesis nula H 0 de que las observaciones
han sido, en efecto, obtenidas en forma aleatoria. Sin importar que las mediciones
muestrales representen datos cualitativos o cuantitativos, la prueba de rachas divide los
datos en dos categoras mutuamente excluyentes: defectuoso o no defectuoso, arriba o
abajo de la mediana; etc.
La prueba de corridas o rachas para la aleatoriedad, est basada en la variable aleatoria V, el
nmero total de corridas que ocurren en la sucesin completa del experimento. Las tablas
proporcionan valores de P(V v cuando H 0 es verdadera) para v =2,3,,20 corridas y
valores de 2,3,20 corridas y valores de n1 y n2 menores o iguales que 10. Los valores P
para ambas pruebas, unilateral o bilateral pueden obtenerse utilizando estos valores
tabulados. La hiptesis nula ser rechazada si y solo si >P.
A modo de ejemplo, supngase que se efecta una encuesta a 12 personas para averiguar si
utilizan un cierto producto. Se podra cuestionar de manera estricta el supuesto de
aleatoriedad de la muestra si las doce personas fueran del mismo sexo. Si se designan los
Pedro Harmath
Estadstica II

Introduccin a la Estadstica No Paramtrica

11

hombres y mujeres con las letras M y F respectivamente, una sucesin tpica del
experimento pudiese ser:
MMFFFMFFMMMM
En la encuesta se observan un total de cinco F y siete M. Entonces con n1 = 5 y n2 = 7 , se
tiene que v = min(n1 , n2 ) = 5 , as el valor P para una prueba bilateral es:
P = 2 P (V 5 cuando H 0 es verdadera) = 2(0,197) = 0,394.

Realizando la prueba con un nivel de confianza del 95%; se tiene que 0,394 > 0,05; por lo
que no hay evidencias suficientes para rechazar la hiptesis de aleatoriedad de la muestra.
La prueba de corridas tambin puede utilizarse para detectar desviaciones en la aleatoriedad
de una sucesin de mediciones cuantitativas a travs del tiempo, causadas por tendencias o
periodicidades. Reemplazando cada medicin por un smbolo ms en el orden en el cual
son obtenidas si caen arriba de la mediana, y por un smbolo menos si caen debajo de la
mediana y omitiendo todas las mediciones que son exactamente iguales a la mediana, se
genera una sucesin de smbolos ms y menos que son probados para indagar la
aleatoriedad, como se muestra en el ejemplo siguiente.
Ejemplo 4.4. Se ajusta una mquina para que introduzca tner de pintura acrlica en un

envase. Se dira que la cantidad de tner introducida por esta mquina vara de manera
aleatoria si se mide el contenido de los 15 envases siguientes y se encuentra que son 3,6;
3,9; 4,1; 3,6; 3,8; 3,7; 3,4; 4,0; 3,8; 4,1; 3,9; 4,0; 3,8; 4,2; y 4,1 lts.? Utilizar un nivel de
significacin de 0,1.
1. H 0 : La sucesin es aleatoria,
H 1 : La sucesin no es aleatoria.

2. = 0,1 .

3. Estadstico de prueba: V, el nmero total de corridas.


Pedro Harmath
Estadstica II

Introduccin a la Estadstica No Paramtrica

12

4. Clculos: Para el ejemplo, dado que Md = 3,9 . Reemplazando cada medicin por el
smbolo + si cae por encima de 3,9 y por - si cae por debajo de 3,9. Omitiendo las dos
mediciones iguales a 3,9, se obtiene la sucesin
-+----++++-++
para la cual n1 = 6 y n2 = 7 , por lo que v = 6. Entonces:
P = 2 P (V 6 cuando H 0 es verdadera) = 0,596.

5. Decisin y conclusin: Como P = 0,596 > = 0,1 no se rechaza la H 0 . Con un nivel de


confianza del 90% no hay razones para pensar que las mediciones poseen un patrn no
aleatorio.
Cuando n1 y n2 aumentan su tamao, la distribucin muestral de V se aproxima a la
distribucin normal con media:

V =

2n1 n2
+ 1 (4.11)
n1 + n2

y varianza

V2 =

2n1 n2 (2n1 n2 n1 n2 )
(4.12)
(n1 + n2 ) 2 (n1 + n2 1)

por lo que pudiese utilizarse el estadstico Z =

( Z V )

para establecer la regin

crtica de la prueba de corridas.

Pedro Harmath
Estadstica II

Introduccin a la Estadstica No Paramtrica

13

Das könnte Ihnen auch gefallen