Beruflich Dokumente
Kultur Dokumente
Licenciatura en matemticas
Estadstica II
4 Semestre
Clave:
05142421/06142421
Estadstica II
Unidad 1. Estadstica no paramtrica
INDICE
Unidad 1. Estadstica no Paramtrica y Pruebas de Bondad y Ajuste .....................................4
Presentacin de la unidad......................................................................................................................4
Propsitos de la unidad ..........................................................................................................................4
Competencia especfica..........................................................................................................................4
1.1 Utilidad de las pruebas no paramtricas .....................................................................................4
1.2. Pruebas para una sola poblacin .................................................................................................5
1.2.1. Prueba Binomial para una sola muestra ............................................................................. 5
1.2.2. Prueba de la tendencia Cox Stuart ..................................................................................... 10
1.3. Pruebas para dos poblaciones independientes .................................................................... 15
1.3.1. Prueba U de Mann-Whitney ................................................................................................. 15
1.3.2. La prueba de la mediana ....................................................................................................... 19
1.3.3. Prueba de rachas Wald-Wolfowitz ...................................................................................... 22
1.3.4. Prueba de Mac Nemar ............................................................................................................ 25
1.4.1. Prueba de signos ..................................................................................................................... 28
1.4.2. Prueba de Wilcoxon ................................................................................................................ 30
Actividad 1. Pruebas no paramtricas ............................................................................................. 33
1.5. Prueba de independencia y homogeneidad .......................................................................... 34
1.5.1. Tablas de contingencia .......................................................................................................... 34
1.5.2. Prueba de independencia con Ji-Cuadrada ..................................................................... 37
1.6. Prueba de tres o ms poblaciones independientes .......................................................... 40
1.6.1. Extensin de la prueba de la mediana ............................................................................... 40
1.6.2. Comparacin de varias poblaciones Kruskall-Wallis .................................................... 42
Actividad 2. Identificacin de pruebas no paramtricas............................................................. 45
Estadstica II
Unidad 1. Estadstica no paramtrica
1.7. Prueba de Bondad de Ajuste ................................................................................................... 45
1.7.1. Prueba de bondad y ajuste basada en Ji-Cuadrada ...................................................... 46
1.7.2. Prueba de Kolmogorov-Smirnov para una muestra ...................................................... 48
1.7.3. Prueba de Kolmogorov-Smirnov para dos muestras .................................................... 52
1.7.4. Otras pruebas de bondad y ajuste ...................................................................................... 55
Evidencia de aprendizaje. Pruebas no paramtricas y bondad de ajuste.............................. 57
Autorreflexiones .................................................................................................................................... 57
Cierre de la unidad ................................................................................................................................ 57
Para saber ms....................................................................................................................................... 58
Referencias Bibliogrficas .................................................................................................................. 58
Estadstica II
Unidad 1. Estadstica no paramtrica
Unidad 1. Estadstica no Paramtrica y Pruebas de Bondad y Ajuste
Presentacin de la unidad
Cuando se habla de estadstica paramtrica lo que se pretende es estimar, probar hiptesis
acerca de uno o ms parmetros de la poblacin. En esos casos se tena el conocimiento de la
distribucin de la poblacin de la cual se extrajo la muestra.
Al hablar de estadstica no paramtrica por convencin se entendern dos cosas: primero ser
la estadstica no paramtrica propiamente que son aquellos procedimientos que no son
afirmaciones de los parmetros, y segundo los procedimientos de libre distribucin como
aquellos en que no hacen supuesto alguno acerca de la poblacin de la cual se extrae la
muestra.
Propsitos de la unidad
Competencia especfica
Utilizar las pruebas no paramtricas para resolver problemas estadsticos de diversas
poblaciones determinando sus caractersticas
Estadstica II
Unidad 1. Estadstica no paramtrica
Aunque es recomendable utilizar los procedimientos paramtricos cuando sea posible para
evitar un desperdicio de informacin.
La aplicacin de algunas pruebas no paramtricas pueden ser muy laboriosas, lo que es una
desventaja cuando se tienen muestras grandes.
Estadstica II
Unidad 1. Estadstica no paramtrica
Los datos consisten de resultados dicotmicos provenientes de una distribucin binomial con
probabilidades constantes de xito en base a estos resultados podemos hacer inferencia
sobre .
Por ejemplo:
Suponemos que una poblacin de tamao tienen slo elementos: Tipo A y Tipo B.
La proporcin del Tipo A se designa con y
denota la proporcin de elementos del
Tipo B. Sea el nmero de elementos Tipo A en la muestra
Supuestos:
Los resultados en cada ensayo pueden ser clasificados como xito o fracaso (Tipo A y
Tipo B)
La probabilidad de xito, denotada por , permanece constante de ensayo a ensayo
Los ensayos son independientes
Hiptesis:
A.
B.
C.
Estadstico de prueba:
Como se busca que los resultados sean xitos, entonces, el estadstico de prueba ser:
Regla de decisin:
A. Para valores suficientemente grandes o valores suficientemente pequeos de
crtica bajo
es:
y
la regin
Estadstica II
Unidad 1. Estadstica no paramtrica
Por lo tanto rechazamos
si
al nivel de significancia
significa que
si:
al nivel de significancia
si:
Donde:
{
Cuando
es cierta
son independientes
[
Si
denota el percentil superior de una
decisin es:
A. Rechaza
si | |
B. Rechaza
]
. La aproximacin normal para las reglas de
si
Estadstica II
Unidad 1. Estadstica no paramtrica
C. Rechaza
si
Intervalos de confianza
Sea
el cuantil de una
y tenemos que
. de una distribucin
Despejando a
(
Ejemplo
El dueo de la pequea empresa X de instalacin de boilers afirma que instala ms del 65%
en las casas de una cierta colonia. Se muestrean 12 casas y se les pregunta el nombre de la
empresa que instal el boiler en su casa. En 10 casas coinciden con la instalacin de la
empresa X. En base a esta evidencia Estara de acuerdo con la afirmacin del dueo con un
nivel de significancia
?
Estadstica II
Unidad 1. Estadstica no paramtrica
Hiptesis:
Estadstico de prueba:
Se tiene que 10 casas poseen la caracterstica de inters,
Bajo
Regla de decisin:
De acuerdo a nuestra regla de decisin B rechazamos
si
donde
hacer el error tipo I igual a . Por lo tanto necesitamos encontrar el cuantil
distribucin
tal que
Buscamos en la tabla de la distribucin normal acumulada con
sustituyendo los valores de se tiene que:
es elegida para
de una
Estadstica II
Unidad 1. Estadstica no paramtrica
Ejemplo
Continuando con el ejemplo anterior, supongamos que la muestra es de 110 casas en las que
se encontr que en 85 la empresa X haba instalado el boiler.
Ahora
Hiptesis:
Estadstico de prueba:
Se tiene que 85 casas poseen la caracterstica de inters,
Regla de decisin:
La regin de rechazo es aquella donde
. Entonces bajo
. Donde
tenemos que:
Entonces,
[
[
]
(
)]
Recordemos que
Como
rechazamos
para suponer que la empresa X instalo el
10
Estadstica II
Unidad 1. Estadstica no paramtrica
La prueba de Cox Stuart se basa en variables aleatorias binomiales y permite contrastar la
presencia de tendencias.
Contrasta la hiptesis de ausencia de tendencia contra la hiptesis alternativa de tendencia
montona
Recordemos que una tendencia es montona si la variable dependiente crece cuando crece la
variable independiente (montona creciente) o decrece cuando crece la variable independiente
(montona decreciente)
Datos:
Tenemos una muestra aleatoria
La escala de medida es al menos ordinal
Estadstico de prueba
Formamos los grupos de variables
.
Donde:
{
es el nmero de parejas
Asignamos signos a las parejas
y si
Y se eliminan todas las parejas iguales.
No existe tendencia
a. En este caso
11
Estadstica II
Unidad 1. Estadstica no paramtrica
B.
C.
En este caso
En este caso
Regla de decisin:
A. Para valores suficientemente grandes o valores suficientemente pequeos de
crtica bajo
es:
y
si
la regin
al nivel de significancia
significa que
al nivel de significancia
si:
si:
12
Estadstica II
Unidad 1. Estadstica no paramtrica
1994 1995 1996 1997 1998 1999
12.66 -25.36 10.85 14.66 6.94 5.54
2000
5.54
2001
5.93
2002 2003
-3.43 2.15
2004
3.46
2010
-7.30
2011
-0.01
2012
4.86
2005
5.38
Fuente: Banco de Mxico. (2012). ndice de volumen de la produccin industrial en construccin ( Base 2003=100).
Retrieved from Perodo: Ene 1994-Sep 2012, Mensual, Sin Unidad. website:
http://www.banxico.org.mx/SieInternet/consultarDirectorioInternetAction.do?accion=consultarCuadro&i
dCuadro=CR100or=2&locale=es
Observamos la grfica de serie de tiempo para darnos una idea si existe tendencia en los datos.
A simple vista no observamos una tendencia en los datos. Realizaremos la prueba de Cox
Stuart para comprobar si existe o no dicha tendencia.
Hiptesis:
No existe tendencia /
Estadstico de prueba:
En este caso
por lo que
(12.66,3.46)
(-25.36,5.38)
(10.85,3.90)
+
-
13
Estadstica II
Unidad 1. Estadstica no paramtrica
4
5
6
7
8
9
(14.66,7.84)
(6.94,4.38)
(5.54,3.17)
(5.54,-7.30)
(5.93,-0.01)
(-3.43,4.86)
Tenemos que
y
Entonces
Regla de decisin:
Tomando un nivel de significancia
la regin crtica bajo
es:
y
Buscando en la Tabla de la Binomial Acumulada con con los parmetros
r
0
1
2
3
4
5
6
7
8
si
0.002
0.0195
0.0898
0.2539
0.5
0.7461
0.9102
0.9805
0.998
0.998
0.9805
0.9102
0.7461
0.5
0.2539
0.0898
0.0195
0.002
14
Estadstica II
Unidad 1. Estadstica no paramtrica
1.3. Pruebas para dos poblaciones independientes
La hiptesis nula prueba que las dos distribuciones son iguales, mientras que las hiptesis
alternativas nos dicen si la distribucin de tiende a ser ms grande o ms pequea que o
diferente.
Estadstico de prueba:
Se ordenan las dos muestras combinando los
valores de
de menor a mayor.
denota el rango de
denota el rango de
15
Estadstica II
Unidad 1. Estadstica no paramtrica
denota el rango de
Calculamos:
Donde:
Es la suma de los rangos asignados al grupo cuyo tamao muestral es
Es la suma de los rangos asignados al grupo cuyo tamao muestral es
En el caso de empates se acostumbra asignar el promedio de los rangos correspondientes a las
observaciones ligadas.
El estadstico est dado por:
Regin de rechazo
A. Debe tomarse una regin crtica de dos colas, formada por los valores de
donde
tales que:
es el nivel de significacin.
16
Estadstica II
Unidad 1. Estadstica no paramtrica
En la tabla U Mann Whitney se recogen los valores de las probabilidades, puedes visualizarla
en la seccin Material de apoyo
Si
se rechaza lahiptesis nula de igualdad de distribuciones poblacionales.
Aproximacin a la distribucin normal:
B. Si la probabilidad
Aproximacin a la normal
Apoyndose en
expresiones:
, la media y la varianza de
Los resultados anteriores son de gran utilidad en el caso de muestras grandes, ya que con el
Teorema del Lmite Central se tiene que la variable expresa por:
17
Estadstica II
Unidad 1. Estadstica no paramtrica
A. Rechaza
B. Rechaza
C. Rechaza
al nivel de significancia
al nivel de significancia
al nivel de significancia
si | |
si
si
Ejemplo
Se aplicaron cuestionarios socioeconmicos a empleados de dos departamentos de una
empresa. Obtenindose los siguientes ingresos mensuales:
Departamento
D1
D2
1
17000
3400
2
4250
3680
3
5800
5500
4
5720
13500
5
18500
3000
6
1800
7500
7
5400
8
1200
Se desea saber si los empleados pertenecen al mismo nivel socioeconmico. Con un nivel de
significancia del 5%.
Hiptesis:
Ambos grupos de empleados pertenecen al mismo nivel socioeconmico
Procedimiento de clculo
Ordenar la sucesin mezclada e identificada
Rango
1
2
3
4
5
6
7
1200 1800 3000 3400 3680 4250 5400
D1 D1 D2 D2
D2
D1
D1
Rango
8
9
10
11
12
13
14
5500 5720 5800 7500 13500 17000 18500
D2 D1 D1 D2
D2
D1
D1
18
Estadstica II
Unidad 1. Estadstica no paramtrica
8
Por otro lado
siendo
se obtiene que
con lo cual
no rechazndose la hiptesis nula de que ambas muestras puedan proceder de una misma
poblacin, es decir, los empleados de los dos departamentos comparten mismo nivel
socioeconmico.
19
Estadstica II
Unidad 1. Estadstica no paramtrica
De tamao
Las dos muestras se han tomado de forma independiente, solamente entre los grupos
considerados, sino adems dentro de cada grupo
Las mediciones consideradas alcanzan al menos el nivel ordinal
Estadstico de prueba
Las observaciones se comparan con la mediana combinada para obtener las frecuencias de
observaciones de ambas muestras que exceden a la mediana. Esas observaciones se arreglan
en una tabla de contingencia
:
Muestra
Muestra
A+B
C+D
A+C
B+D
Totales marginales
es hipergeomtrica.
(
)(
(
)
)
20
Estadstica II
Unidad 1. Estadstica no paramtrica
Si el nmero de casos es pequeo
, con frecuencia se utiliza la prueba exacta de Fisher,
la cual se basa en el clculo de la expresin anterior. Para
se puede utilizar la
aproximacin de una
con 1 grado de libertad.
|
Regla de decisin:
Rechazamos
al nivel de significancia
si:
Ejemplo
Se aplic una escala de satisfaccin sobre la dotacin de servicios pblicos a dos grupos de
ciudadanos de un municipio. Determine si existen diferencias entre uno y otro grupo
considerando los siguientes datos con un nivel de significacin de
.
Municipio 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21
1
3 4 3 3 4 2 4 4 4 3 3 2 3 2 3 4 1 2 4 3 4
2
4 3 2 4 3 1 4 2 2 1 3 3 2 2 2 1 1 3
Con la siguiente descripcin en la escala de media:
Valor
1
2
3
4
Descripcin
Muy insatisfecho
Insatisfecho
Satisfecho
Muy satisfecho
Hiptesis:
No existen diferencias entre la satisfaccin de ambos municipios
Procedimiento de clculo
21
Estadstica II
Unidad 1. Estadstica no paramtrica
La mediana combinada de los dos grupos es 3
Municipio
1
Totales
2 Marginales
Mayores de la mediana
11
Menores o iguales a la
mediana
13
15
28
21
18
39
22
Estadstica II
Unidad 1. Estadstica no paramtrica
Se tienen dos muestras independientes
Hiptesis
Se plantean los tres contrastes posibles, aunque generalmente solo se utiliza el contraste
bilateral, que es con el que trabajaremos.
A.
B.
C.
Estadstico de prueba
Cuando
sean menos a 20
Se combinan las
Regin de rechazo
A. Rechazamos
al nivel de significancia
B. Rechazamos
si:
cuando
al nivel de significancia
si:
C. Rechazamos
al nivel de significancia
si:
El valor critico
se busca en la tabla M1 y
de rachas cuando se tiene un nivel de significancia del
visualizar en la pestaa Material de apoyo
23
Estadstica II
Unidad 1. Estadstica no paramtrica
Aproximacin a la normal
Cuando
son mayores a
expresa por:
al nivel de significancia
al nivel de significancia
al nivel de significancia
si | |
si
si
Ejemplo
El director de una escuela desea saber si los nios son ms agresivos que las nias, por lo que
realizo un estudio a 12 nios y 12 nias de prescolar en grupos separados y en tiempos de 30
min. cada grupo.
Se registraron las incidencias por grados de agresin obtenindose los siguientes resultados:
Gnero 1 2 3 4 5 6 7 8 9 10 11 12
Nios 75 34 34 53 91 58 97 42 20 47 8 66
Nias 33 60 35 59 60 16 5 66 67 14 49 77
Hiptesis
El gnero no influye en el patrn de agresiones de los nios, sino es un proceso aleatorio
El patrn de ocurrencia no es aleatorio e influye el gnero de los nios
Procedimiento de clculo
24
Estadstica II
Unidad 1. Estadstica no paramtrica
Ordenamos las muestras de menor a mayor diferenciando el grupo de procedencia y contamos
el nmero de rachas
Nias Nios Nias Nias Nios Nias Nios Nios Nias Nios Nios Nias
5
8
14
16
20
33
34
34
35
42
47
49
1 racha
2 rachas
3 rachas
Nios Nios Nias Nias Nias Nios Nias Nias Nios Nias Nios Nios
53
58
59
60
60
66
66
67
75
77
91
97
4 rachas
5 rachas
6 rachas
Por lo que
El nmero de rachas= 6
Se buscan los valores crticos en las tablas M1 y M2 y se tiene que para la desigualdad se
cumple para:
Los pares
25
Estadstica II
Unidad 1. Estadstica no paramtrica
categorias para
Hiptesis
El tratamiento no induce cambios significativos en la respuesta, es decir, los campos
observados en la muestra se deben al azar; de forma que es igualmente probable un cambio de
a que un cambio de
a . Matemticamente se puede escribir como:
/
Total
A
C
A+C
En y en
se mantiene la misma respuesta, pero
ha cambiado.
B
D
B+D
Total
A+B
C+D
N
es el nmero total de respuestas que
. De acuerdo a
se
no hay cambio, por lo tanto, los cambios que se han realizado se deben al azar, en otras
palabras,
es la frecuencia esperada en las correspondientes celdas. El estadstico de prueba
26
Estadstica II
Unidad 1. Estadstica no paramtrica
que permite contrastar si existen diferencias significativas entre las frecuencias esperadas y las
observadas es:
Donde:
Nmero de celdas
Frecuencia observada en la i-sima celda
Frecuencia esperada en la i-sima celda
Como solo nos interesan las celdas que recogen cambios el estadstico puede expresarse
como:
(
Bajo
el estadstico tiene una distribucin
con un grado de libertad.
.
Para trabajar bajo muestras pequeas se puede aplicr la correccin de Yates, en ese caso se
tiene que:
|
Regla de decisin
A. Rechaza
al nivel de significancia si
.Donde
es cuantil de una
distribucin
con un grado de libertad y probabilidad
B. Rechaza
al nivel de significancia si
. Donde es el cuantil de una distribucin
normal con probabilidad
C. Rechaza
al nivel de significancia si
Ejemplo
El encargado de campaa de un candidato a la presidencia desea saber el cambio de opinin
que causa un debate entre todos los candidatos. Por lo que toma una muestra de 78 votantes
elegidos de manera aleatoria y registro la preferencia hacia su candidato, inmediatamente
despus del debate, volvi a registrar la preferencia del candidato. Los resultados se muestran
a continuacin:
27
Estadstica II
Unidad 1. Estadstica no paramtrica
Antes del Debate
Desacuerdo (0)
Acuerdo (1)
Total
Hiptesis
El debate produjo un cambio en la opinin de los votantes
Regla de decisin
Rechazamos
a nivel
si
. Dado que se cumple la
condicin, entonces, rechazamos
y por lo tanto existe evidencia estadstica suficiente para
suponer que el debate no produjo un cambio en la opinin de los votantes.
Utiliza la tabla de la ji cuadrada, ubicada en la pestaa de material de apoyo
28
Estadstica II
Unidad 1. Estadstica no paramtrica
Datos
Los datos consisten de observaciones bivariadas aleatorias
Hiptesis
A. La mediana de
La mediana de
= La mediana de
La mediana de
B. La mediana de
La mediana de
La mediana de
< La mediana de
C. La mediana de
La mediana de
La mediana de
> La mediana de
Estadstico de prueba
Dentro de cada par se puede hacer la siguiente comparacin:
o
o
o
si
si
si
Total de
Se ignoran los
29
Estadstica II
Unidad 1. Estadstica no paramtrica
Regla de decisin
Para
se cumple que
Rechazamos
al nivel de significancia
si:
al tamao .
son mas probables que los
ms grandes o iguales
. Por lo tanto la
. La regin crtica de
Cuando
se puede utilizar la distribucin normal y como esta es simtrica es igual a
probar la media. Por consiguiente, la prueba de signo puede emplearse para probar hiptesis
sobre la media de la poblacin.
mutuamente independientes y
30
Estadstica II
Unidad 1. Estadstica no paramtrica
Se utiliza una escala de medida de intervalos. Esto nos ayuda a saber cul de los dos
miembros del par es ms grande y podemos ordenar las diferencias sin tener en cuenta
su signo (valor absoluto)
Las diferencias representan observaciones en una variable continua
La distribucin de la poblacin de diferencias es simtrica alrededor de la mediana
Hiptesis
A.
B.
C.
vs
vs
vs
Estadstico de prueba
Denotamos
Donde:
Suma de los rangos asignados a las parejas
Los valores de con diferentes tamaos de muestra y niveles de significancia para pruebas de
una o dos colas fueron tabulados por Wilcoxon. Checar la tabla M1 y M2 ubicada en la seccin
material de apoyo
Regla de decisin
A. Buscamos el cuantil
si:
al nivel de significancia
B. Buscamos el cuantil
C. Buscamos el cuantil
y rechazamos
si:
si:
Aproximacin a la Normal
Cuando
31
Estadstica II
Unidad 1. Estadstica no paramtrica
Se tiene que:
Bajo
Regla de decisin
A. Rechazamos
si | |
B. Rechazamos
C. Rechazamos
si
Ejemplo 1
Con el fin de comprobar si la asistencia al jardn de nios tiene algn efecto en la capacidad de
percepcin social el psiclogo de una escuela realiza una experimento en el que forma parejas
de actitudes similares como sexo, edad, calificacin de la medicin y durante la hora del recreo
realiza una medicin en total forma 10 parejas y solo somete al experimento a un integrante de
cada pareja. Los resultados se muestran a continuacin.
Hiptesis
La percepcin social de los nios que se sometieron al experimento es igual que la de los
nios que no se sometieron
La percepcin social de los nios que se sometieron al experimento es diferente que la de
los nios que no se sometieron
32
Estadstica II
Unidad 1. Estadstica no paramtrica
Puntaje nios
asignados al
experimento
Puntaje nios no
Absoluto de Rango de
asignados al
Diferencias
las
las
experimento
diferencias diferencias
56
54
87
98
12
34
54
43
67
67
36
49
72
67
41
50
53
47
77
54
20
5
15
31
-29
-16
1
-4
-10
13
20
5
15
31
29
16
1
4
10
13
8
3
6
10
-9
-7
1
-2
-4
5
Rango de
signos
menos
frecuentes
9
7
2
4
y con un
No rechazamos
33
Estadstica II
Unidad 1. Estadstica no paramtrica
respuesta.
Consulta la rbrica general de la participacin en foros, que se encuentra en la seccin
Material de apoyo.
34
Estadstica II
Unidad 1. Estadstica no paramtrica
35
Estadstica II
Unidad 1. Estadstica no paramtrica
Estadstico de prueba
Donde:
El trmino
representa los valores observados en la celda
nmero esperado de observaciones en la celda
, cuando
, y el trmino
es cierta.
representa el
Regla de decisin
Rechazamos
y
Ejemplo
En una encuesta telefnica se pregunt a los participantes hasta que grado estaban de
acuerdo con la proposicin: se debe prohibir fumar en lugares pblicos. Los resultados son
los siguientes:
Sexo
Mujer
Varn
Total
Muy de
acuerdo
41
22
63
Total
143
156
299
Con base en los datos recabados se desea saber si existen diferencias significativas en el
grado en el que estn de acuerdo hombres y mujeres con respecto a prohibir fumar en lugares
pblicos.
Procedimiento de clculo
Se calculan los valores
36
Estadstica II
Unidad 1. Estadstica no paramtrica
Columna
Fila 1
Fila 2
1
30.1
32.9
2
26.8
29.2
3
20.1
21.9
4
31.6
34.4
5
34.4
37.6
Un clculo similar es echo para cada celda y sumando todo se tiene que el estadstico de
prueba es:
Si utilizamos
Como
para suponer que el grado de opinin con respecto a si fumar en lugares pblicos este
relacionado con el gnero.
37
Estadstica II
Unidad 1. Estadstica no paramtrica
Hiptesis
El evento la observacin pertenece al i-simo rengln es independiente del evento la
misma observacin pertenece a la j-sima columna para toda y
La proposicin anterior puede traducirse en trminos probabilsticos de la siguiente forma
Sea la probabilidad de pertenecer al i-simo rengln y la probabilidad de pertenecer a la jsima columna
Estadstica de prueba
La estadstica coincide con 1.5.1
Donde:
Regla de decisin
Rechazamos
y
Ejemplo 2
El propsito de un estudio era investigar la hiptesis de que las mujeres con leucemia que
tambin estn infectadas con VIH, tienen ms probabilidades de tener anormalidades
citolgicas cervicales que las mujeres con uno de los dos virus mencionados. Se pretende
saber si es posible concluir que existe relacin entre el estado de leucemia y la etapa de
infeccin por VIH.
38
Estadstica II
Unidad 1. Estadstica no paramtrica
VIH
Leucemia
Seropositivo, Seropositivo,
Seronegativo
sintomtico asintomtico
Positivo
Negativo
Total
20
32
31
51
52
Total
39
32
82
71
90
115
205
Hiptesis
El estado de leucemia y la etapa de infeccin por VIH son independientes
Las dos variables no son independientes
Procedimiento de Clculo
Se calculan los valores
Columna
Fila 1
Fila 2
1
22.8
29.2
2
36.0
46.0
3
31.2
39.8
Un clculo similar es echo para cada celda y sumando todo se tiene que el estadstico de
prueba es:
Si utilizamos
Como
suponer que el estado de leucemia y la etapa de infeccin por VIH son independientes.
39
Estadstica II
Unidad 1. Estadstica no paramtrica
1.6. Prueba de tres o ms poblaciones independientes
}{
},, {
Supuestos:
Las dos muestras se han tomado de forma independiente, solamente entre los grupos
considerados, sino adems dentro de cada grupo
Las mediciones consideradas alcanzan al menos el nivel ordinal
Sea
Hiptesis
Las muestras tienen la misma mediana
Al menos dos muestras son diferentes
Estadstico de prueba
Llamemos a la mediana comn de los elementos. Ahora definimos al nmero de
observaciones en la muestra los cuales son menores que y sea el nmero total de
observaciones menores que .
De existir observaciones que son exactamente igual que el valor de la mediana y estos son
muchos, se puede colocar uno por encima y otro por debajo del valor de la mediana, hasta
agotarlos. Si son pocos los casos en esta situacin, es decir, si el tamao de no se reduce
grandemente, se pueden eliminar del anlisis, modificando tanto el tamao total como los
tamaos marginales.
Se ordenan los clculos en la siguiente tabla
40
Estadstica II
Unidad 1. Estadstica no paramtrica
<
>
Total
Muestra 1
U1
n 1 U1
n1
Muestra 2
U2
n2 U2
n2
Muestra K
Uk
Nk Uk
Nk
Total
t
n-t
n
Regla de decisin
Rechazo
al nivel de significancia
si
Ejemplo1
La siguiente tabla indica las calificaciones obtenidas por 10 estudiantes de la carrera de
biologa seleccionados al azar en los exmenes finales de tres materias. Las calificaciones se
observan en la siguiente tabla
Estudiante
1
2
3
4
5
6
7
8
9
10
Qumica
81
98
53
62
99
71
82
50
61
74
Materia
Plantas
55
82
87
88
71
75
61
95
74
80
Animales
100
56
99
94
79
62
65
83
96
92
Pruebe
Los estudiantes tienen el mismo aprovechamiento en las tres materias
El aprovechamiento es mejor en alguna de las materias
41
Estadstica II
Unidad 1. Estadstica no paramtrica
Procedimiento de clculo
La mediana comn de las observaciones es
Grupo
<79.5
79.5
Tenemos
1
4
6
2
5
5
3
6
4
Utilizamos
Se cumple que
por lo tanto rechazamos
y no podemos suponer que el
aprovechamiento de los estudiantes es el mismo en las tres materias.
Muestra 1
X1,1
X1,2
X1,n1
Muestra 2
X2,1
X2,2
X2,n2
Muestra K
Xk,1
Xk,2
Xk,nk
Supuestos:
42
Estadstica II
Unidad 1. Estadstica no paramtrica
Las dos muestras se han tomado de forma independiente, solamente entre los grupos
considerados, sino adems dentro de cada grupo
La escala de medida es al menos ordinal (un nmero moderado de casos repetidos se
considera tolerable)
Hiptesis
Las muestras vienen de la misma poblacin o de poblaciones cuyo promedio de rangos
son idnticos
Al menos dos muestras son diferentes
Estadstico de prueba
Tenemos
Regla de decisin
Rechazo
al nivel de significancia
si
Ejemplo
En tres muestras de animales experimentales se estudi el tiempo de reaccin de un
medicamente. La tercera muestra sirvi como control al medicamente, a la primera muestra se
les aplic el medicamento A y a la segunda el medicamento B. Los tiempos de reaccin se
muestran en la siguiente tabla:
43
Estadstica II
Unidad 1. Estadstica no paramtrica
Muestra
II
17
23
11
30
18
38
I
33
26
8
23
25
2
19
30
32
II
28
34
5
10
33
15
26
Es posible concluir que las tres poblaciones representadas por las tres muestras difieren con
respecto al tiempo de reaccin?
Hiptesis
Las distribuciones de las poblaciones son idnticas
Al menos una de ellas tiende a mostrar valores mayores que al menos una de las dems
Procedimiento del clculo
Se combinan las tres muestras en una sola serie y los valores se clasifican por rangos.
Recordemos que cuando los rangos se repiten se toma el promedio de ellos.
Suma Rangos
I
19.5
13.5
3
10.5
12
1
9
16.5
18
103
Muestra
II
7
10.5
5
16.5
8
22
69
II
15
21
2
4
19.5
6
13.5
81
Utilizamos
44
Estadstica II
Unidad 1. Estadstica no paramtrica
Como
no rechazamos
y por lo tanto hay evidencia estadstica suficiente para
suponer que las muestras provienen de la misma poblacin. Por lo que ninguno de los dos
tratamientos tiene un efecto en los tiempos de reaccin.
45
Estadstica II
Unidad 1. Estadstica no paramtrica
1.7.1. Prueba de bondad y ajuste basada en Ji-Cuadrada
Clase
Total
Frecuencia
Donde
Hiptesis
Sea
la
de , y sesa
al menos un valor de
Estadstico de prueba
Sea
Regla de decisin
Valores muy altos de reflejan una incompatiblidad entre los observados y las frecuencias
relativas esperadas. La distribucin de es difcil de calcular. Para muestras largas se tiene
que:
46
Estadstica II
Unidad 1. Estadstica no paramtrica
Rechazamos
si
Ejemplo
Se lanza un dado 600 veces y se obtienen los siguientes resultados
180
72
150
62
40
96
600
47
Estadstica II
Unidad 1. Estadstica no paramtrica
rechazamos
1/6 y existe evidencia estadstica suficiente para suponer que le dado est cargado.
Sea
de tamao
asociada a una
es continua
Hiptesis
A.
de
al menos un valor de
B.
de
al menos un valor de
C.
de
al menos un valor de
Estadstico de prueba
La funcin de distribucin emprica de una muestra se calcula como:
A. Sea el estadstico
48
Estadstica II
Unidad 1. Estadstica no paramtrica
|
B. Sea el estadstico
por encima de
C. Sea el estadstico
por encima de
Regla de decisin:
Rechaza
al nivel
si:
Donde:
Es el cuantil de una Kolmogorov-Smirnov
Ejemplo
Se efectuaron mediciones del nivel de glucosa en la sangre a 30 pacientes en ayuno, hombres,
no obesos y aparentemente sanos.
Concentraciones de glucosa
(mg/100 ml)
93 100 88 91 98 67 87 77 72 95
63 91 75 67 88 59 83 64 80 68
90 92 52 85 85 98 60 62 59 100
Se pretende saber si es posible concluir que tales datos no pertenecen a una poblacin que
sigue una distribucin normal, con media 80 y desviacin estndar de 6.
Hiptesis
de
al menos un valor de
Procedimiento del clculo
El primer paso es calcular los valores
49
Estadstica II
Unidad 1. Estadstica no paramtrica
x
Frecuencia
52
59
60
62
63
64
67
68
72
75
77
80
83
85
87
88
90
91
92
93
95
98
100
1
2
1
1
1
1
2
1
1
1
1
1
1
2
1
2
1
2
1
1
1
2
2
30
Frecuencia
acumulada
1
3
4
5
6
7
9
10
11
12
13
14
15
17
18
20
21
23
24
25
26
28
30
S(x)
0.033
0.100
0.133
0.167
0.200
0.233
0.300
0.333
0.367
0.400
0.433
0.467
0.500
0.567
0.600
0.667
0.700
0.767
0.800
0.833
0.867
0.933
1.000
Los valores de
se obtienen al convertir cada valor observado de
normal estndar se observa a continuacin
en un valor de la
50
Estadstica II
Unidad 1. Estadstica no paramtrica
x
52
59
60
62
63
64
67
68
72
75
77
80
83
85
87
88
90
91
92
93
95
98
100
z=(x-80)/6
-4.67
-3.50
-3.33
-3.00
-2.83
-2.67
-2.17
-2.00
-1.33
-0.83
-0.50
0.00
0.50
0.83
1.17
1.33
1.67
1.83
2.00
2.17
2.50
3.00
3.33
El estadstico
F(x)
0.000002
0.000233
0.000429
0.001350
0.002303
0.003830
0.015130
0.022750
0.091211
0.202328
0.308538
0.500000
0.691462
0.797672
0.878327
0.908789
0.952210
0.966623
0.977250
0.984870
0.993790
0.998650
0.999571
S(x)
0.000000
0.000008
0.000014
0.000045
0.000077
0.000128
0.000504
0.000758
0.003040
0.006744
0.010285
0.016667
0.023049
0.026589
0.029278
0.030293
0.031740
0.032221
0.032575
0.032829
0.033126
0.033288
0.033319
|F(x)-S(x)|
0.000001480
0.000224875
0.000414758
0.001304901
0.002226491
0.003702701
0.014625802
0.021991794
0.088170846
0.195584102
0.298252954
0.483333333
0.668413713
0.771082565
0.849049912
0.878495821
0.920469326
0.934402709
0.944674872
0.952040865
0.96066399
0.965361765
0.966251908
Con
buscamos el cuantil en la tabla de la Kolmogorov-Smirnov ubicada en la pestaa
de Material de apoyo
Como se cumple la condicin:
Entonces rechazamos
normal.
51
Estadstica II
Unidad 1. Estadstica no paramtrica
1.7.3. Prueba de Kolmogorov-Smirnov para dos muestras
El test quiere probar si dos muestras independientes provienen de la misma poblacin, la
diferencia con los test vistos anteriormente como la mediana, la prueba de signos, la U MannWhitney es que solo toman en cuenta informacin como la media o la mediana y desperdician
otro tipo de informacin importante como es la variabilidad entre las observaciones.
Datos
Se tienen dos
De tamao
la primera de ellas y
la segunda.
Supuestos:
Las muestras son aleatorias
Las muestras son independientes
La escala de medida es al menos ordinal
Se supone que las variables provienen de una funcin de probabilidad continua
Llamamos:
continua de la primera muestra
continua de la segunda muestra
Hiptesis
A.
de
al menos un valor de
B.
de
al menos un valor de
C.
de
al menos un valor de
Estadstico de prueba
Sean:
la funcin de distribucin emprica de la muestra
52
Estadstica II
Unidad 1. Estadstica no paramtrica
la funcin de distribucin emprica de la muestra
E. Sea el estadstico
F. Sea el estadstico
y
|
por encima de
por encima de
Regla de decisin
Rechaza
al nivel
si:
Donde:
es el cuantil de una Kolmogorov-Smirnov
Utiliza la tabla de inferencia ubicada en la pestaa de Material de apoyo
Si
se utiliza la tabla 12 de la tabla de inferencia ubicada en la pestaa de Material
de apoyo
Si
apoyo
Ejemplo
Se tienen dos muestras aleatorias de tamao 12 y 10 respectivamente. Se desea probar que
ambas muestras provienen de la misma distribucin de probabilidad.
Hiptesis
de
al menos un valor de
53
Estadstica II
Unidad 1. Estadstica no paramtrica
Procedimiento de clculo
Las dos muestras son ordenadas de menor a mayor por conveniencia y se calculan las
funciones empricas como se muestra a continuacin
0.07
0.50
0.62
1.08
1.50
1.58
2.32
2.46
2.48
3.00
3.18
3.95
5.83
5.46
5.91
6.68
6.78
6.90
8.56
10.35
12.03
12.04
0
0
1/12
1/12
2/12
2/12
3/12
4/12
4/12
5/12
6/12
7/12
7/12
8/12
8/12
8/12
9/12
10/12
11/12
1
1
1
El estadstico de prueba es
1/10
2/10
2/10
3/10
3/10
4/10
4/10
4/10
5/10
5/10
5/10
5/10
6/10
6/10
7/10
8/10
8/10
8/10
8/10
8/10
9/10
1
0-1/10
0-2/10
1/12-2/10
1/12-3/10
2/12-3/10
2/12-4/10
3/12-4/10
4/12-4/10
4/12-5/10
5/12-5/10
6/12-5/10
7/12-5/10
7/12-6/10
8/12-6/10
8/12-7/10
8/12-8/10
9/12-8/10
10/12-8/10
11/12-8/10
1-8/10
1-9/10
1-1
0.10
0.20
0.12
0.22
0.13
0.23
0.15
0.07
0.17
0.08
0.00
0.08
0.02
0.07
0.03
0.13
0.05
0.03
0.12
0.20
0.10
0.00
Como
no rechazamos
y por lo tanto existe evidencia para suponer que las
muestras provienen de la misma poblacin.
54
Estadstica II
Unidad 1. Estadstica no paramtrica
55
Estadstica II
Unidad 1. Estadstica no paramtrica
i
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
x
52
59
60
62
63
64
67
68
72
75
77
80
83
85
87
88
90
91
92
93
95
98
100
F(xi)
0.000002
0.000233
0.000429
0.001350
0.002303
0.003830
0.015130
0.022750
0.091211
0.202328
0.308538
0.500000
0.691462
0.797672
0.878327
0.908789
0.952210
0.966623
0.977250
0.984870
0.993790
0.998650
0.999571
F(xn+1-i)
0.999571
0.998650
0.993790
0.984870
0.977250
0.966623
0.952210
0.908789
0.878327
0.797672
0.691462
0.500000
0.308538
0.202328
0.091211
0.022750
0.015130
0.003830
0.002303
0.001350
0.000429
0.000233
0.000002
ln F(xi)
-0.000429
-0.001351
-0.006229
-0.015246
-0.023013
-0.033946
-0.048970
-0.095643
-0.129736
-0.226058
-0.368946
-0.693147
-1.175912
-1.597863
-2.394577
-3.783184
-4.191066
-5.564791
-6.073427
-6.607726
-7.753913
-8.366065
-13.389833
ln F(xn+1-i)
-0.0004292
-0.0013508
-0.0062290
-0.0152458
-0.0230129
-0.0339462
-0.0489701
-0.0956426
-0.1297358
-0.2260583
-0.3689464
-0.6931472
-1.1759118
-1.5978633
-2.3945774
-3.7831843
-4.1910665
-5.5647911
-6.0734271
-6.6077262
-7.7539130
-8.3660653
-13.3898333
Suma
)]
56
Estadstica II
Unidad 1. Estadstica no paramtrica
Evidencia de aprendizaje. Pruebas no paramtricas y bondad de ajuste
A travs de esta actividad, aplicaras los conceptos de Pruebas paramtricas y bondad de
ajuste en problemas especficos.
Indicaciones
1. Descarga el documento correspondiente a la actividad que te brindar el docente a
travs del foro planeacin didctica.
2. Resuelve cada uno de las solicitudes que en el documento se mencionan.
3. Puedes apoyarte en el contenido y los recursos que tu docente te brindar durante la
realizacin de la actividad.
4. El trabajo se deber entregar bajo la calendarizacin que el docente brindar y debers
entregarlo en un documento de texto o PDF s utilizas algn editor de texto cientfico.
5. Guarda tu documento con la siguiente nomenclatura MEST2_U1_EA_XXYZ. Sustituye
las XX por las dos primeras letras de tu primer nombre, la Y por la inicial de tu apellido
paterno y la Z por la inicial de tu apellido materno.
6. Enva tu reporte al portafolio de evidencias y espera la retroalimentacin de tu Docente
en lnea, atiende sus comentarios y reenva la nueva versin de tu evidencia.
Criterios de evaluacin:
Revisa la escala de evaluacin por el cual ser evaluado tu actividad, y podrs ver las
observaciones que hace el docente de acuerdo al o resuelto en la actividad.
Autorreflexiones
Al finalizar, consulta el Foro: Preguntas de autorreflexin para realizar el ejercicio
correspondiente y enviarlo a travs de la herramienta Autorreflexiones. Recuerda que tambin
se toman en cuenta para la calificacin final.
Cierre de la unidad
Durante la unidad 1 aprendiste pruebas que te ayudarn a comparar igualdad de distribuciones,
tendencia, independencia de los datos sin necesidad de utilizar supuestos distribucionales y
con la oportunidad de poder utilizar variables que sean al menos de tipo ordinal.
Con ayuda de la distribucin Ji-Cuadrada podemos comparar poblaciones que estn separadas
por un antes y n despus. En realidad se trata de la misma poblacin, pero medida en
diferentes tiempo.
57
Estadstica II
Unidad 1. Estadstica no paramtrica
Finalmente aprendiste tcnicas de Bondad de Ajuste para verificar un supuesto distribucional
sobre los datos.
En Estadstica I y en est unidad has aprendido pruebas que te ayudarn a contrastar distintas
hiptesis con diferentes escalas de medida. En la Unidad 2 desarrollaras modelos con variables
correlacionadas, donde una sea la variable a explicar y las dems las varibles que expliquen.
Te ayudars de algunas de las pruebas vistas anteriormente para poder hacer inferencia del
modelo.
Para saber ms
Te recomiendo los siguientes links para utilizar el paquete estadstico R en pruebas no
paramtricas:
http://www.r-tutor.com/elementary-statistics/non-parametric-methods
Referencias Bibliogrficas
Conover, W. J. (1980) Practical Noparametric Statistics. Second Edition. New York: Wiley &
Sons.
Daniel, W. (1990) Applied Nonparametric Statistics. Second Edition, Boston: PWS Kent.
Gibbons, J.D. (2003) Charkraborti, S., Nonparametric Statistical Inference. Fourth Edition. New
York: Marcel Dekker.
Gonzlez, M. T. (2009) Prez de Vargas, A., Estadistica aplicada, una visin instrumental: teora
y ms de 500 problemas resueltos o propuestos con solucin. Espaa: Daz de Santos.
Hollander, M. (1999) Nonparametric Statistical Methods. New York: J. Wiley.
58