Sie sind auf Seite 1von 36

Aplicaciones de la Distribución

Chi-Cuadrado
Ejemplos
Prueba de Bondad de Ajuste- Distribución Binomial
Considere el siguiente caso. En la comercialización de
manzanas, una empresa exportadora envía
semanalmente lotes de 50 cajas al exterior, cada caja
tiene un peso aproximado de 20 kilos. Las cajas son
previamente almacenadas. Para el control de calidad se
examinan al azar, si en alguna caja encuentran por lo
menos una manzana malograda, esta es calificada
mala. Para que pase el control mediante la inspección
de la muestra no debe haber caja malograda, si solo
existe una caja esta será cambiada, si hay mas de 1 en
las 5 inspeccionadas, inspeccionaran las cincuenta
cajas. Según las estadísticas pasadas de un total de 40
envíos, registro lo siguiente: Se puede afirmar que la
variable numero de cajas malogradas en la muestra de 5
sigue una distribución binomial?.
Solución:
H0: La variable numero de cajas sigue una distribución
Binomial.
Ha: No siguen una binomial.
Riesgo 0.10
Estimación de parámetros.
En este caso n=5 y “p” es la probabilidad de encontrar
una caja malograda que es desconocida, pero
se supone constante a través del proceso de control de
calidad.
Estimación de p.
Promedio (x) = np
Promedio ponderado = (0x6+…+5x1) /40 = 1.775
“p” estimado es: 1.775/ 5 = 0.355
Con estos resultados se procede a los cálculos de los
valores esperados, Bajo la hipótesis planteada, que la
variable X es binomial, los valores observados y
esperados serian:
Frecuencias
Observada Frecuencias
X s pi Esperadas Reagrupadas (Oi-El)2/Ei

0 6 0,1116 4,4654

1 13 19 0,3072 12,2885 16,7538 0,3011

2 10 10 0,3382 13,5268 13,5268 0,9195


3 7 11 0,1861 7,4450 9,7193 0,1687
4 3 0,0512 2,0488
5 1 0,0056 0,2255
40 40 1,3894

Valor Chi Cuadrado (3-1-1)=1 g.l 2,70554397

Hay evidencia , para afirmar que los datos se ajustan a la


distribución binomial: Binomial (n=5 , p=0.355)

P( X = x) = C x5 (0.355) x (0.645) 5− x x : 0,1,2...,5


Prueba de Independecia
• Ejemplo El consejo de administración de
Telefónica desea conocer si la opinión, Y,
de sus accionistas respecto a una posible
fusión es independiente del número de
acciones, X, que poseen. Una muestra de
500 accionistas proporciona la siguiente
tabla:
Número de Opinión
Acciones A favor En contra Indecisos Total

Menos de 200 25 18 21 64

200-1000 93 62 67 222

Más de 1000 82 70 62 214

Total 200 150 150 500

Contrastar a un nivel de confianza del 99,5% la independencia de las


variables Número de Acciones y la Opinión. La población en estudio
son los accionistas de Telefónica y deseamos ver si existe
dependencia entre el número de acciones y la opinión acerca de una
posible fusión.
Se trata de un test no paramétrico donde las hipótesis nula y
alternativa son:
Ho: Nro de Acciones y Opinión son independientes
H1: Nro de Acciones y Opinión son dependientes
El nivel de confianza es 1- α = 0,95, luego α = 0,05 y el tamaño
muestral n=500
Calculamos los valores esperados eij bajo la hipótesis nula
(independencia de X e Y) aplicando la fórmula

donde n es el tamaño de la muestra, 500.


Por ejemplo e11=64.200/500=25,6 e12=64.150/500=19,2
La tabla de los valores esperados sería:
Número de Opinión
Acciones A favor En contra Indecisos Total

Menos de 200 25,6 19,2 19,2 64

200-1000 88,8 66,6 66,6 222

Más de 1000 85,6 64,2 64,2 214


χ
Total 200 150 150 500c

El valor del estadístico experimental vale:

= χc

El valor del punto crítico es el valor de una chi-cuadrado con (3-1).(3-1)


= 4 grados de libertad y 1-alfa =0,95 Tabla Chi-Cuadrado con 4 g.l. da:
X20.95(4)= 9.48 La región crítica es, es decir, rechazamos Ho si: Valor
Chi-Cuadrado Calculado es mayor a 9.48; Como = 1,53 es menor que 14,86
se acepta Ho y podemos decir que no tenemos evidencias de que Nro de Acciones y
la Opinión sean dependientes y se acepta la hipótesis de que la opinión de los
accionistas es independiente del número de acciones que poseen con un riesgo del
0,5%.
χ2 1.53 Coeficiente de Contingencia
C= = = 0.05 tiende a 0 No hay relación
n+ χ2 500 + 1.53
Prueba de Igualdad de proporciones
En un estudio de un taller, se reúne un conjunto de datos para
determinar si la proporción de defectuosos producida por los
trabajadores es la misma para el turno matutino, vespertino o
nocturno. Se reunieron los siguientes datos:

Matutino Vespertino Nocturno

Defectuosos 45 55 70
No defectuosos 905 890 870

Utilice un nivel de significancia de 0.025 para determinar si la


proporción de defectuosos es la misma para los tres turnos.
Ho: La proporción de artículos defectuosos es la misma para los tres
turnos.
Ha: La proporción de artículos defectuosos no es la misma para los tres
turnos.
H 0 : p M = pV = p N = p
H a :∈ a lg una ≠
Alfa= 2.5%

Total
Matutino Vespertino Nocturno

170 Se acepta
45 55 70
Defectuosos
(57.0) (56.7) (56.3)
Ho : la
proporción
905 890 870 2665 de defectos
No defectuosos
(893.0) (888.3) (883.7) es la misma
en los tres
950 945 940 2835
Total turnos
Ejercicio
Se está estudiando el problema vehicular que impera en una ciudad.
Con los diversos datos de un año que se han recolectado, se ha
resumido la siguiente información, respecto a los accidentes de
acuerdo a la gravedad de los accidentes y al tipo de vehículo de
servicio:
Combi Tico Micro

Gravedad 1 92 106 87
Gravedad 2 17 14 15
Gravedad 3 6 10 3

a)Entre que valores podría usted decir, con un nivel de confianza del
95%, que se encuentra la proporción de accidentes de gravedad 1
que se producen en las combis?
b)¿Hay razones para afirmar que las proporciones de accidentes
según tipo de vehiculo son las mismas?
c)Hay razones para afirmar que la proporción de veces en las cuales
el accidente es de gravedad 2, no es igual para todos los vehículos?
Use α = 0.05.
d)¿Puede afirmarse que el tipo de accidentes es independiente del
tipo de vehículo? Use α = 0.05
PRUEBA DE KOLMOGOROV-SMIRNOV

Hipótesis
Ho: La distribución observada se ajusta a la distribución teórica.

F(x) = Ft(x) para todo x.


H1: La distribución observada no se ajusta a la distribución teórica.
También:
F(x) ≠ Ft(x) para algún x
F(x): es función desconocida
Ft(x): es la función teórica. Esta puede ser por ejemplo la función
normal con cierta media y varianzas conocidas.
Estadígrafo y distribución muestral

D = Máx Ft ( x ) − S n ( x )
Sn(x): es la función de distribución empírica
Ejemplo

Las puntuaciones obtenidas por una muestra de


sujetos en una prueba de habilidad han sido las
siguientes:
48,1; 47,8; 45.1; 46,3; 45,4; 47,2; 46,6; y 46.
Sabiendo que la media en dicha prueba es 40 y
su desviación típica es 3, ¿podemos afirmar
que la distribución de las puntuaciones sigue
una normal, con un α = 0,01?
Z=(X- Probabilidad Probabilidad
Datos Datos Ordenados 40)/3 Acumulada S(n) Acumulada IF(x)-S(n)

48,1 45,1 1,7 0,125 0,955 0,830

47,8 45,4 1,8 0,25 0,964 0,714

45,1 46 2 0,375 0,977 0,602

46,3 46,3 2,1 0,5 0,982 0,482

45,4 46,6 2,2 0,625 0,986 0,361

47,2 47,2 2,4 0,75 0,992 0,242

46,6 47,8 2,6 0,875 0,995 0,120

46 48,1 2,7 1 0,997 0,003

Hipótesis:
• H0: F (X) = Fs (X) de una N(µ, σ)
• H1: F (X) ≠??? Fs (X) de una N(µ, σ)
Muestra: 8 observaciones indep.
Se estandarizan las puntuaciones para poder trabajar con una N (0,1).
Para α = 0,01 y n = 8 en la tala encontramos un valor de 0,543, por tanto, se rechaza H0
PRUEBAS NO PARAMETRICAS

•Estos contrastes reciben el nombre de no paramétricos porque las


hipótesis contrastadas no hacen referencia a ningún parámetro
poblacional. Son comparables con los métodos paramétricos
correspondientes a la diferencia de medias de dos o más
distribuciones normales.
•Para aplicar estos contrastes no es necesario especificar la
distribución de probabilidad de la población analizada ni que las
observaciones estén medidas en escala de intervalo. éstas pueden
presentarse en una escala ordinal y en algunas ocasiones en una
escala nominal.
•En general, los contrastes no paramétricos son menos potentes que
los paramétricos y, en consecuencia, ante la posibilidad de aplicar
cualquiera de ellos siempre es preferible el paramétrico.
Pruebas No Parametricas con SPSS
•http://www2.uca.es/serv/ai/formacion/spss/Imprimir/19nparam.pdf
•http://e-stadistica.bio.ucm.es/web_spss/results_ks.html
Prueba de Signo
• La prueba del signo se utiliza para probar la hipótesis sobre la
mediana de una distribución continua. La mediana de una
distribución es un valor de la variable aleatoria X tal que la
probabilidad de que un valor observado de X sea menor o igual, o
mayor o igual, que la mediana es 0.5. Esto es, .
• Puesto que la distribución normal es simétrica, la media de una
distribución normal es igual a la mediana. Por consiguiente, la
prueba del signo puede emplearse para probar hipótesis sobre la
media de una población normal.
• Las hipótesis son:

• Supóngase que X1, X2, . . . , Xn es una muestra aleatoria tomada de


la población de interés.
• Fórmense las diferencias
• Estadístico de prueba apropiado:
X: Número de estas diferencias que son positivas,
La prueba de la hipótesis nula es en realidad una prueba de que
el número de signos positivos es un valor de una variable
aleatoria binomial con parámetro P = ½. Puede calcularse un
valor P para el número observado de signos positivos X
directamente de la distribución binomial. Al probar la hipótesis que
se muestra al principio, se rechaza H0 en favor de H1 sólo si la
proporción de signos positivos es suficientemente menor que ½ (
o de manera equivalente, cada vez que el número observado de
signos positivos r+ es muy pequeño). Por tanto, si el valor P
calculado
ValorP = P ( X ≤ X 0 / p = 1 / 2)
• es menor o igual que algún nivel de significancia seleccionado
previamente, entonces se rechaza H0 y se concluye que H1 es
verdadera.
• Para probar la otra hipótesis unilateral

ValorP = P( X ≥ X 0 / p = 1 / 2)
Ejemplo
Un artículo informa cerca de un estudio en el que se
modela el motor de un cohete reuniendo el
combustible y la mezcla de encendido dentro de un
contenedor metálico. Una característica importante es
la resistencia al esfuerzo cortante de la unión entre los
dos tipos de sustancias. En la siguiente tabla se
muestran los resultados obtenidos al probar 20
motores seleccionados al azar. Se desea probar la
hipótesis de que la mediana de la resistencia al
esfuerzo cortante es 2000 psi, utilizando
Resistencia Resistencia
al Signo de la al Signo de la
Observación esfuerzo diferencia Observación esfuerzo diferencia
cortante xi-2000 cortante xi-2000
xi xi

1 2158.70 + 11 2165.20 +

2 1678.15 - 12 2399.55 +

3 2316.00 + 13 1779.80 -

4 2061.30 + 14 2336.75 +

5 2207.50 + 15 1765.30 -

6 1708.30 - 16 2053.50 +

7 1784.70 - 17 2414.40 +

8 2575.10 + 18 2200.50 +

9 2357.90 + 19 2654.20 +

10 2256.70 + 20 1753.70 -
• De la tabla se puede observar que el estadístico de
prueba X = 14.
• Regla de decisión:
• Si el valor de P correspondiente a X=14 es menor o
igual que =0.05 se rechaza H0.
• Cálculos:
• Puesto que X=14 es mayor que n/2=20/2=10, el valor
de P se calcula de
ValorP = 2P(X ≥ X 0 / p = 1 / 2)
ValorP = 2 P ( X ≥ 14 / p = 1 / 2 )

• El valor p se calcula con la fórmula de la distribución


binomial:

Valor p supera el 5%
por lo tanto se acepta
Ho
Aproximación a la Normal
X: Nro de signos positivos
X − 0.5n
Z=
0.5 n

14 − 0.5(20)
Z= = 1.789
0.5 20

Como 1.789 esta entre –1.96 y 1.96, no se rechaza H0 y se concluye


con un α =0.05 que la mediana es de 2000 psi.
Prueba del Signo para Muestras Pareadas

También se puede utilizar la prueba de signo para


probar la hipótesis nula

para observaciones pareadas. Aquí se reemplaza cada


diferencia, di, con un signo más o menos dependiendo si
la diferencia ajustada, di-d0, es positiva o negativa.
Suponemos que las poblaciones son simétricas. Sin
embargo, aun si las poblaciones son asimétricas se
puede llevar a cabo el mismo procedimiento de prueba,
pero las hipótesis se refieren a las medianas
poblacionales en lugar de las medias.
Ejemplo: datos pareados
Una compañía de taxis trata de decidir si el uso de
llantas radiales en lugar de llantas regulares con
cinturón mejora la economía de combustible. Se
equipan 16 automóviles con llantas radiales y se
manejan por un recorrido de prueba establecido. Sin
cambiar de conductores, se equipan los mismos autos
con llantas regulares con cinturón y se manejan una
vez más por el recorrido de prueba. Se registra el
consumo de gasolina, en kilómetros por litro, de la
siguiente manera: ¿Se puede concluir en el nivel de
significancia de 0.05 que los autos equipados con
llantas radiales obtienen mejores economías de
combustible que los equipados con llantas regulares
con cinturón?
Autom d
Llantas con
óv Llantas radiales
cinturón
il
1 4.2 4.1 +
2 4.7 4.9 -
3 6.6 6.2 +
4 7.0 6.9 +
5 6.7 6.8 -
6 4.5 4.4 +
7 5.7 5.7 0
8 6.0 5.8 +
9 7.4 6.9 + Al observar las diferencias
10 4.9 4.9 0
se ve que sólo existe un
n=14, ya que se descartan
11 6.1 6.0 +
los valores de cero. Se tiene
12 5.2 4.9 +
X = 11
13 5.7 5.3 +
11 − 0.5(14)
14 6.9 6.5 +
Z= = 2.14
15
16
6.8
4.9
7.1
4.8
-
+
0.5 14
Como 2.14 es mayor a 1.645 se rechaza H0 y se concluye con un = 0.05
que
. las llantas radiales mejoran la economía de combustible
PRUEBA DE SUMA DE RANGOS DE WILCOXON

• Cuando se trata de variables medibles en por lo menos


una escala ordinal y pueden suponerse poblaciones
contínuas la prueba no paramétrica más potente es la
de Wilcoxon.
• La hipótesis nula del contraste postula que las muestras
proceden de poblaciones con la misma distribución de
probabilidad; la hipótesis alternativa establece que hay
diferencias respecto a la tendencia central de las
poblaciones y puede ser direccional o no.
• El contraste se basa en el comportamiento de las
diferencias entre las puntuaciones de los elementos de
cada par asociado, teniendo en cuenta no sólo el signo,
sino también la magnitud de la diferencia.
Ejemplo
Los siguientes datos representan el número de horas que un compensador
opera antes de requerir una recarga: 1.5, 2.2, 0.9, 1.3, 2.0, 1.6, 1.8, 1.5, 2.0,
1.2 y 1.7. Utilice la prueba de rango con signo para probar la hipótesis en el
nivel de significancia de 0.05 que este compensador particular opera con una
media de 1.8 horas antes de requerir una recarga.
Prueba de Wilcoxon: Una Muestra

H 0 : µ = 1.8
Dato di = dato - 1.8 Rangos

1.5 -0.3 5.5

2.2

0.9
0.4

-0.9
7

10
H a : µ ≠ 1.8
1.3 -0.5 8 Para n = 10, después de descartar la
medición que es igual a 1.8, la tabla
2.0 0.2 3 muestra que la región crítica es w <8

1.6 -0.2 3

1.8
8.
0 Se anula w+ = 7 + 3 + 3 = 13
w- = 5.5 + 10 + 8 + 3 + 5.5
1.5 -0.3 5.5
+ 9 + 1 = 42
2.0 0.2 3 por lo que w = 13 (menor
1.2 -0.6 9 entre w+ y w-).
1.7 -0.1 1

Como 13 no es menor que 8, no se rechaza H0 y se concluye con un = 0.05 que el


tiempo promedio de operación no es significativamente diferente de 1.8 horas.
Prueba de Wilcoxon: Dos Muestras Relacionadas

Se afirma que un estudiante universitario de último año puede


aumentar su calificación en el área del campo de su especialidad
en al menos 50 puntos si de antemano se le proporcionan
problemas de muestra. Para probar esta afirmación, se dividen 20
estudiantes del último año en 10 pares de modo que cada par
tenga casi el mismo promedio de puntos de calidad general en
sus primeros años en la universidad. Los problemas y respuestas
de muestra se proporcionan al azar a un miembro de cada par
una semana antes del examen. Se registran las siguientes
calificaciones del examen.
Pruebe la hipótesis nula en el nivel de significancia de 0.05 de
que los problemas aumentan las calificaciones en 50 puntos
contra la hipótesis alternativa de que el aumento es menor a 50
puntos.
Con Sin
Par
problemas
de
problemas
de
di di – d0 Rangos H 0 : µ 1 − µ 2 = 50
muestra muestra

1 531 509 22 -28 5 H 1 : µ 1 − µ 2 < 50


2 621 540 81 31 6

3 663 688 -25 -75 9 w+ = 6 + 3.5 + 1 = 10.5


4 579 502 77 27 3.5

Como 10.5 es menor que 11 se


5 451 424 27 -23 2
rechaza H0 y se concluye con un
6 660 683 -23 -73 8 = 0.05 que los problemas de
muestra, en promedio, no aumentan
7 591 568 23 -27 3.5 las calificaciones de registro de
graduados en 50 puntos.
8 719 748 -29 -79 10

9 543 530 13 -37 7

10 575 524 51 1 1
Prueba de Mann-Whitney (comparación de dos grupos independientes)

Es la prueba no paramétrica paralela a la t de dos grupos independientes

Pasos:
1. pasar las puntuaciones a rangos (conjuntamente en los dos grupos)
2. computar la suma de los rangos del grupo 1
Muestras pequeñas (n1 y n2 ≤ 20)

Hay tablas para este caso de


muestras pequeñas; en todo
(U es la suma de los rangos asignados a la muestra 1)
caso, si la muestra es
Muestras grandes relativamente grande, se puede
efectuar la aproximación a la
distribución normal

La hipótesis nula es que no haya diferencias entre los dos grupos


Ejemplo

Un experimentador utiliza dos métodos para


enseñar a leer a un grupo de 10 niños de 6
años, quienes ingresan por primera vez a la
escuela. El experimentador quiere demostrar
que el procedimiento ideado por él es más
efectivo que el tradicional; para ello, mide el
desempeño en la lectura en función de la
fluidez, comprensión, análisis y síntesis.

Hipótesis nula (Ho). Las diferencias observadas entre las calificaciones


de ejecución de lectura mediante los dos métodos se deben al azar.

Hipótesis alterna (Ha). Las calificaciones de ejecución de lectura, según


el método de enseñanza del experimentador son más altas y diferentes
que las observadas en el método tradicional.
Dos métodos diferentes aplicados en dos grupos de niños.

Aplicación de la prueba estadística:

de acuerdo con los paso, las observaciones se deben ordenar en rangos


del menor al mayor.
Población de niños de 6 años a los cuales se les aplicó dos métodos de enseñanza.
Prueba de Kruskal-Wallis (comparación de "a" grupos independientes)

Es la prueba no paramétrica paralela a la F unifactorial entre-sujetos

Pasos:
1. pasar las puntuaciones a rangos (conjuntamente en los "a" grupos)
2. computar la suma de los rangos en cada grupo (son las Rj)

Estadístico de contraste

12 ⎛ R 2 ⎞

H = ⎜ ∑
j
⎟ − 3 (N + 1)
N (N + 1) ⎝ n j ⎠
Si la Hipótesis nula es cierta (es decir, que no haya diferencias entre los grupos),
H se distribuye según chi-cuadrado con a-1 grados de libertad

Observa que se puede aplicar esta prueba cuando no se


cumplan los supuestos de homogeneidad de varianzas ni el
de normalidad del ANOVA unifactorial entresujetos.
Combi Tico Micro

H o : µ c = µT = µ M = µ
92 106 87

17 14 15 H 1 : µ c ≠ µT ≠ µ M ≠ µ

6 10 3 Rangos

Rango
tipo N promedio
Accidentes combi 3 5,33
Taxi 3 5,33
Micro 3 4,33
Estadísticos de contrastea,b Total 9

Accidentes
Chi-cuadrado ,267 Se concluye que el número de
gl 2
accidentes promedio no difiere
Sig. asintót. ,875
a. Prueba de Kruskal-Wallis
según tipo de auto
b. Variable de agrupación: tipo