Sie sind auf Seite 1von 105

PRUEBAS DE BONDAD DE

AJUSTE, INDEPENDENCIA
Y HOMOGENIDAD
William Jaime
Len Velsquez
UNIVERSIDAD
NACIONAL MAYOR DE
SAN MARCOS

ESTADISTICA
INDUSTRIAL
FACULTAD DE INGENIERIA
INDUSTRIAL
SESION 10
OBJETIVO
Comprender las dos tcnicas estadsticas empleadas
para analizar datos categricos, con lo cual podr:
Analizar datos usando la prueba de
Chi cuadrado de independencia y
para homogeneidad
Comprender la prueba Chi
cuadrado de bondad de ajuste y
cmo usarla.
2
ESTRUCTURA
3
4
Introduccin
Muchos estudios resultan en datos que son categricos o
cualitativos antes que cuantitativos y que admiten ms de
dos resultados posibles:
Nuevos Obreros clasificados segn evolucin (mejora, sin
cambios, empeora)
Trabajadores clasificados segn su desempeo (regulares,
buenos, excelentes)
Votantes clasificados segn intencin de voto

Estos datos tienen las caractersticas de un experimento
multinomial
5
Ejemplo: grupos sanguneos
La distribucin en la ciudad de Lima
de los grupos sanguneos es de un 35%,
10%, 6% y un 49% para los grupos A, B,
AB y O respectivamente.
Se desea saber si la distribucin de los
grupos sanguneos en el distrito de San
Martin de Porres difiere de toda la
ciudad de Lima


6
El experimento multinomial
El experimento consiste de n ensayos idnticos
El resultado de cada repeticin es una de k categoras
La probabilidad de que el resultado sea una determinada
categora i se denomina p
i
y permanece constante de ensayo
en ensayo
La suma de las k probabilidades, p
1
+ p
2
+.. + p
k
= 1
Los ensayos son independientes

7
El experimento binomial
Es un caso especial del experimento multinomial con k = 2
Las 2 categoras se denominan xito y fracaso
p
1
y p
2
son p y q
Se hace inferencia sobre p y q=1-p
En un experimento multinomial hacemos inferencia sobre
todas las probabilidades, p
1
, p
2
, , p
k

8
Pruebas de bondad de ajuste
Se mide una nica variable categrica,
por lo tanto cada elemento de la
poblacin se asigna a una y slo una de
varias categoras k
Para cada categora se posee un valor
preconcebido o supuesto o histrico de
p
i
y usamos informacin muestral para
determinar si dichos valores son correctos

9
Para determinar saber si la distribucin de los grupos
sanguneos en el distrito de San Martin difiere de toda la
ciudad de Lima se extrajo una muestra aleatoria de 200
pobladores del distrito de san Martin de Porres y se les
determin el grupo sanguneo.
Los resultados fueron:



En este caso, la poblacin es multinomial: cada poblador se
clasifica segn su grupo sanguneo en 4 categoras (k= 4)
Grupo A Grupo B Grupo AB Grupo 0
61 15 6 118
frecuencias
observadas FO
Ejemplo: grupos sanguneos
10
Dado que se cuenta solo con una muestra y se desea inferir sobre
toda la poblacin, la pregunta se resuelve mediante una prueba
de hiptesis
Las hiptesis puestas a prueba son:

Ho: Las proporciones de cada grupo sanguneo en el distrito de
San Martn de Porres no difieren de toda la ciudad capital;
p
1
=0.35, p
2
= 0.10, p
3
=0.06, p4=0.49
H1: Las proporciones s difieren; al menos una p
i
cambia

Cmo se resuelve?
Se contrastan frecuencias observadas FO
i
en la muestra con las
frecuencias que se esperara observar FE
i
si las proporciones no
cambiasen (es decir si Ho fuera verdadera)
La distribucin difiere?
11
Se calculan las frecuencias esperadas:






Las diferencias son lo suficientemente grandes como para
afirmar que las preferencias en la poblacin han cambiado? ( =
0.05)

i i
np E
Grupo A Grupo B Grupo AB Grupo 0 TOTAL
FO
i
61 15 6 118 200
P
i
0.35 0.10 0.06 0.49 1
FE
i
La distribucin difiere?
12
Estadstico chi-cuadrado
Para cuantificar las diferencias en un nico nmero se utiliza el estadstico





Cuando Ho es verdadera, las diferencias entre FO
i
y FE
i
sern pequeas,
pero cuando Ho es falsa, sern grandes
Para determinar si la discrepancia entre FO y FE es lo suficientemente
grande, se utiliza la distribucin chi-cuadrado con cierta cantidad de
grados de libertad
Sin embargo este estadstico tiene una distribucin que se aproxima a la
chi-cuadrado


i
i i
muestral
FE
FE FO
2
2
13
Grados de libertad
Varan segn la aplicacin
Se comienza con el nmero de categoras o celdas k
Se le resta un GL por cada restriccin sobre las probabilidades
(siempre se perder un GL ya que p
1
+ p
2
+ +p
k
= 1)
Se pierde un GL por cada parmetro que se debe estimar para
calcular FE
i
Es decir
m k GL 1
GL= k-1
Siendo k = cantidad de categoras
14
GL= 4-1=3
Siendo k = cantidad de categoras
( = 0.05)

2
= 7.8147

2
= 7.8147
En el ejemplo:
Datos muestrales
i
i i
muestral
FE
FE FO
2
2
15
Grupo
A
Grupo
B
Grupo
AB
Grupo
0
TOTAL
FO
i
61 15 6 118 200
FE
i
70 20 12 98 200
En el ejemplo:
i
i i
muestral
FE
FE FO
2
2
16
fo fe (fo-fe)2 (fo-fe)2/fe
61 70 81 1.15714286
15 20 25 1.25
6 12 36 3
118 98 400 4.08163265
200 200 9.48877551

2
muestral

= 9.488

2
muestral

= 9.488
17
Comentarios

Se rechaza la Ho
Por lo tanto la distribucin de los grupos sanguneos en el distrito de San
Martin de Porres difiere de toda la ciudad de Lima

Conclusin:

2
muestral

>
2



9.488 > 7.8147


18
Para que las conclusiones sean vlidas:
La muestra debe ser aleatoria y su tamao n debe ser 50
Las observaciones deben ser independientes
Las FE
i
deben ser > 0. Y se admite solo un 20% de casillas con FE
i

< 5. Si esto no se cumple, puede solucionarse agrupando
categoras.
La distribucin del estadstico es aproximada, pero si el
tamao de la muestra es grande (FE > 10) la aproximacin
es muy buena





Conclusin:
En el ejemplo:
19
Comentarios
A diferencia de las pruebas anteriores, la Ho indica que
existe buen ajuste a un modelo o a ciertas proporciones
supuestas:

Ho: el modelo es correcto, hay buen ajuste a las
proporciones supuestas
H1: el modelo no es correcto, hay mal ajuste






20
Otras aplicaciones
Las pruebas de bondad de ajuste pueden utilizarse para
determinar si una variable ajusta a una determinada
distribucin de probabilidades, como por ejemplo:
Normal
Binomial
Poisson
En estos casos se deben estimar algunos parmetros a
partir de la muestra:
Normal: el promedio y el desvo estndar
Binomial: la probabilidad de xito p
Poisson: la cantidad esperada de eventos en un continuo

PRUEBA DE BONDAD DE AJUSTE
Los procedimientos de prueba de hiptesis que se han
estudiado hasta ahora, estn diseados para problemas en
los que se conoce la poblacin o la distribucin de
probabilidad, y la hiptesis involucra los parmetros de la
distribucin.
Existe otra clase de hiptesis: no se sabe cul es la
distribucin de la poblacin, y se desea probar la hiptesis
de que una distribucin en particular ser un modelo
satisfactorio de la poblacin.

Por ejemplo:
Probar la hiptesis de que la poblacin tiene
comportamiento normal, Poisson, exponencial etc.
21

Se utiliza para la comparacin de la
distribucin de una muestra con
alguna distribucin terica que se
supone describe a la poblacin de la
cual se extrajo.

H
o
: La variable tiene
comportamiento normal

H
1
: La variable no tiene
comportamiento normal
22
LA PRUEBA DE BONDAD DE AJUSTE
LA PRUEBA DE BONDAD DE AJUSTE
Es considerada como una prueba
no paramtrica que mide la
discrepancia entre una
distribucin observada y otra
terica, indicando en qu
medida las diferencias existentes
entre ambas, de haberlas, se
deben al azar.

23
LA PRUEBA DE BONDAD DE AJUSTE
La frmula que da el estadstico es la
siguiente:

k
i
e
e o
i
i i
f
f f
1
2
2
O
i
= Valor observado en la i-simo dato.
e
i
= Valor esperado en la i-simo dato.
K = Categoras o celdas.
m = Parmetros estimados sobre la base de los datos de la muestra
24
LA PRUEBA DE BONDAD DE AJUSTE
Los grados de libertad vienen dados
por : gl= K--1.
Criterio de decisin es el siguiente:
Se rechaza H
0
cuando .
En caso contrario no se rechaza.

Donde t representa el valor
proporcionado por las tablas, segn
el nivel de significacin elegido.

2
1 ;
2
K t
Cuanto ms se aproxima a cero el valor de chi-cuadrado, ms
ajustadas estn ambas distribuciones.
25
Ejemplo 1:
Un ingeniero de control de calidad
toma una muestra de 10 neumticos
que salen de una lnea de ensamblaje
y se desea verificar sobre la base de
los datos que siguen, la cantidad de
llantas con defectos observados en
200 das, y comprobar si es cierto que
el 5% de todos los neumticos tienen
defecto.
26
Teniendo conocimiento que la muestra proviene de
una poblacin binomial con n = 10 y p = 0.05
Nmero de unidades
con defecto
Nmero de muestras
0 138
1 53
2 ms 9
Datos
27
REPORTE DE UNIDADES DEFECTUOSAS
El estadstico de prueba
fO
i
= Valor observado en la i-simo dato.
fe
i
= Valor esperado en la i-simo dato.
K = Categoras o celdas.

k
i
e
e o
i
i i
f
f f
1
2
2
28
Definir el nivel de significancia y la
zona de rechazo
29
g.l= k-1 = 3 1 =2
Para poder calcular las frecuencias esperadas
tenemos que calcular las probabilidades
utilizaremos la formula de la binomial

y la probabilidad de 2 ms = 1.0 -0.599 -0 .315 = 0.086

Calculamos el estadstico de
prueba
30
200 (0.599) = 119.8
200(0.315) = 63
200 (0.086) = 17.2


Nmero de
unidades con
defecto
Nmero de
muestras
Observadas
Valor
Esperado
0 138 119,8
1 53 63
2 ms 9 17,2
Total 200 200
Ahora ya podemos encontrar las
frecuencias esperadas:
31
Al aplicar la formula se tiene:

Como 8.26 es mayor que 5.99, se rechaza la hiptesis nula
con un nivel de significancia de 0.05.

Conclusin
Se concluye que el porcentaje verdadero de neumticos
con defecto no es el 5%.
32

1.- Formulacin de la hiptesis
Ho: Los datos de la muestra se
ajustan a la distribucin
terica escogida
H1: Los datos de la muestra no se
ajustan a la distribucin
terica escogida

2.- Fijar el nivel de significacin


El procedimiento general para
realizar la prueba es:
33

3.- La estadstica de prueba donde:
Ei = np
i
Oi = observado
p = nmero de parmetros
estimados a partir de la
muestra
K = nmero de categoras o clases
pi = probabilidad
k
i
Ei
Ei Oi
1
2
2
) (
El procedimiento general
para realizar la prueba es:
34

4.- Determinar la regin crtica:
rechazar Ho si:
caso contrario no se rechaza




5.- Decisin y conclusin
Nota: si alguna frecuencia esperada es menor que 5, se
debe eliminar esa clase, Y sumar la frecuencia observada a
una clase contigua.
2
1 , 1
2
p k calc
El procedimiento general
para realizar la prueba es:
35
Un distribuidor de equipos electrnicos a
subdividido su regin en cuatro zonas.
A un posible comprador de los equipos
se le asegura que las ventas de los
equipos estn distribuidos de manera
aproximadamente igual en las cuatro
zonas.
Se extrae una muestra de los archivos de
la empresa de 40 ventas realizadas el ao
pasado y encuentra que el numero de
ventas por zona son: 6,12,14,8
respectivamente.
Realice la prueba de bondad de ajuste.
Ejemplo 2:
36

Ho : las ventas estn igualmente distribuidas.
Ha: las ventas no estn igualmente distribuidas


Alfa = 0.05 gl = k-1 = 4-1 = 3
El Ch critico = 7.81 Segn Tabla
Ch observado=
Ejemplo 2:
37

Elaborar la tabla de fo y fe y calcular el Ch.
Zonas
A B C D
Frecuencia
observada
(fo) 6 12 14 8 40
Frecuencia
esperada (fe) 10 10 10 10 40
Ch 1.6 0.4 1.6 0.4
4
Ejemplo 2:
38
La decisin:
Como: Ch observado es menor que Ch critico
,entonces no rechazamos Ho.
Es decir que la Ho de que las ventas se encuentran
igualmente distribuidas en las cuatro zonas no se
puede rechazar para un nivel de significancia de 5%.
Ejemplo 2:
39
Una moneda fue lanzada al aire 1000 series, de 5 veces
cada serie y se observ el nmero de caras de cada serie. El
nmero de series en los que se presentaron 0, 1, 1, 3, 4 y 5
caras se muestra en la siguiente tabla.
Nmero de caras
Nmero de series
(frecuencia
observada)
0
38
1
144
2
342
3
287
4
164
5
25
Total
1000
Ajustar una distribucin binomial a los datos con un = 0.05.
Ejemplo 3:
40

Solucin:
H
0
; Los datos se ajustan a una
distribucin binomial.

H
1
; Los datos no se ajustan a una
distribucin binomial
Ejemplo 3:
41
Para obtener los valores esperados se tiene que
utilizar la formula de la distribucin binomial:
,
donde n en este ejemplo vale 5, p y q son las
probabilidades respectivas de cara y sello en un
solo lanzamiento de la moneda.
Ejemplo 3:
42
Para calcular el valor de p, se sabe que = np en una
distribucin binomial, por lo que = 5p.
Para la distribucin de frecuencias observada, la
media del nmero de caras es:
Ejemplo 3:
43
Por lo tanto .



As pues, la distribucin binomial ajustada viene
dada por
Ejemplo 3:
44
Al seguir esta frmula se calcula la probabilidad
de obtener caras, segn el valor de la variable
aleatoria.
La probabilidad multiplicada por 1000 nos dar el
valor esperado. Se resumen los resultados en la
tabla siguiente:
Nmero de
caras (x) P(x caras)
Frecuencia
esperada
Frecuencia
observada
0 0.0332 33.2 38
1 0.1619 161.9 144
2 0.3162 316.2 342
3 0.3087 308.7 287
4 0.1507 150.7 164
5 0.0294 29.4 25
Ejemplo 3:
45
Para los grados de libertad el valor de m ser uno,
ya que se tuvo que estimar la media de la
poblacin para poder obtener el valor de p y as
poder calcular los valores esperados.
Grados de libertad: k-1-m = 6-1-1 = 4
Ejemplo 3:
46

Regla de decisin:
Si X
2
R
9.49 no se rechaza H
o
. Si X
2
R
>9.49 se
rechaza H
o
.
Clculos:
Ejemplo 3:
47

Justificacin y decisin:

Como el 7.54 no es mayor a 9.49,
no se rechaza H
0

y se concluye con un
= 0.05 que el ajuste de los datos a una
distribucin binomial es bueno.
Ejemplo 3:
48
Se tiene los pesos de 253 peses y se desea saber si sus pesos tienen
un comportamiento normal. Los datos se han organizado en una
tabla de frecuencia

Ejemplo 4:
49
Lmites Frecuencias
Clase Inferior
Punto
Medio Superior Absolutas Relativas
1 2 57 112 0 0.0
2 112 167 222 3 1.2
3 222 277 332 4 1.6
4 332 387 442 10 4.0
5 442 497 552 18 7.1
6 552 607 662 29 11.5
7 662 717 772 37 14.6
8 772 827 882 54 21.3
9 882 937 992 44 17.4
10 992 1047 1102 26 10.3
11 1102 1157 1212 16 6.3
12 1212 1267 1322 7 2.8
13 1322 1377 1432 3 1.2
14 1432 1487 1542 2 0.8
15 1542 1597 1652 0 0.0
Sumas 253 100
Ho : los pesos de los peses tienen un
comportamiento normal.
Ha: los pesos no tienen un comportamiento normal


Alfa = 0.05
Ing. William len Velsquez 50
Ejemplo 4:
Ing. William len Velsquez 51
Ejemplo 4:
Ing. William len Velsquez 52
Ejemplo 4:
Ing. William len Velsquez 53
Ejemplo 4:
Para los grados de
libertad el valor de m
ser uno, ya que se tuvo
que estimar la media de
la poblacin para poder
obtener el valor de p y as
poder calcular los valores
esperados.
Grados de libertad:
15-1-m = 15-1-1 = 13

Alfa = 0.05

54
Ejemplo 4:
Ing. William len Velsquez 55
Justificacin y decisin:

Como el 7.17 no es mayor a 22.36,
no se rechaza H
0

y se concluye con un
= 0.05 que el ajuste de los datos a una distribucin normal es bueno.
X
2
=22.36
Ejemplo 4:
TABLAS DE CONTINGENCIA
INDEPENDENCIA
Experimento multinomial con clasificacin con 2
criterios (2 factores). Los datos se pueden resumir
en una tabla de 2 vas (dimensiones).
(Ejemplo nmero de animales enfermos por
condicin corporal).
La Ho indica que 2 variables o criterios de
clasificacin son independientes cuando se
aplican a un conjunto de individuos (unidades
de observacin)
Totales Marginales Aleatorios
56
HOMOGENEIDAD
Se extraen Muestras Independientes de varias
poblaciones y se prueban para ver si son
homogneas con respecto a algn criterio de
clasificacin. (Ejemplo prevalencia de enfermos por
regin)
Un conjunto de Totales Marginales Son Fijos
mientras que los otros marginales son Aleatorios.
57
TABLAS DE CONTINGENCIA
PRUEBA DE
INDEPENDENCIA,
Consiste en comprobar si dos caractersticas
cualitativas estn relacionadas entre s (por
ejemplo: el color de ojos est relacionado con el
color de los cabellos?).
Este tipo de contrastes se aplica cuando deseamos
comparar una variable en dos situaciones o
poblaciones diferentes, es decir, deseamos estudiar
si existen diferencias en las dos poblaciones
respecto a la variable de estudio.

58
Prueba de Independencia
Se usa para analizar la frecuencia de dos variables con
categoras mltiples para determinar si las dos
variables son independientes o no.

ejemplo:
El tipo de refresco preferido por un consumidor es
independiente de su grupo etreo?
El estado nutricional esta asociado con el desempeo
acadmico?
determinar si la regin geogrfica es independiente
del tipo de inversin financiera?

59

La prueba Chi cuadrado de independencia
es particularmente til para analizar datos
de variables cualitativas nominales.
60
Prueba de Independencia
Los datos de variables cualitativa o categricas
representan atributos o categoras y se organizan
en tablas llamadas tablas de contingencia o
tablas de clasificacin cruzada.
Tabla de contingencia
Una Tabla de contingencia con r filas y c columnas
tiene la siguiente forma:
61
Donde:
Oi j : es el nmero de sujetos que tienen las caractersticas
Ai y Bj a la vez.

Ri : (i = 1,,r) es la suma de la i-sima fila de la tabla. Es
decir, es el total de sujetos que poseen la caracterstica Ai.

Cj :(j = 1,,c) es la suma de la j-sima columna de la tabla.
Es decir, es el total de sujetos que poseen la caracterstica
Bj.

n : representa el total de observaciones tomadas.
Tabla de contingencia
62
Formulacin de hiptesis:

Hiptesis nula (H
0
) : Las variables X e Y son
independientes, ( X e Y no estn relacionadas)

Hiptesis alternativa (H
1
) : Las variables X e Y no son
independientes, (X e Y estn relacionadas)
La pregunta es:

Existir o no relacin entre las variables A y B?, es
decir, si A y B son o no independientes.
Tabla de contingencia
63
El estadstico Ji-Cuadrado esta dado por:



donde
Oij : es la frecuencia observada de la celda que
est en la fila i, columna j,

es la frecuencia esperada de la

celda (i, j).

r
1 i
c
1 j
ij
2
ij ij 2
E
) E O (
n
C R
E
j i
ij
*
Pruebas de Independencia
64
La frecuencia esperada es aquella que debe ocurrir
para que la hiptesis nula sea aceptada.

La prueba estadstica se distribuye como una Ji-
Cuadrado con (r-1)*(c-1) grados de libertad.

La hiptesis Nula se rechaza si ,

o equivalentemente si el p-value es menor que
(prefijado)
2
1
2
calc
Pruebas de independencia
65
Se extraen Muestras Independientes de
varias poblaciones y se prueban para ver si
son homogneas con respecto a algn
criterio de clasificacin.
Un conjunto de Totales Marginales Son
Fijos mientras que los otros marginales son
Aleatorios.
HOMOGENEIDAD
66
EJEMPLO
67
H
0
: El uso del cinturn de seguridad es independiente
del gnero.
H
1
: El uso del cinturn de seguridad no es independiente
del gnero.
Una conductora supone que el
uso de cinturn de seguridad,
en los conductores, est
relacionado con el gnero.
68
Para calcular todos y cada uno de los valores de la tabla
de frecuencias esperadas se realiza:

Total Columna Paradichacelda Total Fila Paradichacelda
SumaTotal
EJEMPLO
69
50 25
40 45
REALIZAR UNA TABLA CON LOS VALORES DE LA TABLA DE
CONTINGENCIA Y AADIR UNA FILA EN LA PARTE INFERIOR Y UNA
COLUMNA EN LA PARTE DERECHA.
TABLA DE FRECUENCIAS ESPERADAS
EJEMPLO
70
50 25 75
40 45 85
90 70 160
SUMA DE FILAS
SUMA DE COLUMNAS SUMA TOTAL
REALIZAR LAS SUMAS POR FILAS, POR COLUMNAS Y LA SUMA TOTAL
FRECUENCIAS DE
VALORES
OBSERVADOS
EJEMPLO
71
42.1875 32.8125
47.8125 37.1875
90 75
160
90 85
160
70 75
160
70 85
160
Usar la frmula para obtener las frecuencias
esperadas.
FRECUENCIAS DE VALORES ESPERADOS
EJEMPLO
CHI CUADRADO CALCULADO
72
Para obtener el valor de Chi-Cuadrado Calculado se
tiene la frmula
2
0 2
0
: .
: .
e
calc
e
e
f f
f
f Frecuenciadel valor observado
f Frecuenciadel valor esperado
EJEMPLO
73
42.1875 32.8125
47.8125 37.1875
50 25
40 45
TABLA DE VALORES OBSERVADOS TABLA DE VALORES ESPERADOS
2
0 2
2 2 2 2
2
2
50 42.1875 25 32.8125 40 47.8125 45 37.1875
42.1875 32.8125 47.8125 37.1875
1.4468 1.8601 1.2766 1.6413 6.2248
e
calc
e
calc
calc
f f
f
EJEMPLO
GRADO DE LIBERTAD v
74
Para calcular el grado de libertad (v) se realiza:
1 1 v Cantidad de filas Cantidad decolumnas
EJEMPLO
75
50 25
40 45
TABLA DE VALORES OBSERVADOS
2 1 2 1
1 1 1
v
v
EJEMPLO
NIVEL DE SIGNIFICANCIA
76
Es el error que se puede cometer al rechazar la hiptesis
nula siendo verdadera.

Por lo general se trabaja con un nivel de significancia de
0.05, que indica que hay una probabilidad del 0.95 de que
la hiptesis nula sea verdadera.

EJEMPLO
77
Una conductora supone que el uso de cinturn de
seguridad, en los conductores, est relacionado con el
gnero. Los datos se muestran en la tabla inferior. La
conductora realiza la prueba de su conjetura usando chi-
cuadrado con un nivel de significancia del 1%.




Entonces se tiene un nivel de significancia del 0.01.
USO DE CINTURN DE
SEGURIDAD
GNERO S NO
FEMENINO
50 25
MASCULINO
40 45
EJEMPLO
VALOR DEL PARMETRO p
78
Para calcular el valor de p se realiza:



Ejemplo:
1 p Nivel designificancia
1 0.01 0.99 p
EJEMPLO
TABLA PARA VALORES DE
CHI-CUADRADO CRTICO
79
80
EJEMPLO
COMPARACIN ENTRE LOS VALORES DEL
CHI-CUADRADO CALCULADO Y EL CRTICO
81
Si el valor del chi-cuadrado calculado es menor o igual
que el chi-cuadrado crtico entonces no se rechaza la
hiptesis nula, caso contrario se rechaza.

Ejemplo:



Entonces no se rechaza la hiptesis nula, la cual es El
uso del cinturn de seguridad es independiente del
gnero.
2
6.2248 6.635
calc
Valor crtico

Se tiene la siguiente tabla de
contingencia que corresponde a la
cantidad de clientes que visitan en
una tienda en funcin al sexo y a la
edad. hacer la prueba de
independencia para las variables al
1% de significancia


Edad Hombre Mujer Total
Menos de 25 60 50 110
Mas de 25 80 10 90
Total 140 60 200
EJEMPLO 2 :
82

SOLUCIN
Ho: El sexo y la edad de los clientes son independientes.
Ha : El sexo y la edad son dependientes.

Gl= (m-1)(n-1) = (2-1)(2-1)= 1

Las frecuencias esperadas se calculan con:


83
EJEMPLO 2 :

Solucin: Tabla de frecuencias esperadas

Sexo
Edad Hombre Mujer Total
Menos de 25 77 33 110
Mas de 25 63 27 90
140 60 200
84
EJEMPLO 2 :
Tabla de los Ch individuales
Hombre Mujer
Menor de 25
3.75 8.76
Mayor de 25
4.59 10.70
27.80
Ch2 observado
85
EJEMPLO 2 :


Ch2 critico = 6.63
Ch2 observado = 27.80

Como el observado es mayor que el critico
,rechazamos la Ho.
Para un nivel del 1% esta relacin no se puede
atribuir ala causalidad .
86
EJEMPLO 2 :

Se tiene inters en estudiar la fiabilidad de
cierto componente informtico con relacin
al distribuidor que nos lo suministra. Para
realizar esto, se toma una muestra de 100
componentes de cada uno de los 3
distribuidores que nos sirven el producto
comprobando el nmero de defectuosos en
cada lote.


EJEMPLO 3 :
87
La siguiente tabla muestra el nmero de defectuosos en para cada uno de
los distribuidores.

SOLUCIN:
Debemos realizar un contraste de homogeneidad
para concluir si entre los distribuidores existen
diferencias de fiabilidad referente al mismo
componente.
Las frecuencias esperadas bajo homogeneidad
son las representadas entre parntesis.
88

EJEMPLO 3 :
El estadstico del contraste ser:
89

EJEMPLO 3 :
Este valor del estadstico Ji-cuadrado es mayor
que el valor para el nivel de significacin del 5%,
por lo tanto debemos concluir que no existe
homogeneidad y por lo tanto que hay diferencias
entre los tres distribuidores.
90

EJEMPLO 3 :
Se toma una muestra aleatoria de 2200
familias y se les clasifica en una tabla de
doble entrada segn su nivel de ingresos
(alto, medio o bajo) y el tipo de colegio a la
que envan sus hijos. La siguiente tabla
muestra los resultados obtenidos:
A un nivel de significancia del 1% hay razn para creer que el ingreso y el
tipo de colegio no son variables independientes?
TOTAL
INGRESOS PRIVADO PBLICO
Alto 506 494 1000
Medio 438 162 600
Bajo 215 385 600
TOTAL 1159 1041 2200
TIPO DE COLEGIO
91
Ejemplo 4:
Primero: ingresar los datos: ya tabulados de la siguiente
manera
92
Nivel de ingreso Tipo de colegio frecuencia
1 1 506
1 2 494
2 1 438
2 2 162
3 1 215
3 2 385
Ejemplo 4:
Solucin:
Las hiptesis a plantearse son las siguientes:

Ho: No hay relacin entre el ingreso y el tipo de colegio

H1: Si hay relacin entre el ingreso y el tipo de colegio.
Tabl a de conti nge nci a Ti po_Col * Cl as e_s oc
506 438 215 1159
526.8 316.1 316.1 1159.0
494 162 385 1041
473.2 283.9 283.9 1041.0
1000 600 600 2200
1000.0 600.0 600.0 2200.0
Recuento
Frecuencia esperada
Recuento
Frecuencia esperada
Recuento
Frecuencia esperada
1.00
2.00
Tipo_Col
Tot al
1.00 2.00 3.00
Clase_soc
Tot al
93
Ejemplo 4:
Interpretacin: Como el P-value es menor que 0.01
se puede concluir que hay relacin entre el nivel de
ingreso y el tipo de colegio.
Prue bas de chi -cuadrado
169.429
a
2 .000
174.511 2 .000
16.917 1 .000
2200
Chi-cuadrado de Pearson
Correccin por cont inuidad
Razn de verosimilit udes
Asociacin lineal por lineal
N de casos vlidos
Valor gl
Sig. asintt ica
(bilat eral)
0 casillas (.0%) t ienen una frecuencia esperada inferior a 5. La
frecuencia mnima esperada es 283.91.
a.
94
Ejemplo 4:
Edad Caf/t Refresco Leche
21-34 26 95 18
35-35 41 40 20
>55 24 13 32
El uso de bebida ordenado con alimentos
en un restaurante es independiente de la
edad del consumidor? Se toma una
muestra aleatoria de 309 clientes del
restaurante de donde resulta el siguiente
cuadro de valores observados. Utilice
alfa = 0.01 para determinar si las dos
variedades son independientes.
Ejemplo 5
95
Solucin
1.- Planteamiento de hiptesis

Ho : El tipo de bebida preferida es
independiente de la edad

H1 : El tipo de bebida preferida esta
relacionada con la edad
e
e o
f
f f
2
2
) (
2.- Estadstico de Prueba
3.- Nivel de significacin: = 0.01
96
Ejemplo 5
Tabla de contingencia Edad * Bebida
26 95 18 139
43.8 71.2 24.0 139.0
41 40 20 101
31.8 51.7 17.5 101.0
24 13 12 49
15.4 25.1 8.5 49.0
91 148 50 289
91.0 148.0 50.0 289.0
Recuento
Frecuencia esperada
Recuento
Frecuencia esperada
Recuento
Frecuencia esperada
Recuento
Frecuencia esperada
21-34
35-45
>=55
Edad
Total
Caf /T Ref resco Leche
Bebida
Total
97
Ejemplo 5
Pruebas de chi-cuadrado
34.438
a
4 .000
35.441 4 .000
3.745 1 .053
289
Chi-cuadrado de Pearson
Razn de verosimilitudes
Asociacin lineal por
lineal
N de casos vlidos
Valor gl
Sig. asinttica
(bilateral)
0 casillas (.0%) tienen una f recuencia esperada inf erior a 5.
La f recuencia mnima esperada es 8.48.
a.
98
Ejemplo 5
Decisin

Las dos variables, bebida preferida y edad, no son
independientes. El tipo de bebida que un cliente
ordena con alimentos est relacionada con la edad y
depende de est.
99
Ejemplo 5
Con el fin de probar la efectividad de una
vacuna contra cierta enfermedad, se realizo
un experimento observando a 200 personas,
110 de ellas vacunadas y las otras 90 sin
vacunar.
Presentan los datos evidencia suficiente
como para indicar que la proporcin de
personas vacunadas que contrajeron la
enfermedad no es la misma que la
proporcin de personas que no se
vacunaron y que contrajeron la enfermedad
Los resultados obtenidos se muestran en el
siguiente cuadro.
Contrajeron Enf. No contrajeron la enf.
Vacunados 9 101
No vacunados 4 86
Datos
Ejemplo 6
100
1.- Planteamiento de hiptesis
Ho: P
1
= P
2

H1 : P
1
diferente de P
2

donde:
P1 = Proporcin de vacunados que contraen la
enfermedad

P2 = Proporcin de no vacunados que
contraen la enfermedad
101
Ejemplo 6
Resultados
Tabla de contingencia Vacunados * Enferm
9 101 110
7.2 102.9 110.0
4 86 90
5.9 84.2 90.0
13 187 200
13.0 187.0 200.0
Recuento
Frecuencia esperada
Recuento
Frecuencia esperada
Recuento
Frecuencia esperada
Si
No
Vacunados
Total
Contrajo No contrajo
Enf erm
Total
102
Ejemplo 6
Resultados
Pruebas de chi-cuadrado
1.138
b
1 .286
.606 1 .436
1.175 1 .278
.391 .220
1.132 1 .287
200
Chi-cuadrado de Pearson
Correccin por
continuidad
a
Razn de verosimilitudes
Estadstico exacto de
Fisher
Asociacin lineal por
lineal
N de casos vlidos
Valor gl
Sig. asinttica
(bilateral)
Sig. exacta
(bilateral)
Sig. exacta
(unilateral)
Calculado slo para una tabla de 2x2.
a.
0 casillas (.0%) tienen una f recuencia esperada inf erior a 5. La f recuencia mnima esperada
es 5.85.
b.
103
Ejemplo 6
Decisin

Como p-valor =0.286 es mayor que 0.05 (alfa)
podemos indicar que no existe suficiente
evidencia para aceptar que hay diferencias entre
las proporciones P
1
y P
2
104
Ejemplo 6
FIN
wjleonv@yahoo.com

Das könnte Ihnen auch gefallen