Sie sind auf Seite 1von 29

Universidad Nacional del Comahue

Facultad de Economía y Administración

PROBABILIDAD Y ESTADÍSTICA

Dr. Sergio Bramardi

CONTENIDOS

UNIDAD 5: Pruebas de Hipótesis. Procedimiento general. Definición y


clasificación de errores. Pruebas de Hipótesis para la Media y la Variancia
de una población Normal y para la proporción. Pruebas de Hipótesis para la
comparación de Medias y de Variancias de poblaciones Normales
independientes, y para la comparación de proporciones. Comparación de
medias en muestras apareadas. Pruebas de hipótesis no-paramétricas.
Estadístico de Pearson. Pruebas de independencia de variables y de
bondad de ajustes de modelos de probabilidad.

1
Pruebas de Hipótesis

INFERENCIA ESTADÍSTICA

Estimación de Parámetros Pruebas de Hipótesis

¿ Qué es una hipótesis estadística ?

Es una proposición o afirmación sobre la distribución de probabilidad de una


variable aleatoria.

Parámetros de la distribución
Forma de la distribución
Asociadas a una o más poblaciones

Ejemplos:
La edad media de los alumnos del curso es de 22 años.

El consumo anual de combustible por habitante que en la década del 90 era de 150
Ktep ha sufrido un incremento significativo en los últimos años.

El consumo de energía eléctrica promedio por hogar es superior en la región


Patagónica que en el Nordeste del país.

La tensión suministrada por una distribuidora de energía eléctrica sigue una


distribución normal

El número de alarmas diarias en un gasoducto responde a una distribución Poisson

2
Hipótesis acerca de los parámetros de una población:

Caso 1
H0: θ = θ1 Hipótesis nula
Hipótesis puntuales o simples
H1: θ = θ2 Hipótesis alternativa

Caso 2 Caso 3 Caso 4


H0: θ = θ0 H0: θ = θ0 H0: θ = θ0
H1: θ ≠ θ0 H1: θ < θ0 H1: θ > θ0 Hipótesis compuestas

Caso 5 Caso 6
H0: θ  θ0 H0: θ  θ0
Hipótesis compuestas
H1: θ < θ0 H1: θ > θ0

Puedan combinarse otros casos de Hipótesis nulas e Hipótesis alternativas

Consideraciones importantes:

 Las hipótesis son siempre afirmaciones relativas a la población o


distribución bajo estudio, no en torno a la muestra

 La hipótesis nula siempre ‘contiene’ a la hipótesis θ = θ0

 Hay una estrecha relación entre la prueba de hipótesis en torno a un


parámetro θ y el intervalo de confianza de θ

3
Prueba de hipótesis:

Es un procedimiento (o experiencia) que conduce a una toma de decisión en


cuanto a optar por una u otra hipótesis, a la luz de la información
proporcionada por una muestra aleatoria extraída de la población bajo
estudio

Estadístico de prueba y Regla de Decisión

Población X1
Ho: μ = 15
X2
H1: μ ≠ 15 .
.
.
Xi
. X1
. .
. . Muestra
.
XN Xn

Bilaterales

Pruebas
7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23

 Variable Unilaterales

10 11 12 13 14 15 16 17 18 19 20
 x
x obs x obs x obs
RECHAZO NO RECHAZO RECHAZO

Conclusión sujeta a error

4
Tipos de error:

Ho es Verdadera Ho es Falsa
DECISIÓN

Rechazo H0 ErrorError
de Tipo I Decisión correcta

No Rechazo H0 Decisión correcta ErrorError


de Tipo II

P(Error Tipo I) = P(Rechazar H0 | H0 es Verdadera) = α

P(Error Tipo II) = P(No Rechazar H0 | H0 es Falsa) = β

Potencia = 1 - β = P(Rechazar H0 | H0 es Falsa)

Representación esquemática de tipos de errores

Ho: μ = μ1
H1: μ = μ2

 

1 x crit 2

Zona de no rechazo de H0 Zona de rechazo de H0

5
JUICIO

PRESUNCION

= VEREDICTO =

DECISION 2 DECISION 1

H0 H1

Procedimieno general para una prueba de hipótesis:

Del contexto del problema identificar el parámetro de interés

Plantear H0 y H1

Planificar una experiencia para la extracción de la muestra

Establecer el nivel de significación de la prueba

Seleccionar un estadístico de prueba e identificar su distribución bajo H0

Establecer regiones de rechazo y no rechazo para el estadístico de prueba

Calcular de la muestra el valor del estadístico

Decidir si debe o no rechazarse H0 e interpretar esto en el contexto del


problema

6
Pruebas de Hipótesis

I) Paramétricas
A) relacionadas a una única población

B) relacionadas a dos poblaciones

II) No paramétricas
C) ajuste de modelos de distribución de probabilidades

D) independencia

A. Pruebas sobre una sola muestra

A1. Pruebas de hipótesis acerca de la media de una distribución


normal con variancia conocida

A2. Pruebas de hipótesis acerca de la media de una distribución


normal con variancia desconocida

A3. Pruebas de hipótesis sobre la variancia de una distribución


Normal

A4. Pruebas de hipótesis sobre una proporción

7
A. Pruebas sobre una sola muestra

A1. Pruebas de hipótesis acerca de la media de una distribución normal con


variancia conocida

Problema: Se quiere demostrar que en una determinada área urbana, luego de la


aplicación de una serie de nuevas políticas empresariales, se ha incrementado el
nivel de satisfacción de los usuarios respecto al servicio brindado por una
distribuidora de energía. En los años 90 se censó esta información obteniéndose
una calificación de 63,3 puntos sobre 100 con un desvío estándar de 12,1 (dado
que estos valores son censales se consideran poblacionales). En esta oportunidad
no es posible realizar un censo por cuestiones presupuestarias por lo que se lleva
adelante un muestreo en 100 hogares donde se obtendrá las nuevas calificaciones
las que serán promediadas y de acuerdo al resultado rectificar o continuar con la
política de modalidad de la prestación del servicio.

a. El parámetro de interés es μ, nivel de satisfacción promedio en la


actualidad.
b. Información: σ2 , VA distribución normal, satisfacción promedio antes de las
nuevas políticas, n=100.
c. Planteo H0 y H1

H0:   63,3 H0:   63,3


H1:   63,3 H1:   63,3

d. Se acuerda correr un riesgo de rechazar la hipótesis nula cuando en


realidad es verdadera (es decir, asumir que hubo mejora cuando no la
hubo), fijando para ello una probabilidad de error de 5% (α = 0,05)

e. Dado que se conoce σ2, el estadístico de prueba es:


x  0
Z0  Con Z0 ~ N(0;1)

n

8
f. Regiones de rechazo:

Rechazo H0 si x obs > 65,29

Rechazo H0 si zobs > 1,645

58,67 60,88 62,09 63,30 64,51 65,72 66,93 -3 -2 -1 0 1 2 3

g. Cálculo del estadístico observado:

x obs  66,4 Zobs = 2,56

h. Conclusión:

Se rechaza H0 , es decir, existe suficiente evidencia como para decir que


efectivamente las nuevas políticas empresariales han incrementado el nivel de
satisfacción de los usuarios respecto al servicio brindado por la distribuidora de
energía

Comentarios:
* P-value de un estadístico de prueba observado es la probabilidad de que la
VA estadístico de prueba tome un valor al menos tan extremo como el
observado dado que la hipótesis nula es verdadera.

En nuestro ejemplo: P-value = P(Z > zobs/ H0 es Verdadera)

* Si la VA bajo estudio no se distribuye normalmente deberán considerarse las


condiciones para la aplicación del Teorema Central del Límite

9
A2. Pruebas de hipótesis acerca de la media de una distribución
normal con variancia desconocida

x  0
t0  Con t0 ~ t(n-1)
s
n

Problema: Porciones de muestras analíticas de manzana son fortificadas a


10 mg/kg con cierto pesticida. Se analizan con un determinado método 7
porciones para ver si el procedimiento de detección del pesticida es exacto.

DATOS: 12,5 9,0 11,0 12,0 13,0 10,5 12,0

Se conoce que los errores de medición de este método tienen distribución normal

a. El parámetro de interés es μ, contenido de pesticida en mg/kg

b. Información:
VA distribución normal n=7 x obs  11,429 s 2  1 ,8 6 9

c. Planteo H0 y H1
H0:  = 10
H1:  ≠ 10

d. Se acuerda correr un riesgo de rechazar la correcta estimación del


método cuando en realidad éste cumple con las especificaciones, fijando
para ello una probabilidad de error de 5% (α = 0,05)

e. Dado que se desconoce σ2, el estadístico de prueba es:


x  0
t0  Con t0 ~ t(n-1)
s
n

10
f. Regiones de rechazo:

Rechazo H0 si tobs < -2,45 o tobs > 2,45

-3 -2 -1 0 1 2 3

g. Cálculo del estadístico observado:

tobs = 2,765

h. Conclusión:

Se rechaza H0 , es decir, el método para detectar el pesticida no es exacto


(tiene sesgo)

Esto es equivalente a decir que si la µ del método fuera 10 esperaría que de 7


replicas se obtuviera una media muestral entre 8,73 y 11,26 mg/kg con una
probabilidad del 95%, como x obs  11,429 entonces es más probable pensar
que la media del ensayo es superior a 10

A3. Pruebas de hipótesis sobre la variancia de una distribución normal

H0: σ2 = σ02 H0: σ2 = σ02 H0: σ2 = σ02


H1: σ2 ≠ σ02 H1: σ2 > σ02 H1: σ2 < σ02

( n  1)  s 2 Con  0 ~ 2 (n-1)
2
 02 
 02

11
Problema: Sobre el mismo método de detección de plaguicida se quiere
comprobar si cumple con las especificaciones de precisión (ya vimos que no
era exacto). Se tolera hasta un desvío estándar de 1,25 mg/kg. Mayor
variabilidad indicaría una pérdida de precisión incompatible con las las
normativas internacionales.

H0: σ2 ≤ 1,252 6  1, 869


2
H1: σ2 > 1,252 obs   7,176
1,5625

No rechazo Ho , no hay evidencia de que


2(6)
el método no cumpla con los requisitos
de precisión

12,6

A4. Pruebas de hipótesis sobre una proporción

h - p0
H0: p = p0 Z0 
p0 .(1-p0 ) Con Z0 ~ N(0;1)
H1: p ≠ po
n

Prueba no exacta basada en la aproximación normal de una binomial.


Es válida si po no es muy próxima a 0 o 1 y n es relativamente grande.

x  n . p0
Z0 
n . p 0 . (1  p 0 )

Donde x es el número de observaciones en una muestra aleatoria de


tamaño n que pertenece a la clase asociada con p.

12
B. Pruebas sobre dos muestras

B1. Pruebas de hipótesis para la igualdad de dos variancias

B2. Pruebas de hipótesis sobre las medias de dos distribuciones normales


con variancias conocidas (muestras independientes)

B3. Pruebas de hipótesis sobre las medias de dos distribuciones normales


con variancias desconocidas
Situación 1: variancias poblacionales iguales
Situación 2: variancias poblacionales distintas

B4. Pruebas de hipótesis para muestras apareadas

B5. Pruebas de hipótesis sobre dos proporciones

B. Pruebas sobre dos muestras

B1. Pruebas de hipótesis para la igualdad de dos variancias

Esta prueba es un paso intermedio necesario en las pruebas de comparaciones


de medias cuando se desconocen las varianzas poblacionales

H 0 :  12   22  12
H0 : 1
H 1 :  12   22  22

s12 Con F0 ~ F(n1-1;n2-1)


F0  2
s2
Las pruebas unilaterales son muy usadas y constituyen la base de las pruebas
asociadas a la técnica ANOVA H 1 :  12   22

13
1,6

Algunas características 1,4

de Distribución F-Snedecor:
1,2

1,0

2
s1
0,8

Empírica:  F(n1-1;n2-1) 0,6

s 22 0,4

0,2
F(5,5)
F(12,12)
0,0 F(50,50)
0,0 0,5 1,0 1,5 2,0 2,5 3,0 3,5 4,0

Teórica: si U y V son dos variables aleatorias independientes con distribución


chi-cuadrado con n1-1 y n2-1 grados de libertad, entonces
W
n 1  1
1
 F(n1-1;n2-1) F ( 0 ,0 2 5 ; n 2  1 ; n 1  1 ) 
V F ( 0 ,9 7 5 ; n 1  1 ; n 2  1 )
n 2  1

Mo (F) = (n2-1)(n1-3) / (n1-1)(n2-3)  1 cuando n1 y n2  


E(F) = (n2 – 1)/ (n2 – 3)
V(F) = 2(n2 -1)2(n1+n2)/(n1-1)(n2-3)2(n2-5)

Valores de los 97,5-ésimos percentiles para la distribución F con 1 grados de


libertad en el numerador y 2 grados de libertad en el denominador
1 1 2 3 4 5 6 7 8 9 10 12 15 20 24 30 40 60 120 
2
1 648 799 864 900 922 937 948 957 963 969 977 985 993 997 1001 1006 1010 1014 1018
2 38.5 39.0 39.2 39.2 39.3 39.3 39.4 39.4 39.4 39.4 39.4 39.4 39.5 39.5 39.5 39.5 39.5 39.5 39.5
3 17.4 16.0 15.4 15.1 14.9 14.7 14.6 14.5 14.5 14.4 14.3 14.2 14.2 14.1 14.1 14.0 14.0 13.9 13.9
4 12.2 10.6 10.0 9.60 9.36 9.20 9.07 8.98 8.90 8.84 8.75 8.66 8.56 8.51 8.46 8.41 8.36 8.31 8.26
5 10.0 8.43 7.76 7.39 7.15 6.98 6.85 6.76 6.78 6.62 6.52 6.43 6.33 6.28 6.23 6.18 6.12 6.07 6.02

6 8.81 7.26 6.60 6.23 5.99 5.82 5.70 5.60 5.52 5.46 5.37 5.27 5.17 5.12 5.07 5.01 4.96 4.90 4.85
7 8.07 6.54 5.89 5.52 5.29 5.12 4.99 4.90 4.82 4.76 4.67 4.57 4.47 4.42 4.36 4.31 4.25 4.20 4.14
8 7.57 6.06 5.42 5.05 4.82 4.65 4.53 4.43 4.36 4.30 4.20 4.10 4.00 3.95 3.89 3.84 3.78 3.73 3.67
9 7.21 5.71 5.08 4.72 4.48 4.32 4.20 4.10 4.03 3.96 3.87 3.77 3.67 3.61 3.56 3.51 3.45 3.39 3.33
10 6.94 5,46 4.83 4.47 4.24 4.07 3.95 3.85 3.78 3.72 3.62 3.52 3.42 3.37 3.31 3.26 3.20 3.14 3.08

11 6.72 5.26 4.63 4.28 4.04 3.88 3.76 3.66 3.59 3.53 3.43 3.33 3.23 3.17 3.12 3.06 3.00 2.94 2.88
12 6.55 5.10 4.47 4.12 3.89 3.73 3.61 3.51 3.44 3.37 3.28 3.18 3.07 3.02 2.96 2.91 2.85 2.79 2.72
13 6.41 4.97 4.35 4.00 3.77 3.60 3.48 3.39 3.31 3.25 3.15 3.05 2.95 2.89 2.84 2.78 2.72 2.66 2.60
14 6.30 4.86 4.24 3.89 3.66 3.50 3.38 3.29 3.21 3.15 3.05 2.95 2.84 2.79 2.73 2.67 2.61 2.55 2.49
15 6.20 4.77 4.15 3.80 3.58 3.41 3.29 3.20 3.12 3.06 2.96 2.86 2.76 2.70 2.64 2.59 2.52 2.46 2.40

16 6.12 4,69 4.08 3.73 3.50 3.34 3.22 3.12 3.05 2.94 2.89 2.79 2.68 2.63 2.57 2.51 2.45 2.38 2.32
17 6.04 4.62 4.01 3.66 3.44 3.28 3.16 3.06 2.98 2.92 2.82 2.72 2.62 2.56 2.50 2.44 2.38 2.32 2.25
18 5.98 4.56 3.95 3.61 3.38 3.22 3.10 3.01 2.93 2.87 2.77 2.67 2.56 2.50 2.44 2.38 2.32 2.26 2.19
19 5.92 4.51 3.90 3.56 3.33 3.17 3.05 2.96 2.88 2.82 2.72 2.62 2.51 2.45 2.39 2.33 2.27 2.20 2.13
20 5.87 4.46 3.86 3.51 3.29 3.13 3.01 2.91 2.84 2-77 2.68 2.57 2.46 2.41 2.35 2.29 2.22 2.16 2.09

21 5.83 4.42 3.82 3.48 3.25 3.09 2.97 2.87 2.80 2.73 2.64 2.53 2.42 2.37 2.31 2.25 2.18 2.11 2.04
22 5.79 4.38 3.78 3.44 3.22 3.05 2.93 2.84 2.76 2.70 2.60 2.50 2.39 2.33 2.27 2.21 2.14 2.08 2.00
23 5.75 4.35 3.75 3.41 3.18 3.02 2.90 2.81 2.73 2.67 2.57 2.47 2.36 2.30 2.24 2.18 2.11 2.04 1.97
24 5.72 4.32 3.72 3.38 3.15 2.99 2.87 2.78 2.70 2.64 2.54 2.44 2.33 2.27 2.21 2.15 2.08 2.01 1.94

14
B2. Pruebas de hipótesis sobre las medias de dos distribuciones
normales con variancias conocidas (muestras independientes)

Ho: μ1 = μ2 Ho: μ1 - μ2 = 0
H1: μ1 ≠ μ2 H1: μ1 - μ2 ≠ 0

X1 X2
μ1 ? μ2 ?

 12  22

n1 n2
x1 x2

Estadístico de prueba se basa en la distribución de una diferencia de medias:

  22 
2 ; 1
2
X 1  X 2 ~ N   2   
 n1 n 2 
Bajo H0:

X1  X 2
Z0 
 12  22 Con Z0 ~ N(0;1)

n1 n2

Se rechazará H0 si:

Z0 > Z/2 o Z0 < -Z/2

15
B3. Pruebas de hipótesis sobre las medias de dos distribuciones
normales con variancias desconocidas

Este caso, al igual que el visto sobre hipótesis para una media con varianza
desconocida, es el que usualmente debemos resolver.

Situación 1:  12   22   2
Dado que las varianzas se estiman de las muestras, antes de calcular el
estadístico de prueba para las medias, debemos verificar mediante una
Prueba F la igualdad de las varianzas poblacionales

Si la conclusión es que las varianzas no son distintas, ambas variancias


muestrales estiman la variancia común 2, entonces podemos combinarlas
para producir una sola estimación, digamos:
( n 1  1)  s 12  ( n 2  1)  s 22
s p2 
n1  n 2  2

El estadístico de prueba será:

x1  x2
t0  Con t0 ~ t(n1+n2-2)
1 1
sp 
n1 n2

Si las hipótesis son de la forma:

Ho: μ1 = μ2
H1: μ1 ≠ μ2
Se rechazará H0 si:

t0 > t/2 ; n1+n2-2 o t0 < - t/2 ; n1+n2-2

También pueden plantearse pruebas unilaterales y todas las combinaciones


entre H0 y H1 vistas anteriormente:
Ho: μ1 = μ2
H1: μ1 < μ2

16
Situación 2:  12   22
Si la homocedasticidad no es sustentable, no hay un estadístico de prueba
exacto disponible para Ho: μ1 = μ2 , sin embargo el estadístico:

x1  x 2
t 0* 
s12 s22

n1 n2
Se distribuye aproximadamente como t con  grados de libertad, donde :

2
 s 12 s2 
  1 
   n1 n2 
2
2 2
(s1 / n1 ) ( s 22 / n 2 ) 2

n1  1 n2  1

B4. Pruebas de hipótesis para muestras apareadas

Se dicen muestras apareadas cuando las observaciones en las dos


poblaciones de interés se recaban de a pares, con la premisa que cada par se
toma en condiciones homogéneas, aunque estas condiciones pueden cambiar
de un par a otro.

Ejemplo: considere que estamos interesados en comparar dos métodos


alternativos para la determinación del nivel de pesticidas (A: cromatografía y
B:inmunoensayo). Para ello se planea una experiencia donde se determinará el
contenido de pesticida por cada método en distintas matrices o sobre distintos
productos, para luego comparar los resultados. Pero sospechamos que las
determinaciones pueden variar según la matriz o el producto. Para evitar que este
efecto ‘matriz’ o ‘producto’ se pueda confundir con el efecto ‘método’ a cada matriz
o producto se le realizan dos extracciones de material (parejas de datos) y en
cada una de ellas se asignan ambos métodos al azar, obteniéndose observaciones
que están apareadas.

17
Sorteo técnica A y B

Para que la hipótesis contemple el efecto de apareo, se calcula una nueva


variable d que consiste en las diferencias observadas en cada par. La hipótesis
nula a probar es que la media de las diferencias es cero

H0: μd = 0
H1: μd ≠ 0

El estadístico asociado a la prueba es:

d
t0  Con t0 ~ t(n-1)
sd
n
La comparación de medias dependientes surge de un muestreo que se realizó
con restricciones en la aleatorización, esto constituye el paso elemental en un
diseño experimental en el que las unidades experimentales no son
homogéneas (DBCA)

18
Ejemplo 2: considere ahora que la comparación de las dos técnicas la queremos
hacer sobre residuos en manzanas. Para ello deberíamos extraer en forma
aleatoria dos muestras de n manzanas y en cada una de ellas aplicar el método
y determinar el contenido de pesticida. Ahora bien no contamos con un lote
homogéneo de 2n manzanas ya que las manzanas pueden tener un valor de
depósito de plaguicida muy heterogéneo. Como podríamos evitar que este efecto
‘depósito inicial’ se pueda confundir con el efecto ‘método’ ?

B5. Pruebas de hipótesis sobre dos proporciones

H0: p1 = p2 H0: p1 - p2 = 0
H1: p1 ≠ p2 H1: p1 - p2 ≠ 0

h1  h2
Z0 
1 1 
h.(1  h).  
 n1 n2 

x1  x 2
h 
n1  n 2

19
Relación entre Prueba de Hipótesis e intervalo de confianza:

X1
Ejemplo: Ho: μ = 15 Población
X2
H1: μ ≠ 15 .
.
.
Xi
. X1
. .
. .
. Muestra
XN
Xn

Si li() = [16,8;17,4] rechazo Ho y digo que >15

Si li() = [12,3;14,4] rechazo Ho y digo que <15

Si li() = [14,8;15,3] no rechazo Ho y digo que no hay evidencia suficiente como


para decir que  no es 15

Otro Ejemplo:

¿ las peras y las manzanas estan igualmente bichadas ?

Ho: pM = pP Si li(pM - pP) = [0,032;0,041]  Rechazo Ho

H1: pM ≠ pP
Si li(pM - pP) = [-0,027;-0,018]  Rechazo Ho
Si li(pM - pP) = [-0,014;0,021]  No Rechazo Ho

Intervalo contiene el cero !!!!!

20
También la igualdad de dos medias, variancias o proporciones poblacionales se
puede comprobar realizando intervalos de confianza a partir de las estimaciones
muestrales de los mismos.

Si los intervalos no se superponen se puede asegurar que los respectivos


parámetros difieren significativamente

Si li(pM ) = [0,24;0,27] y li(pP) = [0,29;0,33]


Ho: pM = pP Rechazo Ho !!!!!!!!!!

H1: pM ≠ pP
Si li(pM ) = [0,24;0,27] y li(pP) = [0,26;0,30]
No Rechazo Ho !!!!!!!!!!
No hay evidencia suficiente para decir que la proporción de
daño es diferente en manzana y pera

Intervalos se solapan !!!!!

Si li(pM ) = [0,24;0,27] y li(pP) = [0,29;0,33]


Rechazo Ho !!!!!!!!!!

| | | | | | | | | | | |

0,23 0,24 0,25 0,26 0,27 0,28 0,29 0,30 0,31 0,32 0,33 0,34

Si li(pM ) = [0,24;0,27] y li(pP) = [0,26;0,30]


No Rechazo Ho !!!!!!!!!!

| | | | | | | | | | | |

0,23 0,24 0,25 0,26 0,27 0,28 0,29 0,30 0,31 0,32 0,33 0,34

21
II. Pruebas de hipótesis no-paramétricas

Conocidas también como pruebas chi-cuadrado utilizan el estadístico que diseñó


Karl Pearson en 1899. Es un índice que mide la desviación de las frecuencias
observadas en una muestra respecto a las esperadas bajo una hipótesis.

i fobservado fesperado
 
2
f i  ˆf i o i  ei 
2

k k
1 f1 f1

2    2

2 f2 f2 ˆf i 1 ei
 i 1 i
3 f3 f3
. . .
. . .
o i2 k
. . . Fórmula de cálculo  
2
n
. .

. i 1 e i
k fk fk

Exp: Tiro un dado 600 veces y observo número que sale

X fiobs fiesp X fiobs fiesp X fiobs fiesp

1 97 100 1 36 100 1 8 10

2 101 100 2 96 100 2 12 10

3 102 100 3 97 100 3 7 10

4 99 100 4 94 100 4 9 10

5 100 100 5 95 100 5 14 10

6 101 100 6 182 100 6 10 10

o i  ei 
2
k
  2
Mide discrepancia entre columna fiobs y fiesp
i 1 ei

22
Pearson estudió la distribución teórica bajo Ho verdadera, algunas características
son:

1. Tiene distribución Chi-cuadrado con k-1 grados de libertad


2. Si el valor del estadístico=0 significa que no hay diferencias entre las
frecuencias observadas y esperadas. Cuanto más se aleja de 0 mayor la
discrepancia entre las frecuencias
3. Si las frecuencias esperadas menor que 5 el estadístico se aleja de la
distribución Chi-Cuadrado por lo que se debe reagrupar intervalos o
aumentar el numero de individuos estudiados (algunos autores aceptan hasta 3).
4. Si la frecuencia total es muy pequeña (sobre todo para el caso de 1 grado
de libertad) es aconsejable introducir el factor de corrección de Yates al
calcular el estadístico.

o  ei  0 , 5
2
k
 
2 i

i 1 ei

C. Ajuste de distribución de probabilidades

Ejemplos de hipótesis:
Ho: ‘un dado determinado no está cargado’

Ho: ‘la segregación de cierto poroto responde a la teoría de Mendel 9:3:3:1’


(Lisos Amarillos – Rugosos Amarilos – Lisos Verdes – Rugosos Verdes)

Ho: ‘la variable X sigue una distribución Poisson con parámetro ’

Ho: ‘la variable X sigue una distribución Poisson’

Ho: ‘la variable X sigue una distribución Normal’

Ho: ‘igual proporción de hombres y mujeres estudian ingeniería’

23
Ejemplo ajuste distribución discreta

Ho: X  Possion
X fob pesp fesp

x1 f1 p1 f1
x2 f2 p2

f2 pesp = P(X=xi / X  Possion)

x3 f3 p3 f3
. . . .
f̂i = pesp . N
. . . .
. . . .
. . . .
 2Pearson  2(k-1-p)
xk fk pk fk

En general se prueba sólo forma y para verificar valor de los parámetros se


dejan las pruebas vistas anteriormente

Ejemplo ajuste distribución continua

X: “proporción de mujeres en el cuerpo no docente de 42 universidades nacionales”

X fi Fi hi Hi

30<x<35 1 1 0,0238 0,0238

35<x<40 2 3 0,0476 0,0714

40<x<45 8 11 0,1905 0,2619

45<x<50 9 20 0,2143 0,4762

50<x<55 12 32 0,2857 0,7619

55<x<60 9 41 0,2143 0,9762

60<x<65 1 42 0,0238 1,0000

Ho: X  Normal

24
33%
30%

28,57%
29%
25%

24%
21,43% 21,43%
20%
19,05%
19%
hi

15%
14%

10%
10%

5% 4,76%
5%
2,38% 2,38%

0%
0%
30 35 40 45 50 55 60 65 70
X

X fi hi pi / xN fiesp
x  49, 72
-x<35 1 0,0238

35<x<40 2 0,0476 s  7,00

40<x<45 8 0,1905
n = 42
45<x<50 9 0,2143

50<x<55 12 0,2857 0,2574


55<x<60 9 0,2143

60<x<+ 1 0,0238

 50  49,72 55  49,72 
P(50<X <55)  P  Z  
 7 7 

P(0,04<Z<0,75) = (0,75) - (0,04) = 0,7734 – 0,5160 = 0,2574

25
X fi hi pi / xN fiesp

-x<35 1 0,0238 0,0222 0,9


0,0600 f
35<x<40 2 0,0476 2,5
40<x<45 8 0,1905 0,1691 7,1
45<x<50 9 0,2143 0,2646 11,1
50<x<55 12 0,2857 0,2574 10,8
55<x<60 9 0,2143 0,1558 6,5
2
60<x<+ 1 0,0238 0,0708 3,0

fobs i2
k
  2
 n  44,98 – 42 = 2,98 Valor Crítico 2(3;0,95)=7,81
i 1 fesp i
o

No hay evidencia para decir que la distribución no es normal

D. Pruebas de independencia de dos factores

Determina si dos factores que clasifican a una población o muestra son


estadísticamente independientes. Es decir, los niveles de un determinado factor no
afectan a los niveles del otro factor. Es la Hipótesis general de una tabla de
contingencia y el principio de análisis de datos categorizados.

Ho: los factores A y B son independientes

Vacunados No vacunados

Muertos 8 12

Vivos 20 18

26
Secuencia de análisis

1. Plantear hipótesis  Ho: los factores A y B son independientes

2. Proponer un Nivel de significación α

3. Establecer Regla de Decisión: Ho es rechazada si y solo si, el valor chi-


cuadrado observado es mayor que el valor crítico para el nivel de
significación dado.

4. Calcular frecuencias esperadas en tabal de contingencia bajo supuesto


de Ho verdadera

5. Calcular estadístico de Pearson

6. Comparar con valor crítico

7. Concluir en términos del problema

Frecuencias observadas en
Factor A cada celda por combinación
de dos niveles de factores

A1 A2 ... Aa
B1 f11 f12 ... f1a f1.
B2 f21 f22 ... f2a f2.
Factor B Marginales fila
... ... ... fij ... ...
Bb fb1 fb1 ... fba fb.
f.1 f.2 ... f.a f.. Total fila

Total columna
Marginales columna
Total General

27
A1 A2 ... Aa

B1 f11 No se
puede
mostra
r la
imagen
.
f12 ... f1a f1.

B2 f21 f22 ... f2a f2.

... ... ... ... ... ...

Bb fb1 fb1 ... fba fb.


f.1 f.2 ... f.a f..

Bajo la hipótesis nula, las frecuencias esperadas en una tabla de contingencia se


pueden obtener como producto de las frecuencias marginales observadas.
Es decir que bajo independencia de factores se cumple que:

f11
=
f12
=
f1a
=…=
f1. ˆf11  f.1  f1. 2Pearson  2[(a-1).(b-1)]
f.1 f.2 f.a f.. f..

SEXO
TOTAL
Hombres Mujeres

O 113 125 238


GRUPO

A 103 120 223

B 25 37 62
AB 10 23 33

TOTAL 251 305 556

28
Pruebas de homogeneidad de muestras

Análoga a las pruebas de independencia sólo que aquí se determina si k


muestras son homogéneas en cuanto a una característica que tiene dos
alternativas. La única diferencia radica en la obtención de la información
(muestreo).
A1 A2
Muestra 1 f11 f12 f1.
Muestra 2 f21 f22 f2.
... ... ... ...
Muestra i fi1 fi2 fi.
... ... ... ...
Muestra k fk1 fk2 fk.
f.1 f.2 f..

29

Das könnte Ihnen auch gefallen