Sie sind auf Seite 1von 68

ANÁLISIS E INTERPRETACIÓN DE

RESULTADOS ESTADISTICOS

Dr. Carlos Calderón Cabada

Lima, Junio 2006


PRUEBAS
ESTADISTICAS
PARAMETRICAS

Prueba “t”
de Student
¿QUE ES LA PRUEBA “t” ?

 ESUNA PRUEBA
ESTADISTICA PARA
EVALUAR SI DOS GRUPOS
DIFIEREN ENTRE SI DE
MANERA SIGNIFICATIVA
RESPECTO DE SUS MEDIAS.
SIMBOLO

“t“
SE CALCULA PARA MUESTRAS PEQUEÑAS
DE DISTRIBUCION NORMAL

x
t
S/ n
tiene distribuci ón t( n 1)
SE CALCULA PARA MUESTRAS GRANDES
DE DISTRIBUCION NORMAL

x1  x 2
t 2 2
S 1 / N1  S 2 / N 2
HIPOTESIS A PROBAR
 Se trata de comparar dos grupos:

 La hipótesis alternativa plantea que


los grupos difieren
significativamente entre si y la
hipótesis nula propone que los
grupos no difieren significativamente
entre si.
VARIABLE INVOLUCRADA

 LA COMPARACION SE REALIZA SOBRE


LA VARIABLE INDEPENDIENTE, SI
EXISTEN OTRAS SE DEBE EFECTUAR
VARIAS PRUEBAS “t” UNA POR CADA
VARIABLE.

 EL
NIVEL DE MEDICION DE LAS
VARIABLES ES EL DE INTERVALO O
RAZON
INTERPRETACION

 PARA GRUPOS
PEQUEÑOS (n < 30) x
 X la media del grupo. t
 µ la media poblacional S/ n
 S la Desv. Estandar tiene distribuci ón t( n 1)
 n = tamaño de muestra
INTERPRETACION

 Para saber si el valor “t” es significativo, se


aplica la formula y se calculan los grados de
libertad.
 La prueba “t” se basa en una distribución
muestral o poblacional de diferencia de
medias conocidas como la “t de Student”,
 Esta distribución es identificada por los
grados de libertad, los cuales constituyen el
numero de maneras como los datos pueden
variar libremente.
RECOMENDACION
 Mientras mayor sea el numero de grados de
libertad la distribución “t de Student” se
acerca mas a ser una distribución normal.
 Si los grados de libertad exceden los 120 la
Distribución Normal es utilizada como una
aproximación adecuada de la “t de Student”.
 Calculado “t” y los gl (grados de libertad) SE
ELIGE el nivel de significancia y se compara
el valor obtenido con el mostrado en la Tabla
Distribución t-Student
Para muestras pequeñas de población normal

x
T tiene distribución t( n1)
S/ n

PRUEBA “t”


t(v)
0 t1-
CALCULO DE LOS GRADOS
DE LIBERTAD

gl = (N1 + N2) – 2

N1 y N2 representan al tamaño de cada grupo


comparado.
EVALUACION DE RESULTADOS

 Si nuestro valor calculado es igual o mayor


que el de la Tabla, se acepta la hipótesis
alternativa.
 Pero si el valor es menor se acepta la
hipótesis nula.

USO DE LA TABLA……..
EJERCICIOS
 Tomar la Tabla “t” y calcular:
 Media Muestral =
 Media Poblacional =
 α =
 n =
 gl. (t-1) =
DESCANSO
HIPOTESIS A Se definen:
CONTRASTAR  Las hipótesis nula y alternativa con una
distribución de probabilidad conocida

 Regla de decisión(nivel de significación )


datos de la muestra  Valor crítico o tabulado

Se calcula una medida Se comparan los valores


asociada a la hipótesis calculado con tabulado
que se desea docimar
¿se rechaza
Ho?
H1 SI
NO
Se extraen conclusiones
Utilizar prueba de Z
Si

¿Se conoce ?

No
Si
Utilizar prueba de Z
Es n ≥ 30?

No Utilizar prueba de Z
Si
Si
¿Se conoce?

No
¿Se sabe q Utilizar prueba de t
la población
es normal? Utilizar prueba de Z
(por el teorema central
Si del límite)
No
¿Se conoce?

No
Utilizar prueba de Z (por el
Si teorema central del límite)

Utilizar una prueba


Es n ≥ 30?
no paramétrica
Esquema cuando se comprar la diferencia entre
dos medias o proporciones muéstrales
Se acepta la hipótesis nula si el
estadístico de la prueba cae
dentro de esta región.

Se rechaza la
Se rechaza la hipótesis
hipótesis nula nula

Area A = área B
y (A+B) = el
nivel deseado
de significancia

Area A Area B

Valor Valor teórico + Valor


critico de la diferencia critico
Esquema de selección de pruebas estadísticas cuando
la variable dependiente es continua u ordinal

Si
Prueba Z para la media

1 Grupo
n > = 30 Si Prueba T para la media
Distribución
No normal
Prueba del signo para la mediana
No
Si
Prueba Z para la diferencia de medias

Si Prueba T para
Si Varianzas diferencia de medias
Si n > = 30 iguales
Prueba T con ajuste
Distribució No de grados de libertad
Número No n normal
2 Grupos Prueba de Mann-Whitney para
de Independientes
No comparación de poblaciones
grupos
Si Prueba Z para la media de la diferencia
en datos apareados

n > = 30 Si Prueba T para la media de la


No diferencia en datos apareados
Distribuci ón
No normal
Prueba del signo o de Wilcoxon
No para datos apareados
Si
Distribución ANVA - Comparación de tratamientos
Si
normal c/varian-
3 a más Grupos zas semejantes Prueba de Kruskal-Wallis - Comparac. de Trat.
Independientes No

Distribución Si ANVA en Bloque - Comparac. de Tratam.


normal c/varian-
No
zas semejantes Prueba de Friedman - Comparac. de Tratam.
No
Esquema de selección de pruebas estadísticas para medir
relación entre variables

Continua
Coeficiente de correlación lineal de Pearson

Escala de Ordinal y/o


medición numérica Coeficiente de Correlación por rangos de Spearman
para ambas
variables

- Prueba Ji-Cuadrado (Coeficiente )


Si
- Riesgo Relativo (Estudios de cohorte)
- Odds Ratio (Estudios de Casos-control)
- Coeficiente de concordancia Kappa
(Comparación de métodos)
Cada variable
Nominal tiene dos
categorías
(tablas 2x2)
Prueba Ji-Cuadrado para Independencia
de variables (Coeficiente de
No
Contingencia)
Hipótesis estadística según
Número de grupo y tipo de variable

Número de Grupos

Un grupo Dos grupos Tres o más grupos

Variable Variable Variable Variable Variable Variable


cuantitativa categórica cuantitativa caategórica cuantitativa categórica

Hipótesis: Hipótesis: Hipótesis: Hipótesis:


Hipótesis: Hipótesis: Hipótesis: Hipótesis: Hipótesis:
= 0 2 < 20 2122= P1 = P2 =
P=P0 =2 2 =2 P1 = P2 =...=k
Parámetro Parámetros
1
Parámetros
2
Parámetros Parámetros
...=2k ....= P k
Parám etro Parám etro:
Proporción medias varianzas Proporciones k medias Parámetros Parámetros
media v arianza k varianzas k Proporciones
Prueba de Correlación de
Rango de SPEARMAN
PRUEBA DE CORRELACION DE RANGO DE SPEARMAN
El coeficiente de correlación por rango se define como:
  d i2 
rs  1  6  
 N( N  1) 
2
 
Donde:
N: # de observaciones, # de individuos o fenómenos
clasificados por rango.

di: Diferencia en los rangos atribuida a dos características


diferentes del i-ésimo individuo o fenómeno.

La correlación por rangos de Spearman mide la relación entre


dos variables que han sido clasificadas por orden de menor a
mayor (o de mayor a menor)
EJEMPLO
Una empresa contrató a 7 técnicos en informática, que fueron
sometidos a un examen de conocimientos básicos. Luego de un
año de servicio, se calificó su rendimiento en el trabajo. A
continuación, se muestran los resultados:

Puntuación en el Clasificación por


Técnico
examen rendimiento
J. Manzo 82 4
M. Contreras 73 7

C. Gutarra 60 6

F. Olaechea 80 3

D. Barrientos 67 5

F. Estombelo 94 1

J. Cordova 89 2
Se utiliza la correlación por rangos de Spearman para
determinar, si hay relación entre las calificaciones del examen y
el rendimiento en el trabajo

1º Se elabora la clasificación de las puntuaciones del


examen

Técnico Puntuación Clasificación Clasificación


en el examen por el examen por rendimiento X  Y  di (X  Y)2  di2
(X) (Y)
J. Manzo 82 3 4 -1 1

M. Contreras 73 5 7 -2 4

C. Gutarra 60 7 6 1 1

F. Olaechea 80 4 3 1 1

D. Barrientos 67 6 5 1 1

F. Estombelo 94 1 1 0 0

J. Cordova 89 2 2 0 0
2º Se calcula del coeficiente de correlación por rangos de
Spearman rs:

  d i2   8 
rs  1  6   1  6   0.857
 N( N  1)   7(7  1) 
2 2

Un coeficiente de correlación oscila entre -1 y 1; los


resultados muestran una fuerte relación positiva entre las
puntuaciones de examen de cada técnico y su rendimiento
en le trabajo
Contrastando la hipotes:

H0: ρs = 0, no hay relación entre las dos variables


H1: ρs ≠ 0, hay relación entre las dos variables

Tabla N, con α=0.10, n=7; los valores críticos serían: ± 0.6786

Se acepta

Se Se
Rechaza Rechaza

0.05 0.05

-0.6786 +0.6786 0.857


Valor critico Valor critico

Como rs está fuera de la región de aceptación, rechazamos la H0. Se


concluye, al 90% de confianza, existe relación entre las puntuaciones
del examen y el orden de rendimiento en el trabajo
Intervalo de confianza para la
diferencia de medias

b) Si las varianzas 12 y 22 son desconocidas


Para muestras grandes

L  ( x 1  x 2 )  Z 1 / 2 S x1  x 2

s12 s22
donde
S x1  x 2  
n1 n2
Cambiar de
tema
ANALISIS
NO
PARAMETRICO
CONSIDERACIONES
 La mayoría no de estos análisis no requiere de
presupuestos acerca de la forma de la Distribución
Poblacional.
 Las Variables no necesariamente deben estar
medidas en un nivel de intervalo (orden y categoría
cero no real) o de razón ( el cero es real) .
 Pueden analizarse datos nominales (sin orden ni
categoría -Sexo) u ordinales (orden de mayor a
menor- primero, segundo).
 En todo caso la variables deben ser categóricas.
( en días, meses, años, etc.)
METODOS O PRUEBAS NO
PARAMETRICAS MAS
EMPLEADAS
 1) LA Ji CUADRADA – CHI-CUADRADA
 2) COEFICIENTES DE CORRELACION E
INDEPENDNENCIA PARA TABULACIONES
CRUZADAS.
 3) LOS COEFICIENTES DE
CORRELACION PARA RANGOS
ORDENADOS DE SPERMAN Y KENDALL
Ji - CUADRADA
 Es una prueba estadística para evaluar
hipótesis acerca de la relación entre dos
variables.
 Se simboliza por : ‫א‬²
 Prueba hipotesis Correlacionales
 Variables involucradas : dos ( no considera
relaciones causales)
 Nivel de medicion de variables: Nominal y
Ordinal.
Ji - CUADRADA
 La Chi – Cuadrada se calcula a traves de
una Tabla de contingencia o Tabulacion
cruzada, que constituye una Tabla de dos
dimensiones o matriz de dos x dos.

 Cada dimension contiene una variable.

 Cada variable se subdivide en dos o mas


categorias.
La Prueba Ji-Cuadrado
Distribución Ji-Cuadrado χ 2

Supóngase que se tiene una serie de variables aleatorias independientes con distribución normal
estándar, Z1 , Z2 , ... , Zn , entonces la variable aleatoria , X  Z12  ...  Z2n sigue una distribución
Ji-Cuadrado.
La Prueba Ji-Cuadrado
FUNCIÓN DE DENSIDAD MEDIA Y VARIANZA.
χ2
Procedimientos para usar el análisis de ji cuadrada y probar la
independencia de dos variables nominales

Hipótesis nula:
Las variables son independientes

Se construye o se obtiene una tabla de


tabulación cruzada para las frecuencias reales
observadas (Oij )

Suponiendo que las variables son


independientes, se construye una tabla de
tabulación cruzada para las frecuencias
teóricas ( Eij)

Se determina el nivel de significado deseado


en la prueba.

Se determina el valor
calculado del estadístico ji
cuadrada

  
2
r c O ij  E ij 
2

i 1 j1 E ij
USO DE LA TABLA

Tabla 4. Distribución de ji-cuadrado

El área sombreada de naranja


representa la probabilidad P[χ  χ α,n ]  α
2 2

que se determinada por α


, donde: Probabilidad de un valor superior
Grados de libertad 0,1 0,05 0,025 0,01 0,005
χ 2
es el valor critico del margen
α,n 1 2,71 3,84 5,02 6,63 7,88

superior de la tabla, y n son los 2 4,61 5,99 7,38 9,21 10,60


3 6,25 7,81 9,35 11,34 12,84
grados de libertad del margen 4 7,78 9,49 11,14 13,28 14,86
izquierdo de la tabla. 5 9,24 11,07 12,83 15,09 16,75
6 10,64 12,59 14,45 16,81 18,55
7 12,02 14,07 16,01 18,48 20,28
8 13,36 15,51 17,53 20,09 21,95
9 14,68 16,92 19,02 21,67 23,59
10 15,99 18,31 20,48 23,21 25,19
Tabla 4. Distribución de ji-cuadrado

Uso de la tabla Ji-


Cuadrado

Probabilidad de un valor superior

P [ 15.99  χ | n  10]  0.10


2 Grados de libertad 0,1 0,05 0,025 0,01 0,005
1 2,71 3,84 5,02 6,63 7,88
2 4,61 5,99 7,38 9,21 10,60
3 6,25 7,81 9,35 11,34 12,84
4 7,78 9,49 11,14 13,28 14,86
5 9,24 11,07 12,83 15,09 16,75

P [ 11.07  χ | n  5]  0.05
2 6 10,64 12,59 14,45 16,81 18,55
7 12,02 14,07 16,01 18,48 20,28
8 13,36 15,51 17,53 20,09 21,95
9 14,68 16,92 19,02 21,67 23,59
10 15,99 18,31 20,48 23,21 25,19
EJEMPLO
Martha Revilla, directora de mantenimiento de la calidad
en MEGA, elige 29 bicicletas y halla una varianza en la
distancia entre ejes de 32.7 pulgadas cuadradas. Si la
señora Revilla tienen que garantizar que la variación no
supere 27 pulgadas cuadradas ¿indica esto que se
cumplen las normas de producción? (α=0.05)

Hipótesis H 0   2  27 H1   2  27

Prueba de una cola a la derecha


¿Que pasaría, si las instrucciones de la señora Revilla fueran que la
variación se mantuviera inferior a 27 pulgadas cuadradas?

H 0   2  27 H1   2  27

Prueba de una cola a la izquierda

f 2 
02.95;28  16.928

0.05

16.928 2
33.91
X2 =33.91, la señora Revilla no rechazará la H0 y confiará al 95% en
que se cumplen las normas de producción
La señora Revilla, ahora elabora un intervalo de confianza del 90% para
la varianza de la distancia entre ejes.

n  1s 2  2

n  1s 2
 2
0.05; 28  02.95; 28

29  132.7    2  29  132.7 


f  
2
41.337 16.928
 22.15   2  54.09

0.05 0.90 0.05

16.928 41.337 2
0.95

Revilla puede confiar al 90% en que la varianza de la distancia


entre ejes se encuentra entre 22.15 y 54.09 pulgadas cuadradas
Prueba Ji-Cuadrado de Independencia

H0: Las variables X e Y son independientes


H1: Existe asociación entre X e Y

Y
X Categ. 1 ...... Categ. s Total
Cat. 1 O11 ...... O1s R1
......... ....... ...... ....... .....
Cat. r Or1 ...... Ors Rr
Total C1 ...... Cs n
Prueba Ji-Cuadrado de Independencia
 Estadística
80
Si No
70
r c (Oij  E ij ) 2

  
2 60
i 1 j1 E ij 50
Ri Cj 40
donde , Eij 
n 30
20
 10
2 0
 12 Alto Medio Bajo
R.C.
Ejemplo de Prueba Ji-Cuadrado de independencia

Para verificar la suposición de que la fabricación de cierto producto


está asociado con enfermedades respiratorias, a 450 trabajadores de
una empresa que fabrica el producto se evaluó respecto a la
presencia de síntomas de alteraciones respiratorias y se los clasificó
a su vez de acuerdo al nivel de exposición al producto. Los resultados
se presentan en la tabla siguiente:

Presencia de Nivel de Exposición Total


Síntoma Alto Medio Bajo
Si 175 43 27 245
No 90 60 55 205
Total 265 103 82 450
H0: Las alteraciones respiratorias son independientes de la
exposición al producto.

H1: Las alteraciones respiratorias están asociadas a la


exposición al producto

Frecuencias Esperadas: R iC j
E ij 
n

R 2 C3 20582 
Por ejemplo: E 23    37.4
n 450

Presencia de Nivel de Exposición Total


Síntoma Alto Medio Bajo
Si 144.3 56.1 44.6 245
No 120.7 46.9 37.4 205
Total 265 103 82 450
 Estadística

2 3 (Oij  E ij ) 2 80
Si No
  
2
70
i 1 j1 E ij
60
Ri Cj 50
donde , Eij 
n 40
30
20
  0.05 10
2 0
 12 Alto Medio Bajo
R.C.
2
2 3 O ij
2    n
i 1 j1 E ij

1752 552
  ...   450  36.4
144.3 37.4

Que sigue una distribución Ji-cuadrado con


(n-1)*(C-1)=( 2-1)*(3-1)=2 grados de libertad

 
p  P   36.4  0.0000000125  0.005
2
2

En conclusión, se rechaza la H0 (p < 0.05), es decir las


alteraciones respiratorias están asociadas a la
exposición al producto
Distribución F de Snedecor
Si y X 2 son variables Ji-cuadrado distribuidas en forma
independiente
X1 con y grados de libertad, respectivamente, la
variable k k Z k
1 2 F 1 1
Z2 k 2

sigue la distribución F con yk1 grados


k2 de libertad.
Tabla F de Fisher

α=0.05 con letra normal.


α=0.01 con letra negrita
Ejemplo de uso de la tabla F de Fisher
Ejemplo de Aplicación

 De dos aulas de 5ª año de secundaria se tomaron muestras de tamaños


10 y 15 de las notas promedios de alumnos para probar si la dispersión
de las notas es la misma para las dos aulas. Los resultados obtenidos son
los siguientes:
 Aula 1: 15, 16, 12, 14, 14, 15, 16, 13, 14, 15.
 Aula 2: 12, 14, 15, 16, 16, 17, 15, 16, 18, 14, 12, 15, 16, 14, 13.

x1  14.40
S12  1.600 n1  10
x 2  14.87
S22  2.981 n 2  15
Deseamos probar las hipótesis:

H 0 : 12   22 H1 : 12  22


1.600
 Luego F  0.5367
  0.05 2.981
 Si , entonces para F( 9,14) /2
las cuantilas 1y  / 2

F0.025 (9,14)  0.26 F0.025 ( 9,14)  3.21

0.025 0.025

0.26 0.5367 3.21

Luego concluimos que la dispersión de las notas entre los alumnos


para las dos aulas de 5ª año son las mismas, pues no se encuentra
diferencia significativa.
EJEMPLO

La compañía llantera Good Year del Perú, ha efectuado


un estudio sobre los hábitos de manejo de varios grupos
ocupacionales. En una muestra de 35 profesores
universitarios, el número promedio de kilómetros
recorridos al año fue de 14,500 con una desviación
standart de 3,200 km. En una muestra de 40 dentistas,
el kilometraje fue de 13,400, con una desviación standart
de 1,950 km.

X1  14,500, s1  3,200, n1  35
Se tiene
X 2  13,450, s 2  1,950, n 2  40
Primero se verificará la condición siguiente: 1  2

X1  14,500, s1  3,200, s12  10240000, n1  35


X 2  13,450, s 2  1,950, s12  3802500, n 2  40

Planteamos las Hipótesis:

H 0 : 12   22 H1 : 12   22

10240000
F  2.693
3802500
Para α=0.05 F0.975 (34,39)  1.9
F0.025 (34,39)  0.515

0.025 0.95 0.025

0.515 1.9
2.693

Se rechaza la H0, es decir que 1  2


Luego, se prueba
la hipótesis: H0 : 1   2 H1 : 1   2
Diferencia de las
medias muestrales X1  X2  14,500 13,450  1,050Km.

s X1 X 2  
s12 s 22
 
3,2002  1,9502  622.6
n1 n 2 35 40

 0  Z * s X1  X 2 
Valores críticos
 0  1.96622.6
 0  1,220.3

Y los valores críticos son: -1,220.3 y +1,220.3


Se acepta la hipótesis nula

Se Rechaza Se Rechaza

Área =0.025 Área =0.025


Z= -1.96 Z= +1.96

  X1  X 2   0
-1220.3 s  X1X2   622.6 millas +1220.3
Valor critico Valor critico

+1050 = diferencia
observada entre las
medias muestrales.
Ejercicio
Como la diferencia entre las medias
muestrales es de 1050 millas y se
acepta un margen de error de 1220
millas, en consecuencia, no hay
diferencias significativas entre los
dos grupos
EJEMPLO
Freddy Lopez, operador de la cadena de restaurantes “Las
Tejas””, ha hecho una encuesta entre los clientes en dos
ciudades, pues desea averiguar si les gustaría que en el
menú se incluyeran sandwiches de jamón y queso. De las
500 personas encuestadas en la capital, 200 contestaron
afirmativamente, mientras que 150 de las 300 encuestadas en
una ciudad cercana también contestaron afirmativamente.
Freddy quiere saber si, en un nivel de 0.05 esos resultados
son significativamente diferente.

P1  200 / 500  0.40, n1  500


En resumen
P 2  150 / 300  0.50, n 2  300
Primero se determinará si se cumple lo siguiente: 1 ≠ 2

P1  200 / 500  0.40, n1  500, s12 


0.400.60  0.00048
Se tiene 500

P 2  150 / 300  0.50, n 2  300, s 22 


0.500.50  0.00083
300
Planteamos las Hipótesis:

H0 :   
2
1
2
2 H1 :   
2
1
2
2

0.00048
F  0.576
0.00083
Para α=0.05 F0.025 ( 499, 299)  0.8184 F0.975 ( 499, 299)  1.228

0.025 0.95 0.025

0.576 0.8184 1.228

Se rechaza la H0, es decir que 1 ≠ 2


Luego, se prueba H 0 : P1  P2 H1 : P1  P2
la hipótesis:

Diferencia de las P1  P 2  0.40  0.50  0.10


proporciones muestrales
n P1  n 2 P 2 5000.40  3000.50
P 1   0.4375
n1  n 2 500  300
Re mplazando p  0.4375 en la fórmula de s P1  P 2 
asi como los valores de n1 , n 2
1 1
s P1  P 2   P1  P     0.0362
 n1 n 2 

 0  Z * s P1 P 2 
 0  1.960.0362
Valores críticos

 0  0.071

Y los valores críticos son: -0.071 y +0.071


Se acepta la hipótesis nula

Se rechaza Se rechaza

Área =0.025 Área =0.025


Z= -1.96 Z= +1.96

  P1  P2   0
Diferencia observada
entre las proporciones -0.071 +0.071
muestrales =
(0.40-.050) =-0.10
Valor s  P1  P2   0.0362 Valor
critico critico
Ejercicio
Como la diferencia entre las
proporciones muestrales es de -0.10
y se acepta un margen de error de
0.071, en consecuencia, si hay
diferencias significativas entre los
dos grupos
FIN

MUCHAS
GRACIAS

Das könnte Ihnen auch gefallen