Beruflich Dokumente
Kultur Dokumente
Exposicin Oral II o
- Inferencia Estad stica Sergio Garc Mondaray a David Antonio Prez Zaba e
Indice general
1 Contraste para una muestra 1.1 1.2 1.3 1.4 1.5 1.6 Planteamiento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Estad stico de contraste . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Regin cr o tica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p-valor . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Intervalo de conanza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Resultados SPSS e interpretacin . . . . . . . . . . . . . . . . . . . . . . . . . . . o 5 5 5 6 6 6 7 9 9 9 10 10 10 11 13 13 13 14 14 14 14 17 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 17 18 18 19
2 Contraste para dos muestras independientes 2.1 2.2 2.3 2.4 2.5 2.6 Planteamiento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Estad stico de contraste . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Regin cr o tica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p-valor . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Intervalo de conanza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Resultados SPSS e interpretacin . . . . . . . . . . . . . . . . . . . . . . . . . . . o
3 Contraste para dos muestras relacionadas 3.1 3.2 3.3 3.4 3.5 3.6 Planteamiento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Estad stico de contraste . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Regin cr o tica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p-valor . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Intervalo de conanza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Resultados SPSS e interpretacin . . . . . . . . . . . . . . . . . . . . . . . . . . . o
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5 Utilizacin del SPSS o 5.1 5.2 5.3 5.4 5.5 Estudio previo: Kolmogorov-Smirnov . . . . . . . . . . . . . . . . . . . . . . . . . Estudio 1. Prueba T para una muestra . . . . . . . . . . . . . . . . . . . . . . . . Estudio 2. Prueba T para dos muestras independientes . . . . . . . . . . . . . . . Estudio 3. Prueba T para dos muestras relacionadas . . . . . . . . . . . . . . . . Estudio 4. ANOVA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
21 21 22 23 24 26
Introduccion
El director de una empresa X desea realizar un estudio estad stico sobre el salario de sus empleados, puesto que quiere realizar algunos ajustes. Para ello, se han seleccionado 10 observaciones independientes y obtenidas de forma aleatoria.
Observando la signicacin asinttica (bilateral), podemos ver que ambas son mayores que o o los 0.01 y 0.05, que son los que emplearemos. Por tanto, podemos armar que ambas variables siguen una distribucin normal. o
Apartado 1
1.1
Planteamiento
Debemos analizar, con un nivel de signicacin = 0.01 si es posible aceptar que el salario o medio para todos los empleados de la empresa es de 45000$. Nuestras hiptesis a contrastar son o las situientes (X = salario actual): H0 : = 0 H1 : = 0 Siendo 0 = 45000$. Se trata, por tanto, de un contraste bilateral.
1.2
Como es desconocida la varianza poblacional , emplearemos el estad stico T siguiente, que sigue una distribucin t de Student con n 1 grados de libertad (tn1 ): o X 0 Sn1 n
T =
Donde X es la media de la variable salario actual para la muestra elegida, 0 es el valor de prueba, en nuestro caso 45000$, Sn1 es la cuasi-desviacin t o pica de la muestra elegida, y n es el nmero de individuos de la muestra. u Nuestros datos son: X = 46070, 0 = 45000, n = 10 y Sn1 = 31622.78. Con todo esto, nuestro estad stico queda: X 0 46070 45000 = = 0.113 31622.78 Sn1 n 10 5
T =
1.3
Regin cr o tica
Una vez calculado el estad stico, debemos estudiar si su valor est comprendido en un rango que a nos permita aceptar H0 o, por el contrario, rechazarla. La regin cr o tica, o regin de rechazo, ser la siguiente (teniendo en cuenta que = 0.01 o a /2 = 0.005 1 /2 = 0.995): R.C. = {t / t < t/2 t > t1/2 } = {t / t < t0.005 t > t0.995 } = {t / t < 3.25 t > 3.25}
Podemos apreciar en la grca cmo nuestro estad a o stico cae dentro de la regin de aceptacin. o o As podemos concluir que aceptamos H0 .
1.4
p-valor
Con el n de comprobar que resulta correcto aceptar H0 para el nivel de signicacin dado, o calculamos el p-valor: p valor = 2 P {t T } = 2 P {t 0.113} = 2(1 P {t < 0.113}) = 2(1 0.55) = 0.9 El p-valor es el valor mas pequeo de para el que rechazamos H0 . Como el resultado del n p-valor es 0.9 y es mayor que nuestro = 0.01, queda conrmado que aceptamos H0 .
1.5
Intervalo de conanza
Para estimar con X, con 2 desconocida, es: Sn1 Sn1 X + t/2 , X + t1/2 n n Nuestros datos son: X = 46070, Sn1 = 31622.78, n = 10, t/2 = 3.25 y t1/2 = 3.25. Con todo esto, nuestro intervalo queda:
46070 +
= (29788.76, 31928.76)
1.6
Este primer estudio se hace sobre todos los individuos de la empresa (n=10 trabajadores), obteniendo una media de salario de 46070$ y una alta desviacin t o pica de 30027.360$. Esto nos viene a decir que existen algunos individuos cuyo salario se aleja bastante de la media, por lo que dicha media podr no ser muy representativa. a A continuacin calculbamos nuestro estad o a stico y el intervalo de conanza para la estimacin o de a partir de x. La suite SPSS nos ofreci estos resultados: o
Aqu se representa el estad stico T con un valor de 0.113, calculado con 9 grados de libertad (n-1), con una signicacin de 0.913 (mayor que 0.01, nuestro ), luego aceptamos o H0 y podemos decir que el salario medio de los trabajadores de la empresa es el de nuestro valor de prueba (45000$). Otra forma de conrmar esto es jandonos en el intervalo de conanza al 99% para la estimacin de , (29788.76 , 31928.76), y observando que el cero pertenece al o mismo. La diferencia de medias, es el numerador utilizado para calcular el estad stico (X 0 ), siendo en nuestro caso 0 el valor de prueba de 45000$.
Apartado 2
2.1
Planteamiento
Queremos comprobar si los hombres cobran igual que las mujeres. Nuestra variable a contrastar ser, por tanto, el salario actual ; y nuestra variable de agrupacin, el sexo. Para a o ver si podemos aceptar que las medias de salario para ambos subconjuntos son iguales, vamos a contrastar las siguientes hiptesis: o H0 : 1 2 = 0 H1 : 1 2 = 0 Siendo el grupo 1 el de hombres y el grupo 2 el de mujeres. Se trata de un contraste bilateral.
2.2
No conocemos las varianzas 1 y 2 , de las poblaciones hombres y mujeres, respectivamente; por ello que vamos a estudiar si podemos considerarlas iguales o no, lo que denir qu estad a e stico deberemos emplear. Con tal n, realizamos la prueba de Levene, que da una signicacin de o 0.819. Como la signicacin de la prueba es mayor que nuestro podemos considerar que las o varianzas 1 y 2 son iguales. De este modo, el estad stico que emplearemos es: T = x1 x2 , donde Sp = 1 1 Sp + n1 n2
2 2 Sn1,2 (n1 1) + Sn1,1 (n2 1) n1 + n2 2
2 2 Nuestros datos son los siguientes: Sn1,1 = 1333333333, Sn1,2 = 1200000000, n1 = 6, n2 = 4, x1 = 48083.33 y x2 = 43050.0.
Sp =
Estudio 2. Contraste para dos muestras independientes El estad stico T , con estos datos, da como resultado T = 0.246.
2.3
Regin cr o tica
Analicemos si el valor de nuestro T , 0.246, cae dentro de una regin cr o tica que nos permita, por tanto, rechazar H0 . Calculemos esa regin: o R.C. = {t / t < t0.025 t > t0.975 } = {t / t < 2.306 t > 2.306}
Nuestro T no cae dentro de esta regin cr o tica, por lo que no podemos rechazar H0 .
2.4
p-valor
Para corroborar la aceptacin de H0 , calculamos el p valor: o p valor = 2 P {t T } = 2 {t 0.246} = 2(1 P {t < 0.246}) = 2(1 0.6) = 0.8 El p-valor es el valor ms pequeo que puede tomar para que rechacemos H0 . Por tanto, a n como = 0.05 es menor que el p valor = 0.8, queda conrmado que podemos aceptar H0 .
2.5
Intervalo de conanza
Veremos otro modo de comprobar la correccin de nuestro veredicto (aceptacin de H0 ). El o o intervalo de conanza para la estimacin de la diferencia de medias 1 2 , siendo 1 y 2 o desconocidas (y supuestas iguales, como hemos visto antes), es el siguiente: (X 1 X 2 ) + t/2 Sp 1 1 + , (X 1 X 2 ) + t1/2 Sp n1 n2 1 1 + n1 n2
2 2 Sustituyendo con nuestros datos (Sn1,1 = 1333333333, Sn1,2 = 1200000000, n1 = 6, n2 = 4, x1 = 48083.33, x2 = 43050.0, t0.975,8gl = 2.306, y t0.025,8gl = 2.306; siendo Sp = 35823.64, ya calculado antes), obtenemos el intervalo:
(42196.31, 52262.98) Como podemos observar, el 0 pertenece al intervalo obtenido. Por tanto, conclu mos que, con un nivel de signicacin = 0.05, los hombres tienen la misma media salarial que las mujeres. o 10
2.6
Para empezar, realizamos un anlisis estad a stico bsico, con el n de obtener la media y a desviacin t o pica de la variable salario actual para los dos grupos objeto de estudio: hombres y mujeres. El resultado es el que muestra la siguiente tabla, donde N es el nmero de indiv u duos que componen cada uno de los grupos.
A simple vista se puede apreciar que, para ambos grupos, la desviacin t o pica es algo elevada. Esto nos viene a decir que existen algunos individuos cuyo salario se aleja bastante de la media de su grupo, por lo que podr resultar que dicha media no fuese muy representativa. a Podemos considerarlo normal, puesto que existen diferentes categor laborales (o cargos) en as la empresa. Cuando analizbamos que estad a stico emplear, siendo 1 y 2 desconocidas, ve amos que depend de si pod a amos considerarlas iguales o no. Tal como comentbamos (apartado 2.2), a llevamos a cabo la prueba de Levene. La suite SPSS realiz los clculos y dio como resultado la o a siguiente tabla:
El resultado muestra una signicacin de 0.82, mucho mayor que nuestro = 0.05, con lo o que deduc amos que pod amos considerar que 1 = 2 . Hecho esto, eleg amos el estad stico apropiado (ver apartado 2.2), y calculbamos el intervalo de conanza para la diferencia de a medias. Los resultados obtenidos mediante el SPSS fueron:
El estad stico que calculamos es t, siendo gl los grados de libertad del mismo (que corresponden a n1 + n2 2); la signicacin bilateral es el p valor (calculado en el apartado 2.4); la o 11
Estudio 2. Contraste para dos muestras independientes diferencia de medias es el numerador de la frmula que mostrbamos de nuestro estad o a stico (X 1 X 2 ). Por ultimo, los valores inf erior y superior del intervalo de conanza al 95% que muestra la tabla no son ms que los extremos del intervalo de conanza para la diferencia a de medias que calculbamos en el apartado 2.5, al contener dicho intervalo el valor 0, signica a que podemos considerar que las medias son iguales; es decir, aceptar H0 .
12
Apartado 3
3.1
Planteamiento
Una vez seleccionados los casos de los indiv duos que cumplen nuestra especicacin de tener o 45 aos o ms, planteamos las siguientes hiptesis: n a o H0 : inicial actual = 0 H1 : inicial actual = 0 Por tanto es un contrate bilateral.
3.2
En nuestro caso, las varianzas 1 y 2 son desconocidas, pero como el estudio va a ser sobre dos muestras relacionadas (sobre los mismos individuos), sabemos que podemos considerarlas iguales. Nuestro estad stico sera el siguiente:
T =
Donde Sd es la cuasidesviacin t o pica de las diferencias entre el salario inicial y el actual para cada individuo; y D es la variable aleatoria de esas diferencias. En nuestro caso d0 = 0, puesto que lo que queremos estudiar es si ha habido diferencias signicativas en el sueldo. Nuestros datos son: D = 6362$, d0 = 0, n = 5 y Sd = 7052, aproximadamente. El estad stico T , con estos datos, da como resultado T = 2.254. 13
3.3
Regin cr o tica
Vamos a ver si el valor de nuestro estad stico utilizado est en la regin cr a o tica o no, para ello calculamos esta regin: o R.C. = {t / t < t/2 t > t1/2 } = {t / t < t0.025 t > t0.975 } = {t / t < 2.776 t > 2.776}
Como se puede observar nuestro estad stico calculado, T = 2.254, no pertenece a este intervalo. Por lo que no podemos rechazar H0 , y armamos con una conanza del 95% que el sueldo de los individuos de la empresa con una edad igual o superior a 45 aos, no ha variado desde n que entraron a trabajar.
3.4
p-valor
Calculamos el p valor: p valor = 2 P {t T } = 2 {t 2.254} = 2(1 P {t < 2.254}) = 0.09 El p-valor es el valor mas pequeo de para el que rechazamos H0 . Como el resultado del n p-valor es 0.08 y es mayor que nuestro = 0.05, queda conrmado que aceptamos H0 .
3.5
Intervalo de conanza
El intervalo de conanza para estimar inicial actual es: Sd Sd D + t/2 , D + t1/2 n n Siendo D = 6362$, Sd = 7052, n = 10, t/2 = 2.776 y t1/2 = 2.776. Con todo esto, nuestro intervalo de conanza al 95% queda de esta forma: Sd Sd 6362 + 2.776 , 6362 + 2.776 10 10 = (1476.227, 14200.227)
3.6
Como podemos ver en esta primera tabla, tanto la media del salario actual como el salario inicial, tienen una desviacin t o pica muy alta, como ya dijimos anteriormente. Esto se debe a que existen valores muy alejados de la media, lo que podr suponer que sta no fuese muy a e representativa.
Aqu podemos ver el grado de relacin de nuestro par de variables (salario actual, y salario o inicial). Con una signicacin de 0.0 que es menor que nuestro = 0.05 y valor de la correlacin o o (de Pearson, ya que son dos variables cuantitativas) igual a 1 (que es el maximo valor posible) se deduce que tienen una alta relacin, lo que es lgico, puesto que se trata de los mismos o o individuos. Tras realizar los clculos del estad a stico empleado, el intervalo de conanza, etc. con el SPSS, obtenemos la siguiente tabla:
Vemos que la media de las diferencias de los salarios actuales e inicialesde los individuos con 45 aos o ms es de 6362.0$ con una alta desviacin t n a o pica de 6312.68$. En el intervalo de conanza al 95% se puede observar que el 0 (1476.227, 14200.227) y por lo tanto no se puede rechazar H0 , luego armamos que las diferencias de las medias entre el salario actual e incial de los trabajadores de la empresa con 45 aos o ms es cero. n a El estad stico utilizado se ha calculado con 4 grados de libertad (ya que sigue una t de Student con n-1 grados de libertad, tn1 ) y nos da un resultado de 2.254, con una signicacin de 0.087 o que es mayor que 0.05 (nuestro ), luego podemos armar que no hay diferencia signicativa entre las medias de salario actual e inicial, como hemos visto antes. En resumen, podemos armar con un 95% de conanza que el salario inicial y actual para los individuos de 45 aos o ms no ha variado. n a
15
16
Apartado 4
ANOVA
Se desea estudiar si la categor laboral (cargo en la empresa) afecta al salario a actual de los empleados.
4.1
Planteamiento y dise o n
Queremos comprobar que la categor laboral afecta al salario. Por lo tanto, el diseo de nuestro a n anlisis de varianza ser el siguiente: a a Variable dependiente: Salario Factor: Categor laboral a Nos encontramos, por lo tanto, ante una ANOVA (anlisis de varianza) de un factor de a efectos jos no equilibrado y con 3 niveles. El modelo matemtico asociado es el siguiente: a yij = + Bi + ij Donde yij es la observacin j-sima del nivel i del factor (i = 1, 2, ..., I, j = 1, 2, ..., ni ). I es el o e nmero de niveles del factor, y ni es el tamao del nivel i. es una constante comn para todos u n u los valores de la variable dependiente, y Bi es la componente debida al nivel i, comn a todos u los elementos del nivel. Por ultimo, ij es la componente debida al error experimental. Para realizar nuestro anlisis, partimos de dos hiptesis supuestas: la normalidad y la hoa o mocedasticidad (igualdad de varianzas).
4.2
Hiptesis o
Si la categor laboral no afecta al salario, las medias de las distintas categor (niveles de a as nuestro factor) sern iguales. Planteamos, por lo tanto, las hiptesis nula y alternativa siguientes: a o H0 : 1 = 2 = 3 H1 : i, j / i = j Donde i es la media poblacional del salario para la categor o nivel del factor i. a 17
Estudio 4. ANOVA
4.3
SCinter =
i=1
ni (Y i. Y .. )2 ; SCintra =
i=1 j=1
(Yij Y i. )2
Por tanto, F compara la variabilidad de las diferencias entre las categor debida a las as diferencias entre los elementos de cada categor La obtencin de F mediante el SPSS da como a. o resultado 131.544, como se puede ver en la siguiente tabla:
La columna de suma de cuadrados ha sido calculada con las frmulas SCinter y SCintra o vistas antes. Lo mismo ocurre con la columna de media cuadrtica. Los grados de libertad, a gl, han sido calculados de la siguiente manera: I 1 para inter-grupos, N I para intra-grupos, y N 1 para el total. F es el estad stico calculado, y sig es la signicacin del estad o stico; como sta es menor que 0.05 (nuestro ), rechazamos H0 , luego no todas las medias son iguales. e
4.4
Regin cr o tica
A continuacin, calculamos la regin de aceptacin de la F de Snedecor para un nivel de signio o o cacin = 0.05: o f1,I1,N I = f0.95,2,7 = 4.74, por lo que R.A. = {f / f < 4.74}
Como nuestra F = 131.544 > 4.74, F R.C., rechazamos H0 , luego podemos armar que la categor laboral inuye en el salario. a 18
4.5
Anlisis post-hoc a
Como el clculo de nuestro estad a stico nos ha conducido a armar que no todas las medias son iguales, o lo que es lo mismo, la categor laboral inuye en el salario, vamos a realizar un a anlisis post-hoc con el n de comprobar entre qu categor existen diferencias signicativas. a e as As podremos analizar tambin si existe alguna pareja de niveles del factor homognea. Para e e ello, lo primero es estudiar si podemos considerar o no que el salario de las distintas categor as laborales tengan varianzas iguales. Calculemos, pues, el estad stico de Levene:
Como se aprecia en la tabla anterior, el estad stico de Levene tiene una signicacin de o 0.023, que es menor que nuestro = 0.05. Por tanto, no podemos considerar que las varianzas de los niveles del factor (categor laborales) sean iguales. Al considerar varianzas distintas, as realizamos la prueba post-hoc de C de Dunnet.
Podemos observar que las categor 1 (Administrativo) y 2 (Seguridad) son homogneas, as e puesto que entre sus medias no existen diferencias signicativas con nuestro . Por otro lado, s que existen diferencias signicativas entre stas y la categor 3 (Directivo). e a 19
Estudio 4. ANOVA
Conclu mos, por tanto, que podr amos considerar la existencia de dos grupos claramente diferenciados: el formado por las categor 1 y 2 (Administrativo y Seguridad) y el formado as por la categor 3 (Directivo). a
20
Apartado 5
5.1
Realizamos esta prueba para comprobar si una o ms variables aleatorias siguen una distribucin a o normal. La forma de proceder es acceder al men Analizar > Pruebas no paramtricas > K-S u e de una muestra.
La ventana que aparece no tiene mucho misterio, en ella se seleccionan las variables a estudiar. Despus se obtine la tabla que ve e amos al comienzo del trabajo. 21
5.2
Comprueba si existen o no diferencias signicativas entre una muestra y el parmetro poblaa cional. Es necesario que siga una distribucin normal (lo que ya ha sido comprobado en nuestro o caso). Se debe acceder al men Analizar > Comparar medias > Prueba T para una muestra (tal u como se puede ver en la imagen).
A continuacin, aparecer la siguiente ventana. Donde debemos seleccionar la variable a cono a trastar, el valor de prueba es el valor del parmetro poblacional con el que queremos contrastar. a En opciones podemos elegir el nivel de conanza.
Se pulsa Aceptar e inmediatamente se obtienen los resultados del apartado 1. Aqu es importante que el 0 pertenezca al intervalo de conanza de la diferencia de medias que nos da el SPSS, en caso contrario no podemos aceptar la hiptesis nula H0 o
22
5.3
Comprueba si no existen diferencias signicativas entre las medias de 2 muestras distintas de individuos. Se debe acceder al men Analizar > Comparar medias > Prueba T para muestras u independientes (tal como se puede ver en la imagen).
A continuacin, aparecer la siguiente ventana. Donde debemos seleccionar la variable/s a o a contrastar y la variable de agrupacin (para separar los grupos): o
El SPSS realiza los clculos contando tanto para el caso de varianzas iguales como para a varianzas diferentes. Si la signicacin de varianzas iguales es menor que 0.05 contamos con o que no son varianzas iguales, si fuese mayor que 0.05 s Dependiendo de esto miramos una . la u otra de la tabla obtenida. Para aceptar o rechazar la hiptesis nos jamos si el 0 est o a en el intervalo de la diferencia de medias o, alternativamente, jndonos en la signicacin del a o estad stico (p-valor).
23
5.4
En este apartado, previamente tenemos que seleccionar a los individuos de edad mayor o igual a 45 aos, tal como especica el enunciado del estudio. Para ello debemos acceder al men Datos n u > Seleccionar casos y establecer la condicin que se muestra en la imagen: o
Hecho esto, procedemos a realizar la prueba T. En este caso la prueba tiene el mismo objetivo que la anterior: ver si existe o no diferencias signicativas entre 2 muestras, pero ahora relacionadas. Debemos acceder al men Analizar > Comparar medias > Prueba T para u muestras relacionadas:
24
Exposicin Oral II. Estad o stica En la ventana que aparece a continuacin, tenemos que decirle las variables relacionadas o que deseamos comparar. Adems, en opciones podremos especicar el intervalo de conanza a deseado.
25
5.5
Estudio 4. ANOVA
La ANOVA, o anlisis de la varianza, tiene como n estudiar si un determinado factor afecta a a los resultados de un estudio. Para realizar el procedimiento mediante el SPSS debemos acceder a Analizar > Comparar medias > ANOVA de un factor:
En la ventana que aparece a continuacin seleccionamos el factor (causa de la variabilidad) o y la/s variable/s dependiente/s (las que pueden verse afectadas por el factor). Adems, en Opciones seleccionamos la Prueba de homogeneidad de varianzas, puesto que a si se da el caso de que el conjunto total de las categor sean heterogneas, querremos hacer as e un estudio post-hoc para buscar posibles parejas homogneas entre s y para realizar el estudio e ; correcto debemos saber si podemos considerar varianzas iguales o no.
26