Sie sind auf Seite 1von 19

5.1. DIAGRAMAS DE DISPERSIN Diagramas de Dispersin Los Diagramas de Dispersin o Grficos de Correlacin permiten estudiar la relacin entre 2 variables.

Dadas 2 variables X e Y, se dice que existe una correlacin entre ambas si cada vez que aumenta el valor de X aumenta proporcionalmente el valor de Y (Correlacin positiva) o si cada vez que aumenta el valor de X disminuye en igual proporcin el valor de Y (Correlacin negativa). En un grfico de correlacin representamos cada par X, Y como un punto donde se cortan las coordenadas de X e Y:

Veamos un ejemplo. Supongamos que tenemos un grupo de personas adultas de sexo masculino. Para cada persona se mide la altura en metros (Variable X) y el peso en kilogramos (Variable Y). Es decir, para cada persona tendremos un par de valores X, Y que son la altura y el peso de dicha persona:

N Persona Altura (m) Peso (Kg.) N Persona Altura (m) Peso (Kg.) 001 002 003 004 1.94 1.82 1.79 1.69 95.8 80.5 78.2 77.4 026 027 028 029 1.66 1.96 1.56 1.55 74.9 88.1 65.3 64.5

005 006 007 008 009 010 011 012 013 014 015 016 017 018 019 020 021 022 023 024 025

1.80 1.88 1.57 1.81 1.76 1.63 1.59 1.84 1.92 1.84 1.88 1.62 1.86 1.91 1.99 1.76 1.55 1.71 1.75 1.76 2.00

82.6 87.8 67.6 82.5 82.5 65.8 67.3 88.8 93.7 82.9 88.4 69.0 83.4 89.1 95.2 79.1 61.6 70.6 79.4 78.1 90.6

030 031 032 033 034 035 036 037 038 039 040 041 042 043 044 045 046 047 048 049 050

1.71 1.90 1.65 1.78 1.83 1.98 1.67 1.53 1.96 1.66 1.62 1.89 1.53 1.59 1.55 1.97 1.51 1.59 1.60 1.57 1.61

75.5 91.3 66.6 76.8 80.2 97.6 76.0 58.0 95.2 74.5 71.8 91.0 62.1 69.8 64.6 90.0 63.8 62.6 67.8 63.3 65.2

Entonces, para cada persona representamos su altura y su peso con un punto en un grfico: Una vez que representamos a las 50 personas quedar un grfico como el siguiente:

Qu nos muestra este grfico? En primer lugar podemos observar que las personas de mayor altura tienen mayor peso, es decir parece haber una correlacin positiva entre altura y peso. Pero un hombre bajito y gordo puede pesar ms que otro alto y flaco. Esto es as porque no hay una correlacin total y absoluta entre las variables altura y peso. Para cada altura hay personas de distinto peso:

Sin embargo podemos afirmar que existe cierto grado de correlacin entre la altura y el peso de las personas. Cuando se trata de dos variables cualesquiera, puede no haber ninguna correlacin o puede existir alguna correlacin en mayor o menor grado, como podemos ver en los grficos siguientes:

Por ejemplo, en el siguiente grfico podemos ver la relacin entre el contenido de Humedad de hilos de algodn y su estiramiento:

5.2. LA ASOCIACIN ENTRE VARIABLES EXPRESADAS EN ESCALAS DE INTERVALOS O RAZN. El nivel de intervalo procede del latn interval lun (espacio entre dos paredes). Este nivel integra las variables que pueden establecer intervalos iguales entre sus valores. Las variables del nivel de intervalos permiten determinar la diferencia entre puntos a lo largo del mismo continuo. Las operaciones posibles son todas las de escalas anteriores, ms la suma y la resta.

En este tipo de medida, los nmeros asignados a los objetos tienen todas las caractersticas de las medidas ordinales, y adems las diferencias entre medidas representan intervalos equivalentes. Esto es, las diferencias entre una par arbitrario de medidas puede compararse de manera significativa. Por lo tanto, operaciones tales como la adicin, la sustraccin tienen significado. El punto cero de la escala es arbitrario y se pueden usar valores negativos. Las diferencias se pueden expresar como razones. Las medidas de tendencia central pueden representarse mediante la moda, la mediana al promedio aritmtico. EL promedio proporciona ms informacin. Las variables medidas al nivel de intervalo se llaman variables de intervalo o variables de escala. Ejemplos de este tipo de variables son la fecha, temperatura.

Medida racional El nivel de razn, cuya denominacin procede del latn ratio (clculo), integra aquellas variables con intervalos iguales pueden situar un cero absoluto. El cero absoluto supone identificar una posicin de ausencia total del rasgo o fenmeno. Tiene varias caractersticas importantes: El valor cero no es arbitrario (no responde a las conveniencias de los investigadores). Un ejemplo claro es la temperatura. La existencia de un cero en la escala Celsius no supone la ausencia de temperatura, puesto que el cero grados centgrados est situado por arbitrio de los creadores de la escala. Por el contrario, la escala Kelvin s tiene un cero absoluto, precisamente all donde las molculas cesan su actividad y no se produce por lo tanto roce entre los componentes moleculares. El cero absoluto de la escala Kelvin se sita a unos -273 grados centgrados. - La presencia de un cero absoluto permite utilizar operaciones matemticas ms complejas a las otras escalas. Hasta ahora se poda asignar, establecer la igualdad (nominal), mayor o menor que (ordinal), sumar y restar (intervalo) a las que se aade multiplicar, dividir, etc. Los nmeros asignados a los objetos tienen todas las caractersticas de las medidas de intervalo y adems tienen razones significativas entre pares arbitrarios de nmeros. Operaciones tales como la multiplicacin y la divisin tienen significado. La posicin del cero no es arbitraria para este tipo de medida. Las variables para este nivel de medida se llaman variables racionales. La mayora de las cantidades fsicas, tales como la mas, longitud, energa, se miden en la escala racional, as como tambin la temperatura (en kelvins) relativa al cero absoluto. Las medidas de tendencia central de una variable medida a nivel racional pueden representarse por la moda, la mediana, el promedio aritmtico o su promedio geomtrico. Lo mismo que con la escala de intervalos, el promedio aritmtico proporciona la mayor informacin. Otros ejemplos de variables racionales son la edad, y otras medidas de tiempo.

5.2.1. EL COEFICIENTE DE R DE BRAVAIS- PEARSON. COEFICIENTE DE PEARSON En las distribuciones simtricas, la media , la mediana y la moda coinciden y conforme la distribucin se separa de la simetra estos valores se separan, por lo que la ms corriente de las medidas de asimetra es la diferencia entre la moda y la media que se la ms sensible a los valores extremos Sk = ( X -Mo) / S Para cuando la moda no se encuentra bien definida se puede sustituir por la mediana

Sk= 3 ( X -Me) / S Estas medidas se conocen como el primero y segundo coeficiente de Pearson y varan entre el intervalo + 3, es cero para la distribucin normal. MEDIDA CUARTIL DE ASIMETRIA En una distribucin simtrica los cuartiles quedan simtricamente colocados respecto a la mediana, pero si es asimtrica un cuartil se separa ms que otro. La medida cuartil de asimetra marca esta relacin Sk =[ ( Q3-Me) -( Me-Q1) ]/ ( Q3-Q1) Si la asimetra es a la derecha Q3 est ms lejos de la mediana que Q1, si la asimetra es a la izquierda Q1 est mas alejada de la mediana que Q3.Esta medida vara siempre entre + 1, si es cero la distribuciones normal. COEFICIENTE DE SESGO PERCENTLICO Se aplica con el mismo criterio de la medida Cuartil de Asimetra Sk = [( P90-P50) -(P50-P10) ]/ ( P90-P10) MEDIDAS DE CURTOSIS Al comparar cun aguda es una distribucin en relacin con la Distribucin Normal, se pueden presentar diferentes grados de apuntalamiento. 1. Mesocrtica, Normal 2. PlarticrtiCa, Menor apuntalamiento 3. Leptocrtica, Mayor apuntalamiento COEFICIENTE DE CURTOSIS PERCENTILICO Una medida del apuntalamiento o curtosis de la distribucin est basada en los cuartiles y percentiles, y est dada por el coeficiente de Curtosis Percentlico K= ( 0.5 ( Q3- Q1) ) / ( P90-P10) Para la distribucin normal K toma un valor de 0.263 y las distribuciones se definen como: Leptocrtica si k es mayor que 0.263 Platicrtica si k es menor que 0.263

5.3. LA ASOCIACIN ENTRE VARIABLES EXPRESADAS EN UNA ESCALA ORDINAL. Las clases en las escalas ordinales no solo se diferencian unas de otras (caracterstica que define a las escalas nominales) sino que mantiene una especie de relacin entre s. Tambin permite asignar un lugar especfico a cada objeto de un mismo conjunto, de acuerdo con la intensidad, fuerza, etc.; presentes en el momento de la medicin. Una caracterstica importante de la escala ordinal es el hecho de que, aunque hay orden entre las categoras, la diferencia entre dos categoras adyacentes no es la misma en toda la extensin de la escala. Algunas escalas consisten en calificaciones de mltiples factores que se agregan despus para llegar a un ndice general. Debe mencionarse brevemente una clase espacial de escala ordinal llamada "escala de posicin", donde las observaciones se clasifican de mayor a menor (o viceversa). Al igual que en las escalas nominales, se emplean a menudo porcentajes y proporciones en escalas ordinales.

5.3. 1. EL COEFICIENTE RHO DE SPEARMAN Y TAU DE KENDALL TAU- B DE KENDALL Este procedimiento estadstico para medir la correlacin o asociacin es complementario del coeficiente de correlacin parcial de Kendall; a su vez, es una segunda opcin de la correlacin de Spearman. La razn por la que se expone este modelo estadstico se debe a la necesidad de comprender la mecnica aritmtica y la interpretacin de la prueba, pues se requiere conocerla para realizar el coeficiente parcial de Kendall. La frmula es la siguiente: Donde: t (tau) = coeficiente de correlacin de Kendall. S = puntuacin efectiva de los rangos. N = tamao de la muestra en parejas de variables. Frmula para determinar el nivel de significancia mediante el valor Z: Donde: Z = valor Z de la distribucin normal. t = coeficiente de correlacin de Kendall. N = tamao de la muestra. Pasos:

1. Alinear las observaciones del rango menor al mayor de la variable independiente (X), de manera que se deje el rango que corresponde a la pareja de la variable dependiente (Y). 2. Obtener la puntuacin efectiva (S) en la variable dependiente, en funcin del orden de ocurrencia de los rangos de Y con respecto a X. 3. Contar el nmero de parejas y aplicar la frmula. 4. Calcular el nivel de significancia en funcin del valor Z, de acuerdo con la ecuacin, presentada anteriormente. 5. Una vez calculado el valor Z, se obtiene la probabilidad de su magnitud en la tabla de coeficientes de correlacin en niveles de p 0.05 y 0.01. 6. Decidir si se acepta o rechaza la hiptesis.

Ejemplo: Un investigador est interesado en saber si el desarrollo mental de un nio se asocia a la educacin formal de la madre. De esta manera, obtiene la calificacin de desarrollo mental en la escala de Gesell de ocho nios elegidos aleatoriamente y se informa del grado de escolaridad de las madres. Eleccin de la prueba estadstica. Se desea medir asociacin o correlacin. Las calificaciones de la educacin formal de cada madre estn dadas en una medicin cualitativa, pero tienen una escala ordinal, por lo cual es posible ordenarlas en rangos. Vase: Flujograma 6

Planteamiento de la hiptesis.

Hiptesis alterna (Ha). El desarrollo mental de los hijos es una variable dependiente de la educacin formal de la madre; por lo tanto, existe una correlacin significativa. Hiptesis nula (Ho). La asociacin entre las variables educacin formal de la madre y desarrollo mental de los hijos no es significativa, ni hay correlacin.

Nivel de significacin. Para todo valor de probabilidad igual o menor que 0.05, se acepta Ha y se rechaza Ho. Zona de rechazo. Para todo valor de probabilidad mayor que 0.05, se acepta Ho y se rechaza Ha.

Desarrollo

mental

de

algunos

nios

escolaridad

de

las

madres.

Aplicacin de la prueba estadstica. Inicialmente, las observaciones de las variables X y Y se ordenan en rangos. Arreglo en rangos de las observaciones presentadas en la tabla anterior.

De acuerdo con esto, se efecta un ordenamiento natural de los rangos de las variables X y Y. Rangos de la variable independiente X y su correspondiente de la variable dependiente.

El clculo de la puntuacin efectiva (S) se realiza con el ordenamiento de los rangos de la variable dependiente (Y). El primer valor del rango de Y es 1. Respecto a los dems rangos, existen siete mayores que Y y ninguno es menor, de manera que queda: S = (7 - 0) + Despus est el rango 5, luego se hallan tres por arriba y tres por debajo de ste y se contina: S = (7 - 0) + (3 - 3) + En rango siguiente es el 3, del cual cuatro son mayores y uno menor, y queda: S = (7 - 0) + (3 - 3) + (4 - 1) + El rango inmediato es el 2, y los cuatro subsecuentes son mayores y ninguno menor: S = (7 - 0) + (3 - 3) + (4 - 1) + (4 - 0) +

Despus se halla el rango 7, en el que uno es mayor y dos menores: S = (7 - 0) + (3 - 3) + (4 - 1) + (4 - 0) + (1 - 2) + Finalmente, se encuentra el rango 8, el subsecuente es el 6, que es menor y se concluye el clculo de S, como sigue: S = (7 - 0) + (3 - 3) + (4 - 1) + (4 - 0) + (1 - 2) + (0 - 1) S = 7 + 0 + 3 + 4 - 1 - 1 = 12 Aplicamos la ecuacin de la prueba estadstica.

Calculamos el nivel se significancia.

Una vez calculado el valor Z, se obtiene la probabilidad en la tabla de coeficientes de correlacin en niveles de p 0.05 y 0.01; a su vez en buscamos en la tabla de probabilidades asociadas en valores extremos como los de 2 en la distribucin normal. Se localiza el valor 1.4 y en la interseccin de la columna 0.09, se observa el valor 0.0681, el cual corresponde a la probabilidad de obtener un valor Z de esta magnitud, que difiere del promedio y es mayor que el nivel de significancia. Decisin. Como el valor Z tiene mayor probabilidad que el nivel de significancia, se acepta Ho y se rechaza Ha. Interpretacin. La correlacin entre las variables educacin materna y desarrollo mental del hijo no es significativa. Esta misma conclusin se obtuvo mediante el coeficiente de correlacin de Spearman.

En la seccin de coeficiente de correlacin de Spearman se seal que al aumentar el tamao de la muestra, existe mayor probabilidad de empates o ligas entre los rangos de las observaciones. Para esta condicin se presenta la siguiente ecuacin:

Donde: t (tau) = coeficiente de correlacin de Kendall. S = puntuacin efectiva de los rangos. N = tamao de la muestra en parejas de variables. Lx = sumatoria de ligas o empates dados en la variable independiente (X). Ly = sumatoria de ligas o empates dados en la variable dependiente (Y). El nivel de significancia se obtiene de la misma manera

5.4.1 LA ECUACIN DE REGRESIN LINEAL SIMPLE: CLCULO E INTERPRETACIN. Si sabemos que existe una relacin entre una variable denominada dependiente y otras denominadas independientes (como por ejemplo las existentes entre: la experiencia profesional de los trabajadores y sus respectivos sueldos, las estaturas y pesos de personas, la produccin agraria y la cantidad de fertilizantes utilizados, etc.), puede darse el problema de que la dependiente asuma mltiples valores para una combinacin de valores de las independientes. La dependencia a la que hacemos referencia es relacional matemtica y no necesariamente de causalidad. As, para un mismo nmero de unidades producidas, pueden existir niveles de costo, que varan empresa a empresa. Si se da ese tipo de relaciones, se suele recurrir a los estudios de regresin en los cuales se obtiene una nueva relacin pero de un tipo especial denominado funcin, en la cual la variable independiente se asocia con un indicador de tendencia central de la variable dependiente. Cabe recordar que en trminos generales, una funcin es un tipo de relacin en la cual para cada valorde la variable independiente le corresponde uno y slo un valor de la variable dependiente. 2. ASPECTOS TERICOS REGRESIN SIMPLE Y CORRELACIN La Regresin y la correlacin son dos tcnicas estadsticas que se pueden utilizar para solucionar problemas comunes en los negocios. Muchos estudios se basan en la creencia de que es posible identificar y cuantificar alguna Relacin Funcional entre dos o ms variables, donde una variable depende de la otra variable. Se puede decir que Y depende de X, en donde Y y X son dos variables cualquiera en un modelo de Regresin Simple. "Y es una funcin de X" Y = f(X) Como Y depende de X,

Y es la variable dependiente, y X es la variable independiente. En el Modelo de Regresin es muy importante identificar cul es la variable dependiente y cul es la variable independiente. En el Modelo de Regresin Simple se establece que Y es una funcin de slo una variable independiente, razn por la cual se le denomina tambin Regresin Divariada porque slo hay dos variables, una dependiente y otra independiente y se representa as: Y = f (X) "Y est regresando por X" La variable dependiente es la variable que se desea explicar, predecir. Tambin se le llama REGRESANDO VARIABLE DE RESPUESTA. La variable Independiente X se le denomina VARIABLE EXPLICATIVA REGRESOR y se le utiliza para EXPLICAR Y. ANLISIS ESTADSTICO: REGRESIN LINEAL SIMPLE En el estudio de la relacin funcional entre dos variables poblacionales, una variable X, llamada independiente, explicativa o de prediccin y una variable Y, llamada dependiente o variable respuesta, presenta la siguiente notacin: Y=a+bX+e Donde: a es el valor de la ordenada donde la lnea de regresin se intercepta con el eje Y. b es el coeficiente de regresin poblacional (pendiente de la lnea recta) e es el error SUPOSICIONES DE LA REGRESIN LINEAL 1. 2. 3. Los valores de la variable independiente X son fijos, medidos sin error. La variable Y es aleatoria Para cada valor de X, existe una distribucin normal de valores de Y (subpoblaciones Y) 4. Las variancias de las subpoblaciones Y son todas iguales. 5. Todas las medias de las subpoblaciones de Y estn sobre la recta. 6. Los valores de Y estn normalmente distribuidos y son estadsticamente independientes. ESTIMACIN DE LA ECUACIN DE REGRESIN MUESTRAL Consiste en determinar los valores de "a" y "b " a partir de la muestra, es decir, encontrar los valores de a y b con los datos observados de la muestra. El mtodo de estimacin es el de Mnimos Cuadrados, mediante el cual se obtiene:

Luego, la ecuacin de regresin muestral estimada es

Que se interpreta como: a es el estimador de a Es el valor estimado de la variable Y cuando la variable X = 0 b es el estimador de b , es el coeficiente de regresin Est expresado en las mismas unidades de Y por cada unidad de X. Indica el nmero de unidades en que vara Y cuando se produce un cambio, en una unidad, en X (pendiente de la recta de regresin). Un valor negativo de b sera interpretado como la magnitud del decremento en Y por cada unidad de aumento en X. 3. ANTECEDENTES DEL PROBLEMA Los datos de la siguiente tabla representan las estaturas (X, cm) y los pesos (Y, kg) de una muestra de 12 hombres adultos. Para cada estatura fijada previamente se observ el peso de una persona seleccionada de entre el grupo con dicha estatura, resultando: X Y 152 155 152 155 157 152 157 165 162 178 183 178 50 61.5 54.5 57.5 63.5 59 61 72 66 72 84 82

Con estos datos vamos a plantear una ecuacin de regresin simple que nos permita pronosticar los pesos conociendo las tallas. Utilizaremos a = 0.05, y contrastaremos nuestra hiptesis con la prueba F. 4. DESARROLLO

Representacin matemtica y grfica de los datos:

Representacin Matemtica estatur peso a s dato s x I.C. para la I. C. media individual Residu al L. I. L. S. L. I. L. S. 53.0 59.7 47.3 65.5 7 9 0 6

Regresin Lineal y est.

x ^2

y ^2

xy

152

50

2310 56.4 4 2500 7600 3 -6.43

155

2402 3782. 9532. 59.0 61.5 5 2.47 3 5 3 2310 2970. 56.4 54.5 4 3 8284 3 -1.93 2402 3306. 8912. 59.0 57.5 5 3 5 3 -1.53 2464 4032. 9969. 60.7 63.5 9 3 5 7 2.73 2310 56.4 4 3481 8968 3 2.57 2464 60.7 9 3721 9577 7 0.23 2722 67.7 5 5184 11880 1 4.29 2624 65.1 4 4356 10692 1 0.89 3168 78.9 4 5184 12816 9 -6.99 3348 83.3 7056 15372 0.68 9 2 3168 78.9 6724 14596 9 3.01 4

56.0 61.9 50.0 68.0 9 7 5 2 53.0 59.7 47.3 65.5 7 9 0 6 56.0 61.9 50.0 68.0 9 7 5 2 58.0 63.4 51.8 69.6 5 8 5 8 53.0 59.7 47.3 65.5 7 9 0 6 58.0 63.4 51.8 69.6 5 8 5 8 65.1 70.2 58.8 76.5 7 4 5 7 62.6 67.5 56.2 73.9 5 6 7 4 74.6 83.3 69.4 88.5 5 3 5 2 78.0 88.6 73.3 93.3 1 4 1 4 74.6 83.3 69.4 88.5 5 3 5 2

152

155

157

152

59

157

61

165

72

162

66

10

178

72

11

183

84

12

178

82

Representacin Grfica

5. HIPTESIS HO: No hay relacin entre la variable peso y la variable estatura. HA: Hay relacin entre la variable peso y la variable estatura. Tabla de anlisis de varianza Fuente de

Grados de

Suma de

Cuadrados estadstico F

Variacin libertad Debido a la regresin 1 error total 10 11

cuadrados

medios

1061.1 145.2 1206.3

1061.1 14.5

73.08

Se obtiene un valor F = 73.08 > 4.96, con lo cual se rechaza la hiptesis nula y aceptamos que la variable estatura est relacionada con la variable peso con un 95% de confianza.

De acuerdo al desarrollo matemtico hemos obtenido los siguientes clculos:

Lo que nos permite obtener los coeficientes a y b.

Luego, b = 1223 / 1409.667 = 0.8676 a = 65.25 (0.8676) (162.167) = -75.446 6. INTERPRETACIN

La ecuacin de regresin estimada es:

Coeficiente de correlacin: R= 0.9379 Coeficiente de determinacin: R=0.8796 El valor de b = 0.8676 indica el incremento del peso en kilogramos, en promedio, por cada centmetro de aumento en la estatura de los hombres adultos. El valor de a, no tiene interpretacin prctica en el ejemplo, se interpretara como el valor obtenido, en promedio, para el peso Y, cuando la estatura es 0. Utilizando la ecuacin de regresin para estimar o predecir valores de la variable Y: Para una talla de 180 se obtiene un peso de 80.7 kg. Cunto se espera que pese (en promedio) una persona que mide 1.60 m? Sustituyendo el valor de inters en la ecuacin:

Se obtiene:

7. CONCLUSIN La ecuacin de Regresin Lineal estimada para las variables estatura y peso muestran, de acuerdo a la prueba F, relacin. Esta relacin se ha estimado en un R = 93.7, que indica una fuerte relacin positiva. Adems si consideramos el coeficiente de determinacin R = 87.9 podemos indicar que el 87.9% de las variaciones que ocurren en el peso se explicaran por las variaciones en la variable estatura.

BIBLIOGRAFA CRISTBAL CRISTBAL, J.A.; (2003): Lecciones de Inferencia Estadstica. Prensas Universitarias de Zaragoza. DEGROOT, M.H.; (1988): Probabilidad y Estadstica. Addison-Wesley Iberoamericana. LOPEZ DE LA MANZANARA BARBERO, J.; (1989): Problemas de Estadstica. Pirmide. 9 ed. LOPEZ CACHERO, M.; (1990): Fundamentos y Mtodos de Estadstica. Pirmide. 9 ed. MARTN MARTN, Q; (2001): Contrastes de Hiptesis. La Muralla. MENDENHALL, W.; SCHEAFFER, R.L. y WACKERLY, D.D.; (1986): Estadstica Matemtica con Aplicaciones. Grupo Editorial Iberoamrica. MEYER, P.L.; (1998): Probabilidad y Aplicaciones Estadsticas. AddisonWesley.

Das könnte Ihnen auch gefallen