Beruflich Dokumente
Kultur Dokumente
Explicar los conceptos propios de la regresin y la correlacin Ajustar una recta de mnimos cuadrados Aplicar un modelo de regresin lineal Calcular e interpretar el coeficiente de correlacin Calcular y analizar el coeficiente de determinacin.
Hasta el momento los temas vistos han sido para datos univariados. En este captulo se tratarn algunos conceptos importantes relacionados con datos bivariados. Estos datos son los que se obtienen al analizar dos variables en forma simultnea. Por ejemplo el peso y la estatura de cada persona, el tiempo de estudios y el nivel de ingresos por empleado o los costos de publicidad y los ingresos por ventas. En el estudio de las relaciones entre dos variables se distinguen dos tipos de tcnicas:
CORRELACIN:
40
EJEMPLO Se quiere establecer la relacin entre el nmero de comerciales que se transmiten al da sobre un producto y las ventas semanales del producto en miles de unidades monetarias. Para esto se obtiene la siguiente informacin: Nmero de comerciales Ventas semanales X: 4 4 5 6 9 11 13 14 17 18
Y: 2.,0 1,3 1,5 2,0 2,8 3,0 3,5 3,0 4,0 4,5
Estos valores corresponden a parejas ordenadas (x, y) que podemos llevar al plano cartesiano y marcar los puntos respectivos obteniendo un grfico llamado Diagrama de Dispersin o Nube de Puntos.
La realizacin del diagrama de dispersin es fundamental. A partir de l visualizamos el comportamiento de los datos y nos indica, en forma aproximada, el tipo de relacin que hay entre las variables. Enseguida elaboramos la siguiente tabla, que facilita la aplicacin de las frmulas para determinar el coeficiente de correlacin y la ecuacin de regresin lineal simple.
$ D$ G$ G$
$ E$ F4?$ I4K$
$ DE$ H$ >4F$
$ EF$ G$ I4JL$
41
6$N$?4LJF$
El valor de este coeficiente da entre 1 y 1 es decir,
de tal forma que: Si r se acerca a 1 hay correlacin positiva entre las variables si se acerca a 1 la correlacin es negativa y si se acerca a 0 las variables son independientes, no tiene que ver la una con la otra. El siguiente diagrama resume el anlisis del coeficiente de correlacin, entre dos variables:
Ninguna correlacin
42
-1
- 0,5
0,5
Este coeficiente se interpreta teniendo en cuenta su valor como tal y su signo. Si el valor se acerca a 1 o a 1 existe una fuerte correlacin entre las variables. Si se acerca a 0 no hay relacin. Si el signo es positivo indica que hay una relacin directa entre X y Y, es decir, a mayores valores de X mayores valores de Y y si es negativo, la relacin es inversa, es decir, a mayores valores de X menores valores de Y. En el ejemplo el coeficiente de correlacin con un valor de 0,962 indica que existe una relacin fuerte entre el nmero de comerciales y las ventas semanales del producto. Como el resultado es positivo, indica que a medida en que aumenta el nmero de comerciales, aumentan las ventas semanales. Una vez establecida la relacin entre variables, es importante establecer la Influencia que tiene la variable independiente, nmero de comerciales, sobre la variable dependiente, ventas semanales. Para cuantificar dicha relacin y tener una aproximacin de la magnitud de la influencia de los gastos en publicidad sobre las ventas, se debe trabajar el modelo de regresin lineal.
: simboliza la variable dependiente calculada para diferenciarla de la real u observada. A: Es el intercepto o punto de corte de la recta con el eje Y. Si la pendiente es positiva indica el valor mnimo estimado de Y, si es negativa indica el valor mximo estimado de Y. B: Es la pendiente de la recta. Indica el incremento que sufre la variable Y cuando la variable X aumenta en una unidad. 43
A y B son conocidos como los parmetros del modelo. Son valores desconocidos que se pueden calcular por el mtodo de mnimos cuadrados. Para determinar el valor A que representa el punto de corte de la recta con el eje Y y B que representa la pendiente de la recta, se emplean las siguientes ecuaciones:
El punto de corte indica que si X=0 es decir si no hay comerciales, se estiman ventas mnimas de 0,8175 unidades monetarias. La pendiente indica que al aumentar los comerciales las ventas aumentan en 0,1923 unidades monetarias.
EJEMPLO
Se quiere medir la relacin que existe entre el nmero de empleados (X) y las ventas semanales (en millones de $) (Y), para un grupo de almacenes del sector de los alimentos en una ciudad. Los datos obtenidos son los siguientes:
!" *"
#$" F?$
#%" K?$
$&" KJ$
$'" GG$
(&" H?$
($" J?$
(%" L>$
)&" LH$
a) Dibuje el grfico de dispersin que muestre el comportamiento de las dos variables. b) Encuentre el modelo de regresin lineal para estimar las ventas semanales en funcin del nmero de empleados. c) Interprete los parmetros del modelo 45
d) Cul es el nivel o grado de asociacin entre variables? e) Qu porcentaje de las ventas son explicadas por el modelo lineal en funcin del nmero de empleados? f) Estime las ventas para un almacn que tiene 50 empleados.
SOLUCIN
a) Grfico de dispersin: Sobre el eje X se colocan los valores para el nmero de empleados utilizando una escala de valores apropiada, teniendo en cuenta el valor mximo y el mnimo de los datos. En forma similar se colocan los valores de Y y se ubican las parejas ordenadas de valores.
b) para construir el modelo de regresin lineal: se completan los valores dados inicialmente de la siguiente forma:
46
Los resultados obtenidos se van reemplazando en las frmulas establecidas para obtener los parmetros del modelo de regresin lineal.
c) En este modelo el valor de A=-18,763 indica que si no hay empleados (X=0) se estara dejando de vender $18`763.000. El valor de B=2,8649 indica que por cada empleado se estima que las ventas semanales aumentan en $2`864.900. d) El nivel o grado de asociacin entre variables se mide con el coeficiente de correlacin r:
47
El valor es positivo y cercano a 1, lo que indica que existe una correlacin fuerte entre el nmero de empleados y las ventas semanales. El signo positivo indica que a mayor nmero de empleados, en los almacenes se tienen mayores ventas semanales. e) El porcentaje de las ventas semanales explicadas por el modelo lineal en funcin del nmero de empleados, se mide con el coeficiente de determinacin
El 87,6% de las ventas son explicadas por el modelo lineal, presentando un buen modelo para hacer estimacin de valores (r2 mayor al 75%). f) Ventas estimadas para un almacn con 50 empleados:
Se estiman ventas de $124`482.000 para un almacn con 50 empleados. 2. En un estudio de consumidores se quiere analizar el comportamiento del consumo semanal del producto (Y en libras), en funcin del precio del producto por libra (X en miles de pesos) y para esto se tiene informacin de los ltimos meses, encontrando: D$ IM$ I>$ I>$ IK$ IF$ I?$ H$ L?$ E$ L$ IF$ IK$ IJ$ F?$ F?$ FK$ IIK$ DE$ I>K$ IH?$ IL>$ F?H$ FG?$ F??$ IHG$ IKJ?$ DF$ FHL$ FF>$ FF>$ IJL$ IGG$ I??$ JG$ IFIJ$ EF$ HI$ IGG$ IJL$ F>J$ G??$ G??$ >FL$ ILML$
a) Encontrar el modelo de regresin lineal b) Estimar los parmetros del modelo c) Calcular e interpretar el coeficiente de correlacin d) Calcular e interpretar el coeficiente de determinacin 48
e) Estimar el consumo del producto para un precio de $20.000 a) para el modelo de regresin lineal:
b) Para la interpretacin de los parmetros A y B del modelo se tiene en cuenta que la pendiente es negativa. El consumo mximo estimado es de 36,4271 unidades del producto, cuando el precio aumenta en $1.000 el consumo disminuye en 1,5776 unidades. c) Coeficiente de correlacin
49
Hay correlacin negativa entre el precio del producto y el consumo, esto significa que a medida en que aumenta el precio disminuye el consumo. d) El 94,6% del consumo es explicado por el modelo lineal en funcin del precio del producto, el modelo presenta un buen ajuste para los datos. e)
EJERCICIO 5
1. Un gerente de una empresa desea predecir los costos (Y) en millones de pesos, basndose en la cantidad de insumos de materias primas (X), cientos de libras, que recibe un fabricante de un producto.
Y X 10 25 7 20 5 16 6 17 7 19 6 18
a) Encuentre el modelo de regresin lineal b) Interprete los parmetros del modelo c) Calcule e interprete el coeficiente de correlacin d) Calcule e interprete el coeficiente de determinacin e) Estime los costos si se reciben 22 (cientos de libras) en materias primas. 2. Un supermercado ha decidido ampliar el negocio y decide estudiar el nmero de cajas registradoras que va a instalar, para evitar grandes colas. Para ello, se obtuvieron los siguientes datos, procedentes de otros establecimientos similares, acerca del nmero de cajas registradoras (X) y el tiempo medio de espera (Y) en minutos.
+,-./0"1."23435"/.6758/310/35" 97.-:0"-.170"1.".5:./3"
#&" >L$
#$" >I$
#)" GF$
#%" KF$
#'" FJ$
$&" FF$ 50
;-7<=805>" a) Existe relacin entre el nmero de cajas y el tiempo de espera? b) ENo varia el tiempo de espera por cada caja adicional? c) En cunto se estima el tiempo medio mnimo de espera? c) Si se instalaran 22 cajas registradoras. Cul ser el tiempo medio de espera? d) El pronstico anterior es confiable? 3. La compaa de seguros Segursimo desea determinar el grado de relacin que existe entre el monto del seguro de vida (en unidades de diez mil pesos) en funcin del ingreso familiar semanal (miles de pesos). Para ello estableci la siguiente ecuacin de regresin as como alguna informacin adicional:
Y = 2,5 + 1,78X r = 0,9088 a) Cul es la variable dependiente y cul la independiente? b) Interprete cada uno de los parmetros de la ecuacin c) Interprete los coeficientes de correlacin y de determinacin d) Estime el monto del seguro para un ingreso familiar de $ 55.000 semanales
2.5 SNTESIS
En esta unidad para datos univariados se analizan las medidas de tendencia central y las medidas de dispersin y para datos bivariados la regresin lineal y la correlacin. Las medidas de tendencia central ms utilizadas son la media aritmtica o promedio aritmtico, la mediana y la moda. La media aritmtica proporciona el promedio de los datos o punto de equilibrio, el valor alrededor del cual estn los valores de la variable. ! La media se obtiene para los datos sin agrupar, sumando todos los valores de la variable (cuantitativa) y dividiendo entre el nmero de observaciones. ! Para los datos agrupados, se pondera cada valor de la variable por la frecuencia correspondiente, se suman estos productos y luego se divide por el nmero de observaciones. La mediana es aquel valor de la variable que divide al grupo de datos en dos partes iguales y corresponde al percentil 50. La moda es el valor ms comn, el ms frecuente. Por las caractersticas que posee la media la hacen la medida ms comn en los anlisis estadsticos, no obstante, si se presentan valores extremos se recomienda usar la mediana en lugar de la media. 51
Las medidas de dispersin son el rango, varianza, desviacin estndar y coeficiente de variacin. Estas medidas se usan para medir la cantidad de dispersin de un grupo de datos. Una propiedad de la desviacin estndar es que nos da una medida de la dispersin de datos con respecto al valor promedio. Es diferente al rango, el cual da directamente la dispersin entre los dos datos ms extremos. La varianza es el cuadrado de la desviacin estndar. Por ltimo el coeficiente de variacin, que sirve como medida relativa de dispersin y permite comparar grupos de datos, para saber determinar dnde son ms representativas la media y la desviacin estndar. Un diagrama de dispersin es un mtodo grfico que se emplea para mostrar la relacin entre dos variables.
! !
La variable dependiente se localiza en el eje Y y es la que se estima. La variable independiente se localiza en el eje X y se utiliza para estimar a Y.
El coeficiente de correlacin mide la intensidad entre dos variables. ! El coeficiente de correlacin puede variar entre -1 y 1 ! Si el coeficiente de correlacin es 0 no hay asociacin entre las dos variables. ! Un valor de 1 significa correlacin positiva perfecta. Un valor de 1 significa correlacin negativa perfecta. ! Un signo positivo indica que hay una relacin directa entre las variables y un signo negativo indica que hay relacin inversa. El anlisis de regresin lineal expresa mediante la ecuacin de la lnea recta la relacin entre las dos variables y permite estimar valores de la variable dependiente Y en funcin de la variable independiente X. ! La recta de regresin de mnimos cuadrados es de la forma:
! !
Es el valor estimado de Y para un valor dado de X A: Es el intercepto o punto de corte de la recta con el eje Y. Si la pendiente es positiva indica el valor mnimo estimado de Y. Si es negativa indica el valor mximo estimado de Y. B: Es la pendiente de la recta. Indica el incremento que sufre la variable Y cuando la variable X aumenta en una unidad. 52
El coeficiente de determinacin mide el porcentaje de valores de Y explicados por la lnea recta. ! ! Puede tomar valores entre 0 y 1 Es el cuadrado del coeficiente de correlacin.
2.6 GLOSARIO
Amplitud: es la diferencia entre el valor mayor y el menor de un conjunto de datos. Coeficiente de correlacin: Expresin cuantitativa de la magnitud y direccin de
una relacin.
Coeficiente de variacin: Magnitud relativa de la desviacin estndar cuando
posicin, nos indican dnde se sita un grupo de puntuaciones. Los estadsticos de variabilidad o dispersin nos indican si esas puntuaciones o valores estn prximas entre s o si estn muy dispersas.
Parmetro: Nmero calculado sobre los datos de una poblacin. Ponderar: Asignar un peso relativo a los valores que puede tomar una variable. Regresin: Tema que analiza la relacin entre dos variables para una prediccin. Relacin lineal: Relacin entre dos variables que se presenta con mejor exactitud
2.7 BIBLIOGRAFA
(1) Lind D.A., Marchall W.G, Mason R.D. Estadstica para Administracin y Economa, 11 ed. Alfaomega 2004. (2) Lincoln L.CH.,Estadstica para las Ciencias Administativas, 3 ed. Mc. Graw Hill 1993. (3) Webster A. L., Estadstica aplicada a los negocios y la economa 3 ed. Mc. Graw Hill,2000
53