Sie sind auf Seite 1von 14

2.4.

3 Regresin y correlacin simple


!"#$%&'($)*+,($%&-.($+*$%,#($*'$/&)0,1#$2#($)*+,($33*#(4$5*6($2#&$)*#/,6&$&$)*+,&'4$ +*$#,#72#&$)&#*6&$*'$2#&$)*+,&$%*6+&+8$ 9*&#$:(-/*&2$ !;#/6*$&<,6)&6$=2*$3&$-&3,+&+$+*$2#$56(-*'($*'$>?@$02*#&$($&<,6)&6$=2*$*'$>?@$)&3&4$ '*$)&6-&$*3$<2/26($+*3$*)53*($+*3$7*6*#/*8$ $$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$ABC;$
OBJETIVOS

Explicar los conceptos propios de la regresin y la correlacin Ajustar una recta de mnimos cuadrados Aplicar un modelo de regresin lineal Calcular e interpretar el coeficiente de correlacin Calcular y analizar el coeficiente de determinacin.

Hasta el momento los temas vistos han sido para datos univariados. En este captulo se tratarn algunos conceptos importantes relacionados con datos bivariados. Estos datos son los que se obtienen al analizar dos variables en forma simultnea. Por ejemplo el peso y la estatura de cada persona, el tiempo de estudios y el nivel de ingresos por empleado o los costos de publicidad y los ingresos por ventas. En el estudio de las relaciones entre dos variables se distinguen dos tipos de tcnicas:
CORRELACIN:

Existe dependencia entre las variables? Cul es el grado de dependencia?


REGRESIN: Cul es el tipo de dependencia entre las dos variables? Pueden estimarse los valores de la dependiente en funcin de los de la independiente?

2.4.3.1 COEFICIENTE DE CORRELACION r


El coeficiente de correlacin r mide el grado de asociacin entre dos variables. Frmula;

40

EJEMPLO Se quiere establecer la relacin entre el nmero de comerciales que se transmiten al da sobre un producto y las ventas semanales del producto en miles de unidades monetarias. Para esto se obtiene la siguiente informacin: Nmero de comerciales Ventas semanales X: 4 4 5 6 9 11 13 14 17 18

Y: 2.,0 1,3 1,5 2,0 2,8 3,0 3,5 3,0 4,0 4,5

Estos valores corresponden a parejas ordenadas (x, y) que podemos llevar al plano cartesiano y marcar los puntos respectivos obteniendo un grfico llamado Diagrama de Dispersin o Nube de Puntos.

La realizacin del diagrama de dispersin es fundamental. A partir de l visualizamos el comportamiento de los datos y nos indica, en forma aproximada, el tipo de relacin que hay entre las variables. Enseguida elaboramos la siguiente tabla, que facilita la aplicacin de las frmulas para determinar el coeficiente de correlacin y la ecuacin de regresin lineal simple.

$ D$ G$ G$

$ E$ F4?$ I4K$

$ DE$ H$ >4F$

$ DF$ IJ$ IJ$

$ EF$ G$ I4JL$

41

>$ J$ L$ II$ IK$ IG$ IM$ IH$ $ I?I$

I4>$ F4?$ F4H$ K4?$ K4>$ K4?$ G4?$ G4>$ $ FM4J$

M4>$ IF$ F>4F$ KK$ G>4>$ GF$ JH$ HI$ $ KFM4G$

F>$ KJ$ HI$ IFI$ IJL$ ILJ$ FHL$ KFG$ $ IFMK$

F4F>$ G$ M4HG$ L$ IF4F>$ L$ IJ$ F?4F>$ $ HJ4FH$

6$N$?4LJF$
El valor de este coeficiente da entre 1 y 1 es decir,

de tal forma que: Si r se acerca a 1 hay correlacin positiva entre las variables si se acerca a 1 la correlacin es negativa y si se acerca a 0 las variables son independientes, no tiene que ver la una con la otra. El siguiente diagrama resume el anlisis del coeficiente de correlacin, entre dos variables:

Correlacin negativa Perfecta

Ninguna correlacin

Correlacin positiva perfecta

42

-1

- 0,5

0,5

Correlacin negativa fuerte

Correlacin negativa dbil

correlacin positiva dbil

correlacin positiva fuerte

Este coeficiente se interpreta teniendo en cuenta su valor como tal y su signo. Si el valor se acerca a 1 o a 1 existe una fuerte correlacin entre las variables. Si se acerca a 0 no hay relacin. Si el signo es positivo indica que hay una relacin directa entre X y Y, es decir, a mayores valores de X mayores valores de Y y si es negativo, la relacin es inversa, es decir, a mayores valores de X menores valores de Y. En el ejemplo el coeficiente de correlacin con un valor de 0,962 indica que existe una relacin fuerte entre el nmero de comerciales y las ventas semanales del producto. Como el resultado es positivo, indica que a medida en que aumenta el nmero de comerciales, aumentan las ventas semanales. Una vez establecida la relacin entre variables, es importante establecer la Influencia que tiene la variable independiente, nmero de comerciales, sobre la variable dependiente, ventas semanales. Para cuantificar dicha relacin y tener una aproximacin de la magnitud de la influencia de los gastos en publicidad sobre las ventas, se debe trabajar el modelo de regresin lineal.

2.4.3.2 Regresin lineal simple


Sobre la nube de puntos se traza una lnea recta que cobije la mayora de los puntos. La mejor ecuacin que tiene las mnimas distancias con respecto a los puntos reales, se establece con el mtodo conocido como mtodo de mnimos cuadrados. La regresin lineal establece para el anlisis de las dos variables la ecuacin de una lnea recta:

: simboliza la variable dependiente calculada para diferenciarla de la real u observada. A: Es el intercepto o punto de corte de la recta con el eje Y. Si la pendiente es positiva indica el valor mnimo estimado de Y, si es negativa indica el valor mximo estimado de Y. B: Es la pendiente de la recta. Indica el incremento que sufre la variable Y cuando la variable X aumenta en una unidad. 43

A y B son conocidos como los parmetros del modelo. Son valores desconocidos que se pueden calcular por el mtodo de mnimos cuadrados. Para determinar el valor A que representa el punto de corte de la recta con el eje Y y B que representa la pendiente de la recta, se emplean las siguientes ecuaciones:

En el ejemplo anterior: Primero se calcula la pendiente B porque se requiere para el clculo de A

El punto de corte indica que si X=0 es decir si no hay comerciales, se estiman ventas mnimas de 0,8175 unidades monetarias. La pendiente indica que al aumentar los comerciales las ventas aumentan en 0,1923 unidades monetarias.

2.4.3.2.1 Coeficiente de Determinacin


El coeficiente de determinacin mide el porcentaje de valores de la variable dependiente Y, que caen sobre la lnea recta, se interpreta como el porcentaje de valores de Y que son explicados por el modelo lineal en funcin de la variable X. El coeficiente de determinacin se simboliza con r2 y se obtiene como el cuadrado del coeficiente de correlacin. Este coeficiente siempre da un valor entre 0 y 1 y para la interpretacin se multiplica por 100 para expresarlo en porcentaje. Un modelo de regresin lineal presenta buen ajuste (el modelo es bueno) si el coeficiente de determinacin es 44

mayor o igual al 75%.

r2!75% el modelo presenta buen ajuste


Para el modelo del ejemplo anterior se tiene que: r = 0,962 entonces r2 = 0,9254 (Se multiplica por 100 y se expresa en porcentaje). El 92,54% de las ventas son explicadas por el modelo de regresin lineal en funcin del nmero de comerciales. El modelo presenta un buen ajuste para los datos. r2= (0,962)2

EJEMPLO

Se quiere medir la relacin que existe entre el nmero de empleados (X) y las ventas semanales (en millones de $) (Y), para un grupo de almacenes del sector de los alimentos en una ciudad. Los datos obtenidos son los siguientes:

!" *"

#$" F?$

#%" K?$

$&" KJ$

$'" GG$

(&" H?$

($" J?$

(%" L>$

)&" LH$

a) Dibuje el grfico de dispersin que muestre el comportamiento de las dos variables. b) Encuentre el modelo de regresin lineal para estimar las ventas semanales en funcin del nmero de empleados. c) Interprete los parmetros del modelo 45

d) Cul es el nivel o grado de asociacin entre variables? e) Qu porcentaje de las ventas son explicadas por el modelo lineal en funcin del nmero de empleados? f) Estime las ventas para un almacn que tiene 50 empleados.
SOLUCIN

a) Grfico de dispersin: Sobre el eje X se colocan los valores para el nmero de empleados utilizando una escala de valores apropiada, teniendo en cuenta el valor mximo y el mnimo de los datos. En forma similar se colocan los valores de Y y se ubican las parejas ordenadas de valores.

b) para construir el modelo de regresin lineal: se completan los valores dados inicialmente de la siguiente forma:

!" IF$ IJ$

*" F?$ K?$

!*" FG?$ GH?$

!" IGG$ F>J$

*" G??$ L??$

46

F?$ FH$ K?$ KF$ KJ$ G?$ $#)"

KJ$ GG$ H?$ J?$ L>$ LH$ )%("

MF?$ IFKF$ FG??$ ILF?$ KGF?$ KLF?$ #)(($"

G??$ MHG$ L??$ I?FG$ IFLJ$ IJ??$ %)&)"

IFLJ$ ILKJ$ JG??$ KJ??$ L?F>$ LJ?G$ ((#%#"

Los resultados obtenidos se van reemplazando en las frmulas establecidas para obtener los parmetros del modelo de regresin lineal.

Reemplazando en la ecuacin del modelo de regresin lineal queda:

c) En este modelo el valor de A=-18,763 indica que si no hay empleados (X=0) se estara dejando de vender $18`763.000. El valor de B=2,8649 indica que por cada empleado se estima que las ventas semanales aumentan en $2`864.900. d) El nivel o grado de asociacin entre variables se mide con el coeficiente de correlacin r:

47

El valor es positivo y cercano a 1, lo que indica que existe una correlacin fuerte entre el nmero de empleados y las ventas semanales. El signo positivo indica que a mayor nmero de empleados, en los almacenes se tienen mayores ventas semanales. e) El porcentaje de las ventas semanales explicadas por el modelo lineal en funcin del nmero de empleados, se mide con el coeficiente de determinacin

El 87,6% de las ventas son explicadas por el modelo lineal, presentando un buen modelo para hacer estimacin de valores (r2 mayor al 75%). f) Ventas estimadas para un almacn con 50 empleados:

Se estiman ventas de $124`482.000 para un almacn con 50 empleados. 2. En un estudio de consumidores se quiere analizar el comportamiento del consumo semanal del producto (Y en libras), en funcin del precio del producto por libra (X en miles de pesos) y para esto se tiene informacin de los ltimos meses, encontrando: D$ IM$ I>$ I>$ IK$ IF$ I?$ H$ L?$ E$ L$ IF$ IK$ IJ$ F?$ F?$ FK$ IIK$ DE$ I>K$ IH?$ IL>$ F?H$ FG?$ F??$ IHG$ IKJ?$ DF$ FHL$ FF>$ FF>$ IJL$ IGG$ I??$ JG$ IFIJ$ EF$ HI$ IGG$ IJL$ F>J$ G??$ G??$ >FL$ ILML$

a) Encontrar el modelo de regresin lineal b) Estimar los parmetros del modelo c) Calcular e interpretar el coeficiente de correlacin d) Calcular e interpretar el coeficiente de determinacin 48

e) Estimar el consumo del producto para un precio de $20.000 a) para el modelo de regresin lineal:

Los parmetros del modelo quedan:

El modelo lineal es:

b) Para la interpretacin de los parmetros A y B del modelo se tiene en cuenta que la pendiente es negativa. El consumo mximo estimado es de 36,4271 unidades del producto, cuando el precio aumenta en $1.000 el consumo disminuye en 1,5776 unidades. c) Coeficiente de correlacin

49

Hay correlacin negativa entre el precio del producto y el consumo, esto significa que a medida en que aumenta el precio disminuye el consumo. d) El 94,6% del consumo es explicado por el modelo lineal en funcin del precio del producto, el modelo presenta un buen ajuste para los datos. e)

EJERCICIO 5

1. Un gerente de una empresa desea predecir los costos (Y) en millones de pesos, basndose en la cantidad de insumos de materias primas (X), cientos de libras, que recibe un fabricante de un producto.
Y X 10 25 7 20 5 16 6 17 7 19 6 18

a) Encuentre el modelo de regresin lineal b) Interprete los parmetros del modelo c) Calcule e interprete el coeficiente de correlacin d) Calcule e interprete el coeficiente de determinacin e) Estime los costos si se reciben 22 (cientos de libras) en materias primas. 2. Un supermercado ha decidido ampliar el negocio y decide estudiar el nmero de cajas registradoras que va a instalar, para evitar grandes colas. Para ello, se obtuvieron los siguientes datos, procedentes de otros establecimientos similares, acerca del nmero de cajas registradoras (X) y el tiempo medio de espera (Y) en minutos.

+,-./0"1."23435"/.6758/310/35" 97.-:0"-.170"1.".5:./3"

#&" >L$

#$" >I$

#)" GF$

#%" KF$

#'" FJ$

$&" FF$ 50

;-7<=805>" a) Existe relacin entre el nmero de cajas y el tiempo de espera? b) ENo varia el tiempo de espera por cada caja adicional? c) En cunto se estima el tiempo medio mnimo de espera? c) Si se instalaran 22 cajas registradoras. Cul ser el tiempo medio de espera? d) El pronstico anterior es confiable? 3. La compaa de seguros Segursimo desea determinar el grado de relacin que existe entre el monto del seguro de vida (en unidades de diez mil pesos) en funcin del ingreso familiar semanal (miles de pesos). Para ello estableci la siguiente ecuacin de regresin as como alguna informacin adicional:
Y = 2,5 + 1,78X r = 0,9088 a) Cul es la variable dependiente y cul la independiente? b) Interprete cada uno de los parmetros de la ecuacin c) Interprete los coeficientes de correlacin y de determinacin d) Estime el monto del seguro para un ingreso familiar de $ 55.000 semanales

2.5 SNTESIS
En esta unidad para datos univariados se analizan las medidas de tendencia central y las medidas de dispersin y para datos bivariados la regresin lineal y la correlacin. Las medidas de tendencia central ms utilizadas son la media aritmtica o promedio aritmtico, la mediana y la moda. La media aritmtica proporciona el promedio de los datos o punto de equilibrio, el valor alrededor del cual estn los valores de la variable. ! La media se obtiene para los datos sin agrupar, sumando todos los valores de la variable (cuantitativa) y dividiendo entre el nmero de observaciones. ! Para los datos agrupados, se pondera cada valor de la variable por la frecuencia correspondiente, se suman estos productos y luego se divide por el nmero de observaciones. La mediana es aquel valor de la variable que divide al grupo de datos en dos partes iguales y corresponde al percentil 50. La moda es el valor ms comn, el ms frecuente. Por las caractersticas que posee la media la hacen la medida ms comn en los anlisis estadsticos, no obstante, si se presentan valores extremos se recomienda usar la mediana en lugar de la media. 51

Las medidas de dispersin son el rango, varianza, desviacin estndar y coeficiente de variacin. Estas medidas se usan para medir la cantidad de dispersin de un grupo de datos. Una propiedad de la desviacin estndar es que nos da una medida de la dispersin de datos con respecto al valor promedio. Es diferente al rango, el cual da directamente la dispersin entre los dos datos ms extremos. La varianza es el cuadrado de la desviacin estndar. Por ltimo el coeficiente de variacin, que sirve como medida relativa de dispersin y permite comparar grupos de datos, para saber determinar dnde son ms representativas la media y la desviacin estndar. Un diagrama de dispersin es un mtodo grfico que se emplea para mostrar la relacin entre dos variables.

! !

La variable dependiente se localiza en el eje Y y es la que se estima. La variable independiente se localiza en el eje X y se utiliza para estimar a Y.

El coeficiente de correlacin mide la intensidad entre dos variables. ! El coeficiente de correlacin puede variar entre -1 y 1 ! Si el coeficiente de correlacin es 0 no hay asociacin entre las dos variables. ! Un valor de 1 significa correlacin positiva perfecta. Un valor de 1 significa correlacin negativa perfecta. ! Un signo positivo indica que hay una relacin directa entre las variables y un signo negativo indica que hay relacin inversa. El anlisis de regresin lineal expresa mediante la ecuacin de la lnea recta la relacin entre las dos variables y permite estimar valores de la variable dependiente Y en funcin de la variable independiente X. ! La recta de regresin de mnimos cuadrados es de la forma:

! !

Es el valor estimado de Y para un valor dado de X A: Es el intercepto o punto de corte de la recta con el eje Y. Si la pendiente es positiva indica el valor mnimo estimado de Y. Si es negativa indica el valor mximo estimado de Y. B: Es la pendiente de la recta. Indica el incremento que sufre la variable Y cuando la variable X aumenta en una unidad. 52

El coeficiente de determinacin mide el porcentaje de valores de Y explicados por la lnea recta. ! ! Puede tomar valores entre 0 y 1 Es el cuadrado del coeficiente de correlacin.

2.6 GLOSARIO
Amplitud: es la diferencia entre el valor mayor y el menor de un conjunto de datos. Coeficiente de correlacin: Expresin cuantitativa de la magnitud y direccin de

una relacin.
Coeficiente de variacin: Magnitud relativa de la desviacin estndar cuando

sta es comparada con la media aritmtica.


Medidas de variabilidad o dispersin Los estadsticos de tendencia central o

posicin, nos indican dnde se sita un grupo de puntuaciones. Los estadsticos de variabilidad o dispersin nos indican si esas puntuaciones o valores estn prximas entre s o si estn muy dispersas.
Parmetro: Nmero calculado sobre los datos de una poblacin. Ponderar: Asignar un peso relativo a los valores que puede tomar una variable. Regresin: Tema que analiza la relacin entre dos variables para una prediccin. Relacin lineal: Relacin entre dos variables que se presenta con mejor exactitud

mediante una lnea recta.

2.7 BIBLIOGRAFA
(1) Lind D.A., Marchall W.G, Mason R.D. Estadstica para Administracin y Economa, 11 ed. Alfaomega 2004. (2) Lincoln L.CH.,Estadstica para las Ciencias Administativas, 3 ed. Mc. Graw Hill 1993. (3) Webster A. L., Estadstica aplicada a los negocios y la economa 3 ed. Mc. Graw Hill,2000

53

Das könnte Ihnen auch gefallen