Sie sind auf Seite 1von 11

Regresin lineal

La importancia de las distribuciones bidimensionales radica en investigar cmo


influye una variable sobre la otra. Esta puede ser una dependencia causa
efecto, por ejemplo, la cantidad de lluvia (causa), da lugar a un aumento de la
produccin agrcola (efecto). O bien, el aumento del precio de un bien, da lugar
a una disminucin de la cantidad demandada del mismo.
Si utilizamos un sistema de coordenadas cartesianas para representar la
distribucin bidimensional, obtendremos un conjunto de puntos conocido con el
diagrama de dispersin, cuyo anlisis permite estudiar cualitativamente, la
relacin entre ambas variables tal como se ve en la figura. El siguiente paso, es
la determinacin de la dependencia funcional entre las dos variables x e y que
mejor ajusta a la distribucin bidimensional. Se denomina regresin lineal
cuando la funcin es lineal, es decir, requiere la determinacin de dos
parmetros: la pendiente y la ordenada en el origen de la recta de regresin,
y=ax+b.
La regresin nos permite adems, determinar el grado de dependencia de las
series de valores X e Y, prediciendo el valor y estimado que se obtendra para
un valor x que no est en la distribucin.

Vamos a determinar la ecuacin de la recta que mejor ajusta a los datos


representados en la figura. Se denomina error e i a la diferencia yi-y, entre el
valor observado yi, y el valor ajustado y= axi+b, tal como se ve en la figura
inferior. El criterio de ajuste se toma como aqul en el que la desviacin
cuadrtica media sea mnima, es decir, debe de ser mnima la suma

Los extremos de una funcin: mximo o mnimo se obtiene cuando las


derivadas de s respecto de a y de b sean nulas. Lo que da lugar a un sistema
de dos ecuaciones con dos incgnitas del que se despeja a y b.

El coeficiente de correlacin es otra tcnica de estudiar la distribucin


bidimensional, que nos indica la intensidad o grado de dependencia entre las
variables X e Y. El coeficiente de correlacin r es un nmero que se obtiene
mediante la frmula.

El numerador es el producto de las desviaciones de los valores X e Y respecto


de sus valores medios. En el denominador tenemos las desviaciones
cuadrticas medias de X y de Y.
El coeficiente de correlacin puede valer cualquier nmero comprendido entre
-1 y +1.
Cuando r=1, la correlacin lineal es perfecta, directa.
Cuando r=-1, la correlacin lineal es perfecta, inversa.
Cuando r=0, no existe correlacin alguna, independencia total de los
valores X e Y
REGRESIN SIMPLE Y CORRELACIN.
La Regresin y la correlacin son dos tcnicas estadsticas que se pueden
utilizar para solucionar problemas comunes en los negocios. Muchos estudios
se basan en la creencia de que es posible identificar y cuantificar alguna
Relacin Funcional entre dos o ms variables, donde una variable depende de
la otra variable.
Se puede decir que Y depende de X, en donde Y y X son dos variables
cualquiera en un modelo de Regresin Simple.
"Y es una funcin de X", Y = f(X)

Como Y depende de X,
Y es la variable dependiente, y
X es la variable independiente.
En el Modelo de Regresin es muy importante identificar cul es la variable
dependiente y cul es la variable independiente.
En el Modelo de Regresin Simple se establece que Y es una funcin de slo
una variable independiente, razn por la cual se le denomina tambin
Regresin Divariada porque slo hay dos variables, una dependiente y otra
independiente y se representa as:
Y = f (X), "Y est regresando por X"
La variable dependiente es la variable que se desea explicar, predecir. Tambin
se le llama regresando o variable de respuesta.
La variable Independiente X se le denomina variable explicativa regresor
y se le utiliza para explicar y.
ANLISIS ESTADSTICO: REGRESIN LINEAL SIMPLE.
En el estudio de la relacin funcional entre dos variables poblacionales, una
variable X, llamada independiente, explicativa o de prediccin y una variable Y,
llamada dependiente o variable respuesta, presenta la siguiente notacin:
Y=a+bX+e
Dnde:
a es el valor de la ordenada donde la lnea de regresin se intercepta con el eje
Y.
b es el coeficiente de regresin poblacional (pendiente de la lnea recta)
e es el error
SUPOSICIONES DE LA REGRESIN LINEAL:
1. Los valores de la variable independiente X son fijos, medidos sin error.
2. La variable Y es aleatoria
3. Para cada valor de X, existe una distribucin normal de valores de Y
(subpoblaciones Y)
4. Las variancias de las subpoblaciones Y son todas iguales.
5. Todas las medias de las subpoblaciones de Y estn sobre la recta.
6. Los valores de Y estn normalmente distribuidos y son estadsticamente
independientes.
ESTIMACIN DE LA ECUACIN DE REGRESIN MUESTRAL.
Consiste en determinar los valores de "a" y "b " a partir de la muestra, es decir,
encontrar los valores de a y b con los datos observados de la muestra. El
mtodo de estimacin es el de Mnimos Cuadrados, mediante el cual se
obtiene:

Luego, la ecuacin de regresin muestral estimada es

Que se interpreta como:


a es el estimador de a. Es el valor estimado de la variable Y cuando la variable
X=0
b es el estimador de b , es el coeficiente de regresin. Est expresado en las
mismas unidades de Y por cada unidad de X. Indica el nmero de unidades en
que vara Y cuando se produce un cambio, en una unidad, en X (pendiente de
la recta de regresin).
Un valor negativo de b sera interpretado como la magnitud del decremento en
Y por cada unidad de aumento en X.

ESTADSTICA DESCRIPTIVA BIVARIADA


Definicin: Una tabla de contingencia es una tabla donde los individuos de
una muestra se clasifican en funcin de dos variables cualitativas. Nota: las
tablas de contingencia se conocen tambin como: tablas de doble entrada,
tablas de asociacin o tablas de f x c, donde f es el nmero de filas y c el
nmero de columnas en la tabla.
El trmino tabla de contingencia se refiere a que las tablas construidas se usan
para contrastar una asociacin o relacin entre dos variables. Usaremos tablas
de contingencia para describir dos variables cualitativas. Veremos que la
asociacin entre dos variables se puede describir mejor calculando
apropiadamente los porcentajes y usando grficos de barras. Existir relacin
entre el estado nutricional y el rendimiento acadmico de estudiantes de
enseanza bsica? Se midi el estado nutricional de 1000 nios de enseanza
bsica, el que fue clasificado como "malo", "regular", "bueno". El rendimiento
acadmico fue clasificado como bajo el promedio, promedio o sobre el
promedio.

Qu informacin podemos obtener de la tabla?


1. La distribucin marginal de cada variable: La distribucin marginal del
Estado Nutricional es:

Ejemplo
Calcule la distribucin marginal del rendimiento acadmico.

Qu porcentaje de los nios de enseanza bsica tienen:

a) un rendimiento acadmico sobre el promedio?


b) En el promedio?
c) Bajo el promedio?

Definiciones: La distribucin marginal de la variable fila se encuentra


calculando los porcentajes de cada fila en el gran total (tamao de la muestra).
La distribucin marginal de la variable columna se encuentra calculando el
porcentaje de cada columna en el gran total.
Qu otra informacin podemos obtener de la tabla? La asociacin entre
dos variables cualitativas se presenta calculando algunos de los
porcentajes en la forma de distribucin condicional. 2. La distribucin
condicional de una variable dada otra variable:

Definiciones: La distribucin condicional de la variable fila, dada la variable


columna, se encuentra expresando los nmeros como porcentajes del total de
la columna. La distribucin condicional de la variable columna, dada la variable
fila, se encuentra expresando los nmeros como porcentajes del total de la fila.
Si una variable es considerada como variable explicatoria y la otra como
variable respuesta, entonces debemos analizar la distribucin condicional de la
variable respuesta, dada la variable explicatoria.

ESTADSTICA DESCRIPTIVA BIVARIADA


Definicin: Una tabla de contingencia es una tabla donde los individuos de
una muestra se clasifican en funcin de dos variables cualitativas. Nota: las
tablas de contingencia se conocen tambin como: tablas de doble entrada,
tablas de asociacin o tablas de f x c, donde f es el nmero de filas y c el
nmero de columnas en la tabla.
El trmino tabla de contingencia se refiere a que las tablas construidas se usan
para contrastar una asociacin o relacin entre dos variables. Usaremos tablas
de contingencia para describir dos variables cualitativas. Veremos que la
asociacin entre dos variables se puede describir mejor calculando
apropiadamente los porcentajes y usando grficos de barras. Existir relacin
entre el estado nutricional y el rendimiento acadmico de estudiantes de

enseanza bsica? Se midi el estado nutricional de 1000 nios de enseanza


bsica, el que fue clasificado como "malo", "regular", "bueno". El rendimiento
acadmico fue clasificado como bajo el promedio, promedio o sobre el
promedio.

Qu informacin podemos obtener de la tabla?


2. La distribucin marginal de cada variable: La distribucin marginal del
Estado Nutricional es:

Ejemplo
Calcule la distribucin marginal del rendimiento acadmico.

Qu porcentaje de los nios de enseanza bsica tienen:


a) un rendimiento acadmico sobre el promedio?
b) En el promedio?
c) Bajo el promedio?

Definiciones: La distribucin marginal de la variable fila se encuentra


calculando los porcentajes de cada fila en el gran total (tamao de la muestra).
La distribucin marginal de la variable columna se encuentra calculando el
porcentaje de cada columna en el gran total.
Qu otra informacin podemos obtener de la tabla? La asociacin entre
dos variables cualitativas se presenta calculando algunos de los
porcentajes en la forma de distribucin condicional. 2. La distribucin
condicional de una variable dada otra variable:

Definiciones: La distribucin condicional de la variable fila, dada la variable


columna, se encuentra expresando los nmeros como porcentajes del total de
la columna. La distribucin condicional de la variable columna, dada la variable
fila, se encuentra expresando los nmeros como porcentajes del total de la fila.
Si una variable es considerada como variable explicatoria y la otra como
variable respuesta, entonces debemos analizar la distribucin condicional de la
variable respuesta, dada la variable explicatoria.
Ejemplo
Perfil cardiovascular En el ao 2005 un grupo de investigadores de la U. de
Talca, realizan una encuesta sobre perfil cardiovascular en la ciudad de Talca1 .
Se tiene una muestra de personas entre 18 y 74 aos. Una de las preguntas de
inters fue investigar si: Existe asociacin entre el hbito de fumar y la edad?

Test de hiptesis:

Con el programa SPSS podemos calcular el valor-p para el test de asociacin,


que aparece bajo el ttulo de Significancia. El valor-p es menor que 0,001,
indicando que existe una asociacin estadsticamente significativa entre fumar
y la edad, al 5%.

Covarianza (Sxy)
Mide la relacin lineal entre dos variables y se expresa mediante la siguiente
frmula:

Propiedades:

Sxy es un valor que vara entre - y +


Si Sxy es positivo, entonces la correlacin es directa (a mayor valor de X,
mayor valor de Y) y, por tanto, la recta de regresin es ascendente.
Si Sxy es negativo, entonces la correlacin es inversa (a mayor valor de
X, menor valor de Y) y, por tanto, la recta de regresin es descendente.
Si Sxy es cero, entonces no hay correlacin entre X e Y.

Coeficiente de correlacin de Pearson (rxy)


La covarianza depende de los valores de las variables y por tanto de sus
unidades. Para tener una medida adimensional se utiliza el coeficiente de
correlacin de Pearson (r xy) que nos indica qu tipo de relacin existe entre
dos variables, as como la magnitud de dicha correlacin, siendo invariante
frente a transformaciones lineales (cambio de origen y escala) de las variables.
El coeficiente de correlacin de Pearson fue construido bajo el supuesto de que
los datos siguen una distribucin normal bivariada y la escala de medicin es al
menos de intervalo.
El Coeficiente de Correlacin de Pearson mide la relacin lineal entre dos
variables y se define como el cociente entre la covarianza y el producto de las
desviaciones tpicas de ambas variables. Toma la siguiente expresin para el
clculo:

Propiedades:

Es un coeficiente adimensional. Es decir, que es independiente de las


unidades en que estn expresadas las variables. Por ello sirve de valor
de comparacin aunque la variables vengan expresadas en unidades
diferentes.

-1 rxy 1

Si rxy =1 rxy = -1, la relacin es funcional. Una variable depende


matemticamente de la otra ( puede expresarse mediante una frmula
en la que intervenga la otra, por ejemplo la longitud de una
circunferencia depende del radio mediante la frmula L=2r).

Interpretacin:

Si rxy est prximo a 1 -1 la correlacin es fuerte (por encima de 0.8).

Si rxy est prximo a 0, la correlacin es dbil.

Si rxy >0 la correlacin es directa. Hay relacin lineal positiva.

Si rxy <0 la correlacin es inversa. Hay relacin lineal negativa.

Si Sxy = 0 y por tanto rxy = 0 la correlacin es nula. La relacin lineal


es nula.

Interpretacin grfica:

Si rxy = 1 los puntos (x,y) forman una lnea ascendente.

Si rxy = -1 los puntos (x,y) forman una lnea descendente.

Si rxy > 0 los puntos (x,y) forman una nube ascendente ms cercana a
una recta cuanto ms cercano sea este valor a 1.

Si rxy < 0 los puntos (x,y) forman una nube descendente ms cercana a
una recta cuanto ms cercano sea este valor a -1.

Si rxy = 0 la nube de puntos sigue una distribucin totalmente aleatoria


(circular).

Das könnte Ihnen auch gefallen