Sie sind auf Seite 1von 38

INSTITUTO TECNOLÓGICO DE CAMPECHE

INGENIERIA INDUSTRIAL

NUM: 1 NOMBRE DEL TRABAJO: investigación


conceptual
NUM: 1 NOMBRE DE LA UNIDAD: Regresión lineal
multiple

Nombre del alumno:


Materia:
Estadística inferencial
Maestro:
Bocos Patrón Ramón Agustín
Grupo:
MI4

06/02/2019
Contenido
Introducción ........................................................................................................................................ 4
La regresión lineal simple ............................................................................................................. 5
Antecedentes ................................................................................................................................ 5
Mediciones univaribles, bivariables y multivariables en estadística .................................. 5
Definición de R.l.S ............................................................................................................................ 6
Diagrama de dispersión ................................................................................................................. 6
Tipos de modelos de regresión lineal ......................................................................................... 7
Método de mínimos cuadrados .................................................................................................... 8
Interpretación de la pendiente del modelo ............................................................................. 10
Suposiciones en la regresión lineal simple .............................................................................. 11
Prueba “t” de independencia entre las variables (significación de la regresión). ....... 13
Intervalo de Confianza para β 1 y β 0 (pendiente y ordenada del modelo). .......................... 14
Intervalo de confianza para la ordenada al origen β1. ........................................................... 15
Intervalo de Confianza para la media µ y,x . ............................................................................... 16
Intervalo de Confianza de predicción para una observación futura Yi ............................. 16
Análisis residual (gráfico y numérico). ..................................................................................... 17
Gráfica de residuales contra ȳ ................................................................................................ 19
El coeficiente de Determinación................................................................................................. 20
Cálculo del coeficiente e interpretación ................................................................................... 21
Análisis de correlación ................................................................................................................. 22
Prueba de hipótesis sobre el coeficiente de correlación ....................................................... 23
Regresión lineal múltiple................................................................................................................... 23
Determinación de la ecuación........................................................................................................... 23
Inferencia en R.L.M ........................................................................................................................... 25
Prueba de Significancia para cada coeficiente de la regresión ......................................................... 28
Estimación de intervalos de confianza para 1 2............................................................................ 30
Predicción de la variable dependiente y ........................................................................................... 31
Coeficiente de determinación múltiple ............................................................................................ 31
Coeficiente de determinación ajustado ............................................................................................ 32
Análisis residuales ............................................................................................................................. 33

2
Matriz de correlación ........................................................................................................................ 36
Aplicaciones................................................................................................................................... 36
Bibliografía ........................................................................................................................................ 38

3
Introducción
Este documento tiene como objetivo servir de soporte
en la parte conceptual de la unidad 1 de la materia
estadística inferencial 2 y así tener un mejor
desempeño a la hora de realizar los ejercicios
correspondientes de esta unidad.

4
La regresión lineal simple

Antecedentes
La primera forma de regresión lineal documentada fue el método de los mínimos
cuadrados que fue publicada por Legendre en 1805, Gauss publicó un trabajo en donde
desarrollaba de manera más profunda el método de los mínimos cuadrados,1 y en dónde
se incluía una versión del teorema de Gauss-Márkov.

El término regresión se utilizó por primera vez en el estudio de variables antropométricas:


al comparar la estatura de padres e hijos, donde resultó que los hijos cuyos padres tenían
una estatura muy superior al valor medio, tendían a igualarse a éste, mientras que
aquellos cuyos padres eran muy bajos tendían a reducir su diferencia respecto a la
estatura media; es decir, "regresaban" al promedio.2 La constatación empírica de esta
propiedad se vio reforzada más tarde con la justificación teórica de ese fenómeno.

El término lineal se emplea para distinguirlo del resto de técnicas de regresión, que
emplean modelos basados en cualquier clase de función matemática. Los modelos lineales
son una explicación simplificada de la realidad, mucho más ágiles y con un soporte teórico
mucho más extenso por parte de la matemática y la estadística.

Pero bien, como se ha dicho, se puede usar el término lineal para distinguir modelos
basados en cualquier clase de aplicación.

más poderosas que se encuentran disponibles actualmente.

Mediciones univaribles, bivariables y multivariables en estadística


Se debe diferenciar entre la regresión simple y la regresión múltiple. En la regresión
simple, se establece que Y es una función de solo una variable independiente. Con
frecuencia se le denomina regresión bivariada porque solo hay dos variables, una
dependiente y una independiente, y la regresión simple se representa con la formula. En
un modelo de regresión múltiple. Y es una función de dos o más variables independientes.
Un modelo de regresión con k variables independientes se puede expresar así:

5
También es necesario hacer una distinción entre la regresión lineal y la regresión
curvilineal (no lineal). En modelo de regresión lineal, la relación entre X y Y puede
representarse por medio de una línea recta. Sostiene que a medida que X cambia. Y
cambia en cantidad constante. La regresión curvilineal utiliza una curva para expresar la
relación entre X y Y. Es habitual colocar la variable independiente en el eje horizontal. La
siguiente figura11.1 (a) sugiere una relación positiva y lineal entre X y Y. Es positiva
porque X y Y parecen moverse en la misma dirección. A medida que X aumenta
(disminuye).Y aumenta (disminuye).

Definición de R.l.S
En estadística la regresión lineal o ajuste lineal es un modelo matemático usado para
aproximar la relación de dependencia entre una variable dependiente Y, las variables
independientes Xi y un término aleatorio ε. Este modelo puede ser expresado como:

Diagrama de dispersión
Un diagrama de dispersión o gráfica de dispersión o gráfico de dispersión es un tipo de
diagrama matemático que utiliza las coordenadas cartesianas para mostrar los valores de
dos variables para un conjunto de datos

Se emplea cuando una o varias variables está bajo el control del experimentador. Si existe
un parámetro que se incrementa o disminuye de forma sistemática por el
experimentador, se le denomina parámetro de control o variable independiente y
habitualmente se representa a lo largo del eje horizontal (eje de las abscisas). La variable
medida o dependiente usualmente se representa a lo largo del eje vertical (eje de las
ordenadas). Si no existe una variable dependiente, cualquier variable se puede

6
representar en cada eje y el diagrama de dispersión mostrará el grado de correlación (no
causalidad) entre las dos variables.

Un diagrama de dispersión puede sugerir varios tipos de correlaciones entre las variables
con un intervalo de confianza determinado. La correlación puede ser positiva (aumento),
negativa (descenso), o nula (las variables no están correlacionadas). Se puede dibujar una
línea de ajuste (llamada también "línea de tendencia") con el fin de estudiar la correlación
entre las variables. Una ecuación para la correlación entre las variables puede ser
determinada por procedimientos de ajuste. Para una correlación lineal, el procedimiento
de ajuste es conocido como regresión lineal y garantiza una solución correcta en un
tiempo finito.

Tipos de modelos de regresión lineal


Ala ecuación con que se describe cómo se relaciona y con x y en la que se da un término
para el error, se le llama modelo de regresión. El siguiente es el modelo que se emplea en
la regresión lineal simple.

β0 y β1 se conocen como los parámetros del modelo, y ε (la letra griega épsilón) es una
variable aleatoria que se conoce como término del error. El término del error da cuenta
de la variabilidad de y que no puede ser explicada por la relación lineal entre x y y.

7
A la ecuación que describe la relación entre el valor esperado de y, que se denota E(x), y x
se le llama ecuación de regresión. La siguiente es la ecuación de regresión para la
regresión lineal simple.

La gráfica de la ecuación de regresión lineal simple es una línea recta; β0 es la intersección


de la recta de regresión con el eje y, β1 es la pendiente y E(y) es la media o valor esperado
de y para un valor dado de x.

Método de mínimos cuadrados


Suponga que las variables X y Y están relacionadas linealmente y que para cada valor de ,
la variable dependiente, Y, es una variable aleatoria. Es decir, que cada observación de Y
puede ser descrita por el modelo:

donde ε es un error aleatorio con media cero y varianza . También suponga que los
errores aleatorios no están correlacionados. La ecuación (1.1) es conocida como el modelo
de regresión lineal simple. Bajo el supuesto de que este modelo es adecuado y como el
valor esperado del error es cero, E(ε)=0 , se puede ver que el valor esperado de la variable
Y, para cada valor de X , está dado por línea recta

8
En donde β0 y β1 son los parámetros del modelo y son constantes desconocidas. Por lo
tanto, para tener bien especificada la ecuación que relaciona las dos variables será
necesario estimar los dos parámetros, que tienen los siguientes significados:

Un procedimiento para ajustar la mejor recta y, por lo tanto, para estimar β0 y β1 es


mediante el método de mínimos cuadrados, el cual consiste en lo siguiente: si de la
ecuación (1.1) despejamos los errores, los elevamos al cuadrado y los sumamos,
obtendremos lo siguiente:

De esta forma, se quieren encontrar los valores de β0 y β1 que minimizan la suma de los
errores cuadrados. Es decir, se busca ajustar la recta de manera que la suma de las
distancias en forma vertical de los puntos a la recta se minimice

9
Interpretación de la pendiente del modelo
La interpretación de a y b, es análoga a la que comentábamos en el apartado 6.1.3.2, sólo
que como ya dijimos entonces, b recibe el nombre de Coeficiente de Regresión.

Como podemos observar, en el numerador de b, aparece la covarianza, y en el


denominador la varianza de la variable independiente. Esto hace que el signo de b sea el
mismo signo que el de la covarianza, por lo que si b>0, entonces, existe una relación
directa entre las variables, y si b<0 entonces la relación es inversa.

10
En nuestro ejemplo de talla y edad, b sería el incremento medio que se produce en la
talla, por cada incremento unitario de edad; si la edad está en años, por cada año
aumente la edad.

Si queremos predecir un valor yi a partir de un valor concreto de xi, utilizaremos la


expresión de la ecuación donde ahora ya, a y b son conocidos. No olvidemos que ese era
uno de los objetivos del análisis, tratar de conocer valores de Y a partir de los de X:

y*i = a+bxi

Suposiciones en la regresión lineal simple


1. Linealidad. Si no se tiene linealidad se dice que tenemos un error de especificación.
En el caso de que sean varias variables independientes, la opción Analizar-
RegresiónLineal-Gráficos-Generar todos los gráficos parciales nos da los diagramas
de dispersión parcial para cada variable independiente. En ellos se ha eliminado el
efecto proveniente de las otras variables y así la relación que muestran es la
relación neta entre las variables representadas.
2. Independencia de la variable aleatoria “residuos” (especialmente importante si los
datos se han obtenidos siguiendo una secuencia temporal). Independencia entre
los residuos mediante el estadístico de Durbin-Watson que toma valor 2 cuando
los residuos son completamente independientes (entre 1.5 y 2.5 se considera que
existe independencia), DW2 autocorrelación negativa

3. Homocedasticidad o igualdad de varianzas de los residuos y los pronósticos. Esta


condición se estudia utilizando las variables: ZPRED=pronósticos tipificados y
ZRESID=residuos tipificados mediante: • el estadístico de Levene (ver explorar) •
un gráfico de dispersión .Que se obtiene en Analizar-Regresión-Lineal-Gráficos. El
supuesto de homocedasticidad implica que la variación de los residuos sea
uniforme en todo el rango de valores de los pronósticos (gráfico sin pautas de
asociación).

11
4. Normalidad de los residuos tipificados. Podemos contrastarla mediante: • La
prueba de Kolmogorff-Smirnov, con gráficos de normalidad de tipo Q-Q (cuantiles)
o P-P(proporciones) (ver explorar) • gráficamente en Analizar-Regresión-Lineal-
Gráficos . La opción Histograma: añade una curva N(0,1) Gráfico de Probabilidad
Normal de tipo P-P: Representa las proporciones acumuladas de la variable
esperada respecto a las proporciones acumuladas de la variable observada.

5. No-colinealidad, es decir la inexistencia de colinealidad. Esta puede ser:


colinealidad perfecta si una de las variables independientes tiene una relación
lineal con otra/as independientes, colinealidad parcial si entre las variables
independientes existen altas correlaciones

Error estándar de la estimación

Estimación de σ2 De acuerdo con el modelo de regresión y con sus suposiciones, se


puede concluir que σ2, la varianza de ε, representa también la varianza de los valores de y
respecto a la recta de regresión. Recuérdese que a las desviaciones de los valores de y de
la recta de regresión estimada se les conoce como residuales. Por lo tanto, SCE, la suma
de los cuadrados de los residuales, es una medida de la variabilidad de las observaciones
reales respecto a la línea de regresión estimada. El errorcuadrado medio (ECM)
proporciona una estimación de σ2; esta estimación es SCE dividida entre sus grados de
libertad.

A cada suma de cuadrados le corresponde un número llamado sus grados de libertad. Se


ha demostrado que SCE tiene n-2 grados de libertad porque para calcular SCE es necesario
estimar dos parámetros (β0 y β1). Por lo tanto, el cuadrado medio se calcula dividiendo
SCE entre n-2. ECM proporciona un estimador insesgado de σ2. Como el valor del ECM
proporciona un estimado de σ2, se emplea también la notación s2

12
Prueba “t” de independencia entre las variables (significación de la
regresión).
El modelo de regresión lineal simple es y = 𝛽 0 + 𝛽 1 x + ϵ. Si x y y están relacionadas
linealmente, Entonces 𝛽 1 ≠ 0. El objetivo de la prueba t es determinar si se puede concluir
que 𝛽 1 ≠0. Para probar la hipótesis siguiente acerca del parámetro 𝛽 1 se emplearán los
datos muestrales.

H0: 𝛽 1 =0

Ha ∶ 𝛽 1≠ 0

Si se rechaza H0, se concluirá que b1 0 y que entre las dos variables existe una relación
estadísticamente significante. La base para esta prueba de hipótesis la proporcionan las
propiedades de la distribución muestral de b1, el estimador de 𝛽1, obtenido mediante el
método de mínimos cuadrados.

Primero, considérese que es lo que ocurriría si para el mismo estudio de regresión se


usara otra muestra aleatoria simple. Supóngase, por ejemplo, que Armand’s Pizza Parlors
usa una muestra de las ventas de otros 10 restaurantes. El análisis de regresión de esta
otra muestra dará como resultado una ecuación de regresión parecida a la ecuación de
regresión anterior 𝑌̂ = 60 + 5x. Sin embargo, no puede esperarse que se obtenga
exactamente la misma ecuación (una ecuación en la que la intersección con el eje y sea
exactamente 60 y la pendiente sea exactamente 5). Los estimadores b0 y b1, obtenidos
por el método de mínimos cuadrados, son estadísticos muestrales que tienen su propia
distribución muestral. A continuación se presentan las propiedades de la distribución
muestral de b1.

13
Obsérvese que el valor esperado de b1 es 𝛽1, por lo que b1 es un estimador insesgado de
𝛽 1.

Como no se conoce el valor de σ, se obtiene una estimación de σ𝑏1 , que se denota S𝑏1 ,
estimandoσ mediante s en la ecuación (14.17). De esta manera se obtiene el estimador
siguiente de σ𝑏1 .

Intervalo de Confianza para β 1 y β 0 (pendiente y ordenada del


modelo).
Para el intervalo de confianza de la pendiente β1 se utiliza la distribución t de student con
n-2 grados de libertad ya que se desconoce la varianza de la población 𝜎2𝛽 ; el estimador
de esta varianza se define por:

14
Por lo tanto el estadístico de prueba se define como:

En el intervalo de confianza de nivel 1-α estab dado por :

Una prueba muy sensilla y util es la prueba de independencia entre variables. Si la


hipotesis nula H0: B1=0 es aceptada, Y no depende linealmente de X, en caso contrario, se
dice que Y depende de X.

Intervalo de confianza para la ordenada al origen β1.


Para probar H0, se utiliza la distribucion t de student con n-2 grados de libertad y ccuya
expresion esta dada por :

El intervalo de confianza del 95% está definido por

15
Intervalo de Confianza para la media µ y,x .
A veces es conveniente estimar el valor medio o separado de Y para el un valor dado de X,
tal estimación se hace con el intervalo de confianza:

Al calcular los límites de confianza para los valores de medios, estos se obtiene para cada
valor de Xo; tales limites serán más estrechos a medida que se aproximan a la medida de
la variable independiente y más amplios a medida que se alejan de ella, por esta razón se
obtienen limites llamados bandas de confianza dentro de las cuales queda comprendida la
recta verdadera para un nivel de significación a.

Para trazar las bandas de confianza se elegirán cuando menos 3 valores de X0 dos valores
extremos y uno intermedio, y se harán las estimaciones por intervalo. Estos intervalos se
dibujan sobre los diagramas de dispersión uniendo todos los puntos generados por los
límites inferiores y por otro lado, todos los correspondientes a los límites superiores.

Intervalo de Confianza de predicción para una observación futura Yi


Como las bandas de confianza se abren a medida que Xo se aleja de la media X, resulta
aventurado hacer predicciones sobre Y para valores fuera de la escala de valores de X
empleada para establecer la ecuación de regresión de la muestra. A menos de que este
razonablemente seguro que existe la misma función de regresión sobre un amplio rango
de valores de X, por haberse experimentado en una muestra, se podrá usar valores de Xo
alejados de la media X para predecir valores de Y.

Cuando se hacen predicciones, estas, más que ser sobre valores medios de Y,
son para valores individuales, por lo tanto el error debido al azar (error de estimación

16
) es una fuente adicional de variación, por ello la varianza se ve aumentada y el

intervalo de confianza para un valor de predicción es más amplio que el de

Análisis residual (gráfico y numérico).


El análisis residual es la herramienta principal para determinar si el modelo de regresión
empleado es apropiado.
Como ya se indicó, el residual de la observación i es la diferencia entre el valor observado
de la variable dependiente (yi) y el valor estimado de la variable dependiente (yˆ )

donde

y¡ es el valor observado de la variable dependiente

𝑦̂ es el valor estimado de la variable dependiente

En otras palabras, el residual i es el error que resulta de usar la ecuación de regresión


estimada
para predecir el valor de la variable dependiente. En la tabla 14.7 se calculan estos
residuales correspondientes a los datos del ejemplo de Armand’s Pizza Parlors. En la
segunda columna de la
tabla se presentan los valores observados de la variable dependiente y en la tercera
columna, los
valores estimados de la variable dependiente obtenidos usando la ecuación de regresión
estimada
𝑦̂ = 60 + 5x. Un análisis de los residuales correspondientes, que se encuentran en la cuarta
columna de la tabla, ayuda a determinar si las suposiciones hechas acerca del modelo de
regresión son adecuadas.
A continuación se revisan las suposiciones de regresión en el ejemplo de Armand’s Pizza
Parlors. Se supuso un modelo de regresión lineal simple
y =𝛽 0 + 𝛽 1 x + ϵ (14.29)

17
Este modelo indica que se supone que las ventas trimestrales (y) son función lineal del
tamaño
de la población de estudiantes (x), más un término del error ϵ. En la sección 14.4, para el
término
del error ϵ se hicieron las siguientes suposiciones
1. E(ϵ) = 0.
2. La varianza de ϵ, que se denota σ2, es la misma para todos los valores de x.
3. Los valores de ϵ son independientes.
4. El término del error ϵ tiene distribución normal.
Estas suposiciones son la base teórica para las pruebas t y F que se usan para determinar
si la relación
entre x y y es significativa y para las estimaciones, mediante intervalos de confianza y de
predicción, presentadas en la sección 14.6. Si las suposiciones acerca del término del error
ϵ son
dudosas, puede ser que las pruebas de hipótesis acerca de la significancia de la relación de
regresión y los resultados de la estimación por intervalo no sean correctos.
Los residuales proporcionan la mejor información acerca de ϵ; por lo tanto, el análisis de
los
residuales es muy importante para determinar si las suposiciones hechas acerca de ϵ son
apropiadas.
Gran parte del análisis residual se basa en examinar gráficas. En esta sección se estudiarán
las siguientes gráficas de residuales.
1. La gráfica de residuales contra los valores de la variable independiente x
2. La gráfica de residuales contra los valores pronosticados para la variable dependiente 𝑦̂
3. La gráfica de residuales estandarizados
4. La gráfica de probabilidad normal.

Gráfica de residuales contra x La gráfica de residuales contra la variable independiente x


es una gráfica en la que los valores de la variable independiente se representan en el eje
horizontal y los valores de los residuales correspondientes se representan en el eje
vertical. Para cada residual se grafica un punto. La primera coordenada de cada punto está
dada por el valor xi y la segunda coordenada está dada por el correspondiente valor del
residual yi i. En la gráfica de residuales contra x obtenida con los datos de Armand’s Pizza
Parlors de la tabla 14.7, las coordenadas del primer punto son (2,-12), que corresponden a
x1 = 2 y y1-ȳ1 = -12; las coordenadas del segundo punto son (6, 15), que corresponden a
x2 = 6 y y2 -ȳ2 = 15; etc. En la figura 14.11 se muestra la gráfica de residuales obtenida.
Antes de interpretar los resultados de esta gráfica de residuales, se considerarán algunas
de las formas generales que pueden tener las gráficas de residuales. En la figura 14.12 se
muestran tres ejemplos. Si la suposición de que la varianza de es la misma para todos los
valores de x y si el modelo de regresión empleado representa adecuadamente la relación
entre las variables, el aspecto general de la gráfica de residuales será el de una banda

18
horizontal de puntos como en la gráfica A de la figura 14.12. Pero si la varianza de no es la
misma para todos los valores x —por ejemplo, si la variabilidad respecto a la línea de
regresión es mayor para valores de x mayores— el aspecto de la gráfica puede ser como el
de la gráfica B de la figura 14.12. En este caso, se viola la suposición de que tiene una
varianza constante. En la gráfica C se muestra otra forma que puede tomar la gráfica de
residuales. En este caso, se puede concluir que el modelo de regresión empleado no
representa adecuadamente la relación entre las variables, y deberá considerarse un
modelo de regresión curvilíneo o múltiple.

Gráfica de residuales contra ȳ


En otra gráfica de residuales los valores pronosticados para la variable dependiente se
representan en el eje horizontal y los valores de los residuales en el eje vertical. A cada
residual corresponde un punto en la gráfica. La primera coordenada de cada uno de los
puntos es i y la segunda coordenada es el valor correspondiente del residual i,yi i.
Empleando los datos de Armand’s, tabla 14.7, las coordenadas del primer punto son (70,-
12), que corresponden a ȳ1 = 70 y y1 ȳ 1=-12; las coordenadas del segundo punto son (90,
15), etc. En la figura 14.13 se presenta esta gráfica de residuales. Obsérvese que la forma
de esta gráfica de residuales es igual a la forma de la gráfica de residuales contra la
variable independiente x. Esta no es una forma que pudiera llevar a dudar de las

19
suposiciones del modelo. En la regresión lineal simple, tanto la gráfica de residuales contra
x como la gráfica de residuales contra tienen la misma forma. En el análisis de regresión
múltiple, la gráfica de residuales contra se usa más debido a que se tiene más de una
variable independiente.

El coeficiente de Determinación
La intensidad de una relación entre dos variables de una población por lo general se mide
mediante el coeficiente de correlación p, cuyos valores van desde -1, correspondiente a
una correlación perfectamente negativa, hasta +1, correspondiente a una correlación
perfectamente positiva. En la figura 17.6 se ilustran estas tres diferentes clases de
asociación entre variables. En el panel A de esta figura presentamos una relación lineal
negativa prefecta entre X y Y, de modo que Y disminuirá de una manera perfectamente
predecible en la medida que X aumenta. En el panel B se tiene un ejemplo en el que no
hay relación entre X y Y. a medida que X no se da ningún cambio en Y, de modo que no
hay ninguna asociación entre los valores de X y los de Y. por el contrario, en el panel C se
presenta una correlación perfectamente positiva entre las dos variables. En este caso, Y
aumenta de una manera perfectamente predecible conforme se incrementa X.

Para problemas orientados a la regresión, el coeficiente de correlación de muestra (r)


puede obtenerse de la siguiente manera:

𝑠𝑢𝑚𝑎 𝑑𝑒 𝑐𝑢𝑎𝑑𝑟𝑎𝑑𝑜𝑠 𝑑𝑒𝑏𝑖𝑑𝑜 𝑎 𝑙𝑎 𝑟𝑒𝑔𝑟𝑒𝑠𝑖ó𝑛 𝑆𝑆𝑅


𝑟2 = =
𝑠𝑢𝑚𝑎 𝑡𝑜𝑡𝑎𝑙 𝑑𝑒 𝑐𝑢𝑎𝑑𝑟𝑎𝑑𝑜𝑠 𝑆𝑆𝑇

De modo que

𝑟 = √𝑟 2

En casos de regresión lineal simple, r toma el signo de b1; si este es positivo, r es positivo;
si b1 es negativo, r es negativo; y si b1 es cero, r es cero.

La regresión y la correlación son dos técnicas separadas: la regresión tiene que ver con la
predicción y la correlación con la asociación. En muchas aplicaciones solamente nos

20
interesa la medición de la asociación entre variables, y no con el uso de una variable para
predecir otra.

Si únicamente se lleva a cabo un análisis de correlación de un conjunto de datos, el


coeficiente de correlación de muestra r, puede calcularse directamente utilizando la
siguiente fórmula:

∑𝑛𝑖=1(𝑋1 − 𝑋̅)(𝑌1 − 𝑌̅)


𝑟=
√∑𝑛𝑖=1(𝑋1 − 𝑋̅)2 √∑𝑛𝑖=1(𝑌1 − 𝑌̅)2

Cálculo del coeficiente e interpretación


En estadística, el coeficiente de determinación, denominado R² y pronunciado R cuadrado,
es un estadístico usado en el contexto de un modelo estadístico cuyo principal propósito
es predecir futuros resultados o probar una hipótesis. El coeficiente determina la calidad
del modelo para replicar los resultados, y la proporción de variación de los resultados que
puede explicarse por el modelo.1

Hay varias definiciones diferentes para R² que son algunas veces equivalentes. Las más
comunes se refieren a la regresión lineal. En este caso, el R² es simplemente el cuadrado
del coeficiente de correlación de Pearson, lo cual es sólo cierto para la regresión lineal
simple. Si existen varios resultados para una única variable, es decir, para una X existe una
Y, Z... el coeficiente de determinación resulta del cuadrado del coeficiente de
determinación múltiple. En ambos casos el R² adquiere valores entre 0 y 1. Existen casos
dentro de la definición computacional de R² donde este valor puede tomar valores
negativos.2

21
Análisis de correlación
En la rama de la estadística, la correlación se refiere a que existe un vínculo entre varios
eventos. Una de las herramientas que nos permite inferir si existe dicho vínculo es
justamente el análisis de correlación. Este procedimiento tiene por objetivo indicarnos si
existe relación entre dos eventos – es decir, variables–, un poco sobre la naturaleza de
dicha relación, y su fuerza. Para poder realizar un análisis de correlación confiable, lo
primero que se necesita es realizar muchas observaciones de dos variables

El análisis de correlación general da como resultado un número entre -1 y 1, llamado


coeficiente de correlación. Este resultado nos sirve para entender tres cosas: Si existe o
no correlación entre las variables. Un coeficiente que valga cero indica que nuestras
variables son independientes; un ejemplo de esto sería que no hay relación entre qué tan
dulce es una fruta y cuál es el precio de un litro de jugo. Qué tan fuerte es la correlación (si
es que existe). A más se ‘aleje del cero’ el coeficiente, más fuerte será la correlación entre
las dos variables. Siendo así, las correlaciones cuyo coeficiente esté más cerca de -1 o 1
serán más poderosas. Detalles sobre la naturaleza de la correlación. Existen correlaciones
llamadas directas (donde ambas variables aumentan o disminuyen simultáneamente) e
inversas (donde cuando una variable aumenta, la otra disminuye). Un coeficiente positivo
significa que la correlación es del primer tipo, mientras que uno negativo indica que es del
segundo. Un ejemplo de correlación positiva es que, si el precio de una fruta aumenta, el
precio de un litro de jugo de dicha fruta también aumentará; una correlación negativa
sería que a más gente consuma una fruta, menor cantidad de fruta estará disponible. El
coeficiente de correlación es el resultado de dividir la covarianza entre las variables X y Y
entre la raíz cuadrada del producto de la varianza de X y la de Y.

22
Prueba de hipótesis sobre el coeficiente de correlación
La prueba de hipótesis del coeficiente de correlación poblacional Rho se estima con (r) y
corresponde a las siguientes hipótesis

H0: p=0

H1:p≠0

Esta prueba se hace con n-1 grados de libertad

Mientras más cercano a cero sea el coeficiente de correlación, se indicará que tan débil es la
asociación entre ambas variables. Si es igual cero se concluirá que no existe relación lineal alguna
entre ambas variables.

Regresión lineal múltiple


La regresión lineal es una técnica estadística destinada a analizar las causas de por qué pasan las
cosas. A partir de los análisis de regresión lineal múltiple podemos: identificar que variables
independientes (causas) explican una variable dependiente (resultado) comparar y comprobar
modelos causales predecir valores de una variable, es decir, a partir de unas características
predecir de forma aproximada un comportamiento o estado

La regresión lineal múltiple es la gran técnica estadística para comprobar hipótesis y relaciones
causales. Ante de empezar, una serie de condiciones que se deben cumplir para poder aplicar la
regresión lineal múltiple:

 La variable dependiente (resultado) debe ser ordinal o escalar, es decir, que las categorías
de la variable tengan orden interno o jerarquía, p.ej. nivel de ingresos, peso, número de
hijos, justificación del aborto en una escala de 1-nunca a 10-siempre.

 Las variables independientes (causas) deben ser ordinales o escalares o dummy

 Hay otras condiciones como: las variables independientes no puede estar altamente
correlacionadas entre sí, las relaciones entre las causas y el resultado deben ser lineales,
todas variables deben seguir la distribución normal y deben tener varianzas iguales. Estas
condiciones no son tan estrictas y hay maneras de tratar los datos si se incumple. Sobre
ello volveremos en futuras entradas

Determinación de la ecuación
Sea X1,X2…Xn variables independientes o regresoras, y sea una variable de respuesta, entonces el
modelo de regresión lineal múltiple con variables independientes es el polinomio de primer
orden.

23
Donde los j son los parámetros del modelo que se conocen como coeficientes de regresión y 
es el error aleatorio, con media cero,E( y V()=σ2 Si en la ecuación (1.22)K=1 , estamos en el
caso de regresión lineal simple y el modelo es una línea recta; si K=2 , tal ecuación representa un
plano. En general, la ecuación (1.22) representa un hiperplano en el espacio de K dimensiones
generado por las variables Xj .

El término lineal del modelo de regresión se emplea debido a que la ecuación (1.22) es función
lineal de los parámetros desconocidos 0 1…k La interpretación de éstos es muy similar a lo ya
explicado para el caso de regresión lineal simple:0 es la ordenada al origen, y j mide el
cambio esperado en Y por cambio unitario en Xj cuando el resto de las variables regresoras se
mantienen fijas o constantes. Para encontrar los coeficientes de regresión múltiple por el método
de mínimos cuadrados aplicamos el siguiente sistema de ecuaciones normales:

La solución manual aplicando el sistema de tres ecuaciones lineales con tres incógnitas
(3x3) pudiera ser aplicando el métodos de eliminación de Gauss o bien el método de Cramer.
Para este tipo de planteamiento se recomienda el método de Cramer el cual consiste en la
siguiente secuencia:

24
Inferencia en R.L.M
Error estándar de estimación Al igual que en regresión lineal simple, el error estándar de
estimación proporciona la medida del error de ajuste de un modelo, éstas tienen una
interpretación similar a la que se dio para el caso de regresión lineal simple. En cuanto al cálculo
en el caso múltiple, el error estándar de estimación

Prueba de hipótesis para los coeficientes 1 2

La prueba de significancia de la regresión es una de la pruebas de hipótesis utilizadas para medir

25
la bondad de ajuste del modelo. Esta prueba determina si existe una relación lineal entre la
variable respuesta y alguna de las variables regresoras . La hipótesis estadística
adecuada es

Al rechazar la hipótesis nula se concluye que al menos una de las variables regresoras contribuye
significativamente al modelo.

La prueba estadística utilizada es

La cual asumiendo que la hipótesis nula es cierta se distribuye con grados de libertad en el
numerador y grados de libertad en el denominador.

Se rechaza la hipótesis nula si el valor calculado de la estadística de prueba es mayor que el valor
teórico de la distribución .

Ejemplo

La hipótesis es dada por

La prueba estadística utilizada es

26
Luego como el valor P=0,00 entonces se rechaza la hipótesis nula lo cual significa que al menos
una de las variables regresoras o contribuye significativamente al modelo.

27
Prueba de Significancia para cada coeficiente de la regresión
La prueba individual de un coeficiente de regresión puede se útil para determinar si:

Se incluyen otra variable regresora

Se elimina una una o más variables regresoras presentes en el modelo

La adición de variables regresoras en el modelo implica:

La SC incremente

La SC disminuya

pero se debe decidir si el incremento en la SC es tan significativo que justifique la


inclusión de otra variable regresora en el modelo, ya que la inclusión de variables que no

deberían ser incluidas puede aumentar la SC .

La hipótesis para probar la significancia dede cualquier coeficiente de regresión es

Si la hipótesis nula no es rechazada, es un indicador de que la variable regresora puede ser


eliminada del modelo.

La prueba estadística para la hipótesis es

donde es el elemento de la diagonal de la matriz correspondiente a . La prueba


estadística se distribuye con grados del libertad del error. La hipótesis nula se
rechaza si:

28
Importante

1. Esta prueba es una prueba marginal, es decir se está determinando la contribución


de dado que las otras variables regresoras estan presentes en el modelo. Por ello, no se debe
apresurar en eliminar una variable regresora cuando la prueba no sea significativa.

2. También se puede determinar la contribución en la SC , de la variable

regresora dado que las otras variables regresoras están presentes en el modelo, por medio
del método de Suma de Cuadrados Extra (link:cap5\leccion8\suma-extra.tex)

Ejemplo

Los programas estadísticos producen una tabla para la prueba de cada coeficiente

Estimado Error estándar T Valor p

CONSTANTE -94,552 9,96343 -9,48991 0,0002

X1 2,80155 0,300978 9,30816 0,0002

X2 1,07268 0,0932349 11,5052 0,0001

Los errores estándar de los parámetros son las raíces de los elementos de la diagonal de la
matriz de varianza-covarianza del vector de parámetros estimados hallada en ejemplo de la
Lección anterior

La primera fila prueba la hipótesis

de la cual se concluye que el intercepto es significativamente diferente de cero.

La segunda fila prueba la hipótesis

de la cual se concluye que el coeficiente de regresión es significativamente diferente de cero

29
y por tanto la variable contribuye significativamente al modelo.

La tercera fila prueba la hipótesis

de la cual se concluye que el coeficiente de regresión es significativamente diferente de cero


y por tanto la variable contribuye significativamente al modelo.

Estimación de intervalos de confianza para 1 2


para la construcción de los intervalos de confianza para los coeficientes de regresión se debe
asumir que los errores son normalmente distribuidos, independientes
con y Este supuesto hace que variable sea también una variable

normal ya que es una función de una variable normal, con y


vatrianza .

Debido a que el estimador de mínimos cuadrados es una función de entonces es


normalmente distribuido con

Como

entonces la distribución marginal de cualquier coeficiente de regresión es normal con

Donde es el elemento de la matriz . Luego

30
es una cantidad pivotal para la construcción del intervalo de confianza para cuya
distribución de probabilidad es con grados de libertad.

Donde obtenido de la tabla de Anova. Por tanto un intervalo de confianza

del por ciento para el coeficiente de regresión , , es

Ejemplo

los intervalos de confianza del 95% para los parámetros son:

Parámetro Estimado Error estándar Límite inferior Límite superior

-94,552 9,96343 -120,164 -68,9402

2,80155 0,300978 2,02786 3,57524

1,07268 0,0932349 0,833014 1,31235

Predicción de la variable dependiente y


También es posible obtener un intervalo de confianza con respecto a la respuesta media en un
punto particular, digamos x10 x20…xk está dado por

Coeficiente de determinación múltiple


En estadística, el coeficiente de determinación, denominado R² y pronunciado R cuadrado, es un
estadístico usado en el contexto de un modelo estadístico cuyo principal propósito es predecir
futuros resultados o probar una hipótesis. El coeficiente determina la calidad del modelo para
replicar los resultados, y la proporción de variación de los resultados que puede explicarse por el
modelo

31
Un modelo estadístico se construye para explicar una variable aleatoria que
llamaremos dependiente a través de otras variables aleatorias a las que
llamaremos factores. Dado que podemos predecir una variable aleatoria mediante
su media y que, en este caso, el error cuadrático medio es su varianza, el máximo
error cuadrático medio que podemos aceptar en un modelo para una variable
aleatoria que posea los dos primeros momentos es la varianza. Para estimar el
modelo haremos varias observaciones de la variable a predecir y de los factores.
A la diferencia entre el valor observado de la variable y el valor predicho la
llamaremos residuo. La media cuadrática de los residuos es la varianza residual.

Si representamos por σ2 la varianza de la variable dependiente y la varianza


residual por σ2r , el coeficiente de determinación viene dado por la siguiente
ecuación:

Se mide en tantos por ciento. Si la varianza residual es cero, el modelo explica el


100% de valor de la variable; si coincide con la varianza de la variable
dependiente, el modelo no explica nada y el coeficiente de determinación es del
0%. En variables económicas y financieras, suele ser difícil conseguir un
coeficiente de determinación mayor de un 30%

El coeficiente de determinación corregido en un modelo de regresión lineal mide el


porcentaje de variación de la variable dependiente (al igual que el coeficiente de
determinación) pero teniendo en cuenta el número de variables incluidas en el
modelo.

Sabemos que a medida que vamos incluyendo variables en el modelo, el


coeficiente de determinación aumenta aunque las variables que incluyamos no
sean significativas. Esto supone un problema, ya que no debemos olvidar que la
inclusión de nuevas variables supone un aumento en el número de parámetros a
estimar para el modelo....

Coeficiente de determinación ajustado


El coeficiente de determinación corregido viene a resolver este problema del
coeficiente de determinación.

32
Se define como:

Dónde: N es el tamaño de la muestra y k refleja el número de variables.

Usos:

- Se emplea habitualmente para comparar modelizaciones alternativas que


manteniendo el mismo número de observaciones varían en el número de
regresores especificados.

- Resulta de especial interés en situaciones en las que el número de variables


explicativas está cercano al número de observaciones de la muestra.

Análisis residuales
Como ya se ha mencionado anteriormente, el residual es dado por , los cuales
contienen dentro de ellos información sobre el porque el modelo no se ajusta a los datos. Por ello
es necesario realizar un análisis de los residuales para obtener cualquier peculiaridad que el ajuste
de regresión pueda tener.

Cuando se propone el modelo para el juste de los datos se establecen unos supuestos sobre la
variable error:

Independencia de los errores

Los errores se distribuyen normal con media cero

Los errores son independientes

Los errores tienen varianza constante

Cuando se ajusta el modelo se espera que los residuales exhiban el cumplimiento de los anteriores
supuestos sobre la variable error. Despues de examinar los residuales sólo se podrá decir
que los supuestos parecen ser violados o los supuestos parecen no ser violados. Esto
último no significa que los supuestos se cumplan; esto significa que sobre la base de los datos se
ha visto que no hay razón para decir que los supuestos no se cumplen.

Normalidad de los residuales

33
Nosotros usualmente asumimos que y que todos los errores son inependientes
uno del otro,pero sus estimados, los residuales no pueden ser independientes. Los gráficos
utilizados son: el histograma, el gráfico de probabilidad normal entre otros.

Histograma de frecuencias relativas.

Se realiza un histograma con los datos y se observa si la forma de la gráfica es simétrica.

Gráfico de Probabilidad Normal

Este se puede obtener por el procedimiento descrito en la sección de distribución normal curso
dieño virtual: validación de supuestos. Ver guía de Excel o tambien al ejecutar el análisis de
regresión en Excel y elegir gráfico de probabilidad normal. Excel utiliza los residuales y aplica el
mismo procedimiento descrito en la guía de Excel, e incluye salidas de dos columnas:

Percentil Y

donde

es el mismo valor utilizado por el procedimiento descrito en la guía de Excel.

Interpretación: Si los puntos parecen ajustarse a una línea recta, puede decirse que parece indicar
que los datos provienen de una distribución normal, pero tenga en cuenta que en algunos casos,
aunque los puntos se ajusten a una línea recta puede que los datos no provengan de una
distribución normal; por ello se recomienda utilizar métodos objetivos.

Ejemplo

Para el ejemplo tratado, los valores fueron:

Percentil Densidad Optica

6,25 4

18,75 9

34
Percentil Densidad Optica

31,25 18

43,75 20

56,25 35

68,75 41

81,25 47

93,75 60

\includegraphics{prob-nor-densidad-optica.jpg}

Figura 1. Gráfico de probabilidad normal para los residuos de la densidad optica

Independencia de los errores

Las variable aleatorias error, son independientes. El cumplimiento del supuesto de


independencia se puede determinar gráficamente mediante un gráfico de los residuales contra el
orden en que se tomaron las observaciones (si se tiene). Para los datos del ejemplo, el gráfico se
muestra en la figura 2. No se observa un patrón característico, por lo tanto, parece indicar que los
residuos se encuentran independientes o aleatoriamente distribuídos.

\includegraphics{residuales.gif}

Figura 2. Gráfico de residuales vs orden para la densidaad óptica

Análisis de los residuales

Pronóstico Residuos
Observación Residuos
Densidad Optica estándares

1 5,13087491 -1,13087491 -0,909114892

2 9,068691251 -0,068691251 -0,055221173

3 16,94432393 1,055676067 0,84866224

4 20,88214027 -0,882140275 -0,709156118

35
Pronóstico Residuos
Observación Residuos
Densidad Optica estándares

5 32,6955893 2,304410701 1,852525039

6 40,57122198 0,428778019 0,344696375

7 48,44685466 -1,446854664 -1,163132289

8 60,26030369 -0,260303688 -0,209259182

Observación: corresponde al número de la observación de la variable

Pronóstico Densidad Optica: corresponde al valor pronosticado por la ecuación de regresión para
la variable .

Residuos: corresponde a la diferencia obtenida entre el valor verdadero y el pronosticado.

Residuos estándares: corresponde a

Matriz de correlación
El análisis factorial se puede utilizar para estudiar series numéricas o de valores cuantitativos para
un determinado número de variables cuantitativas mayor de dos. Por ejemplo, tres características
o más para series numéricas con igual número de datos.

Estas variables independientes o explicativas están dispuestas ya en una matriz de correlación,


que es una tabla de doble entrada para A B y C, que muestra una lista multivariable
horizontalmente y la misma lista verticalmente y con el correspondiente coeficiente de correlación
llamado r o la relación entre cada pareja en cada celda, expresada con un número que va desde 0
a 1. El modelo mide y muestra la interdependencia en relaciones asociadas o entre cada pareja de
variables y todas al mismo tiempo.

Aplicaciones
Para hacer más potente el análisis factorial los programas estadísticos incluyen otros análisis
multivariables como es el análisis de pautas o camino, path analysis, y otros coeficientes de
correlación como es el de rangos o la correspondencia en el orden entre cada pareja en las series y
se designa por ro.

36
Puede utilizarse esta técnica para muchos propósitos como es la Escala de actitud o Prioridades
sociales. También un análisis diacrónico de triangulación o varias aplicaciones en sucesivos
períodos de tiempo y con diferentes métodos para cada aplicación.

La representación gráfica de la matriz de correlación es una línea recta diagonal en los ejes
cartesianos en los que las abscisas son las variables y los coeficientes son una nube de puntos.

El test, que está empleando un coeficiente de correlación o asociación, no es inferencial o


predictor, ya que es no-paramétrico o libre de probabilidad, y es descriptivo, no causal. Un test del
nivel significativo de los coeficientes de correlación valida la prueba.

Las tablas de asociación 2 x 2 es el caso más elemental o simple de variables dicotomizadas, que
igualmente miden o describen la significación estadística. A veces las representaciones gráficas
son más descriptivas de la asociación entre variables.

37
Bibliografía
Regresión lineal múltiple:

http://networkianos.com/regresion-lineal-multiple/

Determinacion de la ecuación

01 ESTADISTICA INFERENCIAL II - LIBRO DEL CURSO Ing. Ind.

Determinacion de coeficientes

01 ESTADISTICA INFERENCIAL II - LIBRO DEL CURSO Ing. Ind.

Interpretacion de los coeficientes

01 ESTADISTICA INFERENCIAL II - LIBRO DEL CURSO Ing. Ind.

Inferencias en R.L.M

http://168.176.239.58/cursos/ciencias/2007315/html/un5/cont_08_48.html

Estimación de intervalos de confianza

01 ESTADISTICA INFERENCIAL II - LIBRO DEL CURSO Ing. Ind.

Coeficientes de determinación

https://es.wikipedia.org/wiki/Coeficiente_de_determinaci%C3%B3n

Coeficiente de determinación ajustado

https://es.wikipedia.org/wiki/Coeficiente_de_determinaci%C3%B3n_corregido

análisis residual

http://virtual.uptc.edu.co/ova/estadistica/docs/libros/2007315/lecciones_html/capitulo_2/leccio
n3/residuales.html

Matriz de correlación

https://es.wikipedia.org/wiki/Matriz_de_correlaci%C3%B3n

38

Das könnte Ihnen auch gefallen