Sie sind auf Seite 1von 25

INSTITUTO TECNOLÓGICO DE CAMPECHE

INGENIERIA INDUSTRIAL

NUM: 2 NOMBRE DEL TRABAJO: investigación


conceptual
NUM: 5 NOMBRE DE LA UNIDAD: Regresión lineal
simple y correlación

Nombre del alumno:


Materia:
Estadística inferencial
Maestro:
Bocos Patrón Ramón Agustín
Grupo:
MI3

21/11/2018
Contenido
Introducción ........................................................................................................................................ 4
La regresión lineal simple .................................................................................................................... 5
Antecedentes .................................................................................................................................. 5
Mediciones univaribles, bivariables y multivariables en estadística.................................................. 5
Definición de R.l.S................................................................................................................................ 6
Diagrama de dispersión....................................................................................................................... 6
Tipos de modelos de regresión lineal ................................................................................................. 7
Método de mínimos cuadrados .......................................................................................................... 8
Interpretación de la pendiente del modelo ...................................................................................... 10
Suposiciones en la regresión lineal simple ........................................................................................ 11
Prueba “t” de independencia entre las variables (significación de la regresión). ........................ 13
Intervalo de Confianza para β 1 y β 0 (pendiente y ordenada del modelo). ....................................... 14
Intervalo de confianza para la ordenada al origen β1. ...................................................................... 15
Intervalo de Confianza para la media µ y,x . ........................................................................................ 16
Intervalo de Confianza de predicción para una observación futura Yi............................................ 16
Análisis residual (gráfico y numérico). .............................................................................................. 17
Gráfica de residuales contra ȳ ....................................................................................................... 19
El coeficiente de Determinación ....................................................................................................... 20
Cálculo del coeficiente e interpretación ........................................................................................... 21
Introducción
Este documento tiene como objetivo dar a conocer los
conceptos utilizados en la unidad 5 de la materia estadística
inferencial 1 impartida en la carrera de ingeniería industrial
por el maestro Ramón Bocos, esta materia nos será muy útil
en el campo laboral en un futuro no muy distante debido a
que nosotros como ingenieros industriales pronosticaremos
ciertos parámetros en nuestra vida laboral.

4
La regresión lineal simple

Antecedentes
La primera forma de regresión lineal documentada fue el método de los mínimos
cuadrados que fue publicada por Legendre en 1805, Gauss publicó un trabajo en donde
desarrollaba de manera más profunda el método de los mínimos cuadrados,1 y en dónde
se incluía una versión del teorema de Gauss-Márkov.

El término regresión se utilizó por primera vez en el estudio de variables antropométricas:


al comparar la estatura de padres e hijos, donde resultó que los hijos cuyos padres tenían
una estatura muy superior al valor medio, tendían a igualarse a éste, mientras que
aquellos cuyos padres eran muy bajos tendían a reducir su diferencia respecto a la
estatura media; es decir, "regresaban" al promedio.2 La constatación empírica de esta
propiedad se vio reforzada más tarde con la justificación teórica de ese fenómeno.

El término lineal se emplea para distinguirlo del resto de técnicas de regresión, que
emplean modelos basados en cualquier clase de función matemática. Los modelos lineales
son una explicación simplificada de la realidad, mucho más ágiles y con un soporte teórico
mucho más extenso por parte de la matemática y la estadística.

Pero bien, como se ha dicho, se puede usar el término lineal para distinguir modelos
basados en cualquier clase de aplicación.

más poderosas que se encuentran disponibles actualmente.

Mediciones univaribles, bivariables y multivariables en estadística


Se debe diferenciar entre la regresión simple y la regresión múltiple. En la regresión
simple, se establece que Y es una función de solo una variable independiente. Con
frecuencia se le denomina regresión bivariada porque solo hay dos variables, una
dependiente y una independiente, y la regresión simple se representa con la formula. En
un modelo de regresión múltiple. Y es una función de dos o más variables independientes.
Un modelo de regresión con k variables independientes se puede expresar así:

También es necesario hacer una distinción entre la regresión lineal y la regresión


curvilineal (no lineal). En modelo de regresión lineal, la relación entre X y Y puede
representarse por medio de una línea recta. Sostiene que a medida que X cambia. Y

5
cambia en cantidad constante. La regresión curvilineal utiliza una curva para expresar la
relación entre X y Y. Es habitual colocar la variable independiente en el eje horizontal. La
siguiente figura11.1 (a) sugiere una relación positiva y lineal entre X y Y. Es positiva
porque X y Y parecen moverse en la misma dirección. A medida que X aumenta
(disminuye).Y aumenta (disminuye).

Definición de R.l.S
En estadística la regresión lineal o ajuste lineal es un modelo matemático usado para
aproximar la relación de dependencia entre una variable dependiente Y, las variables
independientes Xi y un término aleatorio ε. Este modelo puede ser expresado como:

Diagrama de dispersión
Un diagrama de dispersión o gráfica de dispersión o gráfico de dispersión es un tipo de
diagrama matemático que utiliza las coordenadas cartesianas para mostrar los valores de
dos variables para un conjunto de datos

Se emplea cuando una o varias variables está bajo el control del experimentador. Si existe
un parámetro que se incrementa o disminuye de forma sistemática por el
experimentador, se le denomina parámetro de control o variable independiente y
habitualmente se representa a lo largo del eje horizontal (eje de las abscisas). La variable
medida o dependiente usualmente se representa a lo largo del eje vertical (eje de las
ordenadas). Si no existe una variable dependiente, cualquier variable se puede
representar en cada eje y el diagrama de dispersión mostrará el grado de correlación (no
causalidad) entre las dos variables.

Un diagrama de dispersión puede sugerir varios tipos de correlaciones entre las variables
con un intervalo de confianza determinado. La correlación puede ser positiva (aumento),

6
negativa (descenso), o nula (las variables no están correlacionadas). Se puede dibujar una
línea de ajuste (llamada también "línea de tendencia") con el fin de estudiar la correlación
entre las variables. Una ecuación para la correlación entre las variables puede ser
determinada por procedimientos de ajuste. Para una correlación lineal, el procedimiento
de ajuste es conocido como regresión lineal y garantiza una solución correcta en un
tiempo finito.

Tipos de modelos de regresión lineal


Ala ecuación con que se describe cómo se relaciona y con x y en la que se da un término
para el error, se le llama modelo de regresión. El siguiente es el modelo que se emplea en
la regresión lineal simple.

β0 y β1 se conocen como los parámetros del modelo, y ε (la letra griega épsilón) es una
variable aleatoria que se conoce como término del error. El término del error da cuenta
de la variabilidad de y que no puede ser explicada por la relación lineal entre x y y.

A la ecuación que describe la relación entre el valor esperado de y, que se denota E(x), y x
se le llama ecuación de regresión. La siguiente es la ecuación de regresión para la
regresión lineal simple.

7
La gráfica de la ecuación de regresión lineal simple es una línea recta; β0 es la intersección
de la recta de regresión con el eje y, β1 es la pendiente y E(y) es la media o valor esperado
de y para un valor dado de x.

Método de mínimos cuadrados


Suponga que las variables X y Y están relacionadas linealmente y que para cada valor de ,
la variable dependiente, Y, es una variable aleatoria. Es decir, que cada observación de Y
puede ser descrita por el modelo:

donde ε es un error aleatorio con media cero y varianza . También suponga que los
errores aleatorios no están correlacionados. La ecuación (1.1) es conocida como el modelo
de regresión lineal simple. Bajo el supuesto de que este modelo es adecuado y como el
valor esperado del error es cero, E(ε)=0 , se puede ver que el valor esperado de la variable
Y, para cada valor de X , está dado por línea recta

8
En donde β0 y β1 son los parámetros del modelo y son constantes desconocidas. Por lo
tanto, para tener bien especificada la ecuación que relaciona las dos variables será
necesario estimar los dos parámetros, que tienen los siguientes significados:

Un procedimiento para ajustar la mejor recta y, por lo tanto, para estimar β0 y β1 es


mediante el método de mínimos cuadrados, el cual consiste en lo siguiente: si de la
ecuación (1.1) despejamos los errores, los elevamos al cuadrado y los sumamos,
obtendremos lo siguiente:

De esta forma, se quieren encontrar los valores de β0 y β1 que minimizan la suma de los
errores cuadrados. Es decir, se busca ajustar la recta de manera que la suma de las
distancias en forma vertical de los puntos a la recta se minimice

9
Interpretación de la pendiente del modelo
La interpretación de a y b, es análoga a la que comentábamos en el apartado 6.1.3.2, sólo
que como ya dijimos entonces, b recibe el nombre de Coeficiente de Regresión.

Como podemos observar, en el numerador de b, aparece la covarianza, y en el


denominador la varianza de la variable independiente. Esto hace que el signo de b sea el
mismo signo que el de la covarianza, por lo que si b>0, entonces, existe una relación
directa entre las variables, y si b<0 entonces la relación es inversa.

10
En nuestro ejemplo de talla y edad, b sería el incremento medio que se produce en la
talla, por cada incremento unitario de edad; si la edad está en años, por cada año
aumente la edad.

Si queremos predecir un valor yi a partir de un valor concreto de xi, utilizaremos la


expresión de la ecuación donde ahora ya, a y b son conocidos. No olvidemos que ese era
uno de los objetivos del análisis, tratar de conocer valores de Y a partir de los de X:

y*i = a+bxi

Suposiciones en la regresión lineal simple


1. Linealidad. Si no se tiene linealidad se dice que tenemos un error de especificación.
En el caso de que sean varias variables independientes, la opción Analizar-
RegresiónLineal-Gráficos-Generar todos los gráficos parciales nos da los diagramas
de dispersión parcial para cada variable independiente. En ellos se ha eliminado el
efecto proveniente de las otras variables y así la relación que muestran es la
relación neta entre las variables representadas.
2. Independencia de la variable aleatoria “residuos” (especialmente importante si los
datos se han obtenidos siguiendo una secuencia temporal). Independencia entre
los residuos mediante el estadístico de Durbin-Watson que toma valor 2 cuando
los residuos son completamente independientes (entre 1.5 y 2.5 se considera que
existe independencia), DW2 autocorrelación negativa

3. Homocedasticidad o igualdad de varianzas de los residuos y los pronósticos. Esta


condición se estudia utilizando las variables: ZPRED=pronósticos tipificados y
ZRESID=residuos tipificados mediante: • el estadístico de Levene (ver explorar) •
un gráfico de dispersión .Que se obtiene en Analizar-Regresión-Lineal-Gráficos. El
supuesto de homocedasticidad implica que la variación de los residuos sea
uniforme en todo el rango de valores de los pronósticos (gráfico sin pautas de
asociación).

11
4. Normalidad de los residuos tipificados. Podemos contrastarla mediante: • La
prueba de Kolmogorff-Smirnov, con gráficos de normalidad de tipo Q-Q (cuantiles)
o P-P(proporciones) (ver explorar) • gráficamente en Analizar-Regresión-Lineal-
Gráficos . La opción Histograma: añade una curva N(0,1) Gráfico de Probabilidad
Normal de tipo P-P: Representa las proporciones acumuladas de la variable
esperada respecto a las proporciones acumuladas de la variable observada.

5. No-colinealidad, es decir la inexistencia de colinealidad. Esta puede ser:


colinealidad perfecta si una de las variables independientes tiene una relación
lineal con otra/as independientes, colinealidad parcial si entre las variables
independientes existen altas correlaciones

Error estándar de la estimación

Estimación de σ2 De acuerdo con el modelo de regresión y con sus suposiciones, se


puede concluir que σ2, la varianza de ε, representa también la varianza de los valores de y
respecto a la recta de regresión. Recuérdese que a las desviaciones de los valores de y de
la recta de regresión estimada se les conoce como residuales. Por lo tanto, SCE, la suma
de los cuadrados de los residuales, es una medida de la variabilidad de las observaciones
reales respecto a la línea de regresión estimada. El errorcuadrado medio (ECM)
proporciona una estimación de σ2; esta estimación es SCE dividida entre sus grados de
libertad.

A cada suma de cuadrados le corresponde un número llamado sus grados de libertad. Se


ha demostrado que SCE tiene n-2 grados de libertad porque para calcular SCE es necesario
estimar dos parámetros (β0 y β1). Por lo tanto, el cuadrado medio se calcula dividiendo
SCE entre n-2. ECM proporciona un estimador insesgado de σ2. Como el valor del ECM
proporciona un estimado de σ2, se emplea también la notación s2

12
Prueba “t” de independencia entre las variables (significación de la
regresión).
El modelo de regresión lineal simple es y = 𝛽 0 + 𝛽 1 x + ϵ. Si x y y están relacionadas
linealmente, Entonces 𝛽 1 ≠ 0. El objetivo de la prueba t es determinar si se puede concluir
que 𝛽 1 ≠0. Para probar la hipótesis siguiente acerca del parámetro 𝛽 1 se emplearán los
datos muestrales.

H0: 𝛽 1 =0

Ha ∶ 𝛽 1≠ 0

Si se rechaza H0, se concluirá que b1 0 y que entre las dos variables existe una relación
estadísticamente significante. La base para esta prueba de hipótesis la proporcionan las
propiedades de la distribución muestral de b1, el estimador de 𝛽1, obtenido mediante el
método de mínimos cuadrados.

Primero, considérese que es lo que ocurriría si para el mismo estudio de regresión se


usara otra muestra aleatoria simple. Supóngase, por ejemplo, que Armand’s Pizza Parlors
usa una muestra de las ventas de otros 10 restaurantes. El análisis de regresión de esta
otra muestra dará como resultado una ecuación de regresión parecida a la ecuación de
regresión anterior 𝑌̂ = 60 + 5x. Sin embargo, no puede esperarse que se obtenga
exactamente la misma ecuación (una ecuación en la que la intersección con el eje y sea
exactamente 60 y la pendiente sea exactamente 5). Los estimadores b0 y b1, obtenidos
por el método de mínimos cuadrados, son estadísticos muestrales que tienen su propia
distribución muestral. A continuación se presentan las propiedades de la distribución
muestral de b1.

13
Obsérvese que el valor esperado de b1 es 𝛽1, por lo que b1 es un estimador insesgado de
𝛽 1.

Como no se conoce el valor de σ, se obtiene una estimación de σ𝑏1 , que se denota S𝑏1 ,
estimandoσ mediante s en la ecuación (14.17). De esta manera se obtiene el estimador
siguiente de σ𝑏1 .

Intervalo de Confianza para β 1 y β 0 (pendiente y ordenada del


modelo).
Para el intervalo de confianza de la pendiente β1 se utiliza la distribución t de student con
n-2 grados de libertad ya que se desconoce la varianza de la población 𝜎2𝛽 ; el estimador
de esta varianza se define por:

14
Por lo tanto el estadístico de prueba se define como:

En el intervalo de confianza de nivel 1-α estab dado por :

Una prueba muy sensilla y util es la prueba de independencia entre variables. Si la


hipotesis nula H0: B1=0 es aceptada, Y no depende linealmente de X, en caso contrario, se
dice que Y depende de X.

Intervalo de confianza para la ordenada al origen β1.


Para probar H0, se utiliza la distribucion t de student con n-2 grados de libertad y ccuya
expresion esta dada por :

El intervalo de confianza del 95% está definido por

15
Intervalo de Confianza para la media µ y,x .
A veces es conveniente estimar el valor medio o separado de Y para el un valor dado de X,
tal estimación se hace con el intervalo de confianza:

Al calcular los límites de confianza para los valores de medios, estos se obtiene para cada
valor de Xo; tales limites serán más estrechos a medida que se aproximan a la medida de
la variable independiente y más amplios a medida que se alejan de ella, por esta razón se
obtienen limites llamados bandas de confianza dentro de las cuales queda comprendida la
recta verdadera para un nivel de significación a.

Para trazar las bandas de confianza se elegirán cuando menos 3 valores de X0 dos valores
extremos y uno intermedio, y se harán las estimaciones por intervalo. Estos intervalos se
dibujan sobre los diagramas de dispersión uniendo todos los puntos generados por los
límites inferiores y por otro lado, todos los correspondientes a los límites superiores.

Intervalo de Confianza de predicción para una observación futura Yi


Como las bandas de confianza se abren a medida que Xo se aleja de la media X, resulta
aventurado hacer predicciones sobre Y para valores fuera de la escala de valores de X
empleada para establecer la ecuación de regresión de la muestra. A menos de que este
razonablemente seguro que existe la misma función de regresión sobre un amplio rango
de valores de X, por haberse experimentado en una muestra, se podrá usar valores de Xo
alejados de la media X para predecir valores de Y.

Cuando se hacen predicciones, estas, más que ser sobre valores medios de Y,
son para valores individuales, por lo tanto el error debido al azar (error de estimación

16
) es una fuente adicional de variación, por ello la varianza se ve aumentada y el

intervalo de confianza para un valor de predicción es más amplio que el de

Análisis residual (gráfico y numérico).


El análisis residual es la herramienta principal para determinar si el modelo de regresión
empleado es apropiado.
Como ya se indicó, el residual de la observación i es la diferencia entre el valor observado
de la variable dependiente (yi) y el valor estimado de la variable dependiente (yˆ )

donde

y¡ es el valor observado de la variable dependiente

𝑦̂ es el valor estimado de la variable dependiente

En otras palabras, el residual i es el error que resulta de usar la ecuación de regresión


estimada
para predecir el valor de la variable dependiente. En la tabla 14.7 se calculan estos
residuales correspondientes a los datos del ejemplo de Armand’s Pizza Parlors. En la
segunda columna de la
tabla se presentan los valores observados de la variable dependiente y en la tercera
columna, los
valores estimados de la variable dependiente obtenidos usando la ecuación de regresión
estimada
𝑦̂ = 60 + 5x. Un análisis de los residuales correspondientes, que se encuentran en la cuarta
columna de la tabla, ayuda a determinar si las suposiciones hechas acerca del modelo de
regresión son adecuadas.
A continuación se revisan las suposiciones de regresión en el ejemplo de Armand’s Pizza
Parlors. Se supuso un modelo de regresión lineal simple
y =𝛽 0 + 𝛽 1 x + ϵ (14.29)

17
Este modelo indica que se supone que las ventas trimestrales (y) son función lineal del
tamaño
de la población de estudiantes (x), más un término del error ϵ. En la sección 14.4, para el
término
del error ϵ se hicieron las siguientes suposiciones
1. E(ϵ) = 0.
2. La varianza de ϵ, que se denota σ2, es la misma para todos los valores de x.
3. Los valores de ϵ son independientes.
4. El término del error ϵ tiene distribución normal.
Estas suposiciones son la base teórica para las pruebas t y F que se usan para determinar
si la relación
entre x y y es significativa y para las estimaciones, mediante intervalos de confianza y de
predicción, presentadas en la sección 14.6. Si las suposiciones acerca del término del error
ϵ son
dudosas, puede ser que las pruebas de hipótesis acerca de la significancia de la relación de
regresión y los resultados de la estimación por intervalo no sean correctos.
Los residuales proporcionan la mejor información acerca de ϵ; por lo tanto, el análisis de
los
residuales es muy importante para determinar si las suposiciones hechas acerca de ϵ son
apropiadas.
Gran parte del análisis residual se basa en examinar gráficas. En esta sección se estudiarán
las siguientes gráficas de residuales.
1. La gráfica de residuales contra los valores de la variable independiente x
2. La gráfica de residuales contra los valores pronosticados para la variable dependiente 𝑦̂
3. La gráfica de residuales estandarizados
4. La gráfica de probabilidad normal.

Gráfica de residuales contra x La gráfica de residuales contra la variable independiente x


es una gráfica en la que los valores de la variable independiente se representan en el eje
horizontal y los valores de los residuales correspondientes se representan en el eje
vertical. Para cada residual se grafica un punto. La primera coordenada de cada punto está
dada por el valor xi y la segunda coordenada está dada por el correspondiente valor del
residual yi i. En la gráfica de residuales contra x obtenida con los datos de Armand’s Pizza
Parlors de la tabla 14.7, las coordenadas del primer punto son (2,-12), que corresponden a
x1 = 2 y y1-ȳ1 = -12; las coordenadas del segundo punto son (6, 15), que corresponden a
x2 = 6 y y2 -ȳ2 = 15; etc. En la figura 14.11 se muestra la gráfica de residuales obtenida.
Antes de interpretar los resultados de esta gráfica de residuales, se considerarán algunas
de las formas generales que pueden tener las gráficas de residuales. En la figura 14.12 se
muestran tres ejemplos. Si la suposición de que la varianza de es la misma para todos los
valores de x y si el modelo de regresión empleado representa adecuadamente la relación
entre las variables, el aspecto general de la gráfica de residuales será el de una banda

18
horizontal de puntos como en la gráfica A de la figura 14.12. Pero si la varianza de no es la
misma para todos los valores x —por ejemplo, si la variabilidad respecto a la línea de
regresión es mayor para valores de x mayores— el aspecto de la gráfica puede ser como el
de la gráfica B de la figura 14.12. En este caso, se viola la suposición de que tiene una
varianza constante. En la gráfica C se muestra otra forma que puede tomar la gráfica de
residuales. En este caso, se puede concluir que el modelo de regresión empleado no
representa adecuadamente la relación entre las variables, y deberá considerarse un
modelo de regresión curvilíneo o múltiple.

Gráfica de residuales contra ȳ


En otra gráfica de residuales los valores pronosticados para la variable dependiente se
representan en el eje horizontal y los valores de los residuales en el eje vertical. A cada
residual corresponde un punto en la gráfica. La primera coordenada de cada uno de los
puntos es i y la segunda coordenada es el valor correspondiente del residual i,yi i.
Empleando los datos de Armand’s, tabla 14.7, las coordenadas del primer punto son (70,-
12), que corresponden a ȳ1 = 70 y y1 ȳ 1=-12; las coordenadas del segundo punto son (90,
15), etc. En la figura 14.13 se presenta esta gráfica de residuales. Obsérvese que la forma
de esta gráfica de residuales es igual a la forma de la gráfica de residuales contra la
variable independiente x. Esta no es una forma que pudiera llevar a dudar de las

19
suposiciones del modelo. En la regresión lineal simple, tanto la gráfica de residuales contra
x como la gráfica de residuales contra tienen la misma forma. En el análisis de regresión
múltiple, la gráfica de residuales contra se usa más debido a que se tiene más de una
variable independiente.

El coeficiente de Determinación
La intensidad de una relación entre dos variables de una población por lo general se mide
mediante el coeficiente de correlación p, cuyos valores van desde -1, correspondiente a
una correlación perfectamente negativa, hasta +1, correspondiente a una correlación
perfectamente positiva. En la figura 17.6 se ilustran estas tres diferentes clases de
asociación entre variables. En el panel A de esta figura presentamos una relación lineal
negativa prefecta entre X y Y, de modo que Y disminuirá de una manera perfectamente
predecible en la medida que X aumenta. En el panel B se tiene un ejemplo en el que no
hay relación entre X y Y. a medida que X no se da ningún cambio en Y, de modo que no
hay ninguna asociación entre los valores de X y los de Y. por el contrario, en el panel C se
presenta una correlación perfectamente positiva entre las dos variables. En este caso, Y
aumenta de una manera perfectamente predecible conforme se incrementa X.

Para problemas orientados a la regresión, el coeficiente de correlación de muestra (r)


puede obtenerse de la siguiente manera:

𝑠𝑢𝑚𝑎 𝑑𝑒 𝑐𝑢𝑎𝑑𝑟𝑎𝑑𝑜𝑠 𝑑𝑒𝑏𝑖𝑑𝑜 𝑎 𝑙𝑎 𝑟𝑒𝑔𝑟𝑒𝑠𝑖ó𝑛 𝑆𝑆𝑅


𝑟2 = =
𝑠𝑢𝑚𝑎 𝑡𝑜𝑡𝑎𝑙 𝑑𝑒 𝑐𝑢𝑎𝑑𝑟𝑎𝑑𝑜𝑠 𝑆𝑆𝑇

De modo que

𝑟 = √𝑟 2

En casos de regresión lineal simple, r toma el signo de b1; si este es positivo, r es positivo;
si b1 es negativo, r es negativo; y si b1 es cero, r es cero.

La regresión y la correlación son dos técnicas separadas: la regresión tiene que ver con la
predicción y la correlación con la asociación. En muchas aplicaciones solamente nos

20
interesa la medición de la asociación entre variables, y no con el uso de una variable para
predecir otra.

Si únicamente se lleva a cabo un análisis de correlación de un conjunto de datos, el


coeficiente de correlación de muestra r, puede calcularse directamente utilizando la
siguiente fórmula:

∑𝑛𝑖=1(𝑋1 − 𝑋̅)(𝑌1 − 𝑌̅)


𝑟=
√∑𝑛𝑖=1(𝑋1 − 𝑋̅)2 √∑𝑛𝑖=1(𝑌1 − 𝑌̅)2

Cálculo del coeficiente e interpretación


En estadística, el coeficiente de determinación, denominado R² y pronunciado R cuadrado,
es un estadístico usado en el contexto de un modelo estadístico cuyo principal propósito
es predecir futuros resultados o probar una hipótesis. El coeficiente determina la calidad
del modelo para replicar los resultados, y la proporción de variación de los resultados que
puede explicarse por el modelo.1

Hay varias definiciones diferentes para R² que son algunas veces equivalentes. Las más
comunes se refieren a la regresión lineal. En este caso, el R² es simplemente el cuadrado
del coeficiente de correlación de Pearson, lo cual es sólo cierto para la regresión lineal
simple. Si existen varios resultados para una única variable, es decir, para una X existe una
Y, Z... el coeficiente de determinación resulta del cuadrado del coeficiente de
determinación múltiple. En ambos casos el R² adquiere valores entre 0 y 1. Existen casos
dentro de la definición computacional de R² donde este valor puede tomar valores
negativos.2

21
Análisis de correlación
En la rama de la estadística, la correlación se refiere a que existe un vínculo entre varios
eventos. Una de las herramientas que nos permite inferir si existe dicho vínculo es
justamente el análisis de correlación. Este procedimiento tiene por objetivo indicarnos si
existe relación entre dos eventos – es decir, variables–, un poco sobre la naturaleza de
dicha relación, y su fuerza. Para poder realizar un análisis de correlación confiable, lo
primero que se necesita es realizar muchas observaciones de dos variables

El análisis de correlación general da como resultado un número entre -1 y 1, llamado


coeficiente de correlación. Este resultado nos sirve para entender tres cosas: Si existe o
no correlación entre las variables. Un coeficiente que valga cero indica que nuestras
variables son independientes; un ejemplo de esto sería que no hay relación entre qué tan
dulce es una fruta y cuál es el precio de un litro de jugo. Qué tan fuerte es la correlación (si
es que existe). A más se ‘aleje del cero’ el coeficiente, más fuerte será la correlación entre
las dos variables. Siendo así, las correlaciones cuyo coeficiente esté más cerca de -1 o 1
serán más poderosas. Detalles sobre la naturaleza de la correlación. Existen correlaciones
llamadas directas (donde ambas variables aumentan o disminuyen simultáneamente) e
inversas (donde cuando una variable aumenta, la otra disminuye). Un coeficiente positivo
significa que la correlación es del primer tipo, mientras que uno negativo indica que es del
segundo. Un ejemplo de correlación positiva es que, si el precio de una fruta aumenta, el
precio de un litro de jugo de dicha fruta también aumentará; una correlación negativa
sería que a más gente consuma una fruta, menor cantidad de fruta estará disponible. El
coeficiente de correlación es el resultado de dividir la covarianza entre las variables X y Y
entre la raíz cuadrada del producto de la varianza de X y la de Y.

22
Prueba de hipótesis sobre el coeficiente de correlación
La prueba de hipótesis del coeficiente de correlación poblacional Rho se estima con (r) y
corresponde a las siguientes hipótesis

H0: p=0

H1:p≠0

Esta prueba se hace con n-1 grados de libertad

Mientras más cercano a cero sea el coeficiente de correlación, se indicará que tan débil es la
asociación entre ambas variables. Si es igual cero se concluirá que no existe relación lineal alguna
entre ambas variables.

23
Bibliografía
Antecedentes

https://es.wikipedia.org/wiki/Regresi%C3%B3n_lineal#Historia

Definición de regresión lineal

https://es.wikipedia.org/wiki/Regresi%C3%B3n_lineal

Diagrama de dispersión

https://es.wikipedia.org/wiki/Diagrama_de_dispersi%C3%B3n

Determinación de la ecuación de regresión lineal simple

ESTADISTICA INFERENCIAL II - LIBRO DEL CURSO Ing. Ind

Interpretación de la pendiente del modelo

http://biplot.usal.es/problemas/regresion/teoria/regsimple.htm

Suposiciones en la regresión lineal simple

https://previa.uclm.es/profesoradO/raulmmartin/Estadistica/PracticasSPSS/Supuestos_del_model
o_de_regresion_lineal.pdf

Error estándar de la estimación

Estadistica para admin. y economia - Anderson 10 th

Prueba “t” de independencia entre las variables (significación de la regresión).

Estadistica para admin. y economia - Anderson 10 th

Intervalo de Confianza para β 1 y β 0 (pendiente y ordenada del modelo).

Estadistica para admin. y economia - Anderson 10 th

Análisis residual (gráfico y numérico).

Estadistica para admin. y economia - Anderson 10 th

El coeficiente de Determinación

http://www.dm.uba.ar/materias/estadistica_Q/2011/1/clase%20regresion%20simple.pdf

Cálculo del coeficiente e interpretación

http://www.dm.uba.ar/materias/estadistica_Q/2011/1/clase%20regresion%20simple.pdf

24
Análisis de correlación

http://bioestadistico.com/correlacion-como-prueba-de-hipotesis

Videos de apoyo al tema


regresion lineal simple EJEMPLO 1: estadistica inferencial

https://www.youtube.com/watch?v=DGnl3n2SqJk&t=157s

Regresión lineal PARTE 1, Explicación teórica, fórmula de regresión, errores en experimentos

https://www.youtube.com/watch?v=rFLgLOsU1LM

25