Sie sind auf Seite 1von 11

Coeficiente de Regresión

Partimos de:
 : variable independiente
 : variable dependiente
Y teniendo en cuenta:
 Hipótesis de partida (o hipótesis teórica): : Las dos variables en estudio son
independientes
 Hipótesis Alternativa: : Las dos variables de estudio están relacionadas

 . Si el $p-valor < 0.05$ existe relación lineal significativa entre las variables.
Análisis de regresión:
Consiste en encontrar la recta que mejor describe la relación entre las dos
variables, que tiene la forma: . Y a la cual llamaremos Modelo de
Regresión.

Recta ajustada. Fuente: USAL MOOC. http://youtu.be/ZQb7wjzbfds?t=4m13s

Al coeficiente b es el coeficiente de regresión, también representa la pendiente


(inclinación de la recta). De rojo el valor observado y de azul el valor estimado.
– Cálculo de los coeficientes: Criterio de los mínimos cuadrados:
Recta ajustada:

 Cálculo del coeficiente de regresión: El signo que tenga la covarianza será el


signo que tenga el coeficiente de regresión ya que por definición la varianza es positiva. Y
nos dice cuanto cabe esperar que cambie la respuesta (y) por el incremento unitario en la
variable independiente.
 Ordenada en el origen:
Coeficiente de regresión. Fuente: USAL MOOC http://youtu.be/ZQb7wjzbfds?t=5m56s

Cómo calcular el coeficiente de regresión


Una de las herramientas básicas para los analistas científicos o ingenieros es el
coeficiente lineal. Esta técnica empieza con un juego de datos de dos variables.
La variable independiente suele llamarse "x" y la variable dependiente "y". La
meta de esta técnica es identificar la línea, y = mx + b, que se aproxima al juego
de datos. Esta línea puede mostrar, gráficamente y numéricamente, la relación
entre las variables dependiente e independiente. Para este análisis de regresión,
un valor para la correlación puede calcularse también.

Paso 1
Identifica y separa los valores de x y de y de tus puntos. Si estás usando una
hoja de cálculo, ingrésalos en columnas adyacentes. Debería haber el mismo
número de valores de x y de y. Si no es así, el cálculo será inexacto o la función
de la hoja de cálculo dará error. x = (6, 5, 11, 7, 5, 4, 4) y = (2, 3, 9, 1, 8, 7, 5)

Paso 2
Calcula el valor medio de los valores de x y de y dividiendo la suma de todos los
valores por el número de valores total en el juego. Estos promedios se llamarán
"x_avg" y y_avg". x_avg = (6 + 5 + 11 + 7 + 5 + 4 + 4) / 7 = 6 y_avg = (2 + 3 + 9 +
1 + 8 + 7 + 5) / 7 = 5

Paso 3
Crea dos nuevos juegos de datos restando el valor de x_avg de cada valor de x y
el valor de y_avg de cada valor de y. x1 = (6 - 6, 5 - 6, 11 - 6, 7 - 6 ... ) x1 = (0, -
1, 5, 1, -1, -2, -2) y1 = (2 - 5, 3 - 5, 9 - 5, 1 - 5, ... ) y1 = (-3, -2, 4, -4, 3, 2, 0)

Paso 4
Multiplica cada valor de x1 por cada valor de y1, en orden. x1y1 = (0 * -3, -1 * -2,
5 * 4, ... ) x1y1 = (0, 2, 20, -4, -3, -4, 0)

Paso 5
Eleva al cuadrado cada valor x1. x1^2 = (0^2, 1^2, -5^2, ... ) x1^2 = (0, 1, 25, 1,
1, 4, 4)

Paso 6
Calcula las sumas de los valores x1y1 y x1^2. sum_x1y1 = 0 + 2 + 20 - 4 - 3 - 4 +
0 = 11 sum_x1^2 = 0 + 1+ 25 + 1 + 1 + 4 + 4 = 36

Paso 7
Divide "sum_x1y1" por "sum_x1^2" para conseguir el coeficiente de regresión.
sum_x1y1 / sum_x1^2 = 11 / 36 = 0.306

Coeficientes
Un coeficiente de regresión describe el tamaño de la relación entre un predictor y la
variable de respuesta. Los coeficientes son los números por los cuales se multiplican
los valores del término en una ecuación de regresión.
Interpretación
El coeficiente para un término representa el cambio en la respuesta media asociada
con un cambio en el término, en tanto que los otros términos en el modelo se
mantienen constantes. El signo del coeficiente indica la dirección de la relación entre el
término y la respuesta. El tamaño del coeficiente es generalmente una buena manera
de evaluar la significancia práctica del efecto que un término tiene en la variable de
respuesta. Sin embargo, el tamaño del coeficiente no indica si un término es
estadísticamente significativo porque los cálculos de significancia también consideran
la variación en los datos de respuesta. Para determinar la significancia estadística,
examine el valor p del término.

La interpretación de cada coeficiente depende de si es un coeficiente para una variable


continua o una variable categórica, la cual se describe a continuación.

Variable continua

El coeficiente del término representa el cambio en la respuesta media para un


cambio de una unidad en ese término. Si el coeficiente es negativo, a medida
que el término aumenta, el valor medio de la respuesta disminuye. Si el
coeficiente es positivo, a medida que el término aumenta, el valor medio de la
respuesta se incrementa.

Variable categórica

Un coeficiente se muestra para cada nivel de variable categórica excepto para


uno (a menos que elija mostrar los coeficientes para todos los niveles en el
subcuadro de diálogo Resultados). El coeficiente para un nivel de la variable
categórica debe ser establecido en cero de manera que el modelo se pueda
ajustar. La interpretación del coeficiente para una variable categórica depende
del esquema de codificación que elija para las variables categóricas. El esquema
de codificación se puede cambiar en el subcuadro de diálogo Codificación.

 Con el esquema de codificación (0,1), cada coeficiente representa la diferencia


entre cada media de nivel y la media de nivel de referencia. El coeficiente para
el nivel de referencia no se muestra en la tabla Coeficientes.
 Con el esquema de codificación (−1, 0,+1), cada coeficiente representa la
diferencia entre cada media de nivel y la media general.
Por ejemplo, un gerente determina que la puntuación de un empleado en una
prueba de aptitudes laborales se puede predecir utilizando el modelo de
regresión, y = 130 + 4.3x1 +10.1x2. En la ecuación, X1 se refiere a las horas de
capacitación en el hogar (de 0 a 20) y Y es la puntuación de la prueba. La variable
x2 es una variable categórica que equivale a 1 si el empleado tiene un mentor y 0
si el empleado no tiene un mentor. La respuesta es Y y es la puntuación de la
prueba. El coeficiente para la variable continua de las horas de capacitación es de
4.3, lo cual indica que por cada hora de capacitación la puntuación media de la
prueba aumenta en 4.3 puntos. Utilizando el esquema de codificación (0,1), el
coeficiente de la variable categórica de la instrucción indica que los empleados
con mentores tienen puntuaciones que son un promedio de 10.1 puntos mayor
que la de los empleados que no tienen mentores.

Coeficientes codificados
Minitab puede ajustar los modelos lineales utilizando una variedad de esquemas
de codificación para variables continuas en el modelo. Estos esquemas de
codificación pueden mejorar el proceso de estimación y la interpretación de los
resultados. Además, las unidades codificadas pueden cambiar los resultados de
las pruebas estadísticas utilizadas para determinar si cada término es un predictor
significativo de la respuesta. Cuando un modelo utiliza unidades codificadas, el
análisis produce coeficientes codificados.

Interpretación

El método de codificación que utiliza Minitab afecta tanto la estimación como la


interpretación de los coeficientes codificados de la manera siguiente:
Especificar niveles bajos y altos para codificar como -1 y +1

Este método centra y escala las variables. Minitab utiliza este método en el
diseño de experimentos (DOE). Los coeficientes representan el cambio medio
en la respuesta asociada con los valores altos y bajos que se han especificado.

Restar la media y dividir entre la desviación estándar


Este método centra y escala las variables. Cada coeficiente representa el cambio
esperado en la respuesta ante el cambio de una desviación estándar en la
variable.

Restar la media
Este método centra las variables. Cada coeficiente representa el cambio
esperado en la respuesta ante un cambio de unidad en la variable, utilizando la
escala de medición original. Cuando se resta la media, el coeficiente constante
está estimando la respuesta media cuando todos los predictores se encuentran
en sus valores medios.

Dividir entre la desviación estándar


Este método escala las variables. Cada coeficiente representa el cambio
esperado en la respuesta ante un cambio de una desviación estándar en la
variable.

Restar un valor especificado, luego dividir entre otro


El efecto y la interpretación de este método depende de los valores que se
ingresen.

EE Coef
El error estándar del coeficiente estima la variabilidad entre las
estimaciones del coeficiente que se obtendrían si se tomara las
muestras de la misma población una y otra vez. El cálculo asume que
el tamaño de la muestra y los coeficientes a estimar se mantendrían
iguales si se tomara la muestra una y otra vez.

Interpretación
Utilice el error estándar del coeficiente para medir la precisión de la
estimación del coeficiente. Cuanto menor sea el error estándar, más
precisa será la estimación. Al dividir el coeficiente entre su error
estándar, se calcula un valor t.. Si el valor p asociado con este
estadístico t es menor que el nivel de significancia, se concluye que el
coeficiente es estadísticamente significativo.

Por ejemplo, los técnicos estiman un modelo para insolación como


parte de una prueba de energía solar térmica:

Análisis de regresión: Insolación vs. Sur, Norte, Hora del día

Coeficientes

EE del
Término Coef coef. Valor T Valor p FIV

Constante 809 377 2.14 0.042

Sur 20.81 8.65 2.41 0.024 2.24

Norte -23.7 17.4 -1.36 0.186 2.17

Hora del día -30.2 10.8 -2.79 0.010 3.86

En este modelo, Norte y Sur miden la posición de un punto focal en


pulgadas. Los coeficientes para Norte y Sur son similares en magnitud.
El error estándar del coeficiente para Sur es más pequeño que el error
estándar del coeficiente para Norte. Por lo tanto, el modelo pudo
estimar el coeficiente para Sur con mayor precisión.

El error estándar del coeficiente Norte es casi tan grande como el


valor del coeficiente mismo. El valor p resultante es mayor que los
niveles comunes del nivel de significancia, de manera que no se puede
concluir que el coeficiente para Norte es diferente de 0.

Aunque el coeficiente para Sur está más cerca de 0 que el coeficiente


para Norte, el error estándar del coeficiente para Sur es también más
pequeño. El valor p resultante es más pequeño que los niveles de
significancia comunes. Puesto que la estimación del coeficiente para
Sur es más precisa, se puede concluir que el coeficiente para Sur es
diferente de 0.

La significancia estadística es un criterio que se puede utilizar para


reducir un modelo en regresión múltiple. Para obtener más
información, vaya a Reducción del modelo.

Intervalo de confianza para el coeficiente (IC


de 95%)
Estos intervalos de confianza (IC) son rangos de valores que es
probable que contengan el verdadero valor del coeficiente para cada
término incluido en el modelo.
Puesto que las muestras son aleatorias, es poco probable que dos
muestras de una población produzcan intervalos de confianza
idénticos. Sin embargo, si toma muchas muestras aleatorias, un
determinado porcentaje de los intervalos de confianza resultantes
incluirá el parámetro de población desconocido. El porcentaje de
estos intervalos de confianza que contiene el parámetro es el nivel de
confianza del intervalo.

El intervalo de confianza consta de las dos partes siguientes:

Estimación de punto

Este valor individual estima un parámetro de población usando los datos de la


muestra. El intervalo de confianza está centrado alrededor de la estimación de
punto.

Margen de error
El margen de error define el ancho del intervalo de confianza y es determinado
por la variabilidad observada en la muestra, el tamaño de la muestra y el nivel
de confianza. Para calcular el límite superior del intervalo de confianza, el
margen de error se suma a la estimación de punto. Para calcular el límite
inferior del intervalo de confianza, el margen de error se resta de la estimación
de punto.

Interpretación
Utilice el intervalo de confianza para evaluar la estimación del
coeficiente de la población para cada término en el modelo.

Por ejemplo, con un nivel de confianza de 95 %, se puede estar


un 95 % seguro de que el intervalo de confianza contiene el valor
del coeficiente para la población. El intervalo de confianza ayuda
a evaluar la significancia práctica de los resultados. Utilice el
conocimiento especializado para determinar si el intervalo de
confianza incluye valores que tienen significancia práctica para su
situación. Si el intervalo es demasiado amplio para ser útil,
considere aumentar el tamaño de la muestra.

Valor t
El valor t mide la relación entre el coeficiente y su error estándar.

Interpretación
Minitab utiliza el valor t para calcular el valor p, que se utiliza para
comprobar si el coeficiente es significativamente diferente de 0.

Usted puede utilizar el valor t para determinar si puede rechazar


la hipótesis nula. Sin embargo, el valor p se utiliza con más
frecuencia, porque el valor umbral para el rechazo de la hipótesis
nula no depende de los grados de libertad. Para obtener más
información sobre cómo usar el valor t, vaya a Uso del valor t
para determinar si se puede rechazar la hipótesis nula.

Valor p – Coeficiente
El valor p es una probabilidad que mide la evidencia en contra de
la hipótesis nula. Las probabilidades más bajas proporcionan una
evidencia más fuerte en contra de la hipótesis nula.

Interpretación

Para determinar si la asociación entre la respuesta y cada término


en el modelo es estadísticamente significativa, compare el valor p
del término con su nivel de significancia para evaluar la hipótesis
nula. La hipótesis nula es que el coeficiente del término es igual a
cero, lo que implica que no hay asociación entre el término y la
respuesta. Por lo general, un nivel de significancia (denotado
como α o alfa) de 0.05 funciona adecuadamente. Un nivel de
significancia de 0,05 indica un riesgo de 5% de concluir que existe
una asociación cuando no hay una asociación real.

Valor p ≤ α: La asociación es estadísticamente significativa

Si el valor p es menor que o igual al nivel de significancia, usted puede concluir


que hay una asociación estadísticamente significativa entre la variable de
respuesta y el término.

Valor p > α: La asociación no es estadísticamente


significativa
Si el valor p es mayor que el nivel de significancia, usted no puede concluir que
existe una asociación estadísticamente significativa entre la variable de
respuesta y el término. Convendría volver a ajustar el modelo sin el término.

Si hay múltiples predictores sin una asociación estadísticamente significativa


con la respuesta, usted puede reducir el modelo eliminando términos uno a la
vez. Para obtener más información sobre cómo eliminar términos del modelo,
vaya a Reducción del modelo.

Si un término del modelo es estadísticamente significativo,


la interpretación depende del tipo de término. Las
interpretaciones son las siguientes:

 Si un coeficiente de una variable continua es significativo,


los cambios en el valor de la variable están asociados a los
cambios en el valor medio de respuesta.
 Si un coeficiente de un nivel categórico es significativo, la
media de ese nivel es diferente de la media general
(codificación -1, 0, +1) o de la media del nivel de
referencia (codificación 0, 1).
 Si un coeficiente de un término de interacción es
significativo, la relación entre un factor y la respuesta
depende del resto de los factores en el término. En este
caso, usted no debe interpretar los efectos principales sin
considerar el efecto de interacción.
 Si un coeficiente de un término polinómico es
significativo, usted puede concluir que los datos contienen
curvatura.

FIV
El factor de inflación de la varianza (FIV) indica cuánto se
infla la varianza de un coeficiente debido a las
correlaciones entre los predictores incluidos en el modelo.
Interpretación
Utilice los FIV para describir cuánta multicolinealidad (que
es la correlación entre los predictores) existe en un análisis
de regresión. La multicolinealidad es problemática porque
puede aumentar la varianza de los coeficientes de
regresión, lo que hace difícil evaluar el impacto individual
que cada uno de los predictores correlacionados tiene
sobre la respuesta.

Utilice las siguientes directrices para interpretar el FIV:

FIV Estado del predictor

FIV = 1 No correlacionados

1 < FIV < 5 Moderadamente correlacionados

FIV > 5 Altamente correlacionados

Un valor de FIV mayor que 5 sugiere que el coeficiente de


regresión se estimó de manera deficiente debido a una
fuerte multicolinealidad.
Para obtener más información sobre la multicolinealidad y
sobre cómo mitigar los efectos de la multicolinealidad,
revise Multicolinealidad en la regresión.

Das könnte Ihnen auch gefallen