Unidad 1 Conceptos Bocos Estadística Infenrencial 2

INSTITUTO TECNOLÓGICO DE CAMPECHE
INGENIERIA INDUSTRIAL
NUM: 1 NOMBRE DEL TRABAJO: investigación

conceptual
NUM: 1 NOMBRE DE LA UNIDAD: Regresión lineal
multiple
Nombre del alumno:

Materia:
Estadística inferencial
Maestro:
Bocos Patrón Ramón Agustín
Grupo:
MI4
06/02/2019
Contenido
Introducción ........................................................................................................................................ 4
La regresión lineal simple ............................................................................................................. 5
Antecedentes ................................................................................................................................ 5
Mediciones univaribles, bivariables y multivariables en estadística .................................. 5
Definición de R.l.S ............................................................................................................................ 6
Diagrama de dispersión ................................................................................................................. 6
Tipos de modelos de regresión lineal ......................................................................................... 7
Método de mínimos cuadrados .................................................................................................... 8
Interpretación de la pendiente del modelo ............................................................................. 10
Suposiciones en la regresión lineal simple .............................................................................. 11
Prueba “t” de independencia entre las variables (significación de la regresión). ....... 13
Intervalo de Confianza para β 1 y β 0 (pendiente y ordenada del modelo). .......................... 14
Intervalo de confianza para la ordenada al origen β1. ........................................................... 15
Intervalo de Confianza para la media µ y,x . ............................................................................... 16
Intervalo de Confianza de predicción para una observación futura Yi ............................. 16
Análisis residual (gráfico y numérico). ..................................................................................... 17
Gráfica de residuales contra ȳ ................................................................................................ 19
El coeficiente de Determinación................................................................................................. 20
Cálculo del coeficiente e interpretación ................................................................................... 21
Análisis de correlación ................................................................................................................. 22
Prueba de hipótesis sobre el coeficiente de correlación ....................................................... 23
Regresión lineal múltiple................................................................................................................... 23
Determinación de la ecuación........................................................................................................... 23
Inferencia en R.L.M ........................................................................................................................... 25
Prueba de Significancia para cada coeficiente de la regresión ......................................................... 28
Estimación de intervalos de confianza para 1 2............................................................................ 30
Predicción de la variable dependiente y ........................................................................................... 31
Coeficiente de determinación múltiple ............................................................................................ 31
Coeficiente de determinación ajustado ............................................................................................ 32
Análisis residuales ............................................................................................................................. 33
2
Matriz de correlación ........................................................................................................................ 36
Aplicaciones................................................................................................................................... 36
Bibliografía ........................................................................................................................................ 38
3
Introducción
Este documento tiene como objetivo servir de soporte
en la parte conceptual de la unidad 1 de la materia
estadística inferencial 2 y así tener un mejor
desempeño a la hora de realizar los ejercicios
correspondientes de esta unidad.
4
La regresión lineal simple
Antecedentes
La primera forma de regresión lineal documentada fue el método de los mínimos
cuadrados que fue publicada por Legendre en 1805, Gauss publicó un trabajo en donde
desarrollaba de manera más profunda el método de los mínimos cuadrados,1 y en dónde
se incluía una versión del teorema de Gauss-Márkov.
El término regresión se utilizó por primera vez en el estudio de variables antropométricas:

al comparar la estatura de padres e hijos, donde resultó que los hijos cuyos padres tenían
una estatura muy superior al valor medio, tendían a igualarse a éste, mientras que
aquellos cuyos padres eran muy bajos tendían a reducir su diferencia respecto a la
estatura media; es decir, "regresaban" al promedio.2 La constatación empírica de esta
propiedad se vio reforzada más tarde con la justificación teórica de ese fenómeno.
El término lineal se emplea para distinguirlo del resto de técnicas de regresión, que
emplean modelos basados en cualquier clase de función matemática. Los modelos lineales
son una explicación simplificada de la realidad, mucho más ágiles y con un soporte teórico
mucho más extenso por parte de la matemática y la estadística.
Pero bien, como se ha dicho, se puede usar el término lineal para distinguir modelos
basados en cualquier clase de aplicación.
más poderosas que se encuentran disponibles actualmente.
Mediciones univaribles, bivariables y multivariables en estadística

Se debe diferenciar entre la regresión simple y la regresión múltiple. En la regresión
simple, se establece que Y es una función de solo una variable independiente. Con
frecuencia se le denomina regresión bivariada porque solo hay dos variables, una
dependiente y una independiente, y la regresión simple se representa con la formula. En
un modelo de regresión múltiple. Y es una función de dos o más variables independientes.
Un modelo de regresión con k variables independientes se puede expresar así:
5
También es necesario hacer una distinción entre la regresión lineal y la regresión
curvilineal (no lineal). En modelo de regresión lineal, la relación entre X y Y puede
representarse por medio de una línea recta. Sostiene que a medida que X cambia. Y
cambia en cantidad constante. La regresión curvilineal utiliza una curva para expresar la
relación entre X y Y. Es habitual colocar la variable independiente en el eje horizontal. La
siguiente figura11.1 (a) sugiere una relación positiva y lineal entre X y Y. Es positiva
porque X y Y parecen moverse en la misma dirección. A medida que X aumenta
(disminuye).Y aumenta (disminuye).
Definición de R.l.S
En estadística la regresión lineal o ajuste lineal es un modelo matemático usado para
aproximar la relación de dependencia entre una variable dependiente Y, las variables
independientes Xi y un término aleatorio ε. Este modelo puede ser expresado como:
Diagrama de dispersión
Un diagrama de dispersión o gráfica de dispersión o gráfico de dispersión es un tipo de
diagrama matemático que utiliza las coordenadas cartesianas para mostrar los valores de
dos variables para un conjunto de datos
Se emplea cuando una o varias variables está bajo el control del experimentador. Si existe
un parámetro que se incrementa o disminuye de forma sistemática por el
experimentador, se le denomina parámetro de control o variable independiente y
habitualmente se representa a lo largo del eje horizontal (eje de las abscisas). La variable
medida o dependiente usualmente se representa a lo largo del eje vertical (eje de las
ordenadas). Si no existe una variable dependiente, cualquier variable se puede
6
representar en cada eje y el diagrama de dispersión mostrará el grado de correlación (no
causalidad) entre las dos variables.
Un diagrama de dispersión puede sugerir varios tipos de correlaciones entre las variables
con un intervalo de confianza determinado. La correlación puede ser positiva (aumento),
negativa (descenso), o nula (las variables no están correlacionadas). Se puede dibujar una
línea de ajuste (llamada también "línea de tendencia") con el fin de estudiar la correlación
entre las variables. Una ecuación para la correlación entre las variables puede ser
determinada por procedimientos de ajuste. Para una correlación lineal, el procedimiento
de ajuste es conocido como regresión lineal y garantiza una solución correcta en un
tiempo finito.
Tipos de modelos de regresión lineal

Ala ecuación con que se describe cómo se relaciona y con x y en la que se da un término
para el error, se le llama modelo de regresión. El siguiente es el modelo que se emplea en
la regresión lineal simple.
β0 y β1 se conocen como los parámetros del modelo, y ε (la letra griega épsilón) es una
variable aleatoria que se conoce como término del error. El término del error da cuenta
de la variabilidad de y que no puede ser explicada por la relación lineal entre x y y.
7
A la ecuación que describe la relación entre el valor esperado de y, que se denota E(x), y x
se le llama ecuación de regresión. La siguiente es la ecuación de regresión para la
regresión lineal simple.
La gráfica de la ecuación de regresión lineal simple es una línea recta; β0 es la intersección

de la recta de regresión con el eje y, β1 es la pendiente y E(y) es la media o valor esperado
de y para un valor dado de x.
Método de mínimos cuadrados

Suponga que las variables X y Y están relacionadas linealmente y que para cada valor de ,
la variable dependiente, Y, es una variable aleatoria. Es decir, que cada observación de Y
puede ser descrita por el modelo:
donde ε es un error aleatorio con media cero y varianza . También suponga que los
errores aleatorios no están correlacionados. La ecuación (1.1) es conocida como el modelo
de regresión lineal simple. Bajo el supuesto de que este modelo es adecuado y como el
valor esperado del error es cero, E(ε)=0 , se puede ver que el valor esperado de la variable
Y, para cada valor de X , está dado por línea recta
8
En donde β0 y β1 son los parámetros del modelo y son constantes desconocidas. Por lo
tanto, para tener bien especificada la ecuación que relaciona las dos variables será
necesario estimar los dos parámetros, que tienen los siguientes significados:
Un procedimiento para ajustar la mejor recta y, por lo tanto, para estimar β0 y β1 es

mediante el método de mínimos cuadrados, el cual consiste en lo siguiente: si de la
ecuación (1.1) despejamos los errores, los elevamos al cuadrado y los sumamos,
obtendremos lo siguiente:
De esta forma, se quieren encontrar los valores de β0 y β1 que minimizan la suma de los
errores cuadrados. Es decir, se busca ajustar la recta de manera que la suma de las
distancias en forma vertical de los puntos a la recta se minimice
9
Interpretación de la pendiente del modelo
La interpretación de a y b, es análoga a la que comentábamos en el apartado 6.1.3.2, sólo
que como ya dijimos entonces, b recibe el nombre de Coeficiente de Regresión.
Como podemos observar, en el numerador de b, aparece la covarianza, y en el

denominador la varianza de la variable independiente. Esto hace que el signo de b sea el
mismo signo que el de la covarianza, por lo que si b>0, entonces, existe una relación
directa entre las variables, y si b<0 entonces la relación es inversa.
10
En nuestro ejemplo de talla y edad, b sería el incremento medio que se produce en la
talla, por cada incremento unitario de edad; si la edad está en años, por cada año
aumente la edad.
Si queremos predecir un valor yi a partir de un valor concreto de xi, utilizaremos la

expresión de la ecuación donde ahora ya, a y b son conocidos. No olvidemos que ese era
uno de los objetivos del análisis, tratar de conocer valores de Y a partir de los de X:
y*i = a+bxi
Suposiciones en la regresión lineal simple

1. Linealidad. Si no se tiene linealidad se dice que tenemos un error de especificación.
En el caso de que sean varias variables independientes, la opción Analizar-
RegresiónLineal-Gráficos-Generar todos los gráficos parciales nos da los diagramas
de dispersión parcial para cada variable independiente. En ellos se ha eliminado el
efecto proveniente de las otras variables y así la relación que muestran es la
relación neta entre las variables representadas.
2. Independencia de la variable aleatoria “residuos” (especialmente importante si los
datos se han obtenidos siguiendo una secuencia temporal). Independencia entre
los residuos mediante el estadístico de Durbin-Watson que toma valor 2 cuando
los residuos son completamente independientes (entre 1.5 y 2.5 se considera que
existe independencia), DW2 autocorrelación negativa
3. Homocedasticidad o igualdad de varianzas de los residuos y los pronósticos. Esta

condición se estudia utilizando las variables: ZPRED=pronósticos tipificados y
ZRESID=residuos tipificados mediante: • el estadístico de Levene (ver explorar) •
un gráfico de dispersión .Que se obtiene en Analizar-Regresión-Lineal-Gráficos. El
supuesto de homocedasticidad implica que la variación de los residuos sea
uniforme en todo el rango de valores de los pronósticos (gráfico sin pautas de
asociación).
11
4. Normalidad de los residuos tipificados. Podemos contrastarla mediante: • La
prueba de Kolmogorff-Smirnov, con gráficos de normalidad de tipo Q-Q (cuantiles)
o P-P(proporciones) (ver explorar) • gráficamente en Analizar-Regresión-Lineal-
Gráficos . La opción Histograma: añade una curva N(0,1) Gráfico de Probabilidad
Normal de tipo P-P: Representa las proporciones acumuladas de la variable
esperada respecto a las proporciones acumuladas de la variable observada.
5. No-colinealidad, es decir la inexistencia de colinealidad. Esta puede ser:

colinealidad perfecta si una de las variables independientes tiene una relación
lineal con otra/as independientes, colinealidad parcial si entre las variables
independientes existen altas correlaciones
Error estándar de la estimación
Estimación de σ2 De acuerdo con el modelo de regresión y con sus suposiciones, se

puede concluir que σ2, la varianza de ε, representa también la varianza de los valores de y
respecto a la recta de regresión. Recuérdese que a las desviaciones de los valores de y de
la recta de regresión estimada se les conoce como residuales. Por lo tanto, SCE, la suma
de los cuadrados de los residuales, es una medida de la variabilidad de las observaciones
reales respecto a la línea de regresión estimada. El errorcuadrado medio (ECM)
proporciona una estimación de σ2; esta estimación es SCE dividida entre sus grados de
libertad.
A cada suma de cuadrados le corresponde un número llamado sus grados de libertad. Se

ha demostrado que SCE tiene n-2 grados de libertad porque para calcular SCE es necesario
estimar dos parámetros (β0 y β1). Por lo tanto, el cuadrado medio se calcula dividiendo
SCE entre n-2. ECM proporciona un estimador insesgado de σ2. Como el valor del ECM
proporciona un estimado de σ2, se emplea también la notación s2
12
Prueba “t” de independencia entre las variables (significación de la
regresión).
El modelo de regresión lineal simple es y = 𝛽 0 + 𝛽 1 x + ϵ. Si x y y están relacionadas
linealmente, Entonces 𝛽 1 ≠ 0. El objetivo de la prueba t es determinar si se puede concluir
que 𝛽 1 ≠0. Para probar la hipótesis siguiente acerca del parámetro 𝛽 1 se emplearán los
datos muestrales.
H0: 𝛽 1 =0
Ha ∶ 𝛽 1≠ 0
Si se rechaza H0, se concluirá que b1 0 y que entre las dos variables existe una relación
estadísticamente significante. La base para esta prueba de hipótesis la proporcionan las
propiedades de la distribución muestral de b1, el estimador de 𝛽1, obtenido mediante el
método de mínimos cuadrados.
Primero, considérese que es lo que ocurriría si para el mismo estudio de regresión se

usara otra muestra aleatoria simple. Supóngase, por ejemplo, que Armand’s Pizza Parlors
usa una muestra de las ventas de otros 10 restaurantes. El análisis de regresión de esta
otra muestra dará como resultado una ecuación de regresión parecida a la ecuación de
regresión anterior 𝑌̂ = 60 + 5x. Sin embargo, no puede esperarse que se obtenga
exactamente la misma ecuación (una ecuación en la que la intersección con el eje y sea
exactamente 60 y la pendiente sea exactamente 5). Los estimadores b0 y b1, obtenidos
por el método de mínimos cuadrados, son estadísticos muestrales que tienen su propia
distribución muestral. A continuación se presentan las propiedades de la distribución
muestral de b1.
13
Obsérvese que el valor esperado de b1 es 𝛽1, por lo que b1 es un estimador insesgado de
𝛽 1.
Como no se conoce el valor de σ, se obtiene una estimación de σ𝑏1 , que se denota S𝑏1 ,
estimandoσ mediante s en la ecuación (14.17). De esta manera se obtiene el estimador
siguiente de σ𝑏1 .
Intervalo de Confianza para β 1 y β 0 (pendiente y ordenada del

modelo).
Para el intervalo de confianza de la pendiente β1 se utiliza la distribución t de student con
n-2 grados de libertad ya que se desconoce la varianza de la población 𝜎2𝛽 ; el estimador
de esta varianza se define por:
14
Por lo tanto el estadístico de prueba se define como:
En el intervalo de confianza de nivel 1-α estab dado por :
Una prueba muy sensilla y util es la prueba de independencia entre variables. Si la

hipotesis nula H0: B1=0 es aceptada, Y no depende linealmente de X, en caso contrario, se
dice que Y depende de X.
Intervalo de confianza para la ordenada al origen β1.

Para probar H0, se utiliza la distribucion t de student con n-2 grados de libertad y ccuya
expresion esta dada por :
El intervalo de confianza del 95% está definido por
15
Intervalo de Confianza para la media µ y,x .
A veces es conveniente estimar el valor medio o separado de Y para el un valor dado de X,
tal estimación se hace con el intervalo de confianza:
Al calcular los límites de confianza para los valores de medios, estos se obtiene para cada
valor de Xo; tales limites serán más estrechos a medida que se aproximan a la medida de
la variable independiente y más amplios a medida que se alejan de ella, por esta razón se
obtienen limites llamados bandas de confianza dentro de las cuales queda comprendida la
recta verdadera para un nivel de significación a.
Para trazar las bandas de confianza se elegirán cuando menos 3 valores de X0 dos valores
extremos y uno intermedio, y se harán las estimaciones por intervalo. Estos intervalos se
dibujan sobre los diagramas de dispersión uniendo todos los puntos generados por los
límites inferiores y por otro lado, todos los correspondientes a los límites superiores.
Intervalo de Confianza de predicción para una observación futura Yi

Como las bandas de confianza se abren a medida que Xo se aleja de la media X, resulta
aventurado hacer predicciones sobre Y para valores fuera de la escala de valores de X
empleada para establecer la ecuación de regresión de la muestra. A menos de que este
razonablemente seguro que existe la misma función de regresión sobre un amplio rango
de valores de X, por haberse experimentado en una muestra, se podrá usar valores de Xo
alejados de la media X para predecir valores de Y.
Cuando se hacen predicciones, estas, más que ser sobre valores medios de Y,
son para valores individuales, por lo tanto el error debido al azar (error de estimación
16
) es una fuente adicional de variación, por ello la varianza se ve aumentada y el
intervalo de confianza para un valor de predicción es más amplio que el de
Análisis residual (gráfico y numérico).

El análisis residual es la herramienta principal para determinar si el modelo de regresión
empleado es apropiado.
Como ya se indicó, el residual de la observación i es la diferencia entre el valor observado
de la variable dependiente (yi) y el valor estimado de la variable dependiente (yˆ )
donde
y¡ es el valor observado de la variable dependiente
𝑦̂ es el valor estimado de la variable dependiente
En otras palabras, el residual i es el error que resulta de usar la ecuación de regresión

estimada
para predecir el valor de la variable dependiente. En la tabla 14.7 se calculan estos
residuales correspondientes a los datos del ejemplo de Armand’s Pizza Parlors. En la
segunda columna de la
tabla se presentan los valores observados de la variable dependiente y en la tercera
columna, los
valores estimados de la variable dependiente obtenidos usando la ecuación de regresión
estimada
𝑦̂ = 60 + 5x. Un análisis de los residuales correspondientes, que se encuentran en la cuarta
columna de la tabla, ayuda a determinar si las suposiciones hechas acerca del modelo de
regresión son adecuadas.
A continuación se revisan las suposiciones de regresión en el ejemplo de Armand’s Pizza
Parlors. Se supuso un modelo de regresión lineal simple
y =𝛽 0 + 𝛽 1 x + ϵ (14.29)
17
Este modelo indica que se supone que las ventas trimestrales (y) son función lineal del
tamaño
de la población de estudiantes (x), más un término del error ϵ. En la sección 14.4, para el
término
del error ϵ se hicieron las siguientes suposiciones
1. E(ϵ) = 0.
2. La varianza de ϵ, que se denota σ2, es la misma para todos los valores de x.
3. Los valores de ϵ son independientes.
4. El término del error ϵ tiene distribución normal.
Estas suposiciones son la base teórica para las pruebas t y F que se usan para determinar
si la relación
entre x y y es significativa y para las estimaciones, mediante intervalos de confianza y de
predicción, presentadas en la sección 14.6. Si las suposiciones acerca del término del error
ϵ son
dudosas, puede ser que las pruebas de hipótesis acerca de la significancia de la relación de
regresión y los resultados de la estimación por intervalo no sean correctos.
Los residuales proporcionan la mejor información acerca de ϵ; por lo tanto, el análisis de
los
residuales es muy importante para determinar si las suposiciones hechas acerca de ϵ son
apropiadas.
Gran parte del análisis residual se basa en examinar gráficas. En esta sección se estudiarán
las siguientes gráficas de residuales.
1. La gráfica de residuales contra los valores de la variable independiente x
2. La gráfica de residuales contra los valores pronosticados para la variable dependiente 𝑦̂
3. La gráfica de residuales estandarizados
4. La gráfica de probabilidad normal.
Gráfica de residuales contra x La gráfica de residuales contra la variable independiente x

es una gráfica en la que los valores de la variable independiente se representan en el eje
horizontal y los valores de los residuales correspondientes se representan en el eje
vertical. Para cada residual se grafica un punto. La primera coordenada de cada punto está
dada por el valor xi y la segunda coordenada está dada por el correspondiente valor del
residual yi i. En la gráfica de residuales contra x obtenida con los datos de Armand’s Pizza
Parlors de la tabla 14.7, las coordenadas del primer punto son (2,-12), que corresponden a
x1 = 2 y y1-ȳ1 = -12; las coordenadas del segundo punto son (6, 15), que corresponden a
x2 = 6 y y2 -ȳ2 = 15; etc. En la figura 14.11 se muestra la gráfica de residuales obtenida.
Antes de interpretar los resultados de esta gráfica de residuales, se considerarán algunas
de las formas generales que pueden tener las gráficas de residuales. En la figura 14.12 se
muestran tres ejemplos. Si la suposición de que la varianza de es la misma para todos los
valores de x y si el modelo de regresión empleado representa adecuadamente la relación
entre las variables, el aspecto general de la gráfica de residuales será el de una banda
18
horizontal de puntos como en la gráfica A de la figura 14.12. Pero si la varianza de no es la
misma para todos los valores x —por ejemplo, si la variabilidad respecto a la línea de
regresión es mayor para valores de x mayores— el aspecto de la gráfica puede ser como el
de la gráfica B de la figura 14.12. En este caso, se viola la suposición de que tiene una
varianza constante. En la gráfica C se muestra otra forma que puede tomar la gráfica de
residuales. En este caso, se puede concluir que el modelo de regresión empleado no
representa adecuadamente la relación entre las variables, y deberá considerarse un
modelo de regresión curvilíneo o múltiple.
Gráfica de residuales contra ȳ

En otra gráfica de residuales los valores pronosticados para la variable dependiente se
representan en el eje horizontal y los valores de los residuales en el eje vertical. A cada
residual corresponde un punto en la gráfica. La primera coordenada de cada uno de los
puntos es i y la segunda coordenada es el valor correspondiente del residual i,yi i.
Empleando los datos de Armand’s, tabla 14.7, las coordenadas del primer punto son (70,-
12), que corresponden a ȳ1 = 70 y y1 ȳ 1=-12; las coordenadas del segundo punto son (90,
15), etc. En la figura 14.13 se presenta esta gráfica de residuales. Obsérvese que la forma
de esta gráfica de residuales es igual a la forma de la gráfica de residuales contra la
variable independiente x. Esta no es una forma que pudiera llevar a dudar de las
19
suposiciones del modelo. En la regresión lineal simple, tanto la gráfica de residuales contra
x como la gráfica de residuales contra tienen la misma forma. En el análisis de regresión
múltiple, la gráfica de residuales contra se usa más debido a que se tiene más de una
variable independiente.
El coeficiente de Determinación
La intensidad de una relación entre dos variables de una población por lo general se mide
mediante el coeficiente de correlación p, cuyos valores van desde -1, correspondiente a
una correlación perfectamente negativa, hasta +1, correspondiente a una correlación
perfectamente positiva. En la figura 17.6 se ilustran estas tres diferentes clases de
asociación entre variables. En el panel A de esta figura presentamos una relación lineal
negativa prefecta entre X y Y, de modo que Y disminuirá de una manera perfectamente
predecible en la medida que X aumenta. En el panel B se tiene un ejemplo en el que no
hay relación entre X y Y. a medida que X no se da ningún cambio en Y, de modo que no
hay ninguna asociación entre los valores de X y los de Y. por el contrario, en el panel C se
presenta una correlación perfectamente positiva entre las dos variables. En este caso, Y
aumenta de una manera perfectamente predecible conforme se incrementa X.
Para problemas orientados a la regresión, el coeficiente de correlación de muestra (r)

puede obtenerse de la siguiente manera:
𝑠𝑢𝑚𝑎 𝑑𝑒 𝑐𝑢𝑎𝑑𝑟𝑎𝑑𝑜𝑠 𝑑𝑒𝑏𝑖𝑑𝑜 𝑎 𝑙𝑎 𝑟𝑒𝑔𝑟𝑒𝑠𝑖ó𝑛 𝑆𝑆𝑅

𝑟2 = =
𝑠𝑢𝑚𝑎 𝑡𝑜𝑡𝑎𝑙 𝑑𝑒 𝑐𝑢𝑎𝑑𝑟𝑎𝑑𝑜𝑠 𝑆𝑆𝑇
De modo que
𝑟 = √𝑟 2
En casos de regresión lineal simple, r toma el signo de b1; si este es positivo, r es positivo;
si b1 es negativo, r es negativo; y si b1 es cero, r es cero.
La regresión y la correlación son dos técnicas separadas: la regresión tiene que ver con la
predicción y la correlación con la asociación. En muchas aplicaciones solamente nos
20
interesa la medición de la asociación entre variables, y no con el uso de una variable para
predecir otra.
Si únicamente se lleva a cabo un análisis de correlación de un conjunto de datos, el

coeficiente de correlación de muestra r, puede calcularse directamente utilizando la
siguiente fórmula:
∑𝑛𝑖=1(𝑋1 − 𝑋̅)(𝑌1 − 𝑌̅)

𝑟=
√∑𝑛𝑖=1(𝑋1 − 𝑋̅)2 √∑𝑛𝑖=1(𝑌1 − 𝑌̅)2
Cálculo del coeficiente e interpretación

En estadística, el coeficiente de determinación, denominado R² y pronunciado R cuadrado,
es un estadístico usado en el contexto de un modelo estadístico cuyo principal propósito
es predecir futuros resultados o probar una hipótesis. El coeficiente determina la calidad
del modelo para replicar los resultados, y la proporción de variación de los resultados que
puede explicarse por el modelo.1
Hay varias definiciones diferentes para R² que son algunas veces equivalentes. Las más
comunes se refieren a la regresión lineal. En este caso, el R² es simplemente el cuadrado
del coeficiente de correlación de Pearson, lo cual es sólo cierto para la regresión lineal
simple. Si existen varios resultados para una única variable, es decir, para una X existe una
Y, Z... el coeficiente de determinación resulta del cuadrado del coeficiente de
determinación múltiple. En ambos casos el R² adquiere valores entre 0 y 1. Existen casos
dentro de la definición computacional de R² donde este valor puede tomar valores
negativos.2
21
Análisis de correlación
En la rama de la estadística, la correlación se refiere a que existe un vínculo entre varios
eventos. Una de las herramientas que nos permite inferir si existe dicho vínculo es
justamente el análisis de correlación. Este procedimiento tiene por objetivo indicarnos si
existe relación entre dos eventos – es decir, variables–, un poco sobre la naturaleza de
dicha relación, y su fuerza. Para poder realizar un análisis de correlación confiable, lo
primero que se necesita es realizar muchas observaciones de dos variables
El análisis de correlación general da como resultado un número entre -1 y 1, llamado

coeficiente de correlación. Este resultado nos sirve para entender tres cosas: Si existe o
no correlación entre las variables. Un coeficiente que valga cero indica que nuestras
variables son independientes; un ejemplo de esto sería que no hay relación entre qué tan
dulce es una fruta y cuál es el precio de un litro de jugo. Qué tan fuerte es la correlación (si
es que existe). A más se ‘aleje del cero’ el coeficiente, más fuerte será la correlación entre
las dos variables. Siendo así, las correlaciones cuyo coeficiente esté más cerca de -1 o 1
serán más poderosas. Detalles sobre la naturaleza de la correlación. Existen correlaciones
llamadas directas (donde ambas variables aumentan o disminuyen simultáneamente) e
inversas (donde cuando una variable aumenta, la otra disminuye). Un coeficiente positivo
significa que la correlación es del primer tipo, mientras que uno negativo indica que es del
segundo. Un ejemplo de correlación positiva es que, si el precio de una fruta aumenta, el
precio de un litro de jugo de dicha fruta también aumentará; una correlación negativa
sería que a más gente consuma una fruta, menor cantidad de fruta estará disponible. El
coeficiente de correlación es el resultado de dividir la covarianza entre las variables X y Y
entre la raíz cuadrada del producto de la varianza de X y la de Y.
22
Prueba de hipótesis sobre el coeficiente de correlación
La prueba de hipótesis del coeficiente de correlación poblacional Rho se estima con (r) y
corresponde a las siguientes hipótesis
H0: p=0
H1:p≠0
Esta prueba se hace con n-1 grados de libertad
Mientras más cercano a cero sea el coeficiente de correlación, se indicará que tan débil es la
asociación entre ambas variables. Si es igual cero se concluirá que no existe relación lineal alguna
entre ambas variables.
Regresión lineal múltiple

La regresión lineal es una técnica estadística destinada a analizar las causas de por qué pasan las
cosas. A partir de los análisis de regresión lineal múltiple podemos: identificar que variables
independientes (causas) explican una variable dependiente (resultado) comparar y comprobar
modelos causales predecir valores de una variable, es decir, a partir de unas características
predecir de forma aproximada un comportamiento o estado
La regresión lineal múltiple es la gran técnica estadística para comprobar hipótesis y relaciones
causales. Ante de empezar, una serie de condiciones que se deben cumplir para poder aplicar la
regresión lineal múltiple:
 La variable dependiente (resultado) debe ser ordinal o escalar, es decir, que las categorías
de la variable tengan orden interno o jerarquía, p.ej. nivel de ingresos, peso, número de
hijos, justificación del aborto en una escala de 1-nunca a 10-siempre.
 Las variables independientes (causas) deben ser ordinales o escalares o dummy
 Hay otras condiciones como: las variables independientes no puede estar altamente
correlacionadas entre sí, las relaciones entre las causas y el resultado deben ser lineales,
todas variables deben seguir la distribución normal y deben tener varianzas iguales. Estas
condiciones no son tan estrictas y hay maneras de tratar los datos si se incumple. Sobre
ello volveremos en futuras entradas
Determinación de la ecuación
Sea X1,X2…Xn variables independientes o regresoras, y sea una variable de respuesta, entonces el
modelo de regresión lineal múltiple con variables independientes es el polinomio de primer
orden.
23
Donde los j son los parámetros del modelo que se conocen como coeficientes de regresión y 
es el error aleatorio, con media cero,E( y V()=σ2 Si en la ecuación (1.22)K=1 , estamos en el
caso de regresión lineal simple y el modelo es una línea recta; si K=2 , tal ecuación representa un
plano. En general, la ecuación (1.22) representa un hiperplano en el espacio de K dimensiones
generado por las variables Xj .
El término lineal del modelo de regresión se emplea debido a que la ecuación (1.22) es función
lineal de los parámetros desconocidos 0 1…k La interpretación de éstos es muy similar a lo ya
explicado para el caso de regresión lineal simple:0 es la ordenada al origen, y j mide el
cambio esperado en Y por cambio unitario en Xj cuando el resto de las variables regresoras se
mantienen fijas o constantes. Para encontrar los coeficientes de regresión múltiple por el método
de mínimos cuadrados aplicamos el siguiente sistema de ecuaciones normales:
La solución manual aplicando el sistema de tres ecuaciones lineales con tres incógnitas
(3x3) pudiera ser aplicando el métodos de eliminación de Gauss o bien el método de Cramer.
Para este tipo de planteamiento se recomienda el método de Cramer el cual consiste en la
siguiente secuencia:
24
Inferencia en R.L.M
Error estándar de estimación Al igual que en regresión lineal simple, el error estándar de
estimación proporciona la medida del error de ajuste de un modelo, éstas tienen una
interpretación similar a la que se dio para el caso de regresión lineal simple. En cuanto al cálculo
en el caso múltiple, el error estándar de estimación
Prueba de hipótesis para los coeficientes 1 2
La prueba de significancia de la regresión es una de la pruebas de hipótesis utilizadas para medir
25
la bondad de ajuste del modelo. Esta prueba determina si existe una relación lineal entre la
variable respuesta y alguna de las variables regresoras . La hipótesis estadística
adecuada es
Al rechazar la hipótesis nula se concluye que al menos una de las variables regresoras contribuye
significativamente al modelo.
La prueba estadística utilizada es
La cual asumiendo que la hipótesis nula es cierta se distribuye con grados de libertad en el
numerador y grados de libertad en el denominador.
Se rechaza la hipótesis nula si el valor calculado de la estadística de prueba es mayor que el valor
teórico de la distribución .
Ejemplo
La hipótesis es dada por
La prueba estadística utilizada es
26
Luego como el valor P=0,00 entonces se rechaza la hipótesis nula lo cual significa que al menos
una de las variables regresoras o contribuye significativamente al modelo.
27
Prueba de Significancia para cada coeficiente de la regresión
La prueba individual de un coeficiente de regresión puede se útil para determinar si:
Se incluyen otra variable regresora
Se elimina una una o más variables regresoras presentes en el modelo
La adición de variables regresoras en el modelo implica:
La SC incremente
La SC disminuya
pero se debe decidir si el incremento en la SC es tan significativo que justifique la

inclusión de otra variable regresora en el modelo, ya que la inclusión de variables que no
deberían ser incluidas puede aumentar la SC .
La hipótesis para probar la significancia dede cualquier coeficiente de regresión es
Si la hipótesis nula no es rechazada, es un indicador de que la variable regresora puede ser

eliminada del modelo.
La prueba estadística para la hipótesis es
donde es el elemento de la diagonal de la matriz correspondiente a . La prueba

estadística se distribuye con grados del libertad del error. La hipótesis nula se
rechaza si:
28
Importante
1. Esta prueba es una prueba marginal, es decir se está determinando la contribución

de dado que las otras variables regresoras estan presentes en el modelo. Por ello, no se debe
apresurar en eliminar una variable regresora cuando la prueba no sea significativa.
2. También se puede determinar la contribución en la SC , de la variable
regresora dado que las otras variables regresoras están presentes en el modelo, por medio
del método de Suma de Cuadrados Extra (link:cap5\leccion8\suma-extra.tex)
Ejemplo
Los programas estadísticos producen una tabla para la prueba de cada coeficiente
Estimado Error estándar T Valor p
CONSTANTE -94,552 9,96343 -9,48991 0,0002
X1 2,80155 0,300978 9,30816 0,0002
X2 1,07268 0,0932349 11,5052 0,0001
Los errores estándar de los parámetros son las raíces de los elementos de la diagonal de la
matriz de varianza-covarianza del vector de parámetros estimados hallada en ejemplo de la
Lección anterior
La primera fila prueba la hipótesis
de la cual se concluye que el intercepto es significativamente diferente de cero.
La segunda fila prueba la hipótesis
de la cual se concluye que el coeficiente de regresión es significativamente diferente de cero
29
y por tanto la variable contribuye significativamente al modelo.
La tercera fila prueba la hipótesis
de la cual se concluye que el coeficiente de regresión es significativamente diferente de cero

y por tanto la variable contribuye significativamente al modelo.
Estimación de intervalos de confianza para 1 2

para la construcción de los intervalos de confianza para los coeficientes de regresión se debe
asumir que los errores son normalmente distribuidos, independientes
con y Este supuesto hace que variable sea también una variable
normal ya que es una función de una variable normal, con y

vatrianza .
Debido a que el estimador de mínimos cuadrados es una función de entonces es

normalmente distribuido con
Como
entonces la distribución marginal de cualquier coeficiente de regresión es normal con
Donde es el elemento de la matriz . Luego
30
es una cantidad pivotal para la construcción del intervalo de confianza para cuya
distribución de probabilidad es con grados de libertad.
Donde obtenido de la tabla de Anova. Por tanto un intervalo de confianza
del por ciento para el coeficiente de regresión , , es
Ejemplo
los intervalos de confianza del 95% para los parámetros son:
Parámetro Estimado Error estándar Límite inferior Límite superior
-94,552 9,96343 -120,164 -68,9402
2,80155 0,300978 2,02786 3,57524
1,07268 0,0932349 0,833014 1,31235
Predicción de la variable dependiente y

También es posible obtener un intervalo de confianza con respecto a la respuesta media en un
punto particular, digamos x10 x20…xk está dado por
Coeficiente de determinación múltiple

En estadística, el coeficiente de determinación, denominado R² y pronunciado R cuadrado, es un
estadístico usado en el contexto de un modelo estadístico cuyo principal propósito es predecir
futuros resultados o probar una hipótesis. El coeficiente determina la calidad del modelo para
replicar los resultados, y la proporción de variación de los resultados que puede explicarse por el
modelo
31
Un modelo estadístico se construye para explicar una variable aleatoria que
llamaremos dependiente a través de otras variables aleatorias a las que
llamaremos factores. Dado que podemos predecir una variable aleatoria mediante
su media y que, en este caso, el error cuadrático medio es su varianza, el máximo
error cuadrático medio que podemos aceptar en un modelo para una variable
aleatoria que posea los dos primeros momentos es la varianza. Para estimar el
modelo haremos varias observaciones de la variable a predecir y de los factores.
A la diferencia entre el valor observado de la variable y el valor predicho la
llamaremos residuo. La media cuadrática de los residuos es la varianza residual.
Si representamos por σ2 la varianza de la variable dependiente y la varianza

residual por σ2r , el coeficiente de determinación viene dado por la siguiente
ecuación:
Se mide en tantos por ciento. Si la varianza residual es cero, el modelo explica el

100% de valor de la variable; si coincide con la varianza de la variable
dependiente, el modelo no explica nada y el coeficiente de determinación es del
0%. En variables económicas y financieras, suele ser difícil conseguir un
coeficiente de determinación mayor de un 30%
El coeficiente de determinación corregido en un modelo de regresión lineal mide el

porcentaje de variación de la variable dependiente (al igual que el coeficiente de
determinación) pero teniendo en cuenta el número de variables incluidas en el
modelo.
Sabemos que a medida que vamos incluyendo variables en el modelo, el

coeficiente de determinación aumenta aunque las variables que incluyamos no
sean significativas. Esto supone un problema, ya que no debemos olvidar que la
inclusión de nuevas variables supone un aumento en el número de parámetros a
estimar para el modelo....
Coeficiente de determinación ajustado

El coeficiente de determinación corregido viene a resolver este problema del
coeficiente de determinación.
32
Se define como:
Dónde: N es el tamaño de la muestra y k refleja el número de variables.
Usos:
- Se emplea habitualmente para comparar modelizaciones alternativas que

manteniendo el mismo número de observaciones varían en el número de
regresores especificados.
- Resulta de especial interés en situaciones en las que el número de variables

explicativas está cercano al número de observaciones de la muestra.
Análisis residuales
Como ya se ha mencionado anteriormente, el residual es dado por , los cuales
contienen dentro de ellos información sobre el porque el modelo no se ajusta a los datos. Por ello
es necesario realizar un análisis de los residuales para obtener cualquier peculiaridad que el ajuste
de regresión pueda tener.
Cuando se propone el modelo para el juste de los datos se establecen unos supuestos sobre la
variable error:
Independencia de los errores
Los errores se distribuyen normal con media cero
Los errores son independientes
Los errores tienen varianza constante
Cuando se ajusta el modelo se espera que los residuales exhiban el cumplimiento de los anteriores
supuestos sobre la variable error. Despues de examinar los residuales sólo se podrá decir
que los supuestos parecen ser violados o los supuestos parecen no ser violados. Esto
último no significa que los supuestos se cumplan; esto significa que sobre la base de los datos se
ha visto que no hay razón para decir que los supuestos no se cumplen.
Normalidad de los residuales
33
Nosotros usualmente asumimos que y que todos los errores son inependientes
uno del otro,pero sus estimados, los residuales no pueden ser independientes. Los gráficos
utilizados son: el histograma, el gráfico de probabilidad normal entre otros.
Histograma de frecuencias relativas.
Se realiza un histograma con los datos y se observa si la forma de la gráfica es simétrica.
Gráfico de Probabilidad Normal
Este se puede obtener por el procedimiento descrito en la sección de distribución normal curso
dieño virtual: validación de supuestos. Ver guía de Excel o tambien al ejecutar el análisis de
regresión en Excel y elegir gráfico de probabilidad normal. Excel utiliza los residuales y aplica el
mismo procedimiento descrito en la guía de Excel, e incluye salidas de dos columnas:
Percentil Y
donde
es el mismo valor utilizado por el procedimiento descrito en la guía de Excel.
Interpretación: Si los puntos parecen ajustarse a una línea recta, puede decirse que parece indicar
que los datos provienen de una distribución normal, pero tenga en cuenta que en algunos casos,
aunque los puntos se ajusten a una línea recta puede que los datos no provengan de una
distribución normal; por ello se recomienda utilizar métodos objetivos.
Ejemplo
Para el ejemplo tratado, los valores fueron:
Percentil Densidad Optica
6,25 4
18,75 9
34
Percentil Densidad Optica
31,25 18
43,75 20
56,25 35
68,75 41
81,25 47
93,75 60
\includegraphics{prob-nor-densidad-optica.jpg}
Figura 1. Gráfico de probabilidad normal para los residuos de la densidad optica
Independencia de los errores
Las variable aleatorias error, son independientes. El cumplimiento del supuesto de

independencia se puede determinar gráficamente mediante un gráfico de los residuales contra el
orden en que se tomaron las observaciones (si se tiene). Para los datos del ejemplo, el gráfico se
muestra en la figura 2. No se observa un patrón característico, por lo tanto, parece indicar que los
residuos se encuentran independientes o aleatoriamente distribuídos.
\includegraphics{residuales.gif}
Figura 2. Gráfico de residuales vs orden para la densidaad óptica
Análisis de los residuales
Pronóstico Residuos
Observación Residuos
Densidad Optica estándares
1 5,13087491 -1,13087491 -0,909114892
2 9,068691251 -0,068691251 -0,055221173
3 16,94432393 1,055676067 0,84866224
4 20,88214027 -0,882140275 -0,709156118
35
Pronóstico Residuos
Observación Residuos
Densidad Optica estándares
5 32,6955893 2,304410701 1,852525039
6 40,57122198 0,428778019 0,344696375
7 48,44685466 -1,446854664 -1,163132289
8 60,26030369 -0,260303688 -0,209259182
Observación: corresponde al número de la observación de la variable
Pronóstico Densidad Optica: corresponde al valor pronosticado por la ecuación de regresión para
la variable .
Residuos: corresponde a la diferencia obtenida entre el valor verdadero y el pronosticado.
Residuos estándares: corresponde a
Matriz de correlación
El análisis factorial se puede utilizar para estudiar series numéricas o de valores cuantitativos para
un determinado número de variables cuantitativas mayor de dos. Por ejemplo, tres características
o más para series numéricas con igual número de datos.
Estas variables independientes o explicativas están dispuestas ya en una matriz de correlación,

que es una tabla de doble entrada para A B y C, que muestra una lista multivariable
horizontalmente y la misma lista verticalmente y con el correspondiente coeficiente de correlación
llamado r o la relación entre cada pareja en cada celda, expresada con un número que va desde 0
a 1. El modelo mide y muestra la interdependencia en relaciones asociadas o entre cada pareja de
variables y todas al mismo tiempo.
Aplicaciones
Para hacer más potente el análisis factorial los programas estadísticos incluyen otros análisis
multivariables como es el análisis de pautas o camino, path analysis, y otros coeficientes de
correlación como es el de rangos o la correspondencia en el orden entre cada pareja en las series y
se designa por ro.
36
Puede utilizarse esta técnica para muchos propósitos como es la Escala de actitud o Prioridades
sociales. También un análisis diacrónico de triangulación o varias aplicaciones en sucesivos
períodos de tiempo y con diferentes métodos para cada aplicación.
La representación gráfica de la matriz de correlación es una línea recta diagonal en los ejes
cartesianos en los que las abscisas son las variables y los coeficientes son una nube de puntos.
El test, que está empleando un coeficiente de correlación o asociación, no es inferencial o

predictor, ya que es no-paramétrico o libre de probabilidad, y es descriptivo, no causal. Un test del
nivel significativo de los coeficientes de correlación valida la prueba.
Las tablas de asociación 2 x 2 es el caso más elemental o simple de variables dicotomizadas, que
igualmente miden o describen la significación estadística. A veces las representaciones gráficas
son más descriptivas de la asociación entre variables.
37
Bibliografía
Regresión lineal múltiple:
http://networkianos.com/regresion-lineal-multiple/
Determinacion de la ecuación
01 ESTADISTICA INFERENCIAL II - LIBRO DEL CURSO Ing. Ind.
Determinacion de coeficientes
Interpretacion de los coeficientes
Inferencias en R.L.M
http://168.176.239.58/cursos/ciencias/2007315/html/un5/cont_08_48.html
Estimación de intervalos de confianza
Coeficientes de determinación
https://es.wikipedia.org/wiki/Coeficiente_de_determinaci%C3%B3n
Coeficiente de determinación ajustado
https://es.wikipedia.org/wiki/Coeficiente_de_determinaci%C3%B3n_corregido
análisis residual
http://virtual.uptc.edu.co/ova/estadistica/docs/libros/2007315/lecciones_html/capitulo_2/leccio
n3/residuales.html
Matriz de correlación
https://es.wikipedia.org/wiki/Matriz_de_correlaci%C3%B3n
38

Unidad 1 Conceptos Bocos Estadística Infenrencial 2

Hochgeladen von

Dokumentinformationen

Copyright

Verfügbare Formate

Dieses Dokument teilen

Dokument teilen oder einbetten

Freigabeoptionen

Stufen Sie dieses Dokument als nützlich ein?

Sind diese Inhalte unangemessen?

Copyright:

Verfügbare Formate

Unidad 1 Conceptos Bocos Estadística Infenrencial 2

Hochgeladen von

Copyright:

Verfügbare Formate

INSTITUTO TECNOLÓGICO DE CAMPECHE

NUM: 1 NOMBRE DEL TRABAJO: investigación

Nombre del alumno:

El término regresión se utilizó por primera vez en el estudio de variables antropométricas:

más poderosas que se encuentran disponibles actualmente.

Mediciones univaribles, bivariables y multivariables en estadística

Tipos de modelos de regresión lineal

La gráfica de la ecuación de regresión lineal simple es una línea recta; β0 es la intersección

Método de mínimos cuadrados

Un procedimiento para ajustar la mejor recta y, por lo tanto, para estimar β0 y β1 es

Como podemos observar, en el numerador de b, aparece la covarianza, y en el

Si queremos predecir un valor yi a partir de un valor concreto de xi, utilizaremos la

Suposiciones en la regresión lineal simple

3. Homocedasticidad o igualdad de varianzas de los residuos y los pronósticos. Esta

5. No-colinealidad, es decir la inexistencia de colinealidad. Esta puede ser:

Error estándar de la estimación

Estimación de σ2 De acuerdo con el modelo de regresión y con sus suposiciones, se

A cada suma de cuadrados le corresponde un número llamado sus grados de libertad. Se

Primero, considérese que es lo que ocurriría si para el mismo estudio de regresión se

Intervalo de Confianza para β 1 y β 0 (pendiente y ordenada del

En el intervalo de confianza de nivel 1-α estab dado por :

Una prueba muy sensilla y util es la prueba de independencia entre variables. Si la

Intervalo de confianza para la ordenada al origen β1.

El intervalo de confianza del 95% está definido por

Intervalo de Confianza de predicción para una observación futura Yi

intervalo de confianza para un valor de predicción es más amplio que el de

Análisis residual (gráfico y numérico).

y¡ es el valor observado de la variable dependiente

𝑦̂ es el valor estimado de la variable dependiente

En otras palabras, el residual i es el error que resulta de usar la ecuación de regresión

Gráfica de residuales contra x La gráfica de residuales contra la variable independiente x

Gráfica de residuales contra ȳ

Para problemas orientados a la regresión, el coeficiente de correlación de muestra (r)

𝑠𝑢𝑚𝑎 𝑑𝑒 𝑐𝑢𝑎𝑑𝑟𝑎𝑑𝑜𝑠 𝑑𝑒𝑏𝑖𝑑𝑜 𝑎 𝑙𝑎 𝑟𝑒𝑔𝑟𝑒𝑠𝑖ó𝑛 𝑆𝑆𝑅

Si únicamente se lleva a cabo un análisis de correlación de un conjunto de datos, el

∑𝑛𝑖=1(𝑋1 − 𝑋̅)(𝑌1 − 𝑌̅)

Cálculo del coeficiente e interpretación

El análisis de correlación general da como resultado un número entre -1 y 1, llamado

Esta prueba se hace con n-1 grados de libertad

Regresión lineal múltiple

 Las variables independientes (causas) deben ser ordinales o escalares o dummy

Prueba de hipótesis para los coeficientes 1 2

La prueba de significancia de la regresión es una de la pruebas de hipótesis utilizadas para medir

La prueba estadística utilizada es

La hipótesis es dada por

La prueba estadística utilizada es

Se incluyen otra variable regresora

Se elimina una una o más variables regresoras presentes en el modelo

La adición de variables regresoras en el modelo implica:

pero se debe decidir si el incremento en la SC es tan significativo que justifique la

deberían ser incluidas puede aumentar la SC .

La hipótesis para probar la significancia dede cualquier coeficiente de regresión es

Si la hipótesis nula no es rechazada, es un indicador de que la variable regresora puede ser

La prueba estadística para la hipótesis es

donde es el elemento de la diagonal de la matriz correspondiente a . La prueba

1. Esta prueba es una prueba marginal, es decir se está determinando la contribución

2. También se puede determinar la contribución en la SC , de la variable

Estimado Error estándar T Valor p

CONSTANTE -94,552 9,96343 -9,48991 0,0002

X1 2,80155 0,300978 9,30816 0,0002

X2 1,07268 0,0932349 11,5052 0,0001

La primera fila prueba la hipótesis

de la cual se concluye que el intercepto es significativamente diferente de cero.

La segunda fila prueba la hipótesis