Trabajo de Estadistica

1) VARIABLE BIDIMENCIONAL
Una variable bidimensional es una variable en la que cada individuo está

definido por un par de caracteres, (X, Y). Estos dos caracteres son a su
vez variables estadísticas en las que sí existe relación entre ellas, una de las
dos variables es la variable independiente y la otra variable dependiente.
Las variables bidimensionales surgen cuando se estudian dos características

asociadas a la observación de un fenómeno. En concreto, resultan de tomar una
muestra de tamaño “n” de una variable aleatoria bidimensional (X,Y)
y1 y2 y3 yj yn ni
x1 n11 n12 n13 n1i n1n
x2 n21 n22 n23 n2i n2n
x3 n31 n32 n33 n3i
xj ni1 ni2 ni3 nij nin
xn nm1 nm2 nm3 nmj nmn
Ejemplo de aplicación 01
En la municipalidad distrital de pichari se realiza un estudio de la ejecución

física financiera del presupuesto de obras, para ello la municipalidad cuenta con
un cronograma valorizado mensual de acuerdo a la siguiente tabla.
Tabla No 01 de frecuncias absolutas de obras en ejecucion y el

porcentaje de avance.
Y( avance %) Mes 1 Mes 2 Mes 3 Mes 4 Mes 5
X (millones de soles) [0-20> [20-40> [40-60> [60-80> [80-100> TOTAL
Programas Sociales 2 2 0 1 1 1 5
Centros Educativos 3 3 2 2 1 8
Saneamineto 4 2 3 2 1 1 9
Pista y Veredas 5 1 0 2 0 0 3
Obras Viales 6 0 2 2 1 1 6
TOTAL 8 7 9 3 4 31
1. Calculo de las varianzas marginales

a. Calculo del promedio
∑𝑛𝑖=1 𝑛𝑖 𝑥𝑖
𝑥̅ =
𝑛
2∗5+3∗8+4∗9+5∗3+6∗6
𝑥̅ = 𝑥̅ = 3.903
31
∑𝑛𝑖=1 𝑛𝑖 𝑦𝑖
𝑦̅ =
𝑛
10 ∗ 8 + 30 ∗ 7 + 50 ∗ 9 + 70 ∗ 3 + 90 ∗ 4
𝑦̅ = 𝑦̅ = 42.258%
31
b. Varianza
∑𝑛𝑖=1 𝑛𝑖 𝑥𝑖2 − 𝑛 ∗ 𝑥̅ 2
𝑆𝑥2 =
𝑛
5 ∗ 22 + 8 ∗ 32 + 9 ∗ 42 + 3 ∗ 52 + 6 ∗ 62 − 31 ∗ 3.9032
𝑆𝑥2 =
31
𝑆𝑥2 = 54.764
∑𝑛𝑖=1 𝑛𝑖 𝑦𝑖2 − 𝑛 ∗ 𝑦̅ 2
𝑆𝑦2 =
𝑛
102 ∗ 8 + 302 ∗ 7 + 502 ∗ 9 + 702 ∗ 3 + 902 ∗ 4 − 31 ∗ 42.2582
𝑆𝑦2 =
31
𝑆𝑦2 = 688.45
Interpretación
𝑆𝑦2 : La variabilidad promedio del presupuesto de obra con respecto al promedio es no
más de 688.45 millones de soles
𝑆𝑥2 : : La variabilidad promedio de porcentaje de ejecución del presupuso es a lo mas de
54.76%.
Se realizaron la excavación de calicatas de forma cuadrada de 1m de lado y

profundidad variable para realizar estudio detallado de la capacidad portante del
suelo para la fundación de la estructura de un embalse de 4 mil m3 de capacidad,
del cual se obtuvieron muestras con una determinada resistencia de suelo por
calicata que se muestra en el siguiente cuadro de frecuencias absolutas.
Tabla No 02 de frecuncias absolutas de capacidad portante del suelo para
diferentes calicatas
Y CAPACIDAD PORTANTE DEL SUELO(kg/cm2)
ni
CODIGO X (profundidad) [0.0-0.75> [0.75-1.5> [1.5-2.25> [2.25-3.0>
C101 1.8 3 0 1 4 8
C201 2 0 4 1 0 5
C302 2.3 2 0 5 2 9
C405 2.5 0 3 0 2 5
C501 2.7 2 0 4 1 7
TOTAL 7 7 11 9 34
1. Calculo de las varianzas marginales

a. Calculo del promedio
∑𝑛𝑖=1 𝑛𝑖 𝑥𝑖
𝑥̅ =
𝑛
1.8 ∗ 8 + 2 ∗ 5 + 2.3 ∗ 9 + 2.5 ∗ 5 + 2.7 ∗ 7
𝑥̅ = 𝑥̅ = 2.25
34
∑𝑛𝑖=1 𝑛𝑖 𝑦𝑖
𝑦̅ =
𝑛
7 ∗ 0.375 + 7 ∗ 1.125 + 11 ∗ 1.875 + 9 ∗ 2.625
𝑦̅ = 𝑦̅ = 1.61
34
b. Varianza
∑𝑛𝑖=1 𝑛𝑖 𝑥𝑖2 − 𝑛 ∗ 𝑥̅ 2
𝑆𝑥2 =
𝑛
8 ∗ 1.82 + 5 ∗ 22 + 9 ∗ 2.32 + 5 ∗ 2.52 + 7 ∗ 2.72 − 34 ∗ 2.252

𝑆𝑥2 =
34
𝑆𝑥2 = 0.108
∑𝑛𝑖=1 𝑛𝑖 𝑦𝑖2 − 𝑛 ∗ 𝑦̅ 2
𝑆𝑦2 =
𝑛
0.3752 ∗ 7 + 1.1252 ∗ 7 + 1.8752 ∗ 11 + 2.6252 ∗ 9 − 34 ∗ 1.612
𝑆𝑦2 =
34
𝑆𝑦2 = 0.659
Interpretación
Sy2 : La variabilidad promedio de la capacidad portante del suelo se incrementa

en a la mas 0.659 kg/cm2
Sx2 : : La variabilidad promedio de la profundidad con respecto a la media es
de 0.16 m
a. COVARIANZA
Una medida del grado en que dos variables aleatorias se mueven en la misma
direccion o en direcciones opuestas la una respecto a la otra. En otras palabras, si
dos variables aleatorias generalmente se mueven en la misma direccion se dirá
que tienen una covarianza positiva. Si tienden a moverse en direcciones
opuestas, se dirá que tienen una covarianza negativa. La covarianza se mide
como el valor que se espera de los productos de las desviaciones de dos
variables aleatorias respecto a sus correspondientes medias. Una varianza es un
caso especial de covarianza.
Interpretación de la covarianza
 Si hay dependencia directa (positiva), es decir, a grandes valores de x

corresponden grandes valores de y.
 Si Una covarianza 0 se interpreta como la no existencia de una

relación lineal entre las dos variables estudiadas.
 Si hay dependencia inversa o negativa, es decir, a grandes valores de x

corresponden pequeños valores de y.
∑𝑚 𝑛
𝑖=1. ∑𝑖=1 𝑛𝑖 𝑥𝑖 𝑦𝑖
𝐶𝑜𝑣𝑥𝑦 = − 𝑥̅ 𝑦̅
𝑛
 La covarianza indica el sentido de la correlación entre las variables

 Si Sxy > 0 la correlación es directa.
 Si Sxy < 0 la correlación es inversa.
 La covarianza presenta como inconveniente, el hecho de que su valor
depende de la escala elegida para los ejes.
Calculamos la covarianza para el cuadro No 01
∑𝑚 𝑛
𝑛
∑𝑚 𝑛
𝑖=1. ∑𝑖=1 𝑛𝑖 𝑥𝑖 𝑦𝑖 = 2 ∗ 2 ∗ 10 + 2 ∗ 1 ∗ 50 + 2 ∗ 1 ∗ 70 + 2 ∗ 1 ∗ 90 +
3 ∗ 3 ∗ 10 + 3 ∗ 2 ∗ 30 + 3 ∗ 2 ∗ 50 + 3 ∗ 1 ∗ 90 +
4 ∗ 2 ∗ 10 + 4 ∗ 3 ∗ 30 + 4 ∗ 2 ∗ 50 + 4 ∗ 1 ∗ 70 +
4 ∗ 1 ∗ 90 + 5 ∗ 1 ∗ 10 + 5 ∗ 2 ∗ 50 + 6 ∗ 2 ∗ 30 +
6 ∗ 2 ∗ 50 + 6 ∗ 1 ∗ 70 + 6 ∗ 1 ∗ 90
∑𝑚 𝑛
𝑖=1. ∑𝑖=1 𝑛𝑖 𝑥𝑖 𝑦𝑖 =3087
3087
𝐶𝑜𝑣𝑥𝑦 = − 3.903 ∗ 42.258 𝐶𝑜𝑣𝑥𝑦 = −65.352
31
Interpretación
Existe una correlación inversamente proporcional del porcentaje de
avance al presupuesto ejecutado.
Calculamos la covarianza para el cuadro No 02
∑𝑚 𝑛
𝑛
∑𝑚 𝑛
𝑖=1. ∑𝑖=1 𝑛𝑖 𝑥𝑖 𝑦𝑖 = 1.8 ∗ 3 ∗ 0.3751.8 ∗ 1.875 + 1.8 ∗ 4 ∗ 2.625 + 2 ∗
4 ∗ 1.125 + 2 ∗ 1.875 + 2.3 ∗ 2 ∗ 0.375 + 2.3 ∗ 5 ∗
1.875 + 2.3 ∗ 2 ∗ 2.625 + 2.5 ∗ 3 ∗ 1.125 + 2.5 ∗ 2 ∗
2.625 + 2.7 ∗ 2 ∗ 0.375 + 2.7 ∗ 4 ∗ 1.875 + 2.7 ∗
2.625
∑𝑚 𝑛
𝑖=1. ∑𝑖=1 𝑛𝑖 𝑥𝑖 𝑦𝑖 = 123.338
123.338
𝐶𝑜𝑣𝑥𝑦 = − 2.25 ∗ 1.61 𝐶𝑜𝑣𝑥𝑦 = 0.0051
34
Interpretación
Existe una correlación directamente proporcional de la profundidad a la
capacidad portante del suelo.
b. CORRELACION DE PEARSON
En estadística, el coeficiente de correlación de Pearson es una medida de la

relación lineal entre dos variables aleatorias cuantitativas. A diferencia de la
covarianza, la correlación de Pearson es independiente de la escala de medida
de las variables.
Los coeficientes de correlación son medidas que indican la situación relativa de

los mismos sucesos respecto a las dos variables, es decir, son la expresión
numérica que nos indica el grado de relación existente entre las 2 variables y en
qué medida se relacionan. Son números que varían entre los límites +1 y -1. Su
magnitud indica el grado de asociación entre las variables; el valor r = 0 indica
que no existe relación entre las variables; los valores (1 son indicadores de una
correlación perfecta positiva (al crecer o decrecer X, crece o decrece Y) o
negativa (Al crecer o decrecer X, decrece o crece Y).
Calculamos la correlación para el cuadro No 01
Cov(xy)
𝜌𝑥𝑦 =
𝑆𝑥 𝑆𝑦
−65.352
𝜌𝑥𝑦 = 𝜌𝑥𝑦 = −0.337
1.491 ∗ 26.238
Interpretación
Existe una correlación inversamente proporcional del porcentaje de
avance al presupuesto ejecutado.
Calculamos la correlación para el cuadro No 02
Cov(xy)
𝜌𝑥𝑦 =
𝑆𝑥 𝑆𝑦
0.0051
𝜌𝑥𝑦 = 𝜌𝑥𝑦 = 0.019
0.329 ∗ 0.812
Interpretación
Existe una correlación muy baja entre la profundidad y la capacidad
portante del suelo.
2) MODELOS DE REGRESION LINEAL

a. REGRESION LINEAL
La regresión lineal es un técnica para determinar la mejor línea recta que pasa
entre un conjunto de observaciones definidas por puntos (x , y ), (x , y ), ....(x ,
y) La ecuación puede expresarse como:
𝑦 = a 0 + a1 𝑥 + 𝑒 (1)
Dónde:
y: Es el valor verdadero
ao y a1: son la ordenada al origen y la pendiente de la línea recta

respectivamente.
e: es el error o diferencia entre el modelo y las observaciones, el cual se

representa al reordenar la ecuación como: e = y – ao – a1 x
ao + a1 x: es el valor pronosticado de la variable dependiente.
Criterio para un “mejor” ajuste
Una estrategia para ajustar una “mejor” línea a través de los datos será
minimizar la suma de los errores residuales de todos los datos disponibles, del
siguiente modo:
𝑛 𝑛
∑ 𝑒𝑖 = ∑(𝑦𝑖 − 𝑎𝑜 − 𝑎1 𝑥𝑖 )
𝑖=1 𝑖=1
La estrategia que supera las deficiencias de los procedimientos para minimizar

es la suma de los cuadrados de los residuos entre la y medida y la y calculada
con el modelo lineal
𝑛 𝑛
∑ 𝑒𝑖2 = ∑(𝑦𝑖,𝑚𝑒𝑑𝑖𝑑𝑎 − 𝑦𝑖,𝑚𝑜𝑑𝑒𝑙𝑜 )2

𝑖=1 𝑖=1
𝑛 𝑛
∑ 𝑒𝑖2 = ∑(𝑦𝑖 − 𝑎𝑜 − 𝑎1 𝑥𝑖 )2
𝑖=1 𝑖=1
Este criterio tiene varias ventajas, entre ellas el hecho de que se obtiene una línea
única para cierto conjunto de datos. Antes de analizar tales propiedades,
presentaremos una técnica para determinar los valores de a0 y a1 que
minimizan la ecuación.
Ajuste de una línea recta por mínimos cuadrados
Para determinar los valores de a0 y a1, de la ecuación anterior (1) se deriva

con respecto a cada uno de los coeficientes:
𝑛
𝜕 ∑𝑛𝑖=1 𝑒𝑖2
= −2 ∑(𝑦𝑖 − 𝑎𝑜 − 𝑎1 𝑥𝑖 )
𝜕𝑎𝑜
𝑖=1
𝑛
𝜕 ∑𝑛𝑖=1 𝑒𝑖2
= −2 ∑[(𝑦𝑖 − 𝑎𝑜 − 𝑎1 𝑥𝑖 )𝑥𝑖 ]
𝜕𝑎1
𝑖=1
Observe que hemos simplificado los símbolos de la sumatoria, todas las

sumatorias van desde i = 1 hasta n. Al igualar estas derivadas a cero, se dará
como resultado un 𝑆𝑟 = ∑𝑛𝑖=1 𝑒𝑖2 mínimo. Si se hace esto, las ecuaciones
reordenadas se expresan como:
𝑛 𝑛 𝑛
0 = ∑ 𝑦𝑖 − ∑ 𝑎𝑜 − ∑ 𝑎𝑖 𝑥𝑖
𝑖=1 𝑖=1 𝑖=1
𝑛 𝑛 𝑛
0 = ∑ 𝑦𝑖 𝑥𝑖 − ∑ 𝑎𝑜 𝑥𝑖 − ∑ 𝑎𝑖 𝑥𝑖2
𝑖=1 𝑖=1 𝑖=1
Ahora, si observamos que ∑a 0 = na 0, expresamos las ecuaciones como un

conjunto de dos ecuaciones lineales simultáneas, con dos incógnitas (a0 y a1):
𝑛 𝑛
𝑛𝑎 + (∑ 𝑥𝑖 ) 𝑎1 = ∑ 𝑦𝑖
𝑖=1 𝑖=1
𝑛 𝑛 𝑛
(∑ 𝑥𝑖 ) 𝑎𝑜 + (∑ 𝑥𝑖2 ) 𝑎1 = ∑ 𝑥𝑖 𝑦𝑖
𝑖=1 𝑖=1 𝑖=1
Éstas se llaman ecuaciones normales, y se resuelven en forma simultánea
𝑛 ∑𝑛𝑖=1 𝑥𝑖 𝑦𝑖 − ∑𝑛𝑖=1 𝑥𝑖 ∑𝑛𝑖=1 𝑦𝑖

𝑎1 =
𝑛 ∑𝑛𝑖=1 𝑥𝑖2 − (∑𝑛𝑖 𝑥𝑖 )2
Este resultado se utiliza conjuntamente con la ecuación anterior para obtener
𝑎0 = 𝑦̅ − 𝑎1 𝑥̅
Donde –y y –x son las medias de y y x, respectivamente.
Ejemplos de aplicación 03
Los datos del cuadro adjunto muestran el costo de transporte por ciclo de trabajo
que realiza un volquete de 15 m3, cuyo costo por hora es de 200 $/h (a todo
costo) que consiste en la acumulación de agregados desde la cantera a distancias
diferentes según la ubicación de los puntos de descarga en una obra de
saneamiento ubicados en diferentes puntos.
Distancia
0.5 1.5 2 2.5 3 3.5 4 4.5 5 5.5 6 6.5
km (X)
costo $/hr
15.2 29.4 40.2 65.4 95.3 100.3 130.4 140.8 150.9 175.1 190.7 205.6
(Y)
Solución:
No X Y X*Y X^2
1.00 0.50 115.20 57.60 0.25
2.00 1.50 129.40 194.10 2.25
3.00 2.00 140.20 280.40 4.00
4.00 2.50 165.40 413.50 6.25
5.00 3.00 195.30 585.90 9.00
6.00 3.50 200.30 701.05 12.25
7.00 4.00 230.40 921.60 16.00
8.00 4.50 240.80 1,083.60 20.25
9.00 5.00 250.90 1,254.50 25.00
10.00 5.50 275.10 1,513.05 30.25
11.00 6.00 290.70 1,744.20 36.00
12.00 6.50 305.60 1,986.40 42.25
TOTAL 44.50 2,539.30 10,735.90 203.75
Modelo
𝑦 = a 0 + a1 𝑥
𝑛 ∑𝑛𝑖=1 𝑥𝑖 𝑦𝑖 − ∑𝑛𝑖=1 𝑥𝑖 ∑𝑛𝑖=1 𝑦𝑖

𝑎1 =
𝑛 ∑𝑛𝑖=1 𝑥𝑖2 − (∑𝑛𝑖 𝑥𝑖 )2
12 ∗ 10735.90 − 44.5 ∗ 2539.30

𝑎1 =
12 ∗ 203.75 − (44.5)2
𝑎1 = 34.07
Calculamos los promedios de:
∑𝑛𝑖=1 𝑦𝑖
𝑦̅ =
𝑛
2539.30
𝑦̅ = 𝑦̅ = 211.608
12
∑𝑛𝑖=1 𝑥𝑖
𝑥̅ =
𝑛
44.5
𝑥̅ = 𝑥̅ = 3.708
12
Por lo tanto
𝑎0 = 211.608 − 34.06 ∗ 3.708 𝑎0 = 85.31
Calculamos la correlación para encontrar en coeficiente de determinación
(a) Covarianza
∑𝑁𝐼=1 𝑥𝑖 𝑦𝑖 − 𝑛𝑥̅ 𝑦
̅
𝑐𝑜𝑣𝑋𝑌 =
𝑛
(10735.90 − 12 ∗ 3.708 ∗ 211.608)
12
𝑐𝑜𝑣𝑋𝑌 = 109.94
(b) Calculamos las varianzas

𝑛
1
𝑆𝑋2 = [∑ 𝑥𝑖2 − 𝑛 ∗ 𝑥̅ 2 ]
12 − 1
𝑖=1
1
𝑆𝑋2 = [203.75 − 12 ∗ 3.7082 ]
11
𝑆𝑋2 = 3.52
𝑛
1
𝑆𝑦2 = [∑ 𝑦𝑖 − 𝑛 ∗ 𝑦̅]
𝑛−1
𝑖=1
𝑛
1
𝑆𝑦2 = [∑ 582888.25 − 12 ∗ 211.608]
12 − 1
𝑖=1
𝑆𝑦2 = 4141.02
(c) Correlación
𝐶𝑜𝑣𝑥,𝑦
𝜌𝑥,𝑦 =
𝑆𝑥 𝑆𝑦
109.94
𝜌𝑥,𝑦 =
√3.52√4141.02
𝜌𝑥,𝑦 = 0.91
(d) Coeficiente de determinación
2
2
𝜌𝑥,𝑦 =[ ]
𝑆𝑥 𝑆𝑦
𝜌𝑥,𝑦 2 = [0.91]2
𝜌𝑥,𝑦 2 = 0.81
Interpretación.
𝑎0 = 85.31: es el costo mínimo de operación del equipo aunque no haya
trabajado
𝑎1 = 34.07: Es el incremento del costo de operación por cada kilómetro que
transporta el equipo.
𝜌𝑥,𝑦 2 : la distancia de transporte explica en un 81% el costo de operación en
transporte de materiales del equipo
b. REGRESION EXPONENCIAL
La regresión lineal ofrece una poderosa técnica para ajustar una mejor línea a los
datos. Sin embargo, se considera el hecho de que la relación entre las variables
dependiente e independiente es lineal. Éste no es siempre el caso, y el primer paso
en cualquier análisis de regresión deberá ser graficar e inspeccionar los datos en
forma visual, para asegurarnos que sea posible usar un modelo lineal; el método de
mínimos cuadrados permite obtener la mejor recta de ajuste a los datos en el caso de
la regresión lineal.
Sin embargo, no siempre existe una relación lineal entre la variable dependiente e
independiente y muchos modelos no son lineales en los parámetros, impidiendo el
uso del método de mínimos cuadrados.
En algunos casos es posible aplicar transformaciones para expresar los datos en una
forma compatible con la regresión lineal. Este es el caso del modelo exponencial y
de potencias.
El modelo exponencial se linealiza al aplicar el logaritmo natural:
𝑦 = 𝑎𝑜 𝑒 𝑎1 𝑥
Si tomamos logaritmo natural en la expresión de la función exponencial,

obtendremos
𝐿𝑛𝑦 = 𝐿𝑛𝑎𝑜 + 𝑎1 𝑥𝐿𝑛𝑒
𝐿𝑛𝑦 = 𝑎1 𝑥 + 𝐿𝑛𝑎𝑜
Dónde:
𝑌 = 𝐿𝑛𝑦 𝐴 = Ln𝑎𝑜
Como vemos es la ecuación de una recta:
𝑌 = 𝐴 + 𝑎1 𝑥
El parámetro b del modelo exponencial coincide con el coeficiente de regresión de

la recta ajustada a los datos transformados, y “a” lo obtenemos mediante el
antilog(a).
Los estimadores para el ajuste del modelo se calculan de la siguiente manera:
𝑛 ∑𝑛 𝑛 𝑛
𝑖=1 𝑥𝑖 𝐿𝑛𝑦𝑖 −∑𝑖=1 𝑥𝑖 ∑𝑖=1 𝐿𝑛𝑦𝑖
𝑎1 = 2
𝑛 ∑𝑛 2 𝑛
𝑖=1 𝑥𝑖 −(∑𝑖 𝑥𝑖 )
𝐿𝑛𝑎𝑜 = 𝐿𝑛𝑦̅ − 𝑎0 𝑥̅ 𝑎𝑜 = 𝑒 (𝐿𝑛𝑦̅−𝑎0 𝑥̅ )
Se ha realizado un estudio de tráfico para determinar sus características actuales

y futuras para la viabilidad de un proyecto de mejoramiento vial y determinar el
IMDA, teniendo en cuenta el crecimiento demográfico y económico las
comunidades en el BRAEM, según el cuadro que se muestra a continuación.
IMDA(Y) 25 29 40 43 46 51 52 60 70 73 96 80 100 120 150
AÑO (X) 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
AÑO IMDA
No LnYi Xi*LnYi Xi^2 (Lnyi)^2
(Xi) (Yi)
1 1 25 3.22 3.22 1 10.3612
2 2 29 3.37 6.73 4 11.3387
3 3 40 3.69 11.07 9 13.6078
4 4 43 3.76 15.04 16 14.1466
5 5 46 3.83 19.14 25 14.6585
6 6 51 3.93 23.59 36 15.4593
7 7 52 3.95 27.66 49 15.6123
8 8 60 4.09 32.75 64 16.7637
9 9 70 4.25 38.24 81 18.0497
10 10 73 4.29 42.90 100 18.4080
11 11 96 4.56 50.21 121 20.8333
12 12 80 4.38 52.58 144 19.2022
13 13 100 4.61 59.87 169 21.2076
14 14 120 4.79 67.02 196 22.9201
15 15 150 5.01 75.16 225 25.1065
Total 120 1035 61.731 525.2 1240.0 257.675
(a) Calculo de promedios (x,y)
∑𝑛
𝑖=1 𝐿𝑛𝑦𝑖 61.731
𝐿𝑛𝑦̅ = 𝐿𝑛𝑦̅ = 𝐿𝑛𝑦̅ = 4.115
𝑛 15
∑𝑛
𝑖=1 𝑥𝑖 120
𝑥̅ = 𝑥̅ = 𝑥̅ = 8.00
𝑛 15
(b) Calculo de los coeficientes (ao, a1)
15 ∗ 524.197 − 120 ∗ 61.731

𝑎1 = 𝑎1 = 0.11
15 ∗ 1240 − (120)2
𝑎𝑜 = 𝑒 (4.115−0.11∗8) 𝑎𝑜 = 25.02
𝑦 = 25.02𝑒 0.11𝑥
(c) Cálculos de la Varianza

1
𝑆𝑋2 = [1240 − 15 ∗ 82 ] 𝑆𝑋2 = 20.0
15 − 1
𝑛
1
𝑆𝑦2 = [∑ 𝐿𝑛𝑦𝑖2 − 𝑛 ∗ 𝐿𝑛𝑦̅ 2 ]
𝑛−1
𝑖=1
1
𝑆𝑦2 = [257.675 − 15 ∗ 4.1152 ] 𝑆𝑦2 = 0.26
15 − 1
(d) Cálculos de la Covarianza
∑𝑁
𝐼=1 𝑥𝑖 𝐿𝑛𝑦𝑖 − 𝑛𝑥̅ 𝐿𝑛𝑦
̅
𝑛
525.20 − 15 ∗ 8 ∗ 4.115
𝑐𝑜𝑣𝑋𝑌 = 𝑐𝑜𝑣𝑋𝑌 = 2.09
15
(e) Cálculos de la Correlación
2.09
𝜌𝑥,𝑦 = 𝜌𝑥,𝑦 = 0.91
√20√0.26
(f) Cálculos del Coeficiente de determinación
2
2
𝜌𝑥,𝑦 =[ ]
𝑆𝑥 𝑆𝑦
𝜌𝑥,𝑦 2 = [0.91]2 𝜌𝑥,𝑦 2 = 0.8827
Interpretación.
𝑎0 = 25.0: es el Índice Medio Diario Anual de vehículos que transitan por la
zona del proyecto a ejecutar
𝑎1 = 0.11: Es la tasa de incremento anual de vehículos que transitan por la zona
del proyecto.
𝜌𝑥,𝑦 2 : La tasa de incremento anual explica en un 88.27% a la IMDA de
vehículos o tiene un grado de confiabilidad de 88.27%
c. REGRESION LOGARITMICA
Este modelo de regresión es una alternativa cuando el modelo lineal no logra un

coeficiente de determinación apropiado, o cuando el fenómeno en estudio tiene
un comportamiento que puede considerarse potencial o logarítmico. La forma
más simple de tratar de establecer la tendencia es a través de un diagrama de
dispersión o nube de puntos, tal como la siguiente:
𝑦 = 𝑎𝑜 + 𝑎1 𝐿𝑛𝑥
La curva logarítmica 𝑦 = 𝑎𝑜 + 𝑎1 𝐿𝑛𝑥 es también una recta, pero en lugar de estar

referida a las variables originales x e y, está referida a Lnx y a “y”. Los estimadores
para el ajuste del modelo se calculan de la siguiente manera:
∑𝑛𝑖=1 𝑦𝑖 − 𝑎1 ∑𝑛𝑖=1 𝐿𝑛𝑥𝑖

𝑎𝑜 =
𝑛
𝑛 ∑𝑛𝑖=1 𝑦𝑖 𝐿𝑛𝑥𝑖 − ∑𝑛𝑖=1 𝐿𝑛𝑥𝑖 ∑𝑛𝑖=1 𝑦𝑖

𝑎1 =
𝑛 ∑𝑛𝑖=1 𝐿𝑛𝑥𝑖2 − (∑𝑛𝑖 𝐿𝑛𝑥𝑖 )2
Se tiene los resultados obtenidos del rendimiento de transporte de material

excedente con volquetes de 15 m3 a un depósito de material excedente en una
rehabilitación de una carretera a diferentes ubicaciones distancias como se
muestra en el cuadro adjunto.
Distancia
Re ndimie n
transporte
to (m3/h) Y
(km) X
0.3 1430.0
0.5 1220.0
0.7 1300.0
0.9 974.4
1.1 850.0
1.3 720.0
1.5 740.0
1.7 685.7
2 617.0
2.3 500.0
2.8 420.0
3.5 380.0
4.5 300.0
5 250.0
6 160.0
No X (km) Y (m3/h) LnXi Yi*LnXi LnXi^2 Yi^2
1 0.3 1430.0 -1.204 -1721.681 1.450 2044900.00
2 0.5 1220.0 -0.693 -845.640 0.480 1488400.00
3 0.7 1300.0 -0.357 -463.677 0.127 1690000.00
4 0.9 974.4 -0.105 -102.663 0.011 949455.36
5 1.1 850.0 0.095 81.014 0.009 722500.00
6 1.3 720.0 0.262 188.902 0.069 518400.00
7 1.5 740.0 0.405 300.044 0.164 547600.00
8 1.7 685.7 0.531 363.852 0.282 470184.49
9 2 617.0 0.693 427.672 0.480 380689.00
10 2.3 500.0 0.833 416.455 0.694 250000.00
11 2.8 420.0 1.030 432.440 1.060 176400.00
12 3.5 380.0 1.253 476.050 1.569 144400.00
13 4.5 300.0 1.504 451.223 2.262 90000.00
14 5 250.0 1.609 402.359 2.590 62500.00
15 6 160.0 1.792 286.682 3.210 25600.00
Total 34.100 10547.100 7.648 693.031 14.459 9561028.850
(a) Calculo de promedios (x,y)
∑𝑛
𝑖=1 𝑦𝑖 10547.10
𝑦̅ = 𝑦̅ = 𝑦̅ = 703.140
𝑛 15
∑𝑛
𝑖=1 𝐿𝑛𝑥𝑖 7.648
𝐿𝑛𝑥̅ = 𝐿𝑛𝑥̅ = 𝐿𝑛𝑥̅ = 0.509
𝑛 15
(b) Calculo de los coeficientes (ao, a1)
15 ∗ 693.031 − 7.684 ∗ 10547.1

𝑎1 = 𝑎1 = −443.64
15 ∗ 14.459 − (7.648)2
𝑎𝑜 = 𝑦̅ − 𝑎0 𝐿𝑛𝑥̅
𝑎𝑜 = 703.140 − (−443.64) ∗ 0.509 𝑎𝑜 = 929.36
𝑦 = 929.36 − 443.64𝑙𝑛𝑥
(c) Cálculos de la Varianza

𝑛
1
𝑆𝑥2 = [∑ 𝐿𝑛𝑥𝑖2 − 𝑛 ∗ 𝐿𝑛𝑥̅ 2 ]
𝑛−1
𝑖=1
1
𝑆𝑋2 = [14.459 − 15 ∗ 0.5092 ] 𝑆𝑋2 = 0.754
15 − 1
𝑛
1
𝑆𝑦2 = [∑ 𝐿𝑛𝑦𝑖2 − 𝑛 ∗ 𝐿𝑛𝑦̅ 2 ]
𝑛−1
𝑖=1
1
𝑆𝑦2 = [9561028.85 − 15 ∗ 703.142 ] 𝑆𝑦2 = 153210.068
15 − 1
(d) Cálculos de la Covarianza
∑𝑁
𝐼=1 𝐿𝑛𝑥𝑖 𝑦𝑖 − 𝑛𝐿𝑛𝑥̅ 𝑦
̅
𝑛
693.031 − 15 ∗ 0.509 ∗ 703.14
𝑐𝑜𝑣𝑋𝑌 = 𝑐𝑜𝑣𝑋𝑌 = −312.32
15
(e) Cálculos de la Correlación
−312.3208
𝜌𝑥,𝑦 = 𝜌𝑥,𝑦 = −0.919
√0.754√153210.068
(f) Cálculos del Coeficiente de determinación
2
2
𝜌𝑥,𝑦 =[ ]
𝑆𝑥 𝑆𝑦
𝜌𝑥,𝑦 2 = [0.919]2 𝜌𝑥,𝑦 2 = 0.845
Interpretación.
𝑎0 = 929.36: representa el máximo rendimiento del equipo a una distancia

mínima.
𝑎1 = −443.64: Es el decrecimiento del rendimiento por cada kilómetro
transportado en forma logarítmica.
𝜌𝑥,𝑦 2 : el grado de ajuste tiene una confiabilidad de 84.5% y que la distancia
explica en un 84.5% al rendimiento del equipo
d. REGRESION POLINOMICA
En la ingeniería, aunque algunos datos exhiben un patrón marcado, como el que se

advierte en la figura que se muestra, son pobremente representados por una línea
recta como en el caso anterior, entonces, una curva podrá ser más adecuada para
ajustarse a los datos, un método para lograr este objetivo es utilizar
transformaciones. Otra alternativa es ajustar polinomios a los datos mediante
regresión polinomial.
El procedimiento de mínimos cuadrados se puede extender fácilmente al ajuste de
datos con un polinomio de grado “n”.
𝑦 = 𝑎𝑜 + 𝑎1 𝑥𝑖 + 𝑎2 𝑥𝑖2 + ⋯ + 𝑎𝑛 𝑥𝑖𝑛
Apliquémosle el método de mínimos cuadrados. La curva propuesta es:
𝑦 = 𝑎𝑜 + 𝑎1 𝑥𝑖 + 𝑎2 𝑥𝑖2 + ⋯ + 𝑎𝑛 𝑥𝑖𝑛 + 𝑒𝑖
Donde a son coeficientes y “e” es el error. Una estrategia es minimizar la suma de

los cuadrados de los residuos (Sr ), entre la y medida y la y calculada con el modelo
lineal, está dada por:
𝑚 𝑚
∑ 𝑒𝑖2 = ∑(𝑦𝑖,𝑚𝑒𝑑𝑖𝑑𝑎 − 𝑦𝑖,𝑚𝑜𝑑𝑒𝑙𝑜 )2

𝑖=1 𝑖=1
𝑚 𝑚
∑ 𝑒𝑖2 = ∑(𝑦𝑖 − 𝑎𝑜 − 𝑎1 𝑥𝑖 + 𝑎2 𝑥𝑖2 + ⋯ + 𝑎𝑛0 𝑥𝑖𝑛 )2

𝑖=1 𝑖=1
Aplicando derivada parciales para cada coeficiente (ao, a1, a2,…, an), y
despejando se tiene:
𝑚 𝑚 𝑚 𝑚
∑ 𝑦𝑖 = 𝑚𝑎𝑜 + 𝑎1 ∑ 𝑥𝑖 + 𝑎2 ∑ 𝑥𝑖2 + ⋯ + 𝑎𝑛 ∑ 𝑥𝑖𝑛

𝑖=1 𝑖=1 𝑖=1 𝑖=1
𝑚 𝑚 𝑚 𝑚 𝑚
2
∑ 𝑦𝑖 𝑥𝑖 = 𝑎𝑜 ∑ 𝑥𝑖 + 𝑎1 ∑ 𝑥𝑖=1 + 𝑎2 ∑ 𝑥𝑖3 + ⋯ + 𝑎𝑛 ∑ 𝑥𝑖𝑛
𝑖=1 𝑖=1 𝑖=1 𝑖=1 𝑖=1
∑ 𝑦𝑖 𝑥𝑖2 = 𝑎𝑜 ∑ 𝑥𝑖2 + 𝑎1 ∑ 𝑥𝑖3 + 𝑎2 ∑ 𝑥𝑖4 + ⋯ + 𝑎𝑛 ∑ 𝑥𝑖𝑛+1

𝑖=1 𝑖=1 𝑖=1 𝑖=1 𝑖=1
∑ 𝑦𝑖 𝑥𝑖𝑛 = 𝑎𝑜 ∑ 𝑥𝑖𝑛 + 𝑎1 ∑ 𝑥𝑖𝑛+1 + 𝑎2 ∑ 𝑥𝑖𝑛+2 + ⋯ + 𝑎𝑛 ∑ 𝑥𝑖𝑛

𝑖=1 𝑖=1 𝑖=1 𝑖=1 𝑖=1
Todas las sumatorias son desde i = 1 hasta m (donde “m” es el número de puntos). Los
coeficientes de las incógnitas se pueden evaluar de manera directa a partir de los datos
observados. El sistema es lineal y puede resolverse por los métodos conocidos.
Podemos escribir el sistema de ecuaciones normales obtenido en la forma matricial:
(S𝑥 )𝑎 = 𝑆𝑥𝑦
m m m
m ∑ xi ∑ xi2 ⋯ ∑ xin
i=1 i=1 i=1
m m m m
∑ xi ∑ xi2 ∑ xi3 … ∑ xin+1
i=1 i=1 i=1 i=1
m m m m
Sx = ∑ xi2 ∑ xi3 ∑ xi4 ⋯ ∑ xin+2
i=1 i=1 i=1 i=1
. . . ⋯ .
. . . … .
. . . … .
m m m m
∑ xin ∑ xin+1 ∑ xin+2 … ∑ xi2n
[ i=1 i=1 i=1 i=1 ]
𝑎𝑜 ∑𝑚𝑖=1 𝑦𝑖 𝑥𝑖
𝑛
𝑎1 ∑𝑖=1 𝑦𝑖 𝑥𝑖2
𝑎 = 𝑎2 𝑆𝑥𝑦 = ∑𝑛𝑖=1 𝑦𝑖 𝑥𝑖3
⋮ ⋮
[𝑎 𝑛 ] [∑𝑛𝑖=1 𝑦𝑖 𝑥𝑖𝑛 ]
Dónde:
Sx: Matriz de sumatorias de potencias de x.

a: Vector de coeficientes. Las constantes del polinomio.
S: Vector de sumatorias de potencias de x con y's.
Se ha registrado la variación de volumen de agua durante el periodo de un año (12 meses

del año) de un embalse con una máxima capacidad de 4000 m3 que dota a una población de
2800 habitantes a razón de 150 lit/hab dia como se muestra en la siguiente tabla estadística
Variacion volumen
MES (X)
(Y)*1000
1 Enero 4
2 Febrero 3.8
3 Marzo 3.6
4 Abril 3
5 Mayo 3
6 Junio 2.3
7 Julio 2.5
8 Agosto 2
9 Septiembre 2.1
10 Octubre 2.4
11 Noviembre 3
12 Diciembre 3.1
Solución
Mes X Y X^2 X^3 X^4 X^5 X^6 XY X^2Y X^3Y X^4Y

Enero 0 4 0 0 0 0 0 0 0 0 0
Febrero 1 3.8 1 1 1 1 1 3.8 3.8 3.8 3.8
Marzo 2 3.6 4 8 16 32 64 7.2 14.4 28.8 57.6
Abril 3 3 9 27 81 243 729 9.0 27.0 81.0 243.0
Mayo 4 3 16 64 256 1024 4096 12.0 48.0 192.0 768.0
Junio 5 2.3 25 125 625 3125 15625 11.5 57.5 287.5 1437.5
Julio 6 2.5 36 216 1296 7776 46656 15.0 90.0 540.0 3240.0
Agosto 7 2 49 343 2401 16807 117649 14.0 98.0 686.0 4802.0
Septiembre 8 2.1 64 512 4096 32768 262144 16.8 134.4 1075.2 8601.6
Octubre 9 2.4 81 729 6561 59049 531441 21.6 194.4 1749.6 15746.4
Noviembre 10 3 100 1000 10000 100000 1000000 30.0 300.0 3000.0 30000.0
Diciembre 11 3.1 121 1331 14641 161051 1771561 34.1 375.1 4126.1 45387.1
Total 66 34.8 506 4356 39974 381876 3749966 175 1343 11770 110287
𝑦𝑚 = 𝑎𝑜 + 𝑎1 𝑥 + 𝑎2 𝑥 2 + 𝑎3 𝑥 3
Construcción de la matriz
12 78 650 6084 𝑎0 34.8

78 650 6084 60710 𝑎1 209.8
[ ][ ] = [ ]
650 6084 60710 630708 𝑎2 1727.4
6084 60710 630708 6735950 𝑎3 16358
Sacando la matriz inversa de la sumatoria de la variable Xin
0.758 −0.487 0.084 −4.2 ∗ 10−3

𝑆𝑥 = [ −0.487 0.515 −0.107 6.0 ∗ 10−3 ]
0.084 −0.107 0.024 −1.425 ∗ 10−3
−4.27 ∗ 10−3 6 ∗ 10−3 −1.425 ∗ 10−3 8.633 ∗ 10−5
Multiplicamos la matriz inversa por la matriz de sumatorias de potencias de x con y para
obtener los resultados de los coeficientes
𝑎0 4.051
𝑎1 −0.230
[𝑎 ] = [ ]
2 −0.039
𝑎3 4.9 ∗ 10−3
Por tanto el modelo queda así
𝑦𝑚 = 4.051 − 0.230𝑥 − 0.039𝑥 2 + 4.9 ∗ 10−3 𝑥 3
Coeficiente de determinación.
x Yi (Yi-Ӯ)^2 Ym (Yi-Ym)^2 (Ym-Ӯ)

0,00 4,00 1,21 4,05 0,00 1,32
1,00 3,80 0,81 3,79 0,00 0,78
2,00 3,60 0,49 3,47 0,02 0,33
3,00 3,00 0,01 3,14 0,02 0,06
4,00 3,00 0,01 2,81 0,04 0,01
5,00 2,30 0,36 2,52 0,05 0,14
6,00 2,50 0,16 2,30 0,04 0,35
7,00 2,00 0,81 2,19 0,03 0,51
8,00 2,10 0,64 2,19 0,01 0,50
9,00 2,40 0,25 2,36 0,00 0,29
10,00 3,00 0,01 2,71 0,08 0,04
11,00 3,10 0,04 3,28 0,03 0,14
66,00 34,80 4,80 34,80 0,32 4,48
𝑆𝐶𝐸
2 2
∑𝑛1=1(𝑌𝐼 − 𝑌𝑚 )2
𝑅 = 𝑅 = 𝑛
𝑆𝐶𝑇 ∑1=1(𝑌𝐼 − 𝑌̅)2
Donde:
SCE: es la suma de cuadrados explicado
SCT: suma de cuadrados total
4.4775
𝑅2 = 𝑅 2 = 93.28%
4.8
Interpretación.
𝑎0 = 4.05: es la capacidad máxima que puede almacenar agua el embalse en m3.

𝑎1 = −0.23: es la proporción mensual de agua que disminuye por consumo de la
población como también por la disminución de las precipitaciones.
𝑎2 = −0.039: es la proporción mensual de agua que disminuye por consumo de
la población como también por la disminución de las precipitaciones al
cuadrado.
𝑎3 = 4.9 ∗ 10−3 : es la proporción mensual de agua que se incrementa por las
precipitaciones al cubo.
𝜌𝑥,𝑦 2 : El consumo mensual explica en n 93.28% al volumen almacenado de agua
en el embalce
Se tiene los resultados del ensayo de compactación de suelos (Proctor Modificado) para la
construcción de una losa deportiva de acuerdo a la siguiente tabla.
Y: Densidad X: Contenido de
Seca (gr/cm3) Humedad (%)
1.64 2.37
1.69 4.31
1.71 6.66
1.58 9.3
𝑦𝑚 = 𝑎𝑜 + 𝑎1 𝑥 + 𝑎2 𝑥 2
Solución
No Y X X^2 X^3 X^4 X*Y X^2*Y

1 1.64 2.37 5.62 13.31 31.55 3.89 9.21
2 1.69 4.31 18.58 80.06 345.07 7.28 31.39
3 1.71 6.66 44.36 295.41 1967.42 11.39 75.85
4 1.58 9.30 86.49 804.36 7480.52 14.69 136.65
Total 6.62 22.64 155.04 1193.14 9824.56 37.25 253.11
Construcción de la matriz
4 22.64 155.04 𝑎0 6.62

[ 22.64 𝑎
155.04 1193.14] [ 1 ] = [ 37.25 ]
155.04 1193.14 9824.56 𝑎2 253.11
Sacando la matriz inversa de la sumatoria de la variable Xin
8.299 −3.12 0.248

(𝑆𝑥 )−1 = [−3.12 1.272 −0.105 ]
0.248 −0.105 8.96 ∗ 10−3
Multiplicamos la matriz inversa(𝑆𝑥 )−1 por la matriz de sumatorias de potencias de x con

y 𝑆𝑥𝑦 para obtener los resultados de los coeficientes:
𝑎0 1.465
𝑎
[ 1] = [ 0.092 ]
𝑎2 −8.49 ∗ 10−3
Por tanto el modelo queda así
𝒚𝒎 = 𝟏. 𝟒𝟔𝟓 + 𝟎. 𝟎𝟗𝟐𝒙 − 𝟖. 𝟒𝟗 ∗ 𝟏𝟎−𝟑 𝒙𝟐
Coeficiente de determinación.
x Yi (Yi-Ӯ)^2 Ym (Yi-Ym)^2 (Ym-Ӯ)

2.4 1.64 0.0002 1.635 2.52E-05 0.0004007
4.3 1.69 0.0012 1.7027 0.000162 0.0022773
6.7 1.71 0.003 1.6991 0.000118 0.0019472
9.3 1.58 0.0056 1.5832 1E-05 0.0051596
23 6.62 0.0101 6.62 0.000315 0.0097847
𝑆𝐶𝐸 ∑𝑛1=1(𝑌𝐼 − 𝑌𝑚 )2
𝑅2 = 𝑅2 =
𝑆𝐶𝑇 ∑𝑛1=1(𝑌𝐼 − 𝑌̅)2
Dónde:
SCE: es la suma de cuadrados explicado
SCT: suma de cuadrados total
0.0097874
𝑅2 = 𝑅 2 = 96.9%
0.0101
Interpretación.
𝑎0 = 1.46: es la mínima densidad del suelo en kg/cm3.

𝑎1 = 0.092: es la proporción que se incrementa por cada porcentaje de
humedad.
𝑎2 = −8.49 ∗ 10−3 : es la proporción que disminuye por cada porcentaje de
humedad al cuadrado.
𝜌𝑥,𝑦 2 : el contenido de humedad explica en un 96.9% a la densidad seca
3) REGRESION LINEAL MULTIPLE EN SU FORMA MATRICIAL
En el modelo de regresión lineal múltiple, el regresando (que puede ser la variable

endógena o una transformación de las variables endógenas), es una función lineal de k
regresores correspondientes a las variables explicativas (o a transformaciones de las
mismas) y una perturbación aleatoria o error. El modelo también incluye un término
independiente. Si designamos por “y” al regresando, por x1t, x2t,..., xkt a los regresores y por
“e” al error o perturbación aleatoria, el modelo poblacional de regresión lineal múltiple
vendrá dado por la siguiente expresión:
𝑌𝑡 = 𝛽0 + 𝛽1 𝑥1𝑡 + 𝛽2 𝑥2𝑡 + ⋯ + 𝛽𝑘 𝑥𝑘𝑡 + 𝑒𝑡 ∀𝑡 = 1, 2, 3, … . , 𝑇
T: tamaño muestral (número de observaciones disponibles)

Yt: Regresando (variable endógena corriente, endógena, dependiente o explicativa)
𝑥1𝑡 , 𝑥1𝑡 , , … , 𝑥𝑘𝑡 : Variables explicativas, predeterminadas o independientes.
E: error o perturbación aleatoria
Los parámetros 𝛽𝑜 , 𝛽1 , 𝛽2 , … , 𝛽𝑘 son fijos y desconocidos.
El modelo de regresión lineal múltiple puede ser expresado de forma compacta de la
siguiente manera:
𝑌 = 𝑋β + e
Donde:
Y: vector columna del orden Tx1, que incluye las T observaciones del regresando.
𝑦1
𝑦2
𝑌 = 𝑦3
⋮
[𝑦𝑇 ] 𝑇𝑥1
X: es la matriz de Tx(K+1) que contiene los (K+1) observaciones de los regresores.
Se ha incluido una columna de unos para tener en cuenta el término independiente del
modelo. El modelo para cada una de las T observaciones muestrales es:
1 𝑥11 𝑥21 … 𝑥𝑘1
1 𝑥12 𝑥22 … 𝑥𝑘2
𝑋 = 1 𝑥13 𝑥23 … 𝑥𝑘3
… … … … …
[ 1 𝑥1𝑇 𝑥2𝑡 … 𝑥𝑘𝑇 ] 𝑇𝑥(𝑘+1)
β: es el vector columna de orden (k+1)x1 que contiene los (k+1) parámetros del modelo.
𝛽0
𝛽1
𝛽 = 𝛽3
⋮
[𝑦𝑇 ] 𝑇𝑥1
E: vector columna de orden Tx1 que contiene las perturbaciones del modelo
𝜀1
𝜀2
𝜀 = 𝜀3
⋮
[𝜀𝑇 ] 𝑇𝑥1
Cuya solución de la ecuación matricial es:
𝛽 = (𝑋′𝑋)−1 𝑋′𝑌
Se desea hacer un modelo matemático de la utilidad los gastos de operación y las horas
extras trabajadas al año de una flota de maquinaria pesada, para ello se ha confeccionado la
siguiente tabla estadística.
GASTOS DE HORAS
UTILIDAD
OPRACION EXTRAS
(Millones de $)
(millones de $) *100
Yi X1 X2
1.3 0.3 4
3.5 1.5 9
2.8 0.7 6
3 1.1 7.5
3.3 1.2 8
4 2 7
3.7 2 8
El modelo matemático es
𝑌𝑡 = 𝛽0 + 𝛽1 𝑥1 + 𝛽2
Matriz de las variables independientes
1 0.3 4
1 1.5 9
1 0.7 6
𝑋 = 1 1.1 7.5
1 1.2 8
1 2 7
[1 2 8]
La matriz transpuesta de las variables independientes es:
1 1 1 1 1 1 1
𝑇
𝑋 = [0.3 1.5 0.7 1.1 1.2 2 2]
4 9 6 7.5 8 7 8
Multiplicamos la matriz transpuesta por la matriz
7 8.8 49.5
𝑋 𝑇 ∗ 𝑋 = [ 8.8 13.48 66.75 ]
49.5 66.75 366.25
Ahora la inversa
3.669 0.618 −0.608

(𝑋 𝑇 ∗ 𝑋)−1 = [ 0.618 0.864 −0.241]
−0.608 −0.241 0.129
Multiplicamos la matriz transpuesta por la matriz dependiente (o los regresores)
21.6
𝑋 𝑇 ∗ 𝑌 = [30.26]
160
La solución es 𝛽 = (𝑋 𝑇 ∗ 𝑋)−1 ∗ (𝑋 𝑇 ∗ 𝑌) entonces:
0.59
𝛽 = [0.936]
0.187
𝑌 = 0.59 + 0.936𝑋1 + 0.187𝑋2
Interpretación.
𝛽0 = 0.59: es la mínima que genera el equipo por las horas normales de trabajo
en millones de dólares.
𝛽1 = 0.936: es la utilidad por el incremento del costo operativo en millones de
dólares
𝛽2 = 0.18: es la utilidad por cada hora extra generada en millones de dólares
Por lo tanto el modelo de la ecuación es:
Se desea estimar con un modelo matemático la necesidad de dotar agua potable para un
grupo de 15 comunidades, para ello se realizó una investigación de acuerdo a la siguiente
tabla.
Demanda en Oferta en
Poblacion
millones de millones de
*100
(lit/año) (lit/año)
Yi X1 X2
0.43 2.1 3
0.31 1.1 4
0.32 0.9 5
0.46 1.6 4
1.25 6.2 4
0.44 2.3 3
0.52 1.8 6
0.29 1 5
1.29 8.9 3
0.35 2.4 2
0.35 1.2 4
0.78 4.7 3
0.43 3.5 2
0.47 2.9 3
0.38 1.4 4
Donde:
Demanda: (Yi) es la variable regresando que queremos explicar que está en función de la
cantidad requerida de agua para consumo por comunidad expresado en millones de litros al
año.
Oferta: (X1) es la cantidad aforada de agua que ofrece un manantial en millones de litros
por año
Población: (X2) es la cantidad total de habitantes que conforman una comunidad.
Las variables X1 y X2 son los regresores o variables explicativas independientes.
Solución
El modelo matemático es
𝑌𝑡 = 𝛽0 + 𝛽1 𝑋1 + 𝛽2 𝑋2
Matriz de las variables independientes

1 2.1 3
1 1.1 4
1 0.9 5
1 1.6 4
1 6.2 4
1 2.3 3
1 1.8 6
𝑋 = 1 1.0 5
1 8.9 3
1 2.4 2
1 1.2 4
1 4.7 3
1 3.5 2
1 2.9 3
[1 1.4 4]
La matriz transpuesta de las variables independientes es:
𝑋𝑇
1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
= [2.1 1.1 0.9 1.6 6.2 2.3 1.8 1 8.9 2.4 1.2 4.7 3.5 2.9 1.4]
3 4 5 4 4 3 6 5 3 2 4 3 2 3 4
Multiplicamos la matriz transpuesta por la matriz
15 42 55
𝑋 𝑇 ∗ 𝑋 = [42 188.1 140.8]
55 140.8 219
Ahora la inversa
1.36 −0.09 −0.28

(𝑋 𝑇 ∗ 𝑋) −1
= [−0.09 0.017 0.013 ]
−0.28 0.013 0.067
Multiplicamos la matriz transpuesta por la matriz dependiente (o los regresores)
8.07
𝑇
𝑋 ∗ 𝑌 = [32.06]
28.93
La solución es 𝛽 = (𝑋 𝑇 ∗ 𝑋)−1 ∗ (𝑋 𝑇 ∗ 𝑌) entonces:
−0.160
𝛽 = [ 0.149 ]
0.077
𝑌 = −0.160 + 0.149𝑋1 + 0.077𝑋2
Interpretación.
𝛽0 = −0.160: es la cantidad de agua que se va dejar de utilizar si el proyecto no

se ejecuta en millones de litros al año.
𝛽1 = 0.149: es la cantidad de agua que se obtiene por cada litro al año de los
manantiales.
𝛽2 = 0.077: es el incremento del consumo de agua en millones de litros por el
incremento de cada 100 persona.

Trabajo de Estadistica

Hochgeladen von

Dokumentinformationen

Originalbeschreibung:

Copyright

Verfügbare Formate

Dieses Dokument teilen

Dokument teilen oder einbetten

Freigabeoptionen

Stufen Sie dieses Dokument als nützlich ein?

Sind diese Inhalte unangemessen?

Copyright:

Verfügbare Formate

Trabajo de Estadistica

Hochgeladen von

Copyright:

Verfügbare Formate

1) VARIABLE BIDIMENCIONAL

Una variable bidimensional es una variable en la que cada individuo está

Las variables bidimensionales surgen cuando se estudian dos características

xj ni1 ni2 ni3 nij nin

xn nm1 nm2 nm3 nmj nmn

En la municipalidad distrital de pichari se realiza un estudio de la ejecución

Tabla No 01 de frecuncias absolutas de obras en ejecucion y el

1. Calculo de las varianzas marginales

Se realizaron la excavación de calicatas de forma cuadrada de 1m de lado y

1. Calculo de las varianzas marginales

8 ∗ 1.82 + 5 ∗ 22 + 9 ∗ 2.32 + 5 ∗ 2.52 + 7 ∗ 2.72 − 34 ∗ 2.252

Sy2 : La variabilidad promedio de la capacidad portante del suelo se incrementa

 Si hay dependencia directa (positiva), es decir, a grandes valores de x

 Si Una covarianza 0 se interpreta como la no existencia de una

 Si hay dependencia inversa o negativa, es decir, a grandes valores de x

 La covarianza indica el sentido de la correlación entre las variables

Calculamos la covarianza para el cuadro No 01

Calculamos la covarianza para el cuadro No 02

En estadística, el coeficiente de correlación de Pearson es una medida de la

Los coeficientes de correlación son medidas que indican la situación relativa de

Calculamos la correlación para el cuadro No 02

2) MODELOS DE REGRESION LINEAL

ao y a1: son la ordenada al origen y la pendiente de la línea recta

e: es el error o diferencia entre el modelo y las observaciones, el cual se

ao + a1 x: es el valor pronosticado de la variable dependiente.

Criterio para un “mejor” ajuste

La estrategia que supera las deficiencias de los procedimientos para minimizar

∑ 𝑒𝑖2 = ∑(𝑦𝑖,𝑚𝑒𝑑𝑖𝑑𝑎 − 𝑦𝑖,𝑚𝑜𝑑𝑒𝑙𝑜 )2

Ajuste de una línea recta por mínimos cuadrados

Para determinar los valores de a0 y a1, de la ecuación anterior (1) se deriva

Observe que hemos simplificado los símbolos de la sumatoria, todas las

Ahora, si observamos que ∑a 0 = na 0, expresamos las ecuaciones como un

Éstas se llaman ecuaciones normales, y se resuelven en forma simultánea

𝑛 ∑𝑛𝑖=1 𝑥𝑖 𝑦𝑖 − ∑𝑛𝑖=1 𝑥𝑖 ∑𝑛𝑖=1 𝑦𝑖

Este resultado se utiliza conjuntamente con la ecuación anterior para obtener

Donde –y y –x son las medias de y y x, respectivamente.

𝑛 ∑𝑛𝑖=1 𝑥𝑖 𝑦𝑖 − ∑𝑛𝑖=1 𝑥𝑖 ∑𝑛𝑖=1 𝑦𝑖

12 ∗ 10735.90 − 44.5 ∗ 2539.30

Calculamos los promedios de:

𝑎0 = 211.608 − 34.06 ∗ 3.708 𝑎0 = 85.31

Calculamos la correlación para encontrar en coeficiente de determinación

(b) Calculamos las varianzas

(d) Coeficiente de determinación

Si tomamos logaritmo natural en la expresión de la función exponencial,

𝐿𝑛𝑦 = 𝐿𝑛𝑎𝑜 + 𝑎1 𝑥𝐿𝑛𝑒

Como vemos es la ecuación de una recta:

El parámetro b del modelo exponencial coincide con el coeficiente de regresión de

Los estimadores para el ajuste del modelo se calculan de la siguiente manera:

𝐿𝑛𝑎𝑜 = 𝐿𝑛𝑦̅ − 𝑎0 𝑥̅ 𝑎𝑜 = 𝑒 (𝐿𝑛𝑦̅−𝑎0 𝑥̅ )

Se ha realizado un estudio de tráfico para determinar sus características actuales

(a) Calculo de promedios (x,y)

(b) Calculo de los coeficientes (ao, a1)

15 ∗ 524.197 − 120 ∗ 61.731

(c) Cálculos de la Varianza

𝜌𝑥,𝑦 2 = [0.91]2 𝜌𝑥,𝑦 2 = 0.8827

Este modelo de regresión es una alternativa cuando el modelo lineal no logra un

La curva logarítmica 𝑦 = 𝑎𝑜 + 𝑎1 𝐿𝑛𝑥 es también una recta, pero en lugar de estar

∑𝑛𝑖=1 𝑦𝑖 − 𝑎1 ∑𝑛𝑖=1 𝐿𝑛𝑥𝑖

𝑛 ∑𝑛𝑖=1 𝑦𝑖 𝐿𝑛𝑥𝑖 − ∑𝑛𝑖=1 𝐿𝑛𝑥𝑖 ∑𝑛𝑖=1 𝑦𝑖

Se tiene los resultados obtenidos del rendimiento de transporte de material

(a) Calculo de promedios (x,y)

(b) Calculo de los coeficientes (ao, a1)

15 ∗ 693.031 − 7.684 ∗ 10547.1

No Y X X^2 X^3 X^4 XY X^2Y