Sie sind auf Seite 1von 75

Indice General

1 Estadsticas Descriptivas: Deniciones 2


1.1 Medidas de Tendencia Central . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.1.1 Media . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.1.2 Moda . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.1.3 Mediana . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.2 Medidas de Posicion y Variabilidad . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.2.1 Percentiles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.2.2 Variabilidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.2.3 Correlacion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.3 Ejercicios Resueltos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
2 Regresion Lineal: Deniciones 64
2.1 Modelo de Regresion Lineal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
2.2 Ejercicios Resueltos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
1
Captulo 1
Estadsticas Descriptivas: Deniciones
1.1 Medidas de Tendencia Central
Son ndices o indicadores que nos dan una referencia alrededor de que valores se mueven los datos.
1.1.1 Media
La media corresponde a un tipo de promedio, mas precisamente a la media aritmetica, bulgarmente
conocida como promedio. El uso de esta medida es bastante com un, aunque ella por si sola no
entrega mayor informacion, ya que representa el punto de equilibrio de las observaciones. General-
mente se suele representar por si se habla de la media poblacional, y por

X si corresponde a
la media muestral. La media se calcula dependiendo de como se presenten los datos, basicamente
existen dos formas:
1. Datos desagrupados (no tabulados): En este caso se tienen para X (variable de interes)las n
observaciones x
1
, x
2
, . . . , x
n
, entonces

X =
x
1
+x
2
+ +x
n
n
=
1
n
n

i=1
x
i
.
2. Datos agrupados (tabulados): En este caso se tiene una tabla de fracuencias con k intervalos,
donde x
i
representa la marca de clase del i-esimo intervalo, n
i
la i-esima frecuencia absoluta
observada y n coresponde al total de observaciones, entonces

X =
x
1
n
1
+x
2
n
2
+ +x
k
n
k
n
=
1
n
k

i=1
x
i
n
i
.
1.1.2 Moda
La moda, como su nombre lo indica es lo mas frecuente, es decir, de un grupo de observaciones,
el valor modal correspondera a aquel valor que mas se repite. Generalmente, se representa por
2
Mod(X). La moda en un grupo de observaciones puede existir o no
1
, si existe, puede no ser unica,
en ese caso se habla de bimodal, trimodal, etc. De igual forma que en el caso anterior, se tienen
basicamente dos formas de determinar el valor modal.
1. Datos desagrupados (no tabulados): En este caso el (los) valor(es) modal(es) corresponde a
la (las) observaciones que mas se repiten.
2. Datos agrupados (tabulados): En este caso se tiene una tabla de frecuencias con k intervalos.
Primero debemos identicar el intervalo que contiene al o los valores modales, se procede
observando los valores en la columna de frecuencias absolutas, aca vemos cual es el valor
mayor, e identicamos el intervalo asociado a este valor, si existen varios valores igualmente
mayores, entonces se calculan uno a uno los respectivos valores modales para cada intervalo
a traves de:
Mod(X) = LI
i
+
_
(n
i
n
i1
)
(n
i
n
i1
) + (n
i
n
i+1
)
_
c
i
,
donde LI
i
es el limite inferior del intervalo i, n
i
la frecuencia absoluta observada del intervalo
i y c
i
corresponde al largo del intervalo i.
1.1.3 Mediana
Si ordenamos las observaciones de menor a mayor, la mediana o valor mediano, correspondera a
aquella observacion que deja por bajo ella al 50% de los datos
2
. Generalmente se simboliza por
Med(X) o P
50
.
1. Datos desagrupados (no tabulados): En este caso se tienen para X (variable de interes) las
n observaciones x
1
, x
2
, . . . , x
n
. Primero ordenamos de menor a mayor las observaciones, es
decir, x
(1)
, x
(2)
, . . . , x
(n)
, donde x
(i)
es la observacion que se encuentra en la i-esima posicion
y luego vericamos si:
n es impar: El valor mediano correspondera a la observacion en la posicion central.
Med(X) = x
(
n1
2
+1)
.
n es par: El valor mediano correspondera a la media de los dos valores centrales.
Med(X) =
x
(
n
2
)
+x
(
n
2
+1)
2
.
2. Datos agrupados (tabulados): En este caso se tiene una tabla de frecuencias con k intervalos.
Primero debemos identicar el intervalo que contiene al valor mediano, as realizamos un
precalculo de la cantidad n/2, luego observamos en la tabla de frecuencias, en la columna de
frecuencias absolutas acumuladas, la cantidad N
i
mnima que contiene a n/2 (mayor o igual),
e identicamos el intervalo asociado a este valor y procedemos a calcular:
Med(X) = LI
i
+
_
50 n
100
N
i1
_
c
i
n
i
,
1
Se dice que un grupo de datos no tienen moda si todas las observaciones tienen la misma frecuencia.
2
De la misma forma deja al 50% de los datos por sobre ese valor.
3
donde LI
i
es el limite inferior del intervalo i, N
i1
la frecuencia absoluta acumulada del
intervalo (i 1), c
i
corresponde al largo del intervalo i y n
i
es la frecuencia absoluta del
intervalo i.
1.2 Medidas de Posicion y Variabilidad
Las medidas de posicion son indicadores que nos permiten tener una referencia de cuales son los
valores que toman las observaciones. En general se designa como P
p
, que representa la valor del
percentil que deja p 100% de las observaciones por bajo este valor. Las medidas de variabilidad
nos permiten tener un indicio de que tan variadas son las observaciones.
1.2.1 Percentiles
Los percentiles corresponden a ciertos valores de las observaciones que dejan un determinado por-
centaje de observaciones por bajo este valor.
1. Datos desagrupados (no tabulados):
2. Datos agrupados (tabulados): En este caso se tiene una tabla de frecuencias con k intervalos.
Primero debemos identicar el intervalo que contiene al valor del percentil, as realizamos un
precalculo de la cantidad (pn)/100, luego observamos en la tabla de frecuencias, en la columna
de frecuencias absolutas acumuladas, la cantidad N
i
mnima que contiene a (p n)/100 (mayor
o igual), e identicamos el intervalo asociado a este valor y procedemos a calcular:
Med(X) = LI
i
+
_
p n
100
N
i1
_
c
i
n
i
,
donde LI
i
es el limite inferior del intervalo i, N
i1
la frecuencia absoluta acumulada del
intervalo (i 1), c
i
corresponde al largo del intervalo i y n
i
es la frecuencia absoluta del
intervalo i
3
.
1.2.2 Variabilidad
1. Varianza y Desviacion Estandar.
La varianza es un indicador de la variabilidad de las observaciones, es decir, nos permite
saber cuan dispersos estan las observaciones respecto a la media, pero esta medida es al
cuadrado, por lo cual no tiene una interpretacion muy directa, es as que resulta mucho mas
util la desviacion estandar, que es la raiz cuadrada de la varianza. Generalmente se utiliza

2
para designar a la varianza poblacional
4
y S
2
a la varianza muestral, de igual forma
y S corresponden a las desviaciones estandar poblacional y muestral, respectivamente. La
varianza se calcula por:
3
Al lector le debe llamar la atencion que la denicion de Percentil y de Mediana sean similares, salvo un n umero,
esto es porque la mediana corresponde al percentil 50.
4
Tambien se utiliza la nomenclatura V Var (X).
4
(a) Datos desagrupados (no tabulados): En este caso se tienen para X (variable de interes)
las n observaciones x
1
, x
2
, . . . , x
n
.

2
=
1
n
n

i=1
(x
i
)
2
=
1
n
_
n

i=1
x
2
i
n
2
_
=

_
1
n
_
n

i=1
x
2
i
n
2
_
S
2
=
1
n 1
n

i=1
_
x
i


X
_
2
=
1
n 1
_
n

i=1
x
2
i
n

X
2
_
S =

_
1
n 1
_
n

i=1
x
2
i
n

X
2
_
(b) Datos agrupados (tabulados): En este caso se tiene una tabla de frecuencias con k
intervalos, donde n
i
es la frecuencia absoluta del intervalo i, x
i
la marca de clase del
i-esimo intervalo y n el total de observaciones.

2
=
1
n
_
k

i=1
n
i
x
2
i
n
2
_
=

_
1
n
_
k

i=1
n
i
x
2
i
n
2
_
S
2
=
1
n 1
_
k

i=1
n
i
x
2
i
n

X
2
_
S =

_
1
n 1
_
k

i=1
n
i
x
2
i
n

X
2
_
2. Covarianza
As como la varianza es una forma de medir la variabilidad de una variable de interes, la
covarianza nos permite medir la variabilidad conjunta de dos variables X e Y
5
.
(a) Datos no agrupados: Sean x
1
, . . . , x
n
e y
1
, . . . , y
n
las respectivas observaciones para las
variables X e Y , ademas sean
X
y
Y
, las respectivas medias de las variables. La
covarianza se denota por
XY
6
.

XY
=
1
n
_
n

i=1
x
i
y
i
n
X

Y
_
.
(b) Datos agrupados: En este caso se tiene una tabla con frecuencias conjuntas para las
variables X e Y , es decir, se tiene una tabla con k las para X y l columnas para Y ,
donde n
ij
corresponde a la frecuencia absoluta observada en la celda que se genera al
intersectarse la la i con la columna j, con i = 1, . . . , k y j = 1, . . . , l.

XY
=
1
n
_
k

i=1
l

j=1
n
ij
x
i
y
j
n
X

Y
_
.
5
El lector debe poner atencion en que, la covarianza de una variable X con sigo misma, es decir,
XX
=
Cov(X, X) =
2
X
corresponde a la varianza de la variable X.
6
Tambien se suele utilizar Cov(X, Y ).
5
3. Coeciente de Variacion.
El coeceinte de variacion (CV ), nos entrega una forma de medir la homogeneidad de los datos,
ademas es un indicador sin unidad de medida, lo que permite comparar distintos conjuntos
de datos. Si el valor del coeciente de variacion es cercano a 0, diremos que los datos son muy
homogeneos, es decir, son muy parecidos entre ellos, al contrario si el valor del coeciente de
variacion es muy alto, diremos que los datos son heterogeneos, es decir, muy diferentes entre
ellos. De esa forma podemos comparar conjuntos de datos distintos, ya sean de poblaciones
o muestras distintas o de variables con unidades de medida distintas. El coeciente para un
conjunto de datos de la variable X se dene como:
CV
X
=

X

X
.
1.2.3 Correlacion
La correlacion es una forma de medir que tan asociadas estan dos variables, ademas nos indica el
tipo de asociacion que existe entre ellas.
1. Coeciente de Correlacion Lineal de Pearson.
Nos ndica la asociacion lineal que existe entre las observaciones de dos variables con igual
n umero de observaciones. Si X e Y son dos variables de interes, entonces el coeciente se
puede denotar por r
XY
. Ademas 1 r
XY
1, si r
XY
= 1 existe una alta asociacion
lineal directa (positiva) entre las variables X e Y , si r
XY
= 1 existe una alta asociacion
lineal inversa (negativa) entre las variables X e Y y si r
XY
= 0 no tenemos idea del tipo de
asociacion que existe entre las variables, al menos no es lineal.
r
XY
=

XY
_

2
X

2
Y
=

XY

Y
.
2. Coeciente de Correlacion Punto Biserial.
El coeciente de correlacion de Punto Biserial r
pb
nos ndica la asociacion que existe entre las
observaciones de dos conjuntos de observaciones
7
A e B, no necesariamente de igual largo.
Este se determina por:
r
pb
=

A

_
n
A
n
B
n(n 1)
,
donde
A
y
B
corresponden a las medias del grupo A y B, respectivamente, n
A
y n
B
son
el n umero de observaciones del grupo A y B, respectivamente, corresponde a la desviacion
estandar de todas las observaciones sin distinguir por grupos y n = n
A
+n
B
es el total de las
observaciones. La interpretacion
3. Coeciente de Correlacion lineal de Spearman.
El coeciente de correlacion de Spearman r
S
nos ndica la asociacion lineal que existe entre
las observaciones de dos variables con igual n umero de observaciones X e Y , ademas es un
coeciente no parametrico, esto quiere decir, que no involucra en su calculo alg un tipo de
7
En general se intenta reejar asociacion entre dos grupos de observaciones de una misma variable.
6
parametro como por ejemplo la media () o la varianza () de un conjunto de datos, sino que
involucra un concepto de rango de las observaciones, para eso denamos este concepto de la
siguiente forma: diremos que los rangos de un conjunto de observaciones x
1
, . . . , x
n
se deter-
minan ordenando de menor a mayor las observaciones, es decir, sean 1, 2, . . . , n las respectivas
posiciones de las observaciones y a su vez los respectivos rangos para cada observacion, siendo
1 el rango de la observacion mas peque na y n el rango de la observacion mayor, entonces
vericamos lo siguiente, si existen observaciones repetidas, el rango que les correspondera a
cada una, se determina mediante la media de los rangos de estas observaciones, por ejemplo si
en un conjunto de observaciones se tienen x
3
= 5, x
20
= 5, x
54
= 5, x
60
= 5 y al ser ordenadas
de menor a mayor los rangos respectivas para estas observaciones son 2, 3, 4, 5, entonces los
rangos respectivos para cada una de estas observaciones sera (2+3+4+5)/4 = 14/4 = 3.5, y
de la misma forma se procede con el otro conjunto de datos, para luego comparar los rangos
respectivos entre ambos conjuntos de datos.
Ahora el coeciente de correlacion de Spearman se calcula por:
r
S
= 1
6

n
i=1
d
2
i
n(n 1)
,
donde d
i
es la diferencia de los rangos de las observaciones x
i
e y
i
y n es el total de observa-
ciones. La interpretacion de este coeciente es equivalente a la de Pearson.
4. Coeciente de Correlacion Biserial por Rangos.
Efectivamente como su nombre lo indica, en el calculo de este coeciente estan involucrados
los rangos de las observaciones, es decir, se tienen dos conjuntos de observaciones de una
misma variable A y B, no necesariamente del mismo largo, entonces el coeciente se dene
por:
r
br
=
2
n
(

R
A


R
B
) ,
donde

R
A
y

R
B
corresponden a las medias de los rangos para los grupo A y B, respectivamente,
es decir,

R
A
=

n
A
i=1
(rangos del grupo A)/n
A
, y de igual forma para el otro grupo, donde n
A
y n
B
son el n umero de observaciones del grupo A y B, respectivamente y n = n
A
+ n
B
total
de observaciones.
5. Coeciente Phi ().
Este coeciente nos permite determinar el tipo de asociacion que existe entre los datos de una
tabla de 2 2 de la forma:
Y
Atributo 1 Atributo 2 Total
X Atributo 1 a b a +b
Atributo 2 c d c +d
Total a +c b +d
Se calcula con la siguiente formula:
=
a d b c
_
(a +b)(c +d)(a +c)(b +d)
.
Su interpretacion es la siguiente:
7
Si el coeciente resulta ser positivo, entonces los atributos iguales estan asociados entre
s, reejando una relacion directa entre ambos atributos de ambas variables.
Si el coeciente resulta ser negativo, entonces existen relaciones opuestas entre los atrib-
utos de las variables.
8
1.3 Ejercicios Resueltos
1. La siguiente tabla muestra las frecuencias de un grupo de trabajadores seg un su nivel educa-
cional en una industria agricola.
Nivel educacional N umero de trabajadores
Educacion Basica 33
Educacion Media 45
Educacion Tecnico-Profesional 24
Educacion Universitaria 11
(a) Determine el porcentaje de trabajadores que tienen solo educacion media.
(b) Determine el porcentaje de trabajadores que a lo mas tienen educacion media.
(c) Determine el porcentaje de trabajadores que a lo menos tienen educacion media.
(d) Determine la mejor medida de tendencia central.
Des.
Primero completemos la tabla con las frecuencias relativas y acumuladas.
Niveleducacional n
i
f
i
N
i
F
i
f
i
100% F
i
100%
Educacion Basica 33 0.292 33 0.292 29.2% 29.2%
Educacion Media 45 0.398 78 0.690 39.8% 69.0%
Educacion Tecnico-Profesional 24 0.212 102 0.903 21.2% 90.3%
Educacion Universitaria 11 0.097 113 1.000 9.7% 100.0%
Total 113 1.000 100.0%
Directamente desde la tabla se obtinen los resultados pedidos.
(a) El 39.8% de los trabajadores tiene solo educacion Basica.
(b) En este caso necesitamos el porcentaje de trabajadores que a lo mas tienen educacion
media, es decir, son todos aquellos que tienen solo educacion Basica (29.2%) mas los que
solo tienen educacion media (39.8%) que es igual a 69.0% es el porcentaje de trabajadores
que tiene a lo mas educacion Media.
(c) En este caso necesitamos los porcentajes de aquellos trabajadores que tienen educacion
Media (39.8%) mas los que tienen educacion Tecnico-Profesional (21.2%) mas los con
educacion Universitaria (9.7%), lo que es igual a 70.7%.
(d) La tabla resume los resultados para la variable X:Nivel educacional de los trabajadores,
que es una variable cualitativa ordinal, ya que los resultados de la variable tienen un
orden natural, por lo cual podemos determinar la mediana, en este caso es Med(X) =
Educacion Media.
2. Al entrevistar a 30 personas se obtuvo las siguientes preferencias de colores para un determi-
nado envase de desodorante, seg un la tabla de codigos.
9
Color Azul Verde Rojo Morado
Codigo 1 2 3 4
1 1 1 2 3 3 1 1 2 3
2 2 3 3 1 1 3 4 3 4
2 3 1 4 2 3 1 1 2 2
(a) Construya una tabla de frecuencias.
(b) Determine el porcentaje de preferencias por el color Verde.
(c) Determine el porcentaje de personas que preeren el color Azul o Verde.
(d) Determine el color mas frecuente.
Des.
(a) Sea X:Color preferido, de esta forma la variable es cualitativa nominal.
Color n
i
f
i
1 (Azul) 10 0.333
2 (Verde) 8 0.267
3 (Rojo) 9 0.300
4 (Morado) 3 0.100
Total 30 1.000
(b) El 26.7% de los entrevistados preere el color Verde.
(c) Sumando los porcentajes de preferencias por Azul (33.3%) y Verde (26.7%), el resultado
es 60.0%.
(d) En este caso la Moda corresponde al valor mas frecuente, en este caso Mod(X) = Azul.
3. En una encuesta realizada a 25 Ingenieros en USA respecto a la optimizacion en el uso del
cobre, se consulto Cual cree usted que es la mejor forma de utilizar el cobre?
Forma Combinado con oro Combinado con plata Puro lquido Puro solido
Codigo 1 2 3 4
y los resultados son los siguientes:
2 4 2 1 2 1 1 1 2 2
3 2 1 2 4 4 4 1 3 2
4 1 2 2 2
(a) Identique y clasique la variable en estudio.
(b) Construya una tabla de frecuencias.
(c) Que proporcion de Ingenieros considera que debe ser utilizado combinado con plata?
(d) Que porcentaje de Ingenieros cree que se puede utilizar mejor el cobre en forma combi-
nada?
10
(e) Que porcentaje de Ingenieros estima que se optimiza su uso en cualquiera de sus estados
puros?
Des.
(a) Sea X:forma de uso del cobre. Cualitativa nominal.
(b) .
Codigo n
i
f
i
1 7 0.280
2 11 0.440
3 2 0.080
4 5 0.200
Total 25 1.000
(c) La proporcion de Ingenieros que considera que debe ser utilizado combinado con plata
es 11 de 25 o 11/25 = 0.44.
(d) El porcentaje de Ingenieros que considera que se debe utilizar combinado es la suma
de los que consideran que debe ser utilizado combinado con oro (28.0%) con los que
consideran que debe ser utilizado combinado con plata (44.0%) que es igual a un 72.0%.
(e) Al igual que en el caso anterior debemos sumar los porcentajes de los que consideran que
se optimiza su uso puro lquido (8.0%) con el porcentaje de puro solido (20.0%) que es
igual a un 28.0%.
4. La siguiente informacion corresponde a las notas obtenidas por un grupo de alumnos de cierto
curso.
Nota N umero de alumnos
1-3 15
3-5 38
5-7 12
(a) Determine y clasique la variable de interes.
(b) Cual es la nota mas frecuente obtenida por los alumnos?
(c) Cual es la nota media obtenida por estos alumnos?
(d) Cuantos alumnos tienen una nota inferior a la nota mediana? Determine el valor del
valor mediano para la nota.
Des.
(a) Sea X:Nota obtenida por un alumno. Cuantitativa Continua
8
. Construimos la tabla de
frecuencias:
8
Una variable continua siempre es cuantitativa, por lo cual es equivalente decir que una variable es cuantitativa
continua con solo decir que es una variable continua
11
marca de clase X n
i
f
i
N
i
x
i
2 1 3 15 0.230 15
4 3 5 38 0.585 53
6 3 7 12 0.185 65
Total 65 1.000
(b) Necesitamos determinar la moda de la nota.
Mod(X) = LI
i
+
_
n
i
n
i1
(n
i
n
i1
) + (n
i
n
i+1
)
_
c
i
= 3 +
_
38 15
(38 15) + (38 12)
_
2
= 3 +
_
23
(23) + (28)
_
2
= 3 +
_
23
51
_
2
= 3 +
46
51
= 3 + 0.90
= 3.90
(c) Como los datos estan tabulados necesitamos utilizar la marca de clase (x
i
) para este
calculo.

X
=
1
65
(2 15 + 4 38 + 6 12)
=
254
65
= 3.91
(d) Directamente de la denicion de mediana se puede concluir que bajo este valor esta el 50%
de las observaciones, es decir, 65 (50%/100%) = 32.5 33 alumnos. Para determinar
el valor de la mediana, realizamos el calculo previo de 65/2 = 32.5, que esta contenido
en el segundo intervalo.
Med(X) = 3 +
_
65 50
100
15
_
2
38
= 3 + (32.5 15)
2
38
= 3 + 17.5
2
38
= 3 +
35
38
= 3 + 0.921
= 3.921
12
5. La siguiente tabla muestra la oferta de precios para departamentos en el centro de la ciudad.
UF Cantidad de departamentos
920-990 140
990-1050 350
1050-1200 300
1200-1400 160
(a) Cual es el precio medio de los departamentos?
(b) Cuantos departamentos tienen un precio inferior a 1150 UF?
(c) Determine el valor modal de los departamentos.
(d) Cual es la variacion de los precios de los departamentos?
Des.
Sea X: precio de los departamentos en $UF.
x
i
X n
i
f
i
N
i
955 920 990 140 0.147 140
1050 990 1050 350 0.368 490
1125 1050 1200 300 0.316 790
1300 1200 1400 160 0.168 950
Total 950 1.000
(a)

X
=
1
950
(955 140 + 1020 350 + 1125 300 + 1300 160)
=
1036200
950
= 1090.74 UF
(b)
1150 = 1050 +
_
p 950
100
490
_
150
300
(1150 1050) =
_
p 950
100
490
_
150
300
100
300
150
=
p 950
100
490
200 + 490 =
p 950
100
690
100
950
= p
p = 72.63
Luego el 72.63% de los departamentos tiene un precio inferior a 1150, entonces 950
(72.63%/100%) = 690 departamentos.
13
(c)
Mod(X) = 990 +
_
350 140
(350 140) + (350 300)
_
60
= 990 +
_
210
210 + 50
_
60
= 990 +
210
260
60
= 990 +
12600
260
= 990 + 48.46
= 1038.46 UF
(d)

2
X
=
1
950
_
(140 955
2
+ 350 1020
2
+ 300 1125
2
+ 160 1300
2
) 950 1090.74
2
_
=
1
950
(1141911000 1130228060)
=
11682940
950
= 12297.83 UF
2

X
= 110.90 UF
6. La siguiente tabla muestra el gasto anual en electricidad (en millones de pesos) de 200 personas.
Gasto anual N umero de personas
0.8-1.0 20
1.0-1.6 70
1.6-2.0
2.0-2.6 65
Total
(a) Determine el gasto medio y su variacion.
(b) Cuantas personas gastan mas de $1800000, en electricidad al a no?
(c) Determine el valor modal de gasto.
Des.
Sea X:gasto anual en electricidad, en millones de pesos. Primero completamos la tabla. Por
enunciado el total de personas es 200, luego sabemos que la suma de la columna de frecuencias
observadas debe ser 200, por lo cual restamos al total las frecuencias que aparecen en la tabla
y obtenemos el valor faltante.
x
i
X n
i
f
i
N
i
n
i
x
i
0.9 0.8 1.0 20 0.100 20 18
1.3 1.0 1.6 70 0.350 90 91
1.8 1.6 2.0 45 0.225 135 81
2.3 2.0 2.6 65 0.325 200 149.5
Total 200 1.000 339.5
14
(a)

X
=
339.5
200
= 1.70 millones de pesos.
(b)
1.8 = 1.6 +
_
p 200
100
90
_
0.4
45
1.8 1.6 =
_
p 200
100
90
_
0.4
45
0.2
45
0.4
=
p 200
100
90
22.5 + 90 =
p 200
100
p = 112.5
100
200
p = 56.25
Luego el 56.25% de las personas tiene un gasto inferior a 1.8 millones, entonces 100%
56.25% = 43.75% tiene un gasto superior a 1.8 millones, as 200 (43.75%/100%) =
87.5 88 personas.
(c)
Mod(X) = 1.0 +
_
70 20
(70 20) + (70 45)
_
0.6
= 1.0 +
50
50 + 25
0.6
= 1.0 +
50
75
0.6
= 1.0 + 0.4
= 1.4 millones de pesos.
7. En un estudio a 250 personas sobre su sueldo anual, se recopilo la siguiente informacion, en
millones de pesos:
Sueldo anual N umero de personas
1.5-2.5 27
2.5-3.5 19
3.5-4.5 15
4.5-5.5
Total
(a) Determine el ingreso medio para estas personas.
(b) Determine su variacion.
(c) Cuantas personas ganan menos de $3200000 anualmente?
15
(d) Determine si el valor modal es superior al valor mediano.
Des.
Sea X: sueldo anual, en millones de pesos. Completamos la tabla de frecuencias.
x
i
X n
i
f
i
N
i
n
i
x
i
n
i
x
2
i
2.0 1.5 2.5 27 0.108 27 54 108
3.0 2.5 3.5 19 0.076 46 57 171
4.0 3.5 4.5 25 0.100 71 100 400
5.0 4.5 5.5 179 0.716 250 895 4475
Total 250 1.000 1106 5154
(a)

X
=
1106
250
= 4.42 millones de pesos.
(b)

2
X
=
1
250
_
5154 250 4.42
2
_
=
269.9
250
= 1.08 (millones de pesos)
2

X
= 1.34 millones de pesos.
(c)
3.2 = 2.5 +
_
p 250
100
27
_
1.0
19
p =
_
(3.2 2.5)
19
1.0
+ 27
_
100
250
= (13.3 + 27)
100
250
= 16.12 16 personas.
(d) Para el valor modal, primero identicamos el intervalo con la mayor frecuencia observada.
Mod(X) = 4.5 +
_
179 25
(179 25) + (179 0)
_
1.0
= 4.5 +
154
154 + 179
1.0
= 4.5 +
154
333
= 4.5 + 0.46
= 4.96 millones de pesos.
16
Para el valor mediano, primero determinamos el valor 250/2 = 125, para encontrar el
intervalo de la mediana.
Med(X) = 4.5 +
_
250 50
100
71
_
1.0
179
= 4.5 + (125 71)
1.0
179
= 4.5 + 0.30
= 4.80 millones de pesos.
Efectivamente el valor modal es superior al valor mediano.
8. La siguiente tabla muestra el gasto mensual en locomocion de un grupo de 30 familias expre-
sado en miles de pesos.
Gasto mensual N umero de
(miles de pesos) familias
5-12 7
12-18 9
18-25
25-33 7
(a) Cual es el gasto mensual medio en locomocion de estas familias?
(b) Cuantas familias gastan mensualmente mas de $19000 en locomocion?
(c) Cual es el gasto mas frecuente en locomocion?
(d) Cual es la variabilidad respecto a la media del gasto en locomocion?
(e) Cual es el monto de gasto mensual que deja por bajo este valor al 75% de los montos?
Des.
Sea X: gasto mensual en locomocion.
x
i
X n
i
f
i
N
i
n
i
x
i
n
i
x
2
i
8.5 5 12 7 0.233 7 59.5 505.75
15 12 18 9 0.300 16 135 2025
21.5 18 25 7 0.233 23 150.5 3235.75
29 25 33 7 0.233 30 203 5887
Total 30 1.000 548 11653.5
(a)

X
=
548
30
= 18.27 millones de pesos.
17
(b)
19 = 18 +
_
p 30
100
16
_
7
7
p = ((19 18)1 + 16)
100
30
= 56.67
Entonces el 56.67% de las familias tienen un gasto inferior a $19000 mensuales en lo-
comocion, as el (100% 56.67%) = 43.33% tienen un gasto superior, es decir, 30
(43.33%/100%) = 13 familias.
(c)
Mod(X) = 12 +
_
9 7
(9 7) + (9 7)
_
6
= 12 +
2
2 + 2
6
= 12 + 3
= 15 miles de pesos.
(d)

2
X
=
1
30
(11653.5 30 18.27
2
) =
1639.71
30
= 54.66 (miles de pesos)
2
(e)
P
75
= 18 +
_
30 75
100
16
_
7
7
= 18 + (22.5 16)
= 24.5 miles de pesos.
9. En una encuesta realizada a 200 personas sobre su edad se registraron los siguientes resultados.
Edad N umero de personas
18-21 16
21-27 42
27-30
30-35 25
(a) Determine la edad media de los entrevistados.
(b) Determine si la edad mediana es superior a la edad mas frecuentes.
(c) Determine la variabilidad respecto a la media de las edades para estos entrevistados.
(d) Cuantas personas de las entrevistadas tienen entre 25 y 31 a nos?
18
Des.
Sea X: edad, en a nos.
x
i
X n
i
f
i
N
i
n
i
x
i
n
i
x
2
i
19.5 18 21 16 0.080 16 312 6084
24 21 27 42 0.210 58 1008 24192
28.5 27 30 117 0.585 175 3334.5 95033.25
32.5 30 35 25 0.125 200 812.5 26406.25
Total 200 1.000 5467 151715.5
(a)

X
=
5467
200
= 27.34 a nos.
(b)
Med(X) = 27 +
_
200 50
100
58
_
3
117
= 27 + (100 58)
3
117
= 27 + 1.08
= 28.08 a nos.
Mod(X) = 27 +
_
117 42
(117 42) + (117 25)
_
3
= 27 +
75
75 + 92
3
= 27 + 1.35
= 28.35 a nos.
Entonces, se puede observar que la edad mediana no es mayor a la edad mas frecuente.
(c)

2
X
=
1
200
(151715.5 200 27.34
2
) =
2220.38
200
= 11.10 (a nos)
2

X
= 3.33 a nos.
(d) Primero determinaremos el porcentaje de personas que se encuentra en el intervalo,
para ello determinaremos el porcentaje de personas que estan por bajo los 31 a nos y
luego lo restaremos con el porcentaje que deja por bajo los 25 a nos, para posteriormente
determinar la cantidad de personas.
31 = 30 +
_
p 200
100
175
_
5
25
p =
_
(31 30)
25
5
+ 175
_
100
200
= 180
100
200
= 90
19
25 = 21 +
_
p 200
100
16
_
6
42
p =
_
(25 21)
42
6
+ 16
_
100
200
= (28 + 18)
100
200
= 22
Entonces, el porcentaje de personas que tiene entre 25 y 31 a nos es 90%22% = 68%,
as la cantidad de personas es 200 (68%/100%) = 136 personas.
10. La siguiente tabla resume a un grupo de profesionales jovenes respecto a la cantidad de dinero
que gastan en diversion mensualmente, en miles de pesos.
Gasto mensual n umero de jovenes
5-15 91
15-28 105
28-32 70
32-50 56
(a) Cuale es el gasto promedio de dinero en diversion?
(b) Cuantos jovenes gastas mas de $30000 mensuales en diversion?
(c) Cual es el maximo que gasta el 75% de los entrevistados que menos gasta?
(d) Determine el coeciente de variacion para estos jovenes?
Des.
Sea X: cantidad de dinero que gastan en diversion, en miles de pesos.
x
i
X n
i
f
i
N
i
n
i
x
i
n
i
x
2
i
10 5 15 91 0.283 91 910 9100
21.5 15 28 105 0.326 196 2257.5 48536.25
30 28 32 70 0.217 266 2100 63000
41 32 50 56 0.174 322 2296 94136
Total 322 1.000 7563.5 214772.25
(a)

X
=
7563.5
322
= 23.49 miles de pesos.
(b)
30 = 28 +
_
p 322
100
196
_
4
70
p =
_
(30 28)
70
4
+ 196
_
100
322
= (35 + 196)
100
322
= 71.74
20
Entonces, el 71.74% de los entrevistados gasta menos de $30000 al mes en diversion,
as el 28.26% gasta mas de $30000 en diversion, y estos son 322 (28.26%/100%) = 91
jovenes.
(c)
P
75
= 28 +
_
75 322
100
196
_
4
70
= 28 + (241.5 196)
4
70
= 28 + 2.6
= 30.6 miles de pesos.
(d)

2
X
=
1
322
(214772.25 322 23.49
2
)
=
37099.06
322
= 115.21 (miles de pesos)
2

X
= 10.73 miles de pesos.
CV
X
=
10.73
23.49
= 0.457
11. Las utilidades en millones de pesos que tienen dos empresas, estan relacionadas con el n umero
de proyectos que realizan anualmente, la siguiente tabla muestra las utilidades de los ultimos
a nos de ambas empresas.
Utlidades N umero de Proyectos
millones de $ Empresa 1 Empresa 2
4.5-6.0 40 35
6.0-7.8 81 16
7.8-9.0 82 20
9.0-10.2 38 45
(a) En que empresa la utilidad presenta una mayor variabilidad respecto a la media?
(b) Cual es la cantidad de proyectos que presentan una utlidad menor a $8000000 anual?
(c) Cual es el monto maximo de utilidad que presentan la mayoria de los proyectos de la
empresa 2?
(d) Si la empresa 1 aumentara en un 7% sus utilidades, y la empresa 2 disminuye en un
6%, pero lo intenta compensar aumentando en 3 proyectos adicionales, Cuales seran
los nuevos coecientes de variacion para las empresas?
Des.
21
Sea E
i
: utilidades de la empresa i = 1, 2.
e
1i
E
1
n
1i
f
1i
N
1i
n
1i
e
1i
n
1i
e
2
1i
5.25 4.5 6.0 40 0.166 40 210 1102.5
6.90 6.0 7.8 81 0.336 121 558.9 3856.41
8.40 7.8 9.0 82 0.340 203 688.8 5785.92
9.60 9.0 10.2 38 0.158 241 364.8 3502.08
Total 241 1.000 1822.5 14246.91
e
2i
E
2
n
2i
f
2i
N
2i
n
2i
e
2i
n
2i
e
2
2i
5.25 4.5 6.0 35 0.302 35 183.75 964.69
6.90 6.0 7.8 16 0.138 51 110.4 761.76
8.40 7.8 9.0 20 0.172 71 168 1411.2
9.60 9.0 10.2 45 0.388 116 432 4147.2
Total 116 1.000 794.15 7284.85
(a)

E
1
=
1822.5
241
= 7.56 millones de pesos.

E
2
=
794.15
116
= 6.85 millones de pesos.

2
E
1
=
1
241
_
14246.91 241 7.56
2
_
=
472.89
241
= 1.96 (millones de pesos)
2

2
E
2
=
1
116
_
7284.85 116 6.85
2
_
=
1841.84
116
= 15.88 (millones de pesos)
2
La empresa 2 presenta una mayor variabilidad en sus utilidades.
(b) Sea E: utilidad de las empresas, en millones de pesos.
e
i
E n
i
f
i
N
i
5.25 4.5 6.0 75 0.210 75
6.90 6.0 7.8 97 0.272 172
8.40 7.8 9.0 102 0.286 274
9.60 9.0 10.2 83 0.232 357
Total 357 1.000
22
8.0 = 7.8 +
_
p 357
100
172
_
1.2
102
p =
_
(8.0 7.8)
102
1.2
+ 172
_
100
357
p = (17 + 172)
100
357
p = 52.94
Entonces el 52.94% de los proyectos tienen una utilidad menor a 8.0 millones de pesos,
es decir, 357 (52.94%/100%) = 189 proyectos.
(c)
Med(E
2
) = 7.8 +
_
116 50
100
51
_
1.2
20
= 7.8 + (58 51)
1.2
20
= 7.8 + 0.42
= 8.22 millones de pesos.
(d) Determinemos los respectivos coecientes de variacion (CV )para cada empresa.
CV
E
1
=

1.96
7.56
= 0.185 CV
E
2
=

15.88
6.82
= 0.582
Por propiedades de la varianza y la media se tiene que luego de los ajustes los nuevos
coecientes de variacion para las empresas son:
CV
E
1
=
(1 + 0.07)

1.96
(1 + 0.07) 7.56
=
1.07

1.96
1.07 7.56
=

1.96
7.56
= 0.185
CV
E
2
=
(1 0.06)

15.88
(1 0.06) 6.82 + 3
=
0.94

15.88
0.94 6.82 + 3
=
3.74
9.41
= 0.397
12. La siguiente tabla muestra la distribucion del nivel de ingresos, en millones de pesos, de un
grupo de Profesionales seg un su sexo.
23
Sueldo mensual Sexo
(millones de pesos) Hombres Mujeres
0.4-0.6 2 3
0.6-0.8 8 2
0.8-1.2 9 4
1.2-1.5 10 6
1.5-1.8 5 3
1.8-2.0 2 1
(a) Cuales son los ingresos medios de hombres y mujeres?
(b) Que cantidad de mujeres tiene un ingreso entre $650000 y $1250000?
(c) Comparativamente, Quienes tiene sueldos mas homogeneos?
(d) El sueldo mas frecuente de los hombres es mayor al mas frecuente de las mujeres?
(e) Si el sueldo de los hombres aumentara en un 3%, y el de las mujeres fuera reajustado en
un 5% mas un bono mensual de $10000. Quienes tendran un sueldo medio superior?
Des.
Sean X: sueldo mensual, en miles de pesos, H: Hombres y M: Mujeres.
Hombres
x
i
X n
i
f
i
N
i
n
i
x
i
n
i
x
2
i
0.5 0.4 0.6 2 0.056 2 1.0 0.5
0.7 0.6 0.8 8 0.222 10 5.6 3.92
1.0 0.8 1.2 9 0.250 19 9 9
1.35 1.2 1.5 10 0.278 29 13.5 18.23
1.65 1.5 1.8 5 0.139 34 8.25 13.61
1.9 1.8 2.0 2 0.056 36 3.8 7.22
Total 36 1.000 41.15 52.48
Mujeres
x
i
X n
i
f
i
N
i
n
i
x
i
n
i
x
2
i
0.5 0.4 0.6 3 0.158 3 1.5 0.75
0.7 0.6 0.8 2 0.105 5 1.4 0.98
1.0 0.8 1.2 4 0.211 9 4 4
1.35 1.2 1.5 6 0.316 15 8.1 10.94
1.65 1.5 1.8 3 0.158 18 4.95 8.17
1.9 1.8 2.0 1 0.053 19 1.9 3.61
Total 19 1.000 21.75 28.45
(a)

H
=
41.15
36
= 1.143 millones de pesos.
24

M
=
21.75
19
= 1.145 millones de pesos.
(b)
1.25 = 1.2 +
_
p 19
100
9
_
0.3
6
p =
_
(1.25 1.2)
6
0.3
+ 9
_
100
19
= (1 + 9)
100
19
= 52.63
0.65 = 0.6 +
_
p 19
100
3
_
0.2
2
p =
_
(0.65 0.6)
2
0.2
+ 3
_
100
19
= (0.5 + 3)
100
19
= 18.42
Entonces, El porcentaje de mujeres que esta en el intervalo es 52.63%18.42% = 34.21%,
es decir, hay 19 (34.21%/100%) = 6.5 7 mujeres.
(c)

2
H
=
1
36
(52.48 36 1.143
2
) =
5.448
36
= 0.151 (millones de pesos)
2

H
= 0.389 millones de pesos.

2
M
=
1
19
(28.45 19 1.145
2
) =
3.541
19
= 0.186 (millones de pesos)
2

H
= 0.431 millones de pesos.
CV
H
=
0.389
1.143
= 0.340 CV
M
=
0.431
1.145
= 0.376
25
(d)
Mod(X)
H
= 1.2 +
_
10 9
(10 9) + (10 5)
_
0.3
= 1.2 +
1
1 + 5
0.3
= 1.2 + 0.05
= 1.25 millones de pesos.
Mod(X)
M
= 1.2 +
_
6 4
(6 4) + (6 3)
_
0.3
= 1.2 +
2
2 + 3
0.3
= 1.2 + 0.2
= 1.4 millones de pesos.
Entonces, como se puede observar el sueldo mas frecuente de los varones no es superior
al sueldo mas frecuente de las damas.
(e)

H
= (1 + 0.03)1.143 = 1.03 1.143 = 1.177 millones de pesos.

M
= (1 + 0.05)1.145 + 0.01 = 1.05 1.145 + 0.01 = 1.212 millones de pesos.
13. Las demanda mensual de cajas (X) de cierto producto en los supermercados de dos comunas
se resume en la siguiente tabla.
Cantidad (X) Comuna A Comuna B
30-70 12 5
70-100 21 8
100-130 36 19
130-150 29 10
(a) Determine las demandas mas frecuentes para ambas comunas.
26
(b) Es mayor la demanda promedio de la Comuna A comparado con la Comuna B de este
producto?
(c) Determine la cantidad de demanda mnima de 25% de las mayores demandas.
(d) Que comuna tiene una demanda mas homogenea?
(e) Si para el proximo mes se determina que la comuna B tendra un crecimiento en su
poblacion, que involucrara un aumento en la demanda de este producto en un 15%, en
cambio la comuna A disminuira su consumo en un 5% menos 7 cajas. Cuales seran las
nuevas demandas medias?
Des.
x
i
X A B Total N
i
50 30 70 12 5 17 17
85 70 100 21 8 29 46
115 100 130 36 19 55 101
140 130 150 29 10 39 140
Total 98 42 140
(a)
Mod(X|A) = 100 +
_
36 21
(36 21) + (36 29)
_
30
= 100 +
15
15 + 7
30
= 100 + 20.45
= 120.45 cajas mensuales.
Mod(X|B) = 100 +
_
19 8
(19 8) + (19 10)
_
30
= 100 +
11
11 + 9
30
= 100 + 16.50
= 116.50 cajas mensuales.
27
(b)

X|A
=
50 12 + 85 21 + 115 36 + 140 29
98
=
10585
98
= 108.01 cajas mensuales.

X|B
=
50 5 + 85 8 + 115 19 + 140 10
42
=
4515
42
= 107.50 cajas mensuales.
Efectivamente, la Comuna A tiene una mayor demanda media de cajas mensuales de este
producto en comparacion a la Comuna B.
(c)
P
75
= 130 +
_
140 75
100
101
_
20
39
= 130 + (105 101)
20
39
= 130 + 2.05
= 132.05 cajas mensuales.
La maxima demanda de cajas del 75% de las demandas inferiores es 132.05 132,
entonces este valor tambien corresponde a la demanda mnima del 25% de las mayores
demandas.
(d)

2
X|A
=
1
98
_
(50
2
12 + 85
2
21 + 115
2
36 + 140
2
29) 98 108.01
2
_
=
1
98
(1226225 1143283.69)
=
82941.31
98
= 846.34 (cajas mensuales)
2

X|A
= 29.09 cajas mensuales.
28

2
X|B
=
1
42
_
(50
2
5 + 85
2
8 + 115
2
19 + 140
2
10) 42 107.50
2
_
=
1
42
(517575 485362.50)
=
32212.50
42
= 766.96 (cajas mensuales)
2

X|B
= 27.69 cajas mensuales.
CV (X|A) =
29.09
108.01
= 0.269 CV (X|B) =
27.69
107.50
= 0.258
La Comuna B tiene una demanda mas homogenea en comparacion a la Comuna A.
(e)

X|A
= (1 0.05) 108.01 7 = 95.61 cajas mensuales.

X|B
= (1 + 0.15) 107.50 = 123.63 cajas mensuales.
14. En una encuesta realizada a 800 familias, se les consulta sobre dos puntos: si estan inscritos
en los registros electorales y sobre el nivel de ingresos, de donde se obtiene la siguiente tabla.
Nivel de Inscripcion
Ingresos en registros Total
(miles de pesos) SI NO
100-400 120 320
400-700 150 240
700-1000 210
Total
(a) Es superior el ingreso medio de las familias inscritas en los registros electorales que las
no inscritas?
(b) Cuantas familias no inscritas en los registros electorales tienen un ingreso superior a
500 mil?
29
(c) Son mas homogeneas los ingresos de las familias inscritas en los registros electores que
las no inscritas?
Des.
Y
x
i
X SI NO Total
250 100 400 120 200 320
550 400 700 90 150 240
850 700 1000 210 30 240
Total 420 380 800
(a)

X|Y =SI
=
250 120 + 550 90 + 850 210
420
=
258000
420
= 614.29 miles de pesos.

X|Y =NO
=
250 200 + 550 150 + 850 30
380
=
158000
380
= 415.79 miles de pesos.
El ingreso medio de las familias que estan inscritas en los registros electorales es mayor
que las familas no inscritas.
(b)
500 = 400 +
_
p 380
100
200
_
300
150
p =
_
(500 400)
150
300
+ 200
_
100
380
= 250
100
380
= 65.79
El 65.79% de las familias no inscritas en los registros electorales tiene un ingreso menor a
$500000, entonces, el 34.21% tiene un ingreso superior, es decir, 380 (34.21%/100%) =
130 familias.
30
(c)

2
X|Y =SI
=
1
420
_
(250
2
120 + 550
2
90 + 850
2
210) 420 614.29
2
_
=
1
420
(186450000 158487925.7)
=
27962074.28
420
= 66576.37 (miles de pesos)
2

X|Y =SI
= 258.02 miles de pesos.

2
X|Y =NO
=
1
380
_
(250
2
200 + 550
2
150 + 850
2
30) 380 415.79
2
_
=
1
380
(79550000 65694903.16)
=
13855096.84
380
= 36460.78 (miles de pesos)
2

X|Y =NO
= 190.95 miles de pesos.
CV
X|Y =SI
=
258.02
614.29
= 0.420 CV
X|Y =NO
=
190.95
415.79
= 0.459
Las familias inscritas en los registros electorales tienen sueldos mas homogeneos que las
familias no inscritas en los registros electorales.
15. El siguiente cuadro muestra el n umero de horas semanales dedicadas al estudio de un grupo
de alumnos y la nota nal que obtuvieron al termino del curso.
Horas de estudio Nota nal
1-3 3-5 5-7
0-2 3 1 4
2-4 5 5 6
4-6 6 4 9
6-8 1 4 7
(a) Determine el numero medio de horas de estudio y de nota nal.
31
(b) Cual es la cantidad de horas de estudios mas frecuente de este grupo de estudiantes?
(c) Cuantos de estos estudiantes aprobaron el curso?
(d) Determine la nota mnima que obtuvo el 50% de los mejores alumnos.
(e) Cuantas horas en promedio estudiaron aquellos alumnos que obtuvieron una nota su-
perior a 5.0?
(f) Que nota obtuvieron los alumnos que estudiaron menos de 4 horas?
(g) Determine si los alumnos son mas parecidos respecto a las horas que estudian en com-
paracion a la nota nal que obtuvieron.
(h) Determine el tipo y fuerza de asociacion entre las variables.
Des.
Y
y
i
2 4 6
x
i
X 1 3 3 5 5 7 Total
1 0 2 3 1 4 8
3 2 4 5 5 6 16
5 4 6 6 4 9 19
7 6 8 1 4 7 12
Total 15 14 26 55
(a)

X
=
1 8 + 3 16 + 5 19 + 4 12
55
=
235
55
= 4.27 horas.

Y
=
2 15 + 4 14 + 6 26
55
=
242
55
= 4.40
32
(b)
Mod(X) = 4 +
_
19 16
(19 16) + (19 12)
_
2
= 4 +
3
3 + 7
2
= 4 + 0.6
= 4.6 horas.
(c)
4 = 3 +
_
p 55
100
15
_
2
14
p =
_
(4 3)
14
2
+ 15
_
100
55
p = 22
100
55
= 40
Como el 40% de las observaciones tiene una nota nal inferior a 4.0, entonces el 60%
tiene una nota superior a 4.0, es decir, 55 (60%/100%) = 33 alumnos aprobaron el
curso.
(d)
P
50
= 3 +
_
50 55
100
15
_
2
14
= 3 + (27.5 15)
2
14
= 3 + 1.79
= 4.79
(e) .
33
x
i
X|Y > 5
1 0 2 4
3 2 4 6
5 4 6 9
7 6 8 7
Total 26

X|Y >5
=
14+36+59+77
26
=
116
26
= 4.46 horas.
(f) .
x
i
Y |X < 4
2 1 3 3 + 5 = 8
4 3 5 1 + 5 = 6
6 5 7 4 + 6 = 10
Total 24

Y |X<4
=
28+46+610
24
=
100
24
= 4.17
(g)

2
X
=
1
55
_
(1
2
8 + 3
2
16 + 5
2
19 + 7
2
12) 55 4.27
2
_
=
1
55
(1215 1002.81)
= 3.86 (horas)
2

X
= 1.96 horas.

2
Y
=
1
55
_
(2
2
15 + 4
2
14 + 6
2
26) 55 4.40
2
_
=
1
55
(1220 1064.80)
= 2.82

Y
= 1.68
CV
X
=
1.96 horas
4.27 horas
= 0.459 CV
Y
=
1.68
4.40
= 0.382
34
Como el CV
X
> CV
Y
los alumnos son mas homogeneos en la nota que obtuvieron que
en las horas de estudio.
(h)

XY
=
1
55
((1 3 2 + 1 1 4 + 1 4 6 + 3 5 2 + 3 5 4 + 3 6 6
+5 6 2 + 5 4 4 + 5 9 6 + 7 1 2 + 7 4 4 + 7 7 6)
55 4.27 4.40)
=
1
55
(1062 55 4.27 4.40)
=
28.66
55
= 0.52
r
XY
=
0.52
1.96 1.68
= 0.158
Las variables tienen una baja asociacion lineal directa.
16. El Subgerente de refrigeracion y aire acondicionado de una empresa, debe decidir entre instalar
calefactores a parana o a gas, en las nuevas dependencias de bodega. Con el proposito de
tomar una decision inteligente, solicito la siguiente informacion.
Antecedentes Parana (P) Gas (G)
N umero de calefactores 4 2 5 6 3 3 2 3 4 1
Precio de calefactores (US$) 90 85 91 100 95 93 112 86 95 98
Importados (I) 3 1 3 4 2 3 1 1 2 0
Nacionales (N) 1 1 2 2 1 0 1 2 2 1
(a) Es el precio medio de los calefactores a Parana superior al de los a Gas?
(b) Determine de los calefactores nacionales, si el precio mediano de los a Parana es superior
a los de Gas.
(c) Es el precio medio de los calefactores a Parana nacioanales menor al de los importados?
35
(d) Cuales calefactores tienen precios mas homogeneos, los nacionales a Gas o los nacionales
a Parana?
(e) Cual es precio mas com un de los calefactores nacionales a Gas?
Des.
(a)

P
=
4 90 + 2 85 + 5 91 + 6 100 + 3 95
20
=
1870
20
= 93.5 US$

G
=
3 93 + 2 112 + 3 86 + 4 95 + 1 98
13
=
1239
13
= 95.31 US$
En este caso el precio medio de los calefactores a Gas es superior al precio medio de los
calefactores a Parana.
(b) .
P|N
85 1 1
90 1 2
91 2 4
95 1 5
100 2 7
G|N
86 2 2
93 0 2
95 2 4
98 1 5
112 1 6
Med(P|N) = 91 US$ Med(G|N) = 95 US$
En este caso el pecio mediano de los calefactores nacionales a Gas es superior al precio
mediano de los calefactores nacionales a Parana.
(c) .
36
N|P I|P
85 1 1
90 1 3
91 2 3
95 1 2
100 2 4
Total 7 13

N|P
=
851+901+912+951+1002
7
=
652
7
= 93.14 US$

I|P
=
851+903+913+952+1004
13
=
1218
13
= 93.69 US$
Efectivamente el precio medio de los calefactores a Parana Nacionales es menor al precio
medio de los calefactores a Parana Importados.
(d) Utilizando las resultados de b) y c), se tienen:

P|N
= 93.14 US$

G|N
=
86 2 + 93 0 + 95 2 + 98 1 + 112 1
6
=
572
6
= 95.33 US$

2
P|N
=
1
7
_
(85
2
1 + 90
2
1 + 91
2
2 + 95
2
1 + 100
2
2) 7 93.14
2
_
=
1
7
(60912 60725.42)
= 26.65 (US$)
2

P|N
= 5.76 US$

2
G|N
=
1
6
_
(86
2
2 + 93
2
0 + 95
2
2 + 98
2
1 + 112
2
1) 6 95.33
2
_
=
1
6
(54990 54526.85)
= 77.19 (US$)
2

G|N
= 8.79 US$
CV
P|N
=
5.76 US$
93.14 US$
= 0.055 CV
G|N
=
8.79 US$
95.33 US$
= 0.092
Los calefactores Nacionales a Parana tienen precios mas homogeneos que los calefactores
Nacionales a Gas.
37
(e)
Mod
1
(G|N) = 86 US$ Mod
2
(G|N) = 95 US$
17. La siguiente tabla muestra los ingresos mensuales (X), en miles de pesos, y el nivel educacional
(Y) de un grupo de empleados de una empresa de asesoria computacional.
X Y
Media (M) Tecnico-Profesional (TP) Universitaria(U)
150-350 9 12 3
350-600 8 15 5
600-1100 2 7 5
(a) Cual es el sueldo m as frecuente de estos empleados?
(b) Cual es el sueldo promedio de estos empleados?
(c) Cual es el sueldo medio de los empleados con eduacion Universitaria?
(d) Cual sueldo es mas homogeneo respecto al nivel educacional?
Des.
Y
x
i
X M TP U Total
250 150 350 9 12 3 24
475 350 600 8 15 5 28
850 600 1100 2 7 5 14
Total 19 34 13 66
(a)
Mod(X) = 350 +
_
28 24
(28 24) + (28 14)
_
250
= 350 +
4
4 + 14
250
= 350 + 55.56
= 405.56 miles de pesos.
38
(b)

X
=
250 24 + 475 28 + 850 14
66
=
31200
66
= 472.73 miles de pesos.
(c)

X|Y =U
=
250 3 + 475 5 + 850 5
13
=
7375
13
= 567.31 miles de pesos.
(d)

X|Y =M
=
250 9 + 475 8 + 850 2
19
=
7750
19
= 407.89 miles de pesos.

X|Y =TP
=
250 12 + 475 15 + 850 7
34
=
16075
34
= 472.79 miles de pesos.

2
X|Y =M
=
1
19
_
(250
2
9 + 475
2
8 + 850
2
2) 19 407.89
2
_
=
1
19
(3812500 3161110.79)
= 34283.64 (miles de pesos)
2

X|Y =M
= 185.16 miles de pesos.

2
X|Y =TP
=
1
34
_
(250
2
12 + 475
2
15 + 850
2
7) 34 472.79
2
_
=
1
34
(9191875 7600033.06)
= 46818.89 (miles de pesos)
2

X|Y =TP
= 216.38 miles de pesos.

2
X|Y =U
=
1
13
_
(250
2
3 + 475
2
5 + 850
2
5) 13 567.31
2
_
=
1
13
(4928125 4183928.27)
= 57245.90 (miles de pesos)
2

X|Y =M
= 239.26 miles de pesos.
39
CV
M
=
185.16
407.89
= 0.454 CV
TP
=
216.38
472.79
= 0.458 CV
U
=
239.26
567.31
= 0.422
Los empleados con educacion Universitaria tienen sueldos mas homogeneos, en compara-
cion a los otros trabajadores.
18. Una empresa dedicada a la venta de departamentos en la Quinta region, resume en la siguiente
tabla los valores de departamentos seg un sus contribuciones.
Precio de venta (X) Contribuciones en miles de pesos (Y)
(millones de pesos) 50-100 100-200 200-300 300-400
10-15 10 4 3 1
15-20 3 6 1 3
20-30 4 3 5 7
30-40 0 2 5 2
40-50 0 1 6 9
(a) Cual es el precio y monto de contribuciones promedio de estos departamentos?
(b) Que porcentaje de departamentos tiene un precio de venta a lo menos de 30 millones y
sus contribuciones son superiores a los 200 mil?
(c) Cual es el valor mas frecuente de los departamentos que pagan contribuciones entre los
100 y 300 mil?
(d) Calcule el coeciente de asociacion lineal para las variables en estudio e interprete.
Des.
40
Y
y
i
75 150 250 350
x
i
X 50 100 100 200 200 300 300 400 Total
12.5 10 15 10 4 3 1 18
17.5 15 20 3 6 1 3 13
25 20 30 4 3 5 7 19
35 30 40 0 2 5 2 9
45 40 50 0 1 6 9 16
Total 17 16 20 22 75
(a)

X
=
12.5 18 + 17.5 13 + 25 19 + 35 9 + 45 16
75
=
1764.5
75
= 23.53 millones de pesos.

Y
=
75 17 + 150 16 + 250 20 + 350 22
75
=
16375
75
= 218.33 miles de pesos.
(b)
5 + 2 + 6 + 9
75
=
22
75
= 0.293 29.3%
(c) .
x
i
X|100 < Y < 300
12.5 10 15 4 + 3 = 7
17.5 15 20 6 + 1 = 7
25 20 30 3 + 5 = 8
35 30 40 2 + 5 = 7
45 40 50 1 + 6 = 7
Total 26
Mod(X|100 < Y < 300) = 20 +
_
8 7
(8 7) + (8 7)
_
10
= 20 +
1
1 + 1
10
= 25 millones de pesos.
41
(d)

XY
=
1
75
((12.5 10 75 + 12.5 4 150 + 12.5 3 250 + 12.5 1 350
+17.5 3 75 + 17.5 6 150 + 17.5 1 250 + 17.5 3 350
+25 4 75 + 25 3 150 + 25 5 250 + 25 7 350
+35 0 75 + 35 2 150 + 35 5 250 + 35 2 350
+45 0 75 + 45 1 150 + 45 6 250 + 45 9 350)
75 23.53 218.33)
=
1
75
(479062.5 75 23.53 218.33)
=
93764.63
75
= 1250.20

2
X
=
1
75
_
(12.5
2
18 + 17.5
2
13 + 25
2
19 + 35
2
9 + 45
2
16) 17 23.53
2
_
=
1
75
(62093.75 41524.57)
=
20569.18
75
= 274.26 (millones de pesos)
2

X
= 16.56 millones de pesos.

2
Y
=
1
75
_
(75
2
17 + 150
2
16 + 250
2
20 + 350
2
22) 75 218.33
2
_
=
1
75
(4400625 3575099.17)
=
825525.83
75
= 11007.01 (miles de pesos)
2

Y
= 104.91 miles de pesos.
r
XY
=
1250.20
16.56 104.91
= 0.720
En este caso existe una mediana asociacin lineal directa entre las variables.
42
19. En un curso de 50 alumnos, 15 de ellos obtuvieron una nota nal menor a 3.5 y solo 4 de ellos
una nota superior a 6.2.
(a) Determine la nota media y su variabilidad.
(b) Supera la nota mediana a la mas frecuente?
(c) Cuantos alumnos aprobaron el curso?
Des.
x
i
X n
i
N
i
2.25 1.0 3.5 15 15
4.85 3.5 6.2 31 46
6.6 6.2 7.0 4 50
Total 50
(a)

X
=
2.25 15 + 4.85 31 + 6.6 4
50
=
210.5
50
= 4.21

2
X
=
1
50
_
(2.25
2
15 + 4.85
2
31 + 6.6
2
4) 50 4.21
2
_
=
1
50
(979.38 886.21)
=
93.17
50
= 1.86
(b)
Med(X) = 3.5 +
_
50 50
100
15
_
2.7
31
= 3.5 + (25 15)
2.7
31
= 3.5 + 0.87
= 4.37
Mod(X) = 3.5 +
_
31 15
(31 15) + (31 4)
_
2.7
= 3.5 +
16
16 + 27
2.7
= 3.5 + 1.0
= 4.5
43
Como se puede observar la nota mediana es menor a la nota mas frecuente.
(c)
4.0 = 3.5 +
_
p 50
100
15
_
2.7
31
p =
_
(4.0 3.5)
31
2.7
+ 15
_
100
50
= (5.74 + 15)
100
50
= 41.48
El 41.48% de los alumnos obtuvo una nota inferior a 4.0, entonces, el 58.52% tiene
aprobaron el curso, es decir, 50 (58.52%/100%) = 29.26 29 alumnos.
20. Los siguientes datos corresponden al sueldo mensual(X) en miles de pesos de un grupo de
trabajadores de una empresa metal urgica respecto a las horas de trabajo semanal (Y).
X Y
30-35 35-40 40-46
250-450 6 4 5
450-650 3 2 6
650-850 1 8 9
(a) Determine el sueldo y horas de trabajo promedio para este grupo de trabajadores.
(b) Cual es el sueldo medio de aquellos que trabajan mas de 40 horas?
(c) Cuantas horas en promedio trabajan aquellos que tienen un sueldo entre 450 y 650 mil?
(d) Determine el coeciente de correlacion lineal para las variables.
Des.
44
Y
y
i
32.5 37.5 43
x
i
X 30 35 35 40 40 46 Total
350 250 450 6 4 5 15
550 450 650 3 2 6 11
750 650 850 1 8 9 18
Total 10 14 20 44
(a)

X
=
350 15 + 550 11 + 750 18
44
=
24800
44
= 563.64 miles de pesos.

Y
=
32.5 10 + 37.5 14 + 43 20
44
=
1710
44
= 38.86 horas.
(b)

X|Y >40
=
350 5 + 550 6 + 750 9
20
=
11800
20
= 590 miles de pesos.
(c)

Y |450<X<650
=
32.5 3 + 37.5 2 + 43 6
11
=
430.5
11
= 39.14 horas.
(d)

XY
=
1
44
((350 10 32.5 + 350 4 37.5 + 350 5 43
+550 3 32.5 + 550 2 37.5 + 550 6 43
+750 1 32.5 + 750 8 37.5 + 750 9 43)
44 563.64 38.86)
=
1
44
(972400 44 563.64 38.86)
=
8665.78
44
= 196.95
45

2
X
=
1
44
_
(350
2
15 + 550
2
11 + 750
2
18) 44 563.64
2
_
=
1
44
(15290000 13978362.18)
=
1311637.82
44
= 29809.95 (miles de pesos)
2

X
= 172.66 miles de pesos.

2
Y
=
1
44
_
(32.5
2
10 + 37.5
2
14 + 43
2
20) 44 38.86
2
_
=
1
44
(67230 66444.38)
=
785.62
44
= 17.85 (horas)
2

Y
= 4.23 horas.
r
XY
=
196.95
172.66 4.23
= 0.270
21. La siguiente tabla resume el resultados de 54 postulantes a un cargo ejecutivo de una gran
empresa, seg un sus edades.
Puntajes Edad (Y)
(X) 25-28 28-32
30-45 5 12
45-50 7 10
50-65 11 9
(a) Calcule el valor medio de los puntajes y de las edades.
(b) Determine el valor mas frecuente de la edad dado que los postulantes obtuvieron menos
de 50 puntos.
(c) Determine el puntaje que obtuvieron como maximo el 25% de los mas bajos, dado que
tienen menos de 28 a nos.
46
(d) Determine el coeciente de correlacion lineal entre las variables.
Des.
Y
y
i
26.5 30
x
i
X 25 28 28 32 Total
37.5 30 45 5 12 17
47.5 45 50 7 10 17
57.5 50 65 11 9 20
Total 23 31 54
(a)

X
=
37.5 17 + 47.5 17 + 57.5 20
54
=
2595
54
= 48.06 puntos.

Y
=
26.5 23 + 30 31
54
=
1539.5
54
= 28.51 a nos.
(b) .
Y |X < 50
25 28 5 + 7 = 12
28 32 12 + 10 = 22
Total 34
Mod(Y |X < 50) = 28 +
_
22 12
(22 12) + (22 0)
_
4
= 28 +
10
10 + 22
4
= 28 + 1.25
= 29.25 a nos.
(c) .
47
X|Y < 28 N
i
30 45 5 5
45 50 7 12
50 65 11 23
Total 23
P
25
= 45 +
_
25 23
100
5
_
5
7
= 45 + (5.75 5)
5
7
= 45 + 0.54
= 45.54 puntos.
(d)

XY
=
1
54
((37.5 5 26.5 + 37.5 12 30
+47.5 7 26.5 + 47.5 10 30
+57.5 11 26.5 + 57.5 9 30)
54 48.06 28.51)
=
1
54
(73816.25 54 48.06 28.51)
=
174.04
54
= 3.22

2
X
=
1
54
_
(37.5
2
17 + 47.5
2
17 + 57.5
2
20) 54 48.06
2
_
=
1
54
(128387.50 124727.23)
=
3660.27
54
= 67.78 (puntos)
2

X
= 8.23 puntos.
48

2
Y
=
1
54
_
(26.5
2
23 + 30
2
31) 54 28.51
2
_
=
1
54
(44051.75 43892.29)
=
159.46
54
= 2.95 (a nos)
2

Y
= 1.72 a nos.
r
XY
=
3.22
8.23 1.72
= 0.227
Existe una baja asociacion lineal inversa entre las variables.
22. La siguiente tabla resume la informacion de un grupo de estudiantes universitarios seg un su
edad y peso.
Edad Peso (Y)
(X) 65-75 75-85
18-22 6 11
22-25 7 14
25-28 10 16
(a) Determine la edad mas frecuente de los que pesan menos de 75 kilos.
(b) Determine el peso medio, de los alumnos que tienen mas de 22 a nos.
(c) Determine si el peso medio de todos los alumnos, supera al peso medio de los alumnos
con edades inferiores a los 25 a nos.
(d) Determine el coeciente de correlacion lineal para las variables.
Des.
49
Y
y
i
70 80
x
i
X 65 75 75 85 Total
20 18 22 6 11 17
23.5 22 25 7 14 21
26.5 25 28 10 16 26
Total 23 41 64
(a)
Mod(X|Y < 75) = 25 +
_
10 7
(10 7) + (10 0)
_
3
= 25 +
3
3 + 10
3
= 25 + 0.69
= 25.69 a nos.
(b) .
y
i
Y |X > 22
70 65 75 7 + 10 = 17
80 75 85 14 + 16 = 30
Total 47

Y |X>22
=
70 17 + 80 30
47
=
3590
47
= 76.41 Kgrs.
(c)

Y
=
70 23 + 80 41
64
=
4890
64
= 76.41 Kgrs.
y
i
Y |X < 25
70 65 75 6 + 7 = 13
80 75 85 11 + 14 = 25
Total 38
50

Y |X<25
=
70 13 + 80 25
38
=
2910
38
= 76.58 Kgrs.
El peso medio de todos los alumnos es menor que el peso de los alumnos menores de 25
a nos.
(d)

X
=
20 17 + 23.5 21 + 26.5 26
64
=
1522.5
64
= 23.79 a nos.

XY
=
1
64
((20 6 70 + 20 11 80
+23.5 7 70 + 23.5 14 80
+26.5 10 70 + 26.5 16 80)
64 23.79 76.41)
=
1
64
(116305 64 23.79 76.41)
=
33.81
64
= 0.528

2
X
=
1
64
_
(20
2
17 + 23.5
2
21 + 26.5
2
26) 64 23.79
2
_
=
1
64
(36655.75 36221.70)
=
434.05
64
= 6.78 (a nos)
2

X
= 2.60 a nos.

2
Y
=
1
64
_
(70
2
23 + 80
2
41) 64 76.41
2
_
=
1
64
(375100 373663.24)
=
1436.76
64
= 22.45 (Kgrs.)
2

Y
= 4.74 kgrs.
51
r
XY
=
0.528
2.60 4.74
= 0.056
Existe una baja asociacion lineal inversa entre las variables.
23. La siguiente tabla muestra los puntajes (X) obtenidos por un grupo de alumnos de un colegio
seg un el tramo de edad (Y).
Puntajes Edad (Y)
(X) 9-11 11-14 14-16
0-30 3 6 10
30-50 8 4 11
50-70 9 7 5
(a) Obtenga la edad media y puntaje medio de estos alumnos.
(b) Obtenga las varianzas de la edad y del puntaje.
(c) Determine el coeciente de correlacion lineal.
(d) Cual es la edad media de los alumnos que obtuvieron puntajes mayores a 30 puntos?
(e) Cual es el puntaje medio de aquellos alumnos que tienen mas de 11 a nos?
Des.
Y
y
i
10 12.5 15
x
i
X 9 11 11 14 14 16 Total
15 0 30 3 6 10 19
40 30 50 8 4 11 23
60 50 70 9 7 5 21
Total 20 17 26 63
52
(a)

X
=
15 19 + 40 23 + 60 21
63
=
2465
63
= 39.13 puntos.

Y
=
10 20 + 12.5 17 + 15 26
63
=
802.5
63
= 12.74 a nos.
(b)

2
X
=
1
63
_
(15
2
19 + 40
2
23 + 60
2
21) 63 39.13
2
_
=
1
63
(116675 96462.88)
=
20212.12
63
= 320.83 (puntos)
2

X
= 17.91 puntos.

2
Y
=
1
63
_
(10
2
20 + 12.5
2
17 + 15
2
26) 63 12.74
2
_
=
1
63
(10506.25 10225.38)
=
280.87
63
= 4.46 (a nos)
2

Y
= 2.11 a nos.
(c)

XY
=
1
63
((15 3 10 + 15 6 12.5 + 15 10 15
+40 8 10 + 40 4 12.5 + 40 11 15
+60 9 10 + 60 7 12.5 + 60 5 12.5)
63 39.13 12.74)
=
1
63
(30775 63 39.13 12.74)
=
631.52
63
= 10.02
r
XY
=
10.02
17.91 2.11
= 0.265
53
(d) .
y
i
Y |X > 30
10 9 11 8 + 7 = 17
12.5 11 14 4 + 7 = 11
15 14 16 11 + 5 = 16
Total 44

Y |X>30
=
10 17 + 12.5 11 + 15 16
44
=
547.5
44
= 12.44 a nos.
(e) .
x
i
X|Y > 11
15 0 30 6 + 10 = 16
40 30 50 4 + 11 = 15
60 50 70 7 + 5 = 12
Total 43

X|Y >11
=
15 16 + 40 15 + 60 12
43
=
1560
43
= 36.28 puntos.
24. La siguiente tabla resume las horas semanales que un grupo de ni nos pasa frente al computador
(Y) respecto a su edad (X).
X Y
2-4 4-6 6-8
12-14 13 14 15
14-16 12 15 16
(a) Determine el promedio de horas a la semana y de edad de este grupo de ni nos.
(b) Determine la cantidad de horas mas frecuentes que pasan frente al computador los ni nos
mayores de 14 a nos?
54
(c) Cual es la edad media de los ni nos que pasan menos de 6 horas frente al computador?
(d) Determine el coeciente de correlacion lineal.
Des.
Y
y
i
3 5 7
x
i
X 2 4 4 6 6 8 Total
13 12 14 13 14 15 42
15 14 16 12 15 16 43
Total 25 29 31 85
(a)

X
=
13 42 + 15 43
85
=
1191
85
= 14.01 a nos.

Y
=
3 25 + 5 29 + 7 31
85
=
437
85
= 5.14 horas.
(b) .
y
i
Y |X > 14
3 2 4 12
5 4 6 15
7 6 8 16
Total 43
Mod(Y |X > 14) = 6 +
_
16 15
(16 15) + (16 0)
_
2
= 6 +
1
1 + 16
2
= 6 + 0.12
= 6.12 horas.
(c) .
55
x
i
X|Y < 6
13 12 14 13 + 14 = 27
15 14 16 12 + 15 = 27
Total 54

X|Y <6
=
13 27 + 15 27
54
=
756
54
= 14 a nos.
(d)

XY
=
1
85
((13 13 3 + 13 14 5 + 13 15 7
+15 12 3 + 15 15 5 + 15 16 7)
85 14.01 5.14)
=
1
85
(6127 85 14.01 5.14)
=
6.03
85
= 0.071 (a nos) (horas).

2
X
=
1
85
_
(13
2
42 + 15
2
43) 85 14.01
2
_
=
1
85
(16773 16683.81)
=
89.19
85
= 1.05 (a nos)
2

X
= 1.02 a nos.

2
Y
=
1
85
_
(3
2
25 + 5
2
29 + 7
2
31) 85 5.14
2
_
=
1
85
(2469 2245.67)
=
223.33
85
= 2.63 (horas)
2

Y
= 1.62 horas.
56
r
XY
=
0.071
1.02 1.62
= 0.043
25. La tabla muestra el gasto mensual en diarios y revistas de 45 familias en miles de pesos,
diferenciadas seg un si tienen automovil o no.
Gasto mensual Con automovil Sin automovil
1-5 7 3
5-10 5 4
10-15 10 6
15-25 6 4
(a) Cual es el gasto mensual medio en diarios y revistas de estas familias?
(b) Que porcentaje de familias gastan mensualmente mas de $12000 en diarios y revistas?
(c) Cual es el gasto medio de las familias que no tienen automovil?
(d) Son los gastos en diarios y revistas de las familias con automovil mas homogeneos que
las sin automovil?
Des.
Y
x
i
X CA SA Total
3 1 5 7 3 10
7.5 5 10 5 4 9
12.5 10 15 10 6 16
20 15 25 6 5 10
Total 18 17 45
(a)

X
=
3 10 + 7.5 9 + 12.5 16 + 20 10
45
=
497.5
45
= 11.06 miles de pesos.
57
(b)
12 = 10 +
_
p 45
100
9
_
5
16
p =
_
(12 10)
16
5
+ 9
_
100
45
= (6.4 + 9)
100
45
= 15.4
100
45
= 34.22
El 34.22% de las familias gasta mensualmente menos de $12000, luego el 65.78% de las
familas gasta mas de $12000 mensualmente.
(c)

X|Y =SA
=
3 3 + 7.5 4 + 12.5 6 + 20 4
17
=
194
17
= 11.41 miles de pesos.
(d)

X|Y =CA
=
3 7 + 7.5 5 + 12.5 10 + 20 6
28
=
303.5
28
= 10.84 miles de pesos.

2
X|Y =CA
=
1
28
_
(3
2
7 + 7.5
2
5 + 12.5
2
10 + 20
2
6) 28 10.84
2
_
=
1
28
(4306.75 3290.16)
=
1016.59
28
= 36.31 (miles de pesos)
2

X|Y =CA
= 6.03 miles de pesos.

2
X|Y =SA
=
1
17
_
(3
2
3 + 7.5
2
4 + 12.5
2
6 + 20
2
4) 17 11.41
2
_
=
1
17
(2789.50 2213.20)
=
576.30
17
= 33.90 (miles de pesos)
2

X|Y =SA
= 5.82 miles de pesos.
58
CV
X|Y =CA
=
6.03
10.84
= 0.556
CV
X|Y =SA
=
5.82
11.41
= 0.510
Los gastos en diarios y revistas de las familias sin automovil son mas homogeneos que
las familias con automovil.
26. La siguiente tabla muestra las alturas y pesos de un grupo de jovenes deportistas.
Altura (X) Edades (Y)
(en mt.) 13-17 17-20
1.4-1.5 14 10
1.5-1.7 20 15
1.7-1.8 12 17
(a) Cual es la edad mas com un de aquellos que miden como mnimo 1.5 mt.?
(b) Cual es la altura media de los que tienen a lo mas 17 a nos?
(c) Que porcentaje de estos jovenes tienen entre 17 y 20 a nos y miden entre 1.5 y 1.8 mt.?
(d) Determine la variabilidad de las edades y las alturas.
Des.
Y
y
i
15 18.5
x
i
X 13 17 17 20 Total
1.45 1.4 1.5 14 10 24
1.60 1.5 1.7 20 15 35
1.75 1.7 1.8 12 17 29
Total 46 42 88
(a) .
59
y
i
Y |X > 15
15 13 17 20 + 12 = 32
18.5 17 20 15 + 17 = 32
Total 64
Mod(Y |X > 15)
1
= 13 +
_
32 0
(32 0) + (32 32)
_
4
= 13 + 4
= 17 a nos.
Mod(Y |X > 15)
2
= 17 +
_
32 32
(32 32) + (32 0)
_
3
= 17 a nos.
En este caso si tienen dos modas y ambas iguales.
(b) .
x
i
X|Y < 17
1.45 1.4 1.5 14
1.60 1.5 1.7 20
1.75 1.7 1.8 12
Total 46

X|Y <17
=
1.45 14 + 1.60 20 + 1.75 12
46
=
73.3
46
= 1.59 mt.
(c)
15 + 17
88
=
32
88
= 0.3636
Equivalentemente, el 36.36% de estos jovenes tiene entre 17 y 20 a nos y miden entre 1.5
y 1.8 mt.
(d)

X
=
1.45 24 + 1.60 35 + 1.75 29
88
=
141.55
88
= 1.61 mt.

Y
=
15 46 + 18.5 42
88
=
1467
88
= 16.67 a nos.
60

2
X
=
1
88
_
(1.45
2
24 + 1.60
2
35 + 1.75
2
29) 88 1.61
2
_
=
1
88
(228.87 228.10)
=
0.77
88
= 0.0087 (mt)
2

X
= 0.093 mt.

2
Y
=
1
88
_
(15
2
46 + 18.5
2
42) 88 16.67
2
_
=
1
88
(24724.50 24454.22)
=
270.28
88
= 3.07 (a nos)
2

X
= 1.75 a nos.
27. La tabla siguiente muestra los litros de alcohol (X) utilizados en un proceso de limpieza de
ciertos ltos, por algunas farmacias y el presupuesto disponible de ellas (Y), en miles de pesos.
X Y
35-60 60-110 110-180
1-6 18 7 8
6-12 4 1 6
12-15 7 8 4
(a) Cual es el presupuesto medio de estas farmacias? Cual es la cantidad promedio de
litros de alcohol utilizados?
(b) Cuantos litros utilizan en promedio las farmacias con unpresupuesto inferior a los 110
mil?
(c) De las farmacias que utilizan mas de 6 litros de alcohol, que porcentaje de ellas tienen
un presupuesto inferior a los 60 mil?
(d) Determine el coeciente de correlacion lineal.
61
Des.
Y
y
i
47.5 85 145
x
i
X 35 60 60 110 110 180 Total
3.5 1 6 18 7 8 33
9.0 6 12 4 1 6 11
13.5 12 15 7 8 4 19
Total 29 16 18 63
(a)

X
=
3.5 33 + 9.0 11 + 13.5 19
63
=
471
63
= 7.48 litros.

Y
=
47.5 29 + 85 16 + 145 18
63
=
5347.5
63
= 84.88 miles de pesos.
(b) .
x
i
X|Y < 110
3.5 1 6 18 + 7 = 25
9.0 6 12 4 + 1 = 5
13.5 12 15 7 + 8 = 15
Total 45

X|Y <110
=
3.5 25 + 9.0 5 + 13.5 15
45
=
335
45
= 7.44 litros.
(c) .
y
i
Y |X > 6
47.5 35 60 4 + 7 = 11
85 60 110 1 + 8 = 9
145 110 180 6 + 4 = 10
Total 30
62
11
30
= 0.367
El 36.7% de las farmacias que utilizan mas de 6 litros de alcohol en la limpieza de sus
ltros, tiene un presupuesto inferior a $60000.
(d)

XY
=
1
63
((3.5 18 47.5 + 3.5 7 85 + 3.5 8 145
+9.0 4 47.5 + 9 1 85 + 9 6 145
+13.5 7 47.5 + 13.5 8 85 + 13.5 4 145)
63 7.48 84.88)
=
1
63
(40938.75 63 7.48 84.88)
=
939.90
63
= 14.92

2
X
=
1
63
_
(3.5
2
33 + 9
2
11 + 13.5
2
19) 63 7.48
2
_
=
1
63
(4758 3524.88)
=
1233.12
63
= 19.57 (litros)
2

X
= 4.42 litros.

2
Y
=
1
63
_
(47.5
2
29 + 85
2
16 + 145
2
18) 63 84.88
2
_
=
1
63
(559481.25 453890.71)
=
105590.54
63
= 1676.04 (miles de pesos)
2

Y
= 40.94 miles de pesos.
r
XY
=
14.92
4.42 40.94
= 0.082
63
Captulo 2
Regresion Lineal: Deniciones
2.1 Modelo de Regresion Lineal
La idea fundamental de los modelos de regresion es poder representar de la mejor forma posible
el comportamiento de los datos. Los datos tienen distintos comportamientos dependiendo del tipo
de variable que se este investigando. Si se observan dos variables al mismo tiempo, se puede estar
interesado en el comportamiento conjunto de estas variables y a traves de coecientes de correlacion
podriamos conocer el tipo de asociacion que existe entre ellas. El modelo matematico mas simple
que intenta representar el comportamiento de los datos es el modelo lineal, el cual parte de la
base que es posible ajustar una linea recta a las observaciones, siendo esta ecuacion una forma de
resumir y representar la informacion. El modelo de regresion lineal simple en la version frecuentista,
considera las observaciones de pares ordenados (x
i
, y
i
), con i =, . . . , n. Para el modelo
y =
0
+
1
x + ,
en general, el interes se concentra en la estimacion de los parametros = (
0
,
1
), los cuales se
pueden obtener mediante los EMCO
1

0
=

Y

1

X ,

1
=
S
XY
S
XX
,
donde S
XY
=

n
i=1
(x
i


X)(y
i


Y ) y S
XX
=

n
i=1
(x
i


X)
2
, siendo (

X,

Y ), las medias muestrales
respectivas. De esa forma el modelo de regresion lineal estimado esta dado por:
y
i
=

0
+

1
x
i
:,
para todo i = 1, . . . , n.
Ademas, se puede determinar el grado de asociacion representada por el modelo de regresion
lineal estimado para las observaciones, este coeciente es denominado R
2
y corresponde exactamente
al cuadrado del coeciente de correlacion lineal de Pearson, que ademas puede ser calculado por:
R
2
= (r
XY
)
2
=
S
2
XY
S
XX
S
Y Y
,
1
Estimadores de mnimos cuadrados ordinarios.
64
donde S
Y Y
=

n
i=1
(y
i


Y )
2
, y su interpretacion es que el modelo explica a los observaciones (o
representa) en un R
2
100%. Con un poco de algebra se puede llegar a las siguientes expresiones
simplicadas de S:
S
XY
=
n

i=1
x
i
y
i
n

X

Y , S
XX
=

n
i=1
x
2
i
n

X
2
, S
Y Y
=
n

i=1
y
2
i
n

Y
2
.
65
2.2 Ejercicios Resueltos
1. La siguiente tabla muestra el ujo diario de automoviles (X) en miles, y su cantidad de
partculas que emiten en mg/cm
3
.
X Y
19.09 522.10
27.83 1198.30
39.10 1472.00
39.10 1239.70
39.10 1674.40
55.89 2173.50
55.89 1697.40
76.36 1745.70
(a) Determine el modelo de regresion lineal simple asociado.
(b) Determine el grado de explicacion del modelo.
(c) Para un ujo de 20000 automoviles diarios, Cual sera la cantidad esperada de particulas
en suspencion dadas por este ujo?
(d) Determine la cantidad de automoviles que generan 1000 mg/cm
3
en un da.
Des.
Completamos la tabla con las respectivas multiplicaciones y sumas para determinar los paramet-
ros del modelo.
X Y XY X
2
Y
2
19.09 522.10 9966.89 364.43 272588.41
27.83 1198.30 33348.69 774.51 1435922.89
39.10 1472.00 57555.20 1528.81 2166784.00
39.10 1239.70 48472.27 1528.81 1536856.09
39.10 1674.40 65469.04 1528.81 2803615.36
55.89 2173.50 121476.92 3123.69 4724102.25
55.89 1697.40 94867.69 3123.69 2881166.76
76.36 1745.70 133301.65 5830.85 3047468.49
352.36 11723.10 564458.34 17803.60 18868504.25
(a)

X =
352.36
8
= 44.05

Y =
11723.10
8
= 1465.39
S
XY
= 564458.34 8 44.05 1465.39 = 48054.90
S
XX
= 17803.60 8 44.05
2
= 2280.38
S
Y Y
= 18868504.25 8 1465.39
2
= 1689561.43
66

1
=
48054.90
2280.38
= 21.07

0
= 1465.39 21.07 44.05 = 537.26
y = 537.26 + 21.07x
(b)
R
2
=
48054.90
2
2280.38 1689561.43
= 0.5994
El modelo representa a las observaciones en un 59.94%.
(c)
y = 537.26 + 21.07 20
= 958.66 mg/cm
3
.
(d)
1000 = 537.26 + 21.07x
x =
1000 537.26
21.07
= 21.96 miles de automoviles.
2. Una empresa desea determinar como la inversion que ha realizado en publicidad (X) en UF,
de los ltimos meses ha afectado la demanda de su producto (Y ) en miles de unidades. Para
tal efecto ha recopilado la siguiente informacion dque se resume en la tabla.
X Y
105.80 27.60
121.90 32.20
85.10 25.30
75.90 29.90
92.00 23.00
92.00 18.40
96.60 39.10
78.20 27.60
66.70 23.00
138.00 34.50
101.20 20.70
94.30 29.90
110.40 34.50
(a) Determine un modelo de regresion lineal.
(b) La empresa esta interesada en determinar cual debe ser la cantidad que debe invertir en
publicidad de tal forma que espere tener una venta de 30000 unidades de su producto.
67
(c) Si no quiere invertir mas de 80 UF en publicidad, Cual sera la cantidad maxima de
unidades que esperara vender?
(d) Cual es el grado de ajuste del modelo?
Des.
X Y XY X
2
Y
2
105.80 27.60 2920.08 11193.64 761.76
121.90 32.20 3925.18 14859.61 1036.84
85.10 25.30 2153.03 7242.01 640.09
75.90 29.90 2269.41 5760.81 894.01
92.00 23.00 2116.00 8464.00 529.00
92.00 18.40 1692.80 8464.00 338.56
96.60 39.10 3777.06 9331.56 1528.81
78.20 27.60 2158.32 6115.24 761.76
66.70 23.00 1534.10 4448.89 529.00
138.00 34.50 4761.00 19044.00 1190.25
101.20 20.70 2094.84 10241.44 428.49
94.30 29.90 2819.57 8892.49 894.01
110.40 34.50 3808.80 12188.16 1190.25
1258.10 365.70 36030.19 126245.85 10722.83
(a)

X =
1258.10
13
= 96.78

Y =
365.70
13
= 28.13
S
XY
= 36030.19 13 96.78 28.13 = 638.71
S
XX
= 126245.85 13 96.78
2
= 4483.06
S
Y Y
= 10722.83 13 28.13
2
= 435.97

1
=
638.71
4483.06
= 0.142

0
= 28.13 0.142 96.78 = 14.39
y = 14.39 + 0.142x
(b)
30 = 14.39 + 0.142x
x =
30 14.39
0.142
= 109.93 UF
(c)
y = 14.39 + 0.142 80
= 25.75 miles de unidades.
68
(d)
R
2
=
638.71
2
4483.06 435.97
= 0.2087
El modelo explica a las observaciones en un 20.87%.
3. En un estudio realizado al contenido de caloras (X) en kcal, respecto al nivel de grasas (Y )
en g, de cierto producto, se recopilaron los siguientes datos:
X Y
103.50 161.00
46.00 115.00
92.00 138.00
92.00 115.00
108.10 207.00
69.00 126.50
57.50 126.50
46.00 80.50
34.50 92.00
80.50 149.50
(a) Determine un modelo de regresion, que permita determinar el comportamiento de los
niveles grasa por caliras.
(b) Cuantas caloras contiene 110 g de grasa?
(c) Cuantos gramos de grasa se necesitan para tener 100 kcal?
(d) Determine el nivel de ajuste del modelo estimado.
Des.
X Y XY X
2
Y
2
103.50 161.00 16663.50 10712.25 25921.00
46.00 115.00 5290.00 2116.00 13225.00
92.00 138.00 12696.00 8464.00 19044.00
92.00 115.00 10580.00 8464.00 13225.00
108.10 207.00 22376.70 11685.61 42849.00
69.00 126.50 8728.50 4761.00 16002.25
57.50 126.50 7273.75 3306.25 16002.25
46.00 80.50 3703.00 2116.00 6480.25
34.50 92.00 3174.00 1190.25 8464.00
80.50 149.50 12034.75 6480.25 22350.25
729.10 1311.00 102520.20 59295.61 183563.00
(a)

X =
729.10
10
= 72.91

Y =
1311.00
10
= 131.10
69
S
XY
= 102520.20 10 72.91 131.10 = 6935.19
S
XX
= 59295.61 10 72.91
2
= 6136.93
S
Y Y
= 183563.00 10 131.10
2
= 11690.9

1
=
6935.19
6136.93
= 1.13

0
= 131.10 1.13 72.91 = 48.71
y = 48.71 + 1.13x
(b)
110 = 48.71 + 1.13x
x =
110 48.71
1.13
= 54.24 kcal.
(c)
y = 48.71 + 1.13 100
= 161.71 g.
(d)
R
2
=
6935.19
2
6136.93 11690.9
= 0.6704
El modelo tiene un ajuste del 67.04% de los datos.
4. En un centro hospilatario se ha implementado una nueva campaa de provencion para disminuir
el porcentaje de afecciones respiratorias en el periodo invernal, para ello han distribuido una
serie de folletos explicativos donde una de las medidas mas importantes es dismincion de
niveles de toxicidad derivados del humo del cigarrillo por lo cual se les recomienda a las
personas que no fumen dentro de su hogar. A continuacion se muestra una tabla con los
porcentajes de personas que han dejado de fumar al interior de sus hogares (X) y el porcentaje
de personas al interior del hogar que han sufrido de afecciones respiratorias durante el periodo
(Y ).
X(%) Y (%)
23.00 43.70
27.60 41.40
29.90 36.80
32.20 34.50
34.50 34.50
39.10 32.20
46.00 32.20
48.30 29.90
50.60 27.60
46.00 29.90
70
(a) Determine si se puede establecer alg un modelo simple que reeje el comportamiento de
estas medidas.
(b) Establezca el porcentaje esperado de personas por hogar que tendran alg un problema
respiratorio, si el 30% de ellas ha dejado de fumar al interior de sus hogares.
(c) Si el porcentaje de personas afectadas por problemas respiratorios ha sido de un 30%,
Cual ha sido el porcentaje de personas que ha seguido las sugerencias del centro de
salud?
(d) Cual es el nivel de ajuste del modelo de regresion lineal estimado?
Des.
X Y XY X
2
Y
2
23.00 43.70 1005.10 529.00 1909.69
27.60 41.40 1142.64 761.76 1713.96
29.90 36.80 1100.32 894.01 1354.24
32.20 34.50 1110.90 1036.84 1190.25
34.50 34.50 1190.25 1190.25 1190.25
39.10 32.20 1259.02 1528.81 1036.84
46.00 32.20 1481.20 2116.00 1036.84
48.30 29.90 1444.17 2332.89 894.01
50.60 27.60 1396.56 2560.36 761.76
46.00 29.90 1375.40 2116.00 894.01
377.20 342.70 12505.56 15065.92 11981.85
(a)

X =
377.20
10
= 37.72

Y =
342.70
10
= 34.27
S
XY
= 12505.56 10 37.72 34.27 = 421.08
S
XX
= 15065.92 10 37.72
2
= 837.94
S
Y Y
= 11981.85 10 34.27
2
= 237.52

1
=
421.08
837.94
= 0.503

0
= 34.27 (0.503) 37.72 = 53.24
y = 53.24 0.503x
(b)
y = 53.24 0.503 30
= 38.15%
71
(c)
30 = 53.24 0.503x
x =
30 53.24
0.503
=
23.24
0.503
= 46.20%
(d)
R
2
=
(421.08)
2
837.94 237.52
= 0.8909
El modelo explica el 89.09% del comportamiento de las observaciones.
5. En un experimento con ratas de laboratorio sobre el nivel de glucosa en la sangre (Y ), en
mg/dL, bajo la administracion de cierto farmaco (X), en g/Kgr, se recopilo la siguiente
informacion
X(g/Kgr) Y (mg/dL)
8.28 55.20
7.59 48.30
6.44 50.60
5.98 50.60
6.21 41.40
5.98 52.90
6.21 43.70
6.67 29.90
4.60 20.70
5.98 13.80
8.51 57.50
7.82 48.30
(a) Estime el modelo de regresion para la respuesta nivel de glicemia en la sangre de estas
ratas.
(b) Determine el nivel de ajuste del modelo estimado.
(c) Que dosis es necesaria ser administrada a las ratas para que su nivel de glucosa sea de
50 mg/dL?
(d) Que nivel de glicemia tendra una rata a la que se le administre 8 g/kgr?
Des.
72
X Y XY X
2
Y
2
8.28 55.20 457.06 68.56 3047.04
7.59 48.30 366.60 57.61 2332.89
6.44 50.60 325.86 41.47 2560.36
5.98 50.60 302.59 35.76 2560.36
6.21 41.40 257.09 38.56 1713.96
5.98 52.90 316.34 35.76 2798.41
6.21 43.70 271.38 38.56 1909.69
6.67 29.90 199.43 44.49 894.01
4.60 20.70 95.22 21.16 428.49
5.98 13.80 82.52 35.76 190.44
8.51 57.50 489.33 72.42 3306.25
7.82 48.30 377.71 61.15 2332.89
80.27 512.90 3541.13 551.27 24074.79
(a)

X =
80.27
12
= 6.69

Y =
512.90
12
= 42.74
S
XY
= 3541.13 12 6.69 42.74 = 109.96
S
XX
= 551.27 12 6.69
2
= 14.20
S
Y Y
= 24074.79 12 42.74
2
= 2154.30

1
=
109.96
14.20
= 7.74

0
= 42.74 7.74 6.69 = 9.04
y = 9.04 + 7.74x
(b)
R
2
=
109.96
2
14.20 2154.30
= 0.3953
El modelo explica solo el 39.53% de las observaciones.
(c)
50 = 9.04 + 7.74x
x =
50 + 9.04
7.74
= 7.63 g/Kgr.
(d)
y = 9.04 + 7.74 8
= 52.88 mg/dL.
73
6. En un estudio realizado sobre el gasto en electricidad (Y , en miles de pesos) derivado del uso
de aire acondicionado, respecto al incremento en grados de temperatura ambiental (X, en
grados celsius), arrojo los siguientes resultados:
X Y
2.30 7.89
2.76 8.63
3.22 10.40
3.68 11.80
4.14 13.66
4.60 14.61
5.52 18.38
5.98 18.93
6.44 21.76
6.90 23.81
8.05 26.59
8.28 28.84
8.51 29.69
(a) Estime el mejor modelo de regresion lineal para estas variables.
(b) Cual es el nivel de ajuste del modelo?
(c) Si la temperatura ha sufrido un icremento de 6.5 grados celsius, Cual es gasto en elect-
ricidad esperado por el concepto de aire acondicionado?
(d) Si los departamentos tuvieron un gasto en electricidad de $30000, Cuanto fue el incre-
mento en la temperatura?
Des.
X Y XY X
2
Y
2
2.30 7.89 18.14 5.29 62.24
2.76 8.63 23.81 7.62 74.39
3.22 10.40 33.48 10.37 108.08
3.68 11.80 43.42 13.54 139.22
4.14 13.66 56.56 17.14 186.65
4.60 14.61 67.18 21.16 213.31
5.52 18.38 101.44 30.47 337.71
5.98 18.93 113.20 35.76 358.31
6.44 21.76 140.12 41.47 473.41
6.90 23.81 164.25 47.61 566.68
8.05 26.59 214.03 64.80 706.92
8.28 28.84 238.81 68.56 831.86
8.51 29.69 252.69 72.42 881.67
70.38 234.97 1467.13 436.21 4940.44
74
(a)

X =
70.38
13
= 5.41

Y =
234.97
13
= 18.07
S
XY
= 1467.13 13 5.41 18.07 = 196.27
S
XX
= 436.21 13 5.41
2
= 55.72
S
Y Y
= 4940.44 13 18.07
2
= 695.62

1
=
196.27
55.72
= 3.52

0
= 18.07 3.52 5.41 = 0.973
y = 0.973 + 3.52x
(b)
R
2
=
196.27
2
55.72 695.62
= 0.9939
El modelo explica el 99.39% de los datos.
(c)
y = 0.973 + 3.52 6.5
= 21.907 miles de pesos.
(d)
30 = 0.973 + 3.52x
x =
30 + 0.973
3.52
= 8.80 grados celsius.
75

Das könnte Ihnen auch gefallen