Manual de Estadística Aplicada

MANUAL DE
ESTADÍSTICA APLICADA
Jorge Córdova Egocheaga

Manual de
Estadística Aplicada
© Jorge Córdova Egocheaga
1ra Edición: Marzo del 2003
SOBRE EL AUTOR
Estudios Doctorales en Ciencias Administrativas (UNFV), Maître

en Administration des Affaires (MBA-UQAM, Canadá), Magíster
en Administración (ESAN), Magíster Scientiae (MSc) en
Economía (UNA), Especialista en Formulación y Evaluación de
Proyectos de Inversión (UNMSM), Profesor de Estadística en la
Maestría en Administración de la Universidad de San Martín de
Porres, Docente de Estadística y de Informática Aplicada en el
área de Salud en la Escuela Universitaria de Post Grado de la
Universidad Nacional Federico Villarreal, Profesor Principal y Jefe
de la División de Evaluación y Estadísticas de la Escuela de
Sanidad Naval de la Marina de Guerra del Perú, Profesor de
Estadística y Métodos Cuantitativos para los Negocios en el MBA
de la Universidad San Ignacio de Loyola, Consultor y Expositor
Independiente. Director Ejecutivo del Centro de Capacitación y
Asesoría de Negocios, CECAN.
Los derechos intelectuales de esta obra son de propiedad exclusiva de

Jorge Córdova Egocheaga.
Toda reproducción total o parcial del contenido de esta obra requerirá la

autorización del propietario de los derechos intelectuales.
CAPÍTULO 1
ESTIMACIÓN DE
PARÁMETROS
OBJETIVOS
Al finalizar el Capítulo 1, el participante será capaz de:
1. Diferenciar estimación puntual y estimación de
intervalos.
2. Discutir los criterios para la selección de un buen
estimador.
3. Realizar estimaciones puntuales.
4. Construir e interpretar intervalos de confianza para
m, p y s2.
5. Ajustar el intervalos en poblaciones finitas.
6. Determinar el tamaño de una muestra.
Manual de Estadística Aplicada
1.1 INTRODUCCIÓN
La estadística se divide en DESCRIPTIVA e INFERENCIAL
DESCRIPTIVA
ESTADISTICA Estimación
INFERENCIAL
Prueba de
Hipótesis
1.1.1 Tipos de estimaciones
A) Estimación puntual
Un sólo número se utiliza para estimar un

parámetro desconocido. Para ser útil debe de estar
acompañado del error.
Ejemplo:
Para el próximo mes se espera que las ventas sean

700 unidades con un error de ±10%.
B)Estimación por intervalo
Un intervalo de valores se utiliza para estimar un

parámetro desconocido. El error se indica de dos
manera: por la extensión del intervalo y por la
probabilidad de obtener el verdadero parámetro de
la población que se encuentra dentro del intervalo.
Ejemplo:
Para el próximo mes se espera que el número de

consultas en el Servicio de Reumatología sean
entre 670 y 730 pacientes, con un error ±5%.
4
1.1.2 CRITERIOS PARA SELECCIONAR UN ESTIMADOR:

CESI.
Coherencia: si al aumentar n, el estimador se

aproxima al parámetro.
Eficiencia: proporciona menor error estándar que

otros estimadores.
Suficiente: utiliza mayor cantidad de la

información contenida en la muestra que otro
estimador.
Insesgado (o imparcial): si el estimador tiende a

tomar valores por encima y por debajo del
parámetro que estima, con la misma frecuencia.
1.2 LAS ESTIMACIONES PUNTUALES
(A) De la media poblacional
La media muestral estima a la media poblacional µ
(B) De la varianza y la desviación estándar
S2 estima ____ σ2 S estima ____ σ
(C) De la proporción poblacional
p estima ____ π
1.3 LOS INTERVALOS DE CONFIANZA
Conceptos
5
Nivel de confianza: probabilidad que asociamos con

una estimación del intervalo. Se representa con (1 - α).
Los niveles más utilizados son 0,90 0,95 y 0,99.
Intervalos de confianza: es el alcance de la estimación

que estamos haciendo.
1.4 INTERVALO PARA LA MEDIA
1.4.1 A partir de muestras grandes

x -µ
pero Z =
σ
n
-Z0 Z0
Pr {− Z 0 ≤ Z ≤ Z 0 } = 1 − α
 x−µ 
Pr − Z 0 ≤ ≤ Z0  = 1−α
 σx 
 σ σ 
Pr  x − Z0 ≤ µ ≤ x + Z0  = 1−α
 n n 
Ejemplo:
En un estudio de mercado, se realizó una encuesta a

400 familias calculando un gasto medio anual en
zapatos de S/. 740 por familia. La desviación estándar
fue S/. 400. Construya e interprete un intervalo de
confianza al 0,95 de la estimación del gasto medio anual
de zapatos por familia en esa ciudad.
 σ σ 
Pr x − Z0 ≤ µ ≤ x + Z0  = 1 −α
 n n 
 400 400 
Pr740 − (1.96) ≤ µ ≤ 740 + (1.96) = 0.95
 400 400 
Pr{700.80 ≤ µ ≤ 779.20} = 0.95
6
Interpretación:
Hay 0,95 de confianza que el intervalo hallado se

encuentre dentro del grupo de intervalos que contienen
a la verdadera media poblacional (µ).
µ Ls
LI
muestra
1 2 3 4 5 6 7 8
1.4.2 A partir de muestras pequeñas
Pero, x-µ
t =
S
-t0 t0 n
Pr{− t0 ≤ t ≤ t0 } = 1 − α
 
 x−µ 
Pr − t 0 ≤ ≤ t0  = 1 − α
 S 
 n 
 s s 
Pr  x − t 0 ≤ µ ≤ x + t0  = 1−α
 n n
Ejemplo
Se desea estimar el tiempo medio de estancia

hospitalaria para cierto tipo de pacientes. Se
selecciona una muestra aleatoria de 25 HC y se
calculó x = 5,7 y S = 4,5 días. Estimar m con
0,95 de confianza.
7
 S S 
Pr x − t n−1 ≤ µ ≤ x + t n−1  = 1− α
 n n
 4,8 4,8 
Pr 5,7 − 2,064 ≤ µ ≤ 5,7 + 2,064  = 1 − 0,1
 25 25 
Pr {3,72 ≤ µ ≤ 7,68 } = 0,90
Interpretación:
Hay 0,90 de confianza que el intervalo construido se

a la verdadera media poblacional (µ) de la estancia
hospitalaria.
Ejemplo 2
n=9
x = 41,27
S = 16,23
α = 0,05
 S S
Pr x − t n−1 ≤ µ ≤ x + tn−1  = 1− α
 n n
 16,23 16,23 
Pr 41,27 − 2,306 ≤ µ ≤ 41,27 − 2,306  = 0,95
 9 9 
Pr {28 ,80 ≤ µ ≤ 53 ,74 } = 0,95
Interpretación:
Hay 0,95 de confianza que el intervalo construido se

a la verdadera media poblacional (µ).
Ejemplo:
Nueve automóviles del mismo modelo fueron

conducidos de idéntica manera usando un litro de
gasolina corriente. La distancia media recorrida por
estos automóviles fue de 8 Kms. con una desviación
8
estándar de 1,14 Kms. Construya e interprete un

intervalo de confianza al 0,95 para estimar el kilometraje
medio por litro de gasolina para este modelo de
automóvil.
Solución:
GL= n - 1 = 8 t = 2,306
 1.14 
Pr8 − 2.306( ) ≤ µ ≤ 8 + 2.306(1.14) = 0,95
 9 9 
Pr {7,12372
. ≤ µ ≤ 8,.87628}= 0,
. 95
Interpretación:
Hay 0,95 de confianza que el intervalo hallado se

a la verdadera media poblacional.
1.5 INTERVALO PARA LA PROPORCIÓN
Pero
p −π
Z =
σ
-Z0 Z0 p
donde
Pr{−Zo ≤ Z ≤ Z} =1−α
p (1 − p )
σ =
p −π p
n
Pr{−Zo ≤ ≤ Z} =1−α
σ` p
Pr{p − Zσ p ≤ π ≤ p + Zoσ p} =1−α
Ejemplo:
Suponga que 1600 de 2000 trabajadores sindicalizados que

se muestrearon de una gran industria dijeron que planean
9
votar por unirse a una federación. Si se utiliza un nivel de

confianza de 0,95 ¿cuál es la estimación de intervalo para la
proporción de la población?. Interprete.
1600 (0,80)(1− 0,80)

p= = 0.80 σp =
2000 2000
Z = 1,96 σ p = 0,00894
Pr{0,80-1,96(0,00894) < π< 0,80 +1,96(0,00894) }= 0,95
Pr{0,782 < π < 0,818} = 0,95
Interpretación:
Hay 0,95 de confianza que el intervalo calculado pertenece

al grupo de intervalos que contienen a la verdadera
proporción poblacional.
1.6 AJUSTE PARA POBLACIONES FINITAS
El error estándar de la estimación sufre un ajuste, cuando se

trata de una población finita.
Error estándar de la media

σ N −n
σX = .
n N −1
Error estándar de la proporción

p (1 − p ) N − n
σp = .
n N −1
Si la proporción n/N es menor a 0,05 se omite el ajuste.
Ejemplo 1
Hay 250 familias en un pequeño poblado. Una encuesta con
40 familias reveló que la contribución media anual a obras
comunitarias es de US $450, con una desviación estándar
de US $ 75. Establezca un intervalo de confianza de 0,95
para la contribución media anual. Interprételo.
10
Solución:
Como la muestra es mayor a 5%, procede el ajuste.
σ  N − n  σ  N − n 
Pr{x − Z   ≤ µ ≤ x+Z }= 1 − α
−
n N 1 n  N −1 
 75  250 − 40   75  250 − 40 
Pr{450 −1,96   ≤ µ ≤ 450 + 1,96  }= 0,95
 40  250 −1   40  250 −1 
Pr{450 − 23,24( 0,8433) ≤ µ ≤ 450 + 23,24( 0,8433)} = 0,95
Pr{428,66 ≤ µ ≤ 471,34} = 0,95
Interpretación:
Hay 0,95 de confianza que el intervalo elaborado pertenezca

al grupo de intervalos que contienen a la verdadera media
poblacional.
Ejemplo 2
Hay 300 técnicos en una gran empresa metal mecánica. Una

muestra de 50 reveló que 18 cuentan con una experiencia
previa en otra empresa similar. Establezca un intervalo de
confianza al 0,95 para la proporción de técnicos con
experiencia en otra empresa.
Solución:
(036)(1 − 0,36)
p=
18
= 0,36 σp =
50 50
σ p = 0,06788
 N − n)   
Pr{p − Zoσ p   ≤ π ≤ p + Z oσ p  N − n) } = 1 − α
N − 1   N −1 
   
 300 − 50   
Pr{0,36 − (1,96)(0,06788)  ≤ π ≤ 0,36(1,96)(0,06788) 300 − 50 } = 0,95
  
 300 −1   300 −1 
Pr{0,36 − 0,12165≤ π ≤ 0,36 + 0,12165} = 0,95
Pr{0,23835≤ π ≤ 0,48165} = 0,95
11
Interpretación:
Hay 0,95 de confianza que el intervalo construido pertenezca

al grupo de intervalos que contienen a la verdadera
proporción poblacional.
1.7 EL TAMAÑO DE LA MUESTRA Y EL ICA.
A) ¿De qué depende el tamaño de la muestra (n)?
Depende de:
1. La magnitud del máximo error permisible (e) y,
2. El nivel de confianza de que el error en la estimación
no exceda del máximo error permisible (1- α )
C) Derivación de la formula
σ σ
Pr{ x − Z o ≤ µ ≤ x+Z } = 1−α
n n
Error = e
Entonces Zσ
e=
n
Elevando al cuadrado
Z 2 .σ 2
e2 =
n
Z 2 .σ 2
n=
e2
Ejemplo 1
A fin de conocer el gasto mensual en medicinas por familia,

el Gerente de Marketing de un laboratorio farmacéutico
desea determinar el tamaño de la muestra que le
proporcione un nivel de confianza de 0,95 (Z = 1,96).
Además conoce por estudios anteriores que las compras
medias por familia eran de S/. 120 mensuales, con una
desviación estándar de 30. El Gerente busca un tamaño de
muestra que le permita estimar el nivel de gasto con un error
de ±10.
12
Solución
Datos: Z 2
σ 2
1 - α = 0,95 n =
Z = 1,96 e 2
σ = 30
e = 10
(1 , 96 ) 2 ( 3 0 ) 2
n =
(1 0 ) 2
n = 35
Para proporciones se calcula a partir de la formula

donde
2 Z : Valor tabular para un
Z p(1-p) nivel de confianza
n= 2
e p(1-p): Variancia
Ejemplo 2
Un congresista desea determinar su popularidad en zona

norte del país. Especifica que la proporción de electores que
lo apoyarán debe calcularse dentro del ± 2% de la
proporción de la población, además, desea tener un grado
de confianza de 0,95. En las elecciones pasadas recibió 40%
de los votos en esa parte del país. Duda que esto haya
sufrido muchos cambios. ¿De cuántos electores debe ser la
muestra?.
13
Solución
Datos:
1 - α = 0,95 (1,96 ) 2 ( 0, 40 )( 0,60 )
n=
Z = 1,96 ( 0 ,02 ) 2
p = 0,40 0 ,921984
e = 0,02 n=
( 0 ,02 ) 2
n = 2305
1.8 INTERVALO PARA LA VARIANZA
(n - 1)S 2
Pero , χ (2n −1)
σ 2
χ 12-α 2 χ α2 2
 
P r  χ 1-2 α ≤ χ 2 ≤ χ α2  = 1 − α
 2 2 
Entonces:
 ( n − 1) S 2 
Pr  χ 12-α 2 ≤ ≤ χ α2 2  = 1 − α
 σ 2

 1 σ2 1 
Pr  2 ≥ ≥ 2  = 1−α
 χ 1 -α ( n − 1) S χα
2
2 2 
 ( n − 1) S 2 ( n − 1) S 2 
Pr  ≤σ 2
≤  = 1−α
 χ α 2 χ 12-α 2 
2
14
Ejemplo:
El número de ventas realizadas durante 10 días (n = 10)

presenta una varianza de 9 (s2 = 9). Establezca un intervalo
de confianza para la varianza poblacional (σ2) al
0,90.Interprételo.
Solución:
Datos:  9(9) 9(9) 

Pr ≤σ2 ≤  = 0.90
S2= 9 16,919 3,325
n = 10
α = 0,10  81 81 
Pr ≤σ2 ≤  = 0.90
16,919 3,325
Pr{4.7875 ≤ σ 2 ≤ 24,3609} = 0.90
Interpretación:
Hay 0,90 de confianza que el intervalo hallado se encuentre

dentro del grupo de intervalos que contienen a la verdadera
varianza poblacional.
15
16
CAPÍTULO 2
HIPÓTESIS
CON UNA SOLA
MUESTRA
OBJETIVOS
1. Utilizar datos provenientes de una muestra aleatoria
para conocer el parámetro poblacional.
2. Comprender los dos tipos de errores posibles que
se producen al probar una hipótesis.
3. Plantear pruebas de una cola y pruebas de dos
colas.
4. Realizar el procedimiento para probar hipótesis.
5. Usar con propiedad las distribuciones t ,Z y c2 para
probar hipótesis sobre medias, proporciones y
varianzas de población.
2.1 CONCEPTOS BÁSICOS
(A) Hipótesis: Suposición acerca del parámetro.
Hipótesis planteada o nula. ⇒ Hp ó H0

Es la suposición que el parámetro tome un
determinado valor.
Ejemplo: La hipótesis nula es que la media de la

población es igual a 200.
Ho : µ = 200
Hipótesis alternativa ⇒ (Ha o H1)

Es el complemento de la hipótesis nula. Se acepta
cuando se rechaza la hipótesis nula.
Formas
Si Ho : m = 200 Ha : m ¹200
Si Ho : m £ 200 Ha : m > 200
Si Ho : m ³ 200 Ha : m < 200
La condición “igual” siempre se considera en la

hipótesis nula
Las siguientes afirmaciones son hipótesis

estadísticas.
La media de vida de los peruanos es de 72 años.

La eficacia de dos medicamentos para curar el
cáncer es similar.
Las notas de la el aula sigue un modelo normal
de media de 12 y desviación estándar de 2.5
Una prueba de hipótesis permite aceptar o

rechazar si determinadas afirmaciones son ciertas o
falsas en función de los datos observados en una
muestra.
18
(B) Objetivo de la prueba de hipótesis.
El propósito de la prueba de hipótesis no es cuestionar

el valor calculado del estadístico (muestral), sino hacer
un juicio con respecto a la diferencia entre estadístico
de muestra y un valor planteado del parámetro.
(C) Nivel de significación (a)
α/2 (1 - α) α/2
Zona de
Aceptación
-Z0 Z0
Si suponemos que la hipótesis planteada es verdadera,

entonces, el nivel de significación indicará la
probabilidad de no aceptarla, es decir, estén fuera de
área de aceptación.
El nivel de confianza (1-a), indica la probabilidad de

aceptar la hipótesis planteada, cuando es verdadera en
la población.
(D) Tipos de errores
Cualquiera sea la decisión tomada a partir de una

prueba de hipótesis, ya sea de aceptación de la Hp o
de la Ha, puede incurrirse en error:
La muestra seleccionada conduce a

EN LA POBLACIÓN ACEPTAR Hp RECHAZAR Hp
Hp es cierta Decisión correcta Error tipo I ó α
Hp es falsa Error tipo II ó β Decisión correcta
19
(1 - α) Zona de rechazo
si Hp es cierta α
µo
Hp µ ≤ µo
Poder de la prueba
Ha µ > µo
(1 - β)
β
Zona de aceptación Hp
µ1
Zona de Rechazo Hp
Si la hipótesis planteada, Hp : m £ m0 , es cierta, la zona

de rechazo, a, medirá la probabilidad de que se rechace
dicha hipótesis siendo cierta, incurriendo en Error Tipo I
o a.
Supongamos que la hipótesis planteada es falsa, Hp: m

£ m0 , y que la alternante Ha: m > m 0 es verdadera, y si
los resultados de la muestra nos conducen a aceptar la
hipótesis planteada, estamos cometiendo el Error Tipo II
ób
La magnitud del Error β depende de la magnitud del

Error a y de la discrepancia entre µ 0 Y µ 1
Se observa la existencia de una relación inversa entre la

magnitud de los errores α y β : conforme a aumenta, β
disminuye.
Esto obliga a establecer con cuidado el valor de a para

las pruebas estadísticas. Lo ideal sería establecer α y β.
En la práctica se establece el nivel a y para disminuir el

Error β se incrementa el número de observaciones en la
20
muestra, pues así se acortan los limites de confianza

respecto a la hipótesis planteada.
La meta de las pruebas estadísticas es rechazar la

hipótesis planteada. En otras palabras, es deseable
aumentar a cuando ésta es verdadera, o sea,
incrementar lo que se llama poder de la prueba (1- β)
La aceptación de la hipótesis planteada debe

interpretarse como que la información aleatoria de la
muestra disponible no permite detectar la falsedad de
esta hipótesis.
(E) Tipos de prueba
a) Prueba bilateral o de dos extremos: la hipótesis

planteada se formula con la igualdad
Ejemplo
α/2 (1 - α) α/2
Hp : µ = 200 Zona de
Aceptación
Ha : µ ≠ 200 -Z0 Z0
b) Pruebas unilateral o de un extremo: la hipótesis

planteada se formula con ³ o ≤ .
Hp : µ ≥ 200 Hp : µ ≤ 200
Ha : µ < 200 Ha : µ > 200
α
α (1 - α) (1 - α)
21
2.2 PRUEBA DE HIPÓTESIS ACERCA DE LA MEDIA

POBLACIONAL
(A) Con varianzas conocidas (muestras grandes)
Ejemplo:
Se afirma que el salario diario medio de los técnicos de una

cierta zona minera es de S/.65,42, con una desviación
estándar S/. 2,32. Una muestra de 144 técnicos que laboran
en esa zona reciben un salario diario medio de 64,82 soles.
¿Puede considerarse este resultado como sustento para
afirmar que técnicos de esa zona tienen un salario diario
diferente de S/. 65,42 a un nivel de significación a = 0,05 ?.
Procedimiento
1) Plantear las hipótesis:

Hp : m = 65,42
Ha : m ¹ 65,42
2) Seleccionar el nivel de significación: a = 0.05
3) Elegir la prueba estadística:
x-µ
Ζc =
σx
Los supuestos son:

• la población está normalmente distribuida.
• la muestra ha sido seleccionada al azar.
4) Determinación de los criterios de decisión
α/2 α/2
(1 - α)
-Z0 Z0
-1.96 1,96
22
Si { -1.96 ≤ Zc £ 1.96 } se acepta la Ho, en caso

contrario se rechaza.
5) Cálculos:
64 ,82 − 65 , 42
Ζc = = − 3,10
2 ,32
144
6) Conclusiones
(1) Se rechaza la hipótesis planteada y se acepta la
hipótesis alternante a un nivel de significación de 0,05.
La prueba resultó ser significativa.
(2) La evidencia estadística permite rechazar la
hipótesis planteada.
(3) Por lo tanto los datos muestrales confirman que
el promedio de salarios diarios de los técnicos de la
zona de estudio es menor de S/.65,42.
EJEMPLO
El administrador de un centro de salud desea saber si el

tiempo medio invertido por los pacientes en la sala de espera
es mayor que 20 minutos. Una muestra de 100 pacientes
permanecieron, en promedio, 23 minutos en la sala de
espera entre el registro y la atención por algún médico del
centro de salud. La desviación estándar de la muestra fue de
10. Sea α=0.05
1. Plantear las hipótesis

Ho : µ ≤ 20
Ha : µ > 20
2. Definir la prueba estadística: Como n = 100, entonces e
aplica PRUEBA Z
3. Seleccionar el nivel de significación α = 0,05
4. Determinar el valor crítico: Como α = 0,05 y es de una
sola cola, entonces Z = 1.645
23
Criterios de decisión
Si prueba Z es mayor que
1,645, se rechaza Ho.
Si prueba Z es menor o
0
1,645
igual que 1,645, se acepta
Ho.
5. Realizar el cálculo del estadístico Z
x − µ 23− 20 3
Z= = = =3
sx 10 1
100
6. Conclusiones
7.
(A) Se rechaza la hipótesis planteada, se acepta la
hipótesis alternante a un nivel de significación de
0,05. La prueba resultó significativa
(B) Los datos disponibles como evidencia empírica,
han permitido rechazar la hipótesis planteada.
(C) El tiempo que espera un paciente muy
probablemente sea mayor a los 20 minutos.
EJEMPLO
Una encuesta en 64 laboratorios médicos reveló que el

precio medio cobrado por realizar cierta prueba es de S/.
12.00 con una desviación estándar de S/. 6.00. ¿ Proveen
estos datos la suficiente información para indicar que la
media de la población es mayor que 10?.
Sea α = 0.01
EJEMPLO
Los siguientes datos son los consumos de oxígeno (en ml)

durante la incubación de una muestra aleatoria de 15
suspensiones celulares: 14.0, 14.1, 14.5, 13.2, 11.2, 14.0,
14.1, 12.2, 11.1, 13.7, 13.2, 16.0, 12.8, 14.4, 12.9.
24
¿Proporcionan estos datos suficiente evidencia, aun nivel de

0.05 de significación , de que la media de la población no es
igual a 12 ml.?.
EJEMPLO
El administrador de una clínica quiere saber si la población

que concurre a una clínica A tiene un ingreso medio familiar
mayor al de la población que concurre a una clínica B. Los
datos consisten en los ingresos familiares de 75 pacientes
internados en la clínica A y 80 pacientes internados en la
clínica B. Las medias de las muestra son S/ 6800 y S/ 5450
respectivamente, y varianzas de S/ 600 y S/ 500
respectivamente.
EJEMPLO
Un epidemiólogo desea comparar dos vacunas antirrábicas

para averiguar si es posible concluir que existe diferencia en
su efectividad. Las personas que previamente habían sido
vacunada contra la rabia se dividieron en dos grupos. El
grupo 1 recibió una dosis de refuerzo de la vacuna del tipo 1,
y el grupo 2 recibió una dosis de refuerzo de la vacuna del
tipo 2. Las respuestas de los anticuerpos se registraron dos
semanas después:
Grupo n s
x
1 10 4.5 2.5
2 9 2.5 2.0
EJEMPLO
Doce individuos participaron en un experimento para

estudiar la efectividad de cierta dieta, combinada con un
programa de ejercicios, para la reducción de los niveles de
colesterol en suero. ¿ proporcionan estos datos la evidencia
suficiente para concluir que el programa de ejercicios y dieta
25
es efectivo para la reducción de los niveles de colesterol en

el suero?.
Antes: 201, 231, 221, 260, 228, 237, 326, 235, 240, 267,
284, 201
Después: 200, 236, 216, 233, 224, 216, 296, 195, 207, 247,
210, 209
EJEMPLO
Antes del inicio de un programa de inmunización contra la

rubéola en un área metropolitana, una encuesta reveló que
150 integrantes de una muestra de 500 niños de primaria
habían sido inmunizados contra esta enfermedad. ¿son
compatibles estos datos con el punto de vista de que el 50%
de los niños de primaria de dicha área habían sido
vacunados contra la rubéola?.
(B) Con varianzas desconocidas (muestras chicas)
Ejemplo:
En un programa de mejoramiento del desempeño en un

centro de salud los participantes miden su progreso
mediante el tiempo que les toma realizar cierto proceso.
Se tomó una muestra de 25 sujetos de esta empresa para
medirles el tiempo que requieren para culminar el proceso
(en minutos) de otorgar una cita a un paciente,
encontrándose una media muestral de 11,7 minutos y una
desviación de estándar de 2,3 minutos.
¿Se puede afirmar que el tiempo medio para culminar este

proceso es inferior de 12 minutos?. Utilice un nivel de
significación a = 0,05.
Solución
1) Hipótesis: Hp : µ ≥ 12
26
Ha : µ < 12
2) Nivel de significación: α = 0,05
3) Prueba estadística:
x -µ
tc =
S
n
Los supuestos son:
•la población se distribuye normalmente.
•la muestra elegida al azar.
4) Criterios de decisión
α (1 - α)
-t0
-1.711
to con GL = 24 y α = 0,05
Si { tc>-1,711} se acepta la Hp en caso contrario se
rechaza
5) Cálculos:
− 12
t c = 112,,70
3
= − 0 , 6522
25
6) Conclusiones
Se acepta la hipótesis planteada a un nivel de

significación de a = 0,05. La prueba resultó no
significativa.
Los datos muestrales no permiten afirmar que el tiempo

requerido para culminar la tarea es inferior a 12 minutos.
27
Ejemplo
Se hizo un estudio de una muestra de 25 registros de

pacientes de un hospital de enfermedades crónicas tomando
como base pacientes externos. El número medio de visitas
por paciente fue 4,8 y la desviación estándar muestral fue de
2. ¿Puede concluirse a partir de estos datos que la media de
la población es mayor que cuatro visitas por paciente?.
Suponga que la probabilidad de cometer error del tipo I es de
0,05.
2.3 PRUEBA DE HIPÓTESIS ACERCA DE LA PROPORCIÓN

POBLACIONAL (p)
Ejemplo:
El Gerente de la Clínica Santa María afirma que por lo

menos 55% de los pacientes se encuentra plenamente
satisfecho con los servicios recibidos. ¿Qué conclusión
puede obtenerse si de una muestra aleatoria de 500
pacientes 245 manifestaron su preferencia?. Utilice un nivel
de significación a = 0,01 para comprobar la afirmación.
Proporción muestral
245
: p = = 0 , 49
500
1) Planteo de Hipótesis:
Hp : π ≥ 0,55
Ha : π < 0,55
p -π
Ζc =
σp
Los supuestos son:
• La población se distribuye normalmente.
28
• La muestra ha sido seleccionada al azar
α
(1 - α)
Z π
-2,33
Si { Zc>-2,33} se acepta la hipótesis planteada, en caso
contrario se rechaza.
5) Cálculos
π (1 − π )
σp =
n
(0,55)(0,45)
σp = = 0,022
500
Reemplazando valores en Z:
0,49− 0,55 −0,06

Z= = = −2,73
0,022 0,022
6) Conclusiones
1) Se rechaza la hipótesis planteada y se acepta la

hipótesis alternante a un nivel de significación a =
0,01. La prueba resultó ser altamente significativa.
2) La evidencia empírica nos permite rechazar la
3) El Gerente de Clínica está equivocado en su
afirmación, puesto que el resultado de la prueba
indica que los pacientes que se encuentran
plenamente satisfechos es menor a 55%.
29
2.4 PRUEBA DE HIPÓTESIS ACERCA DE LA VARIANZA
Ejemplo:
El Gerente de Producción una fábrica productora de material

quirúrgico, entre ellos agujas N° 21, desea que la variabilidad
de éstas sea a lo más 0,0005 pulgadas cuadradas y para el
efecto, decide tomar una muestra de su producción
escogiéndola al azar obteniendo los resultados:
1,13; 1,12; 1,15; 1,10; 1,11; 1,18; 1,20;

1,14; 1,12; 1,19; 1,10; 1,14; 1,13.
La probabilidad de cometer error tipo I escogido por el

fabricante es 0,01.
Hp : s2 £ 0,0005
Ha : s2 > 0,0005
3) Prueba estadística: (n – 1) S2
σ2
Los supuestos son:
• La población se distribuye normalmente.
• La muestra ha sido seleccionada al azar.
α/2=0,01
(1 - α)
0,99
χα2
2
26,217
30
Si {x2 26,217 } se rechaza la hipótesis planteada, en

caso contrario se acepta
5) Cálculos
Datos:
n = 13
S2= 0,0011634
6) Conclusiones
hipótesis alternante a un nivel de significación α =
0,01. La prueba resultó ser altamente significativa.
2) La evidencia empírica nos permite rechazar la
3) La variabilidad de la longitud de las agujas N° 21
excede a los límites establecidos. El producto no
tiene una calidad uniforme.
31
32
CAPÍTULO 3
HIPÓTESIS CON
DOS MUESTRAS
INDEPENDIENTES
OBJETIVOS
1. Utilizar muestras aleatorias provenientes de
diferentes poblaciones, para probar hipótesis acerca
de cómo están relacionadas las dos poblaciones.
2. Comprender cómo la prueba de hipótesis acerca de
las diferencias entre medias poblacionales toma
diversas formas.
3. Diferenciar entre muestras independientes y
dependientes cuando se comparan dos medias.
4. Probar una hipótesis acerca de las proporciones de
dos poblaciones que poseen el atributo de interés.
3.1 PRUEBA DE DIFERENCIA DE MEDIAS CON VARIANZAS

CONOCIDAS
Ejemplo:
En un estudio comparativo de las estaturas de niños de 10

años, en dos ciudades diferentes, se conoce que la
desviación estándar poblacional es 0,8 y 1,1 metros
respectivamente. Se desea conocer si existe diferencia entre
la media de talla de los niños de 10 años de las dos
ciudades; una muestra de 30 y 35 niños determinó una
media muestral de 1,30 y 1,35 metros respectivamente.
Probar la hipótesis respectiva usando un nivel de
significación de 5%.
Solución:
1) Planteo de Hipótesis
Hp : µ1 = µ2 Ha : µ1 ¹ µ2
2) Nivel de significación α = 0,05
3) Prueba de estadística
(x 1 − x 2 ) - ( µ1 − µ 2 )
Ζc =
σ 12 σ 22
+
n1 n2
con los supuestos
– Las distribuciones son normales
– Las muestras se seleccionaron al azar.
µ1 < µ2 µ1 > µ2
α/2 = 0.025 α/2 = 0.025
(1 - α)
µ1 = µ2
-Z0 Z0
-1.96 1.96
34
Si {−1,96 ≤ Zc ≤ 1,96 }se acepta Ho, en caso contrario

se rechaza.
5) Cálculos
Ζc =
(1,30 − 1,35) - 0 = −0,2115
(0,8)2 (1,1)2
+
30 35
6) Conclusiones
1° No se rechaza la hipótesis nula, a un nivel de

significación de 0,05. La prueba resultó no
significativa.
2° La evidencia estadística disponible permite concluir
que no hay diferencias entre las estaturas medias
de niños de 10 años en las dos ciudades
3.2 PRUEBA DE HOMOGENEIDAD DE VARIANZAS
Para prueba de dos colas, el estadístico de prueba está

dado por:
S 12
F =
S 22
S12 y S 22 son las variancias muestrales para las dos
muestras
La hipótesis nula se rechaza si el cálculo del estadístico de

prueba es más grande que el valor crítico (de tablas) con
nivel de confianza y grados de libertad para el numerador y
el denominador.
35
EJEMPLO 1
Colin, agente de bolsa del Critical Securities, reportó que la

tasa media de retorno en una muestra de 10 acciones de
software fue 12.6% con una desviación estándar de 3.9%. La
tasa media de retorno en una muestra de 8 acciones de
compañías de servicios fue 10.9% con desviación estándar
de 3.5%. Para .05 de nivel de significancia, ¿puede Colin
concluir que hay mayor variación en las acciones de
software?
– Paso 1:
H0:σs ≤ σu H1:σs > σu
– Paso 2:
H0 se rechaza si F > 3.68, gl = (9, 7), α = .05
– Paso 3:
F = (39 . ) 2 = 12416
. )2 / (35 .
– Paso 4:
H0 no se rechaza. No hay evidencia suficiente para
asegurar que hay mayor variación en las acciones de
software.
Ejemplo:
En un programa de salud para pacientes con problemas

cardíacos de dos grupos de edades: (40 - 49) y (50 - 59)
años, la Tasa de Recuperación Cardíaca (TRC) es un
indicador del progreso del paciente. Una muestra de
pacientes de cada grupo de edad fue considerado en un
estudio, que consistió en medir la TRC (minutos) de cada
paciente después de correr 3 Km.
36
Datos
Tasa de Recuperación Cardiaca (minutos)
Grupo 1 (40 - 49):

12,24; 12,45 11,04 11,22 11,58 8,34 11,16 11,52 8,28
12,01 11,03 12,01 11,31
Grupo 2 (50 -59):
14,33 10,35 12,51 11,28 11,48 14,05 10,51 18,50
18,11 13,45
Determine si existe diferencia en la variabilidad de las TRC

en los dos grupos de edades. Utilice α = 0,10
Las medias y varianzas muestrales de las TRC en los

pacientes de los dos grupos de edades son:
Grupo1 Grupo 2
(40 - 49) (50 - 59)
X = 11,09 X = 13,46
S12 = 1,74 S 22 = 8,45
n1 = 13 n2 = 10
37
Solución
H o : σ 12 = σ 22
H a : σ 12 ≠ σ 22
2) Nivel de significación:
α = 0,10
2
SM
Fc =
S m2
S M2 : Varianza muestral mayor

S m2 : Varianza muestral menor
con los supuestos:
- las poblaciones están normalmente distribuidas.
- las muestras han sido seleccionadas al azar
α/2 α/2
(1 - α)
F1- α/2 Fα/2

F0,.95 F0,05
0, 326 2,80
38
Fα = con a 2 y con GL (9,12)=2,80

2
1 1
F1-α 2 = = = 0,326
F0,05 (12,9 ) 3,07
Si { 0,326 ≤ Fc ≤ 2,80
. } se acepta la Ho en caso contrario se rechaza.
5) Cálculos
2
Fc = S M2 =
8.45
1.74
= 4.86
Sm
6) Conclusiones
1° Se rechaza la hipótesis planteada y se acepta la

hipótesis alternante a un nivel de significación de a =
0,10. Las varianzas no son homogéneas
2° La evidencia estadística no permite aceptar la Ho3°
Las TRC de pacientes en los dos grupos de edades
tienen variabilidad diferentes.
3.3 PRUEBA PARA DIFERENCIA DE MEDIAS CON

VARIANCIAS NO HOMOGÉNEAS Y N < 30
Con los datos del ejemplo anterior
1) Planteo de hipótesis
Ho : µ1 = µ2 Ha : µ1 ¹ µ2
3) Prueba estadística
(x − x 2 ) - ( µ1 − µ2 )
tc =
1
S12 S 22
+
n1 n2
39
con los supuestos

– las poblaciones se distribuyen normalmente
– las muestras han sido seleccionada al azar
S12 S 22
t1 + t2 1,74
(2,179) +
8,45
(2,262)
t′ =
n1 n2 t′ = 13
1,74 8,45
10 = 2,25
S12 S 22 +
+ 13 10
n1 n2
µ1 < µ2 µ1 > µ2
α/2 (1 - α) α/2
µ1 = µ2
- t´ t´
-2,25 2,25
Si {−2,25 ≤ tc ≤ 2,25} se acepta la Ho, en caso contrario
se rechaza
5) Cálculos
tc = (11.09 − 13.46 ) - 0 = −0.2989

.37
= −2 . 4
1.74 8.45
+
13 10
6) Conclusiones
1° Se rechaza la Ho se acepta la H1 a un nivel de
significación de 5% . La prueba resultó ser
significativa.
2° La evidencia estadística no permite aceptar la Ho
3° Las TRC de pacientes en los dos grupos de edades
no tienen el mismo promedio.
40
3.4 PRUEBA PARA

DIFERENCIA DE MEDIAS CON
VARIANCIAS HOMOGÉNEAS Y s2 DESCONOCIDOS
Ejemplo:
Leche Polvo Leche Madre
Incremento medio de peso X1 = 366,35 X2 = 369,74

Desviación estándar S1 = 16,71 S2 = 14,20
Tamaño de la muestra n1 = 25 n2 = 20
Se desea determinar si existen diferencias en los promedios

de incrementos de peso (gramos) de niños recién nacidos
(en un período 20 días) alimentados con leche materna y
leche en polvo.
Solución:
Ho : µ1 = µ2 Ha : µ1 ¹ µ2
(x − x 2 ) - ( µ1 − µ2 )
tc =
1
1 1
S p2  + 
 n1 n2 
con los supuestos
las poblaciones se distribuyen normalmente
las muestras han sido seleccionadas al azar
Variancia
(n − 1)S + (n − 1)S
1
2
1 2
2
2
S 2p ponderada =
n1 + n2 − 2
41
to con (n 1 + n2 -2)
α/2 (1 - α) α/2
- tO tO
-2,6956 2,6956
Si
{−2,6956 ≤ tc ≤ 2,6956} se acepta la Ho, en caso contrario se
rechaza
5) Cálculos
24(16,71) 2 + 19(14,20 )
2
S p2 =
25 + 20 − 2
10,532.538
S p2 = = 244,943
43
Entonces
tc = (366,35 − 369,74) − 0
 1 1 
244,943 + 
 25 20 
− 3,39
tc = = −0.72
22,045
6) Conclusiones
1° No se rechaza la hipótesis planteada a un nivel de

significación de 0,01. La prueba resultó no
significativa.
2° La evidencia estadística disponible no permite
rechazar la hipótesis nula.
3° Los incrementos medios de peso de los niños
alimentados de las dos formas no presentan
diferencias estadísticamente significativas.
42
3.5 PRUEBA DE HIPÓTESIS PARA DIFERENCIA DE

PROPORCIONES
Ejemplo:
Se supone que el medicamento A es adecuado en personas

de ambos sexos, alteradas emocionalmente, para disminuir
el nivel de ansiedad. A un grupo de 200 varones alterados
emocionalmente se les dio el medicamento A y 72 de ellos
experimentaron una disminución en su nivel de ansiedad. El
medicamento fue efectivo en 49 de una muestra aleatoria
independiente de 200 mujeres con trastornos emocionales.
Pruebe la hipótesis que el medicamento A es igualmente
eficiente en personas de ambos sexos, con un α = 0,05 .
Solución:
Ho : π1 = π2 Ha : π1 ≠ π2
(p1 - p2 ) -(π1 - π2 )
Zc =
σp1-p2
con los supuestos
las poblaciones se distribuyen normalmente
las muestras se han elegido al azar
(1 - α)
α/2 α/2
- ZO ZO
-1,96 1,96
43
Si {−1,96 ≤ Zc ≤1,96} se acepta la Ho, en caso contrario

se rechaza
5) Cálculos
n1p1 + n 2 p2 (200)(0,36) + (200)(0,245)
p̂ = = = 0,3025
n1 + n 2 200 + 200
p̂q̂ p̂q̂ (0,3025 )( 0,6975) (0,3025 )( 0,6975 )

σˆ p − p = + = +
1 2
n1 n2 200 200
σˆ p1 −p2 = 0,046
Entonces, (p1 - p 2 ) - (π 1 - π 2 ) (0,36 − 0,245) − 0
Zc = =
σ p1 - p 2 0,046
Z c = 2,5
6) Conclusiones

hipótesis alternante a un nivel de significación de 0,05.
La prueba fue significativa.
2) La evidencia estadística no permite aceptar la hipótesis
nula.
3) Existe diferencia significativa en la proporción de
hombres y mujeres beneficiadas con el consumo del
medicamento.
44
CAPÍTULO 4
HIPÓTESIS CON
DOS MUESTRAS
DEPENDIENTES
OBJETIVOS
1. Utilizar datos provenientes de dos muestras
recolectada al mismo marco muestral.
2. Aplicar el modelo antes-después para situaciones
relacionadas con la gestión hospitalaria.
4.1 PRUEBA DE HIPÓTESIS PARA DIFERENCIA DE MEDIAS

MEDIANTE EL APAREAMIENTO DE VARIABLES
Ejemplo:
Con la finalidad de reducir la producción defectuosa se

calibra las 10 maquinas que se utilizan para encapsular. A
continuación se presenta la información de los productos
defectuosos (en unidades) antes y después de la calibración.
Utilice un nivel de significación de 0,05 para probar que la
calibración tuvo efectos positivos en la reducción del número
de defectuosos.
Los datos registrados se presentan a continuación:
MAQUINAS 1 2 3 4 5 6 7 8 9 10
ANTES 73 77 68 62 72 80 76 64 70 72
DESPUÉS 68 72 64 60 71 77 74 60 64 68
46
Cálculos previos
Antes Después Diferencias: d

n = 10
73 68 5
Σd = 36
77 72 5
68 64 4
Sd=1.578
62 60 2
72 71 1
d = 3.6
80 77 3
76 74 2 Sd 1.578
64 60 4 Sd = = = 0.499
n 10
70 64 6
72 68 4
Ho : µd > 0 Ha : µd > 0
d − µd
tc =
Sd
con los supuestos

la población (d) se distribuye normalmente
la muestra se ha elegido al azar
to con (n - 1)
(1 - α)
α
tO
1,833
47
5) Cálculos
d − µd
tc =
Sd
3.6 − 0
= = 7.21
0.499
6) Conclusiones
1) Se rechaza Hp y se acepta la Ha a un nivel de

significación 0,05.La prueba fue significativa.
2) La evidencia estadística no permite aceptar la
3) El número de defectuosos después de la calibración
disminuyó.
Ejemplo 2
Se toman los niveles de colesterol total de una muestra

de 8 pacientes antes y después de participar en un
programa de dieta-ejercicio. ¿Puede concluirse que el
programa tuvo éxito favorable?. Utilice un nivel de
significación de 0,05.
48
CAPÍTULO 5
ANÁLISIS DE
VARIANZA CON UN
FACTOR VARIABLE
OBJETIVOS
1. Comprender la noción general del análisis de variancia.
2. Enunciar las características de la distribución F.
3. Realizar una prueba de hipótesis para determinar si dos
variancias muestrales provienen de poblaciones iguales.
4. Establecer y organizar datos en una tabla ANOVA de una y
dos direcciones.
5. Definir los términos tratamiento y bloque.
6. Efectuar una prueba de hipótesis entre tres o más medias de
tratamiento.
7. Desarrollar intervalos de confianza para la diferencia entre
medias de tratamiento.
8. Realizar una prueba de hipótesis para determinar si hay alguna
diferencia entre medias de bloques.
5.1 ¿QUÉ ES EL ANOVA?
Es un método de cálculo para probar la hipótesis de que las

medias de dos o mas poblaciones son iguales.
Ejemplos:
– Comparación de efectos logrado por cinco clases de

antibióticos.
– Determinar cuál de los cuatro métodos de capacitación
produce un aprendizaje más rápido.
– La dosificación de drogas en un paciente.
5.2 SUPOSICIONES DEL ANOVA
La distribución F también se usa para probar la igualdad de

más de dos medias con una técnica llamada análisis de
variancia (ANOVA). El ANOVA requiere las siguientes
condiciones:
A. La población que se muestrea tiene una distribución

normal
B. Las poblaciones tienen desviaciones estándar iguales
C. Las muestras se seleccionan al azar y son
independientes
5.3 PROCEDIMIENTO PARA EL ANÁLISIS DE

VARIANCIA
Hipótesis nula: las medias de las poblaciones son

iguales.
Hipótesis alterna: al menos una de las medias es
diferente.
Estadístico de prueba: F = (variancia entre
muestras)/(variancia dentro de muestras).
Regla de decisión: para un nivel de significación a, la
hipótesis nula se rechaza si F calculada es mayor que F
50
tabular con grados de libertad en el numerador y en el

denominador.
5.4 EL MODELO ADITIVO LINEAL : MAL
Se aplica como una suma y los exponentes son iguales a 1.

Explica cómo está formada una observación
Xi= µ + εi
Donde
ei = error, es decir la variabilidad (o diferencia) entre la
observación y el promedio
µ Xi
εi
El MAL para el ANOVA con un factor:
Xij = µ + τ i + ε ij
Donde
ti = efecto del tratamiento
∑X ∑(µ +τ + ε )
j=1
ij
µ=i = = µ +τ i ij
N N
µτ = µ +τ 1
1
µτ = µ +τ 2
2
Si la Hp : µ1= µ2
Reemplazando tenemos
51
Hp : µ + t1= µ + t2
Hp : t1= t2
Sólo se prueba la diferencia entre tratamientos
5.5 EL MODELO DE ANOVA CON IGUAL NÚMERO DE

REPETICIONES
T1 T2 T3
X11 X12 X13
X21 X22 X23
X31 X32 X33
X41 X42 X43
X51 X52 X53
X.1 X.2 X.3
La tabla del ANOVA
Fuentes de Suma de Cuadrado F F

variabilidad Cuadrados
t
GL Medio calculado teórico
Entre grupos ∑X
j=1
2
•j
X•2• t-1 CMe=
SCtrat Fc =
CMe trat Ft con (t-1) y
(Tratamientos) SCtrat = − CMe ee (rt-t)
r rt GL
Dentro de los grupos SC = X2 − ∑X•j r t - t SCee
2
(Error Experimental)
ee ∑ ij r CMe=
GL
X2••
SCtotal = ∑Xij −
2
Total rt r t -1
Aplicación 1
Se realiza un estudio para comparar la eficacia de tres

programas terapéuticos para el tratamiento del acné de tipo
medio a moderado. Se emplean tres métodos:
52
II. Este método, el más antiguo, supone el lavado, dos

veces al día, con un cepillo de polietileno y un jabón
abrasivo, junto con el uso diario de 250 mg. de
tetraciclina.
III. Este método, el utilizado actualmente, consiste, en la

aplicación de crema de tretinoína, evitar el sol, lavado
dos veces al día con jabón emulsionante y agua, y
utilización, dos veces al día, de 250 mg. De tetraciclina.
IIII. Este es un método nuevo que consiste en evitar el

agua, lavado dos veces al día con limpiador sin lípidos,
y uso de crema de tretinoína y de peroxido de enzoilo.
Se comparan estos tres tratamientos en cuanto a su
eficacia en la reducción del número de lesiones de acné
en los pacientes. En el estudio participaban treinta
pacientes. Se les separó aleatoriamente en tres
subgrupos de tamaño 10. A uno de los subgrupos se le
asignó el tratamiento I, a otro el tratamiento II y al
tercero, el tratamiento III. Después de 16 semanas se
anotó para cada paciente la tasa porcentual de mejoría,
medido en número de lesiones.
Se obtuvieron los siguientes datos:
I II III
48.6 68.0 67.5
49.4 67.0 62.5
50.1 70.1 64.2
49.8 64.5 62.5
50.6 68.0 63.9
50.8 68.3 64.8
50.8 71.9 62.3
47.1 71.5 61.4
52.5 69.9 67.4
49.0 68.9 65.4
50.6 67.8 63.2
549.3 755.9 705.1
53
Solución
1. Planteamiento de hipótesis:
Hp : m1= m2= m3
Ha : m1= m2= m3 (no todas las medias son iguales)
2. Nivel de significación
a = 0.05
3. Prueba estadística
CMe
Fc = trat
CMe ee
4. Criterios de decisión
3,3158
Si {Fc>3,3158} se rechaza la Hp, en caso contrario se
acepta.
5. Cálculos
Excel nos brinda los siguientes resultados:
Fuente de
variabilidad SC GL CMe F cal p-valor F teórico
Tratamientos 2107.20727 2 1053.60364 300.680769 1.42117E-20 3.31583294
Error experimental 105.121818 30 3.50406061
Total 2212.32909 32
6. Conclusiones
A. Se rechaza la hipótesis planteada, se acepta la
hipótesis alterna a un nivel de significación de 0,05. La
prueba fue significativa.
B. Al menos un método de capacitación es

diferente a los demás
54
5.6 EL MODELO DE ANOVA CON DIFERENTE NÚMERO DE

REPETICIONES
T1 T2 T3
X11 X12 X13
X21 X22 X23
X31 X32 X33
X42 X43
X52
X.1 X.2 X.3
La tabla del ANOVA
Fuentes de Suma de Cuadrado F F

variabilidad Cuadrados GL Medio calculado teórico
t  X2 
X2 SCtrat
SCtrat = ∑ • j  − •• t-1 CMe trat
Ft con (t-1) y
Entre grupos j=1  rj  ∑rj CMe= Fc =
CMe ee
(Tratamientos) GL (rt-t)
 Xij2 
Dentro de los SCee = ∑Xij2 − ∑  r t - t SC
grupos (Error  rj  CMe= ee
Experimental) GL
X2••
SCtotal = ∑Xij −
2
Total
∑rj r t -1
Aplicación 2
El director de entrenamiento de una compañía está tratando

de evaluar tres diferentes métodos de entrenamiento para
empleados nuevos. El primer método consiste en asignar un
empleado nuevo con un trabajador experimentado para que
éste lo asista en la fábrica. El segundo método consiste en
55
ubicar a todos los empleados nuevos en un salón de

entrenamiento separado de la fábrica, y el tercer método
consiste en utilizar películas de entrenamiento y materiales
de aprendizaje. El director de entrenamiento escoge al azar
16 empleados nuevos asignados a los tres métodos y
registra su producción diaria después que terminaron sus
programas de entrenamiento:
M etod o 1 15 18 19 22 11
M etod o 2 22 27 18 21 17
M etod o 3 18 24 19 16 22 15
El director pregunta si existen diferencias en cuanto a la

efectividad entre los tres métodos.
Solución
1. Planteamiento de hipótesis:
Hp : m1= m2= m3
Ha : m1= m2= m3 (no todas las medias son iguales)
a = 0.05
CMe
Fc = trat
CMe ee
3,81
Si {Fc>3,3158} se rechaza la Hp, en caso contrario se
acepta.
56
5. Cálculos
Excel nos brinda los siguientes resultados:
ANÁLISIS DE VARIANZA
Fuentes de Variabilidad SC GL CMe F cal p-valor F tabular
Entre grupos 40 2 20 1.35 0.29 3.81

Dentro de los grupos 192 13 14.7692308
Total 232 15
6. Conclusiones
A Se acepta la hipótesis planteada, se rechaza la
hipótesis alterna a un nivel de significación de
0,05. La prueba no resultó significativa.
B. Los datos muestrales no proporcionan evidencia

para afirmar que los tratamientos son diferentes.
5.7 MÉTODOS PARA ENCONTRAR DIFERENCIA ENTRE
tratamientos
Cuando se rechaza la hipótesis nula de que las medias son
iguales, quizá sea bueno saber qué medias de tratamiento
difieren.
Diferencia limite de significación (DLS): Para comparar

promedios de tratamientos.
Prueba de comparaciones múltiples de Duncan: Para
comparar todos contra todos.
Prueba de comparaciones múltiples de Tuckey
Prueba de comparaciones múltiples de Student,
Newman y Keuls.
Prueba de comparaciones de Dunnett: Para comparar
todos contra un testigo.
2 CMe
DLS = t α •
n
57
Ventajas
• Fácil de realizar
• De preferencia debe de utilizarse para hacer
comparaciones ortogonales o independientes, sin
embargo su validez no se ve seriamente afectada
cuando algunas comparaciones no son ortogonales,
pero han sido establecidas al momento de instalar el
experimento.
Desventajas
• Por ningún motivo debe usarse DLS para

comparaciones inducidas por los resultados
• No es válida para realizar todas las comparaciones
• Se ve afectada por el número de tratamientos: a mayor
número de tratamientos, se pierde algo de eficiencia.
5. 8 INFERENCIAS ACERCA DE LAS MEDIAS DE

TRATAMIENTO
Uno de los procedimientos más sencillo es el uso de los

intervalos de confianza.
Intervalos de confianza para la diferencia entre dos

Medias
1 1
(X 1 − X 2 ) ± t MSE  + 
 n1 n2 
donde t
Se obtiene de la tabla con (N - k) grados de libertad.
MSE = [SSE /(N - k)]
Las hipótesis se plantean de la siguiente manera:

Ho: Todos los tratamientos son iguales
Ha: Al menos un tratamiento es diferente.
58
1. La técnica consiste en calcular de diferente

maneras la varianza de las muestras.
Existen dos maneras de calcular la varianza:

Dentro SMQD (conocida como varianza no explicada)
Entre SMQE (conocida como varianza explicada)
La prueba estadística que se utiliza es la prueba F
La distribución F es oblicua hacia la derecha y sus
valores son siempre positivos.
La distribución F depende del nivel a y de los grados de

libertad (d.f. = degree of fredom) del numerador y de los
grados de libertad del denominador.
D.f numerador = C – 1 donde C es el número de

grupos.
D.f. Denominador = C ( n – 1) donde n es el número
de observaciones en cada grupo.
5.9 SOLUCIÓN APLICANDO EXCEL
Como solo estamos evaluando el rendimiento de los

empleados con los diferentes métodos de capacitación,
aplicamos
análisis de varianza de un solo factor

Análisis de va rianza de un fac tor
Fuente de variabilidad SC GL CM F calculado p-v alo r F tabular
Entre grupos 23.44 2 11 .719 0.5 60087 0.58 43 3.805 6

Dentro de los grupos 272 13 20 .923
Total 295.4 15
59
EJEMPLO
Considere un estudio de diez años en el que se ha

observado una muestra de 15 personas que han usado
pastas dentales 1, 2 o 3, respectivamente. Supongamos que
cinco de los participantes se han asignado aleatoriamente a
cada uno de los tratamientos y que el estudio ha
proporcionado los datos siguientes:
60
5.10 PRUEBA DE INDEPENDENCIA ESTADÍSTICA
HO: Son independientes
H1 : Son dependientes
2) Nivel de significación:
a = 0,10
Prueba estadística:
(f − fe )
2
χ2 = ∑
0
fe
supuestos:
* la población se distribuye normalmente.
* la muestra se ha seleccionado al azar
Criterios de decisión
α/2=0,05 α/2=0,05
(1 - α)
0,90
0,352 7,815
χ12−α χα2
2 2
GL --> (Filas - 1) (columnas - 1) = (2-1) (4-1) = 3

χ12−α = χ 02.95 con 3GL = 0.352
2
χα2 = χ 02.05 con 3GL = 7.815

{ }
2
Si 0.352 ≤ χ 2 ≤ 7815
. Se acepta la Ho en caso contrario se rechaza
Después se aplica la prueba
61
(f − fe)
2
χ c2 = ∑ 0
fe
(68 − 66.43) 2 (75 − 79.72) 2 (57 − 59.79) 2 (79 − 7307

. )2
χc2 = + + +
66.43 79.72 59.79 .
7307
(32 − 3357
. ) 2 (45 − 40.28) 2 (33 − 30.21) 2 (31 − 36.93) 2
+ + + +
.
3357 40.28 30.21 36.93
χc2 = 2.7638
Conclusiones
1) Se acepta Ho, se rechaza la Ha
2) La evidencia empírica disponible no permite rechazar la
hipótesis planteada
3) La actitud sobre le método de evaluación del desempeño
laboral, es independiente de la región en que labore el
trabajador.
EJEMPLO
En un hospital se somete a examen la eficacia de cinco

medicamentos a un determinado número de pacientes que
aparece reflejado en la siguiente tabla, determinándose si al
final del tratamiento mejoran o no. ¿Existe diferencia entre
los diferentes medicamentos a un nivel de significación 0.05?
¿Qué concluimos?
T ra ta m ie n to A B C D E
N º p a c ie n te s 50 52 46 54 48
P a c ie n te s m e jo ra d o s 11 9 8 17 7
EJEMPLO
Un grupo de investigadores, al llevar a cabo un estudio

acerca de hospitales, reunió datos sobre una muestra de 250
hospitales. El equipo calculó para cada hospital la tasa de
62
ocupación de los pacientes admitidos. Se desea saber si los

datos proporcionan suficiente evidencia para indicar que la
muestra no proviene de una población que sigue una
distribución normal.
T a s a d e o c u p a c ió n
d e h o s p ita l e
d e p a c ie n t e s
0 40 16
40 50 18
50 60 22
60 70 51
70 80 62
80 90 55
90 10 0 22
10 0 11 0 4
250
EJEMPLO
La siguiente tabla muestra la distribución de las mediciones

de ácido úrico en 250 pacientes. Probar la bondad de ajuste
de estos datos a una distribución normal con m = 5.74 y s =
2.01. Sea a = 0,01
63
D e t e r m in a c ió n F r e c u e n c ia
á c id o ú r ic o o b s e rv a d a
m e no s 1 1
1 2 5
2 3 15
3 4 24
4 5 43
5 6 50
6 7 45
7 8 30
8 9 22
9 10 10
10 m as 5
250
5.11 PRUEBA DE BONDAD DE AJUSTE

La prueba ji-cuadrada puede utilizarse también para decidir
si una distribución de probabilidad en particular, tal como la
binomial, la de Poisson o la normal, es la distribución
apropiada.
Nos permite probar qué tan bien se ajusta una distribución

Siempre en una investigación estadística, necesitamos
escoger una cierta distribución de probabilidades para
representar la distribución de datos que tengamos que
trabajar.
La prueba ji cuadrada nos responde esta inquietud y probar

si existe diferencia significativa entre una distribución de
frecuencias observadas y una distribución de frecuencias
teóricas.
Las hipótesis a plantearse son:

Ho: la distribución empírica se ajusta a la distribución teórica
considerada.
Ha: Se rechaza el ajuste.
64
Si aceptamos la Ho (aceptamos el ajuste), las diferencias

entre los valores observados y los valores esperados son
debido al azar y podemos decir que no existe evidencia para
rechazar la Ho.
El calculo de la prueba ji cuadrado, se realiza con la

siguiente formula:
Df = Nº clase(ajustado) – 1 – Nº
parámetros estimados
( fo − fe)
χ
2
2
=∑
fe α
Las frecuencias esperadas de las distintas modalidades

deben ser superiores a cinco; en caso de no ocurrir, se
deben agrupar clases contiguas en una sola clase hasta
lograr que la nueva frecuencia sea mayor que cinco.
EJEMPLO
Se reunieron los datos de 300 niñas de ocho años de edad.

Probar, a un nivel de significación de 0.05, la hipótesis que
indica que los datos se extrajeron de una población con
distribución normal. ¿Qué concluimos?
65
E s t a t u r a F r e c u e n c i a O b
( c m ) f o
1 1 4 1 1 6 5
1 1 6 1 1 8 1 0
1 1 8 1 2 0 1 4
1 2 0 1 2 2 2 1
1 2 2 1 2 4 3 0
1 2 4 1 2 6 4 0
1 2 6 1 2 8 4 5
1 2 8 1 3 0 4 3
1 3 0 1 3 2 4 2
1 3 2 1 3 4 3 0
1 3 4 1 3 6 1 1
1 3 6 1 3 8 5
1 3 8 1 4 0 4
66
CAPÍTULO 6
ANÁLISIS DE
VARIANZA CON
DOS FACTORES
OBJETIVOS
6.1 EL MODELO ADITIVO LINEAL
El modelo aditivo lineal para dos factores quedará de la

siguiente forma
Xij = µ + τ i + β j + ε ij
De lo que se trata es encontrar un segundo factor que

permita descomponer el valor de la observación, de una
manera más analítica.
Esquema de un ANOVA con 3 tratamientos y 5 bloques
T1 T2 T3 TOTAL
B1 X11 X12 X13 X1•
B2 X21 X22 X23 X2•
B3 X31 X32 X33 X3•
B4 X41 X42 X43 X4•
B5 X51 X52 X53 X5•
TOTAL X•1 X•2 X•3 X••
Hay dos hipótesis posibles en este diseño: una

Fuente de Variabilidad SC GL CMe F cal F tab
Bloques (Factor A)
Tratamientos (Factor B)
Error Experimental
Total
68
Para ANOVA de dos factores se prueba si existe una

diferencia significativa entre el efecto de tratamiento y si
existe una diferencia en la variable de bloqueo.
Sea Br el total de bloque (r según las filas)
SSB representa la suma de los cuadrados de los
bloques, donde:
 B 2  (ΣX )2
SSB = Σ  r  −
 k  n
EJEMPLO
La Bieber Manufacturing Co. opera 24 horas al día,
cinco días a la semana. Los trabajadores rotan su turno
cada semana. Todd Bieber, el propietario, se interesa en
saber si hay una diferencia en el número de unidades
producidas cuando los empleados trabajan diferentes
turnos. Se seleccionó una muestra de cinco
trabajadores y se registró su producción en cada turno.
Con 0,05 de nivel de significancia, ¿se puede concluir
que existe una diferencia en la producción media por
turno y por empleado?
Empleado Producción Producción Producción

en el día en la tarde en la noche
McCartney 31 25 35
Neary 33 26 33
Schoen 28 24 30
Thompson 30 29 28
Wagner 28 26 27
Variable de tratamiento
Paso 1: H0: m1= m2= m3 H1: no todas las medias son
iguales.
69
Paso 2: H0 se rechaza si F > 4.46, gl = (2, 8).

Calcule la variable de suma de cuadrados: SS(total)
= 139.73, SST = 62.53, SSB = 33.73, SSE = 43.47.
gl(bloque) = 4, gl(tratamiento) = 2, gl(error) = 8.
Paso 3: F = [62.53 /2] /[43.47 /8] = 5.75
Paso 4: H0 se rechaza. Existe una diferencia en el
número promedio de unidades producidas para los
distintos periodos o turnos.
Variable de bloqueo:
Paso 1: H0: m1= m2= m3= m4= m5 H1: no todas las
medias son iguales. Paso 2: H0 se rechaza si F > 3.84,
gl = (4,8)
Paso 3: F = [33.73 / 4] / [43.47 / 8] = 1.55
Paso 4: H0 no se rechaza ya que no existe una
diferencia significativa en el número promedio de
unidades producidas para los distintos trabajadores.
Ejemplo 2
Después de un año de estudiar un idioma extranjero, se

administró una prueba de vocabulario de 50 items a 24
estudiantes de inteligencia superior y promedio (factor A) por
uno los de tres métodos escogidos (factor B). Analizar las
siguientes puntuaciones:Efectuar con un nivel de
significación de 0.05, los contrastes F de las hipótesis nulas
para filas, columnas e interacción.
70
FACTOR B
Método Método de Métodos
Auditivo-oral Traducción Combinados
36 26 19
Superior 29 23 30
(115 y más) 25 21 28
FACTOR A 31 18 20
Inteligencia 33 20 17
Promedio 19 22 13
(115 y
menos) 37 14 23
28 15 18
71
72
CAPÍTULO 7
REGRESIÓN Y
CORRELACIÓN
SIMPLE
OBJETIVOS
1. Utilizar diagramas de dispersión para visualizar la relación
entre dos variables.
2. Identificar relaciones simples entre variables
3. Utilizar la ecuación de regresión para predecir valores
futuros.
4. Aplicar el análisis de correlación para describir el grado hasta
el cuál dos variables están relacionadas linealmente entre si.
6. Realizar el diagnostico de la regresión
7. Medición de la autocorrelación
8. Realizar la estimación por intervalos
9. Realizar el análisis de varianza de la regresión simple
7.1 EL DIAGRAMA DE DISPERSIÓN
Es un gráfico que permite detectar la existencia de una

relación entre dos variables.
Visualmente se puede buscar patrones que indiquen el
tipo de relación que se da entre las variables.
(a) Lineal directa (b) Lineal inversa (c) Curvilínea directa
Y Y Y
• •
Relaciones posibles • • •
•• • •
•
entre X y Y vistos •• • • •
• ••
• • • •
en diagramas de • • • • ••
•
dispersión •• X
•••
X X
Y • Y Y
• •• • • • ••
•• •
• • ••
•• • •• • • •
••
• •• • •• • •
••
•• • • ••
• • • • • ••
•
•• ••
•• •
•• •
•
• ••
X X X
(d) Curvilinea inversa (e) Lineal inversa (d) Ninguna relación
con más dispersión
Aplicación
Los datos siguientes muestran las cantidades consumidas

de complemento nutricional (en Kg.) y el aumento de peso
de niños con signos de desnutrición.
PACIENTE 1 2 3 4 5 6 7 8 9 10
COMPLEMENTO
1.0 1.5 2.0 2.5 3.0 3.5 4.0 4.5 5.0 5.5
EN Kg: X
AUMENTO DE
8 10 9 12 14 13 15 17 14 14
PESO : Y
Presente la información en un diagrama de dispersión
Procedimiento
1er Paso: Reúna pares de datos (X,Y), cuya relación desea
estudiar y organice la información en una tabla.
74
PACIENTE 1 2 3 4 5 6 7 8 9 10
COMPLEMENTO
1.0 1.5 2.0 2.5 3.0 3.5 4.0 4.5 5.0 5.5
EN Kg: X
AUMENTO DE
8 10 9 12 14 13 15 17 14 14
PESO : Y
2do Paso: Encuentre los valores mínimos y máximos para X
e Y. Elija las escalas que se usarán en los ejes horizontal y
vertical, de manera que ambas longitudes sean
aproximadamente iguales, facilitando la lectura del diagrama.
20
15
10
0
0.0 2.0 4.0 6.0
3er Paso: Registre los datos en el gráfico. Cuando se

obtengan los mismos valores en diferentes observaciones,
muestre estos puntos haciendo círculos concéntricos (o), o
registre el segundo punto muy cerca del primero.
75
20
15
10
0
0.0 2.0 4.0 6.0
4to Paso: Agregue toda la información que puede ser de

utilidad para entender el diagrama, tal como: título del
diagrama, período de tiempo, número de pares de datos,
nombre de la variable y unidades de cada eje, entre otros.
R elación complemento nutricional y

aumento de peso
20
Aumento de peso
15
(Kg)
10
0
0.0 2.0 4.0 6.0
Complem ento nutricional (Kg)
76
7.2 LAS ECUACIONES LINEALES SIMPLES
Si dos variables, como X e Y, están relacionadas, se

puede expresar como una relación, por ejemplo:
Y = 3 + 1,5X
Al conocer la ecuación se puede:
a) Calcular el valor de Y para cualquier valor dado

de X
b) Conocer el cambio en Y, cuando X varía en 1
Por ejemplo: Y = 3 + 1,5X
V a lo r V a lo r C a m bi o
da d o d e X c a lc u la d o d e Y d e Y
1 4,5 -
2 6,0 1,5
3 7,5 1,5
4 9,0 1,5
5 10,5 1,5
El aumento en Y, cuando X varía en una unidad, está

dado por el coeficiente de X.
Ejemplo:
En Y = 10 + 2X
cuando X aumenta en 1, Y aumenta en 2
En Y = 5 - 0,8X
cuando X aumenta en 1, Y disminuye en 0,8
A) Tipos de Variables
En una ecuación como Y=0+3X, el valor de Y depende

del valor que toma X, por eso a Y se le llama variable
dependiente, y a X se le llama variable independiente.
77
Y = b0 + b1 X
Variable Variable
Dependiente Independiente
B) Tipo de Relaciones
Cuando cambios en X provoca cambios en Y en igual

sentido (aumentos o disminuciones), las variables están
directamente relacionadas. Se observa el signo +
Ejemplo: Y o
o
Y = 30 + 5X o
o
o o
o
o o
Cuando cambios en X, provoca variaciones en Y en

sentido inverso (X aumenta, Y disminuye o viceversa),
las variables están inversamente relacionadas. Se
observa en la ecuación el signo -.
Y
Ejemplo: o
Y = 20 - 3X
o o
o o
o
o
C) Grado de la ecuación:
La ecuación es de primer grado si la variable

independiente está elevada al exponente 1. Su gráfica
78
genera una línea recta (por lo que también se le llama

ecuación lineal)
Ejemplo: Y = 30 + 4 X
Si la variable independiente está elevada a un
exponente diferente a 1, la ecuación toma el valor del
exponente. Su gráfica no es una línea recta.
Ejemplo:
Y = 10 + 3 X + 4 X2 : ecuación de segundo grado
Y = 3 + 7X + 5 X3 : ecuación de tercer grado
D) Ecuaciones simples y múltiples:
Simples: Muestra la relación entre dos

variables
Y = 30 + 2X
Y = 10 - 3X2
Múltiple: Muestra la relación entre tres o más
variables
Y = 3X + 8 Z
Y = 5 + 2X2 + 4W
E) Gráfica de una ecuación de primer grado:

Ejemplo: Y = 3 + 1,5X
X 1 2 3 4 5
Y 4,5 6,0 7,5 9,0 10,5
Los cinco pares de valores se diagraman de la forma
siguiente.
79
12
11
. .
.
10 (5,10.5)
9
.
8 (4,9)
7
.
6 (3,7.5)
5 (2,6)
4
3 (1,4.5)
2
1
1 2 3 4 5 X
E) Forma general:
La ecuación simple de primer grado tiene la siguiente

forma general
Y = b0 + b1 X
Donde:
b1: pendiente, o sea, el cambio en Y cuando DX = 1.

b0: el valor autónomo, es decir, Y = b0 cuando X = 0.
En la gráfica es la intersección con el eje Y
Ejemplo: Y = 3 + 1.5X
b0 = 3
.
X
80
7.3 REGRESIÓN LINEAL SIMPLE
Es una técnica estadística que permite determinar la mejor

ecuación que represente la relación entre dos variables
relacionadas.
Para poder establecer la relación cuantitativa entre X e Y es

necesario disponer de pares de observaciones. Cada par ha
sido registrado a la misma unidad elemental.
A) Suposiciones de regresión y correlación
a) Normalidad: los valores de Y estarán distribuidos

normalmente a cada valor de X.
b) Homoscedasticidad: la variación alrededor de la
línea de regresión sea constante para todos los
valores de X.
c) Independencia de error: el error (diferencia
residual entre un valor observado y uno estimado
de Y) sea independientemente de cada valor de X.
d) Linealidad: la relación entre las variables es lineal
B) El método de Mínimos Cuadrados
Es el procedimiento matemático utilizado para

determinar los valores numéricos de los coeficientes de
regresión: b0 y b1
∧
La ecuación general Y = b0 + b1X se llama ecuación
de regresión y permite estimar o predecir los valores de
Y.
El método consiste en determinar una ecuación que la
suma de los errores al cuadrado sea mínima.
81
$ = error
Yi - Y
10
8
. Línea de
estimación
6
Ŷ
Min ∑ (Y - Y
$)
2
4 Error= -6
•
i
2
•
•
. Error= 2
X
2 4 6 8 10 12 14
El método utiliza un sistema de ecuación llamado

ecuaciones normales, que tienen la siguiente forma:
X Y X2 XY
∑ Y = nb + b ∑ X
1.0 8.0 1.0 8.0
0 1 1.5 10.0 2.3 15.0
∑ XY = b ∑ X + b ∑ X
0 1
2 2.0
2.5
9.0
12.0
4.0
6.3
18.0
30.0
3.0 14.0 9.0 42.0
Para aplicar las fórmulas, 3.5 13.0 12.3 45.5

4.0 15.0 16.0 60.0
tenemos que confeccionar 4.5 17.0 20.3 76.5
un cuadro como el 5.0 14.0 25.0 70.0

5.5 14.0 30.3 77.0
siguiente: 32.5 126.0 126.3 442.0
∑ X ∑ Y ∑X
2
∑ XY
Sustituyendo los valores
∑ Y = 126,0 , n = 5, ∑ X = 32,5
∑ XY = 442 y ∑ X2 = 126,3
,en las ecuaciones normales, obtenemos el siguiente
sistema de ecuaciones.
126 = 10b0 + 32,5b1
442 = 32,5b0 + 126,3b1Resolviendo el sistema tenemos:
b0 = 7,479 b1= 1,576 ,por lo tanto,
Ŷ = 7,479 + 1,576X
82
C) Interpretación
b0 = 7,478 : Es probable que un paciente desnutrido que no

sea considerado dentro del Programa de Alimentación
Complementaria tenga un peso de 7,478 Kg.
b1 = 1,576:Por cada Kg. del alimento complementario, se

espera que probablemente el niño aumento su peso en
1,576 Kg.
D) Valor observado y valor estimado de Y
El valor observado (Yi) se refiere al nivel efectivo u

observado de la variable Y (peso del niño), mientras que el
∧
valor estimado ( Y ), es el nivel estimado de la variable (peso
esperado), obtenido utilizando la ecuación de regresión.
X Y Ŷ
1.0 8.0 9.055
Y
.
Yi
1.5
2.0
10.0
9.0
9.843
10.630
.
Y$ 2.5 12.0 11.418
3.0 14.0 12.206
Valor 3.5 13.0 12.994
observado Valor 4.0 15.0 13.782
estimado 4.5 17.0 14.570
5.0 14.0 15.358
5.5 14.0 16.146
xo X
7.4 ERROR ESTÁNDAR DE ESTIMACIÓN (SYX)

Mide la disparidad ¨promedio¨ entre los valores observados y
estimados de la variable Y. Se calcula por la siguiente
relación
2
∑(Y- Ŷ)
Syx =
n −2
83
X Y Ŷ (Y− Ŷ) (Y− Ŷ) 2
1.0 8.0 9.055 -1.1 1.112181

1.5 10.0 9.843 0.2 0.024806
2.0 9.0 10.630 -1.6 2.658204
2.5 12.0 11.418 0.6 0.338375
3.0 14.0 12.206 1.8 3.217718
3.5 13.0 12.994 0.0 3.48E-05
4.0 15.0 13.782 1.2 1.483524
4.5 17.0 14.570 2.4 5.905386
5.0 14.0 15.358 -1.4 1.843621
5.5 14.0 46 -2.1 4.604028
32.5 126.0 126.0 0.0 21.2
Reemplazando en la formula
21,20 21,20
Syx = = = 2,65
10−2 8
S yx = 1,628
El Syx es un indicador del grado de precisión con que la

ecuación de regresión describe la relación entre las dos
variables: cuanto más pequeño, los valores observado y
estimado de Y son razonablemente cercanos y, la ecuación
de regresión es una buena descripción esa la relación.
7.5 EL ANÁLISIS DE CORRELACIÓN
El análisis de correlación es la técnica estadística que

permite describir el grado hasta el cual una variable está
linealmente relacionada con otra.
Hay dos medidas que se usan para describir la correlación

El coeficiente de determinación
El coeficiente de correlación
84
A) El coeficiente de determinación
Al construir un modelo de regresión, se define que “el valor Y

depende de X”.
Y = f (X)
Si la relación es lineal: Y = b0 + b1X

Pero en la práctica Y depende también de “otros factores”
diferentes a X:
Y = b0 + b1X + eParte de los cambios en Y pueden

explicarse por X, a otro se llama variación explicada. Pero
hay cambios en Y que no pueden explicarse por X, a lo que
se llama variación no explicada.
Yi
Y Variación
Variación no explicada
Total
(Yi - Y$ )
Yi - Y
( ) Variación
Explicada
y
Y$ - Y
( )
VARIACION VARIACION VARIACION

TOTAL = EXPLICADA + NO EXPLICADA
El coeficiente de determinación se puede calcular del modo

siguiente:
variacion explicada
r2 =
variacion total
r2 = ∑ (Ŷ - Y )2
∑ (Y - Y )
2
i
Se elevan al cuadrado, para evitar que
obteniéndose un número positivo.
85
1er Paso: Cálculo de la venta media por vendedor

son ( Y )
n
∑Y
Y= i=1 i
n
Y1 + Y2 + Y3 + Y4 + Y5
Y=
5
9 + 5 + 7 + 14 + 10 45
Y= =
5 5
Y = 9 unidades
2do Paso: Se calcula la variación total, es decir, la sumatoria

de las desviaciones de las ventas observadas (Yi) con
respecto a la media:
Y Y (Y − Y ) (Y− Y)2
8.0 12.6 -4.6 21.16
10.0 12.6 -2.6 6.76
9.0 12.6 -3.6 12.96
12.0 12.6 -0.6 0.36
14.0 12.6 1.4 1.96
13.0 12.6 0.4 0.16
15.0 12.6 2.4 5.76
17.0 12.6 4.4 19.36
14.0 12.6 1.4 1.96
14.0 12.6 1.4 1.96
126.0 126.0 0.0 72.4
∑Y ∑Y ∑ (Y − Y ) ∑ (Y − Y )
2
86
3er Paso: Se calcula la variación explicada, es decir, la

sumatoria de las desviaciones cuadráticas entre las ventas
∧ ∧
esperadas y la venta media de la muestra: ∑YY
Ŷ Y (Ŷ− Y) (Ŷ − Y) 2
9.055 12.6 -3.545 12.5699

9.843 12.6 -2.758 7.6038
10.630 12.6 -1.970 3.8793
11.418 12.6 -1.182 1.3964
12.206 12.6 -0.394 0.1551
12.994 12.6 0.394 0.1553
13.782 12.6 1.182 1.3971
14.570 12.6 1.970 3.8805
15.358 12.6 2.758 7.6055
16.146 12.6 3.546 12.5720
126.0 126.0 0.0 51.2
∑ Ŷ ∑Y ∑ (Ŷ − Y) ∑ (Ŷ − Y )2
4to Paso: Se compara la variación explicada y la variación
total.
variacion explicada ∑ (Ŷ - Y )2

r2 =
variacion total
r2 =
∑ (Yi - Y )2
51,2
r2 = = 0,707
72,4
5to Paso: Interpretación: 70,7% de las variaciones en el
incremento de peso, pueden explicarse por el consumo del
complemento nutricional.
87
Valores posibles de r2
Si r2 = 1 : Correlación perfecta, es decir, toda variación de Y
puede explicarse por X
Si r2 = 0 : no existe correlación entre X e Y. La variación
explicada es 0. La variable X no explica nada de los cambios
en Y
Resumen
0 ≤ r2 ≤ 1
Cuanto más cerca a uno, las variables tendrán mayor

correlación.
B) El coeficiente de correlación
Es la raíz cuadrada del coeficiente de determinación.
Sus valores oscilan entre -1 y 1

Cuando r es positivo, indica que X e Y están
directamente relacionados.
Cuando r es negativo, indica que X e Y están
inversamente relacionados.
El coeficiente r tiene el mismo signo que el
coeficiente b1 en la ecuación de regresión
Interpretación del coeficiente de correlación de Pearson

Fuerte Moderada Débil Débil Moderada Fuerte
Negativa Negativa Negativa Positiva Positiva Positiva
-1 -0,9 -0,5 0 0,5 0,9 1

Perfecta Perfecta
No existe
Negativa correlación Positiva
88
Ejemplo:
r2= 0,707
r = 0,707
r = 0,84
el signo es positivo ya que X e Y están relacionados
directamente como lo indica el signo del coeficiente b1 en la
ecuación de regresión
Interpretación: El incremento de peso (Y) y el consumo del

complemento nutricional (X) se encuentran directamente
asociados.
7.6 DIAGNÓSTICO DE LA REGRESIÓN: ANÁLISIS

RESIDUAL
El análisis residual permite evaluar lo adecuado del modelo

de regresión que ha sido ajustado a los datos. También sirve
para detectar si los supuestos se cumplen.
A. Evaluación de lo adecuado de modelo ajustado

Los valores del error residual o estimado (ei) se define
como la diferencia entre los valores observados (Yi)
∧
y los estimados ( Yi ) de la variable dependiente
para los valores dados de Xi
εi = Yi - Ŷi
Podemos evaluar lo adecuado del modelo de regresión

ajustado mediante el gráfico de los residuos (eje
vertical) con respecto a los correspondientes valores de
Xi de la variable independiente (eje horizontal).
89
Ejemplo
El gráfico muestra un adecuado ajuste entre el

crecimiento de peso y el consumo del complemento
nutricional. No se observa una tendencia.
Variable X 1 Gráfico de los residuales
1
Residuos
0
0 1 2 3 4 5 6
-1
-2
-3
Variable X 1
El análisis del gráfico nos brinda el criterio para adoptar el

modelo lineal o dejarlo de lado. Si fuese así, podríamos
probar con modelos no lineales como el cuadrático,
logaritmo o exponencial.
El análisis de residuos se complementa con el cálculo de los

residuos estandarizados (SRi), que resultan de la división del
residuo dividido por su error estándar.
εi
SRi =
SYX 1 − hi
En donde
90
hi =
1
+
(X i − X )2
n
n
∑X
2
2
i − nX
i =1
Los valores estandarizados nos permiten tomar en cuenta la

magnitud de los residuos en unidades que reflejen la
variación estandarizada alrededor de la línea de regresión.
Análisis de los residuales

Observación Pronóstico para Y Residuos Residuos estándares
1 9.138461538 -0.138461538 -0.101107641
2 3.276923077 1.723076923 1.258228423
3 6.207692308 0.792307692 0.578560391
4 15 -1 -0.730221853
5 12.06923077 -2.069230769 -1.510997526
6 44.30769231 0.692307692 0.505538206
En el gráfico siguiente, los residuos estandarizados fueron

graficados en función de la variable independiente (cantidad
del complemento nutricional). Se puede observar de que
existe una dispersión amplia en la gráfica de residuos, no
existe un patrón evidente o una relación entre los residuos
estandarizados y Xi . Los residuos parecen estar
equitativamente distribuidos por arriba y por debajo de 0,
para diferentes valores de X. Podemos concluir que el
modelo ajustado parece ser adecuado.
91
R esiduos estándares
1. 5
1
0. 5
0
-0. 5 0 5 10 15 20
-1
-1. 5
-2
B. Evaluación de las suposiciones

a. Homoscedasticidad
b. Normalidad
c. Independencia: Los datos recolectados
7.7 MEDICIÓN DE LA AUTOCORRELACIÓN: DURBIN-

WATSON
Una de las suposiciones del modelo de regresión básico

es la independencia de los residuos. Esta suposición es
violada con frecuencia cuando los datos son recopilados en
periodos secuenciales, debido a que un residuo en
cualquier punto del tiempo puede tender a ser parecido a los
residuos que se encuentran en puntos de tiempo
adyacentes.
El estadístico D de Durbin-Watson mide la correlación de

cada residuo y el residuo del periodo inmediato anterior al
periodo de interés.
El estadístico D (Durbin-Watson)
92
∑ (ε − ε i −1 )
2
i
D= i= 2
n
∑ε
i =1
i
2
En la que εi representa el residuo en el periodo i.
Interpretación de D:
Cuando residuos sucesivos están correlacionados
positivamente, el valor de D se aproximará a cero.
Si los resultados no están correlacionados, el valor D estará

cercano a 2.
Si se presentase una autocorrelación negativa, lo cual rara

vez sucede, de valor D tomará un valor mayor a 2 e, incluso
podría aproximarse a su valor máximo que es 4.
Los resultados de SPSS nos proporciona el valor de D de
Durbin-Watson
b
Model Summary
Change Statistics
R Square
Model Change F Change df1 df2 Sig. F Change Durbin-Watson
1 .707a 19.336 1 8 .002 1.517
a. Predictors: (Constant), Complemento
b. Dependent Variable: AUMENTO
Según este resultado permite afirmar que los residuos no
están correlacionados.
7.8 ESTIMACIÓN POR INTERVALOS
A. Intervalo de confianza para β 1

Lo que se va hacer es estimar
σ ε2 desconocido
SC x conocido
93
σ ε2 se estima mediante la siguiente formula:

 n
 (∑ Y ) 2

 − b 2 SC
∑
Y 2
−
n  1 x
S 2
=  i= 1

yx
n − 2
-t0 t0
Pr(−t 0 ≤ t ≤ t 0 )
 
 
 b −β 
Pr − t 0 ≤ 1 1 ≤ t 0  = 1− α
Syx
 
 SCx 
 S S 
Prb1 − t0 yx ≤ β1 ≤ b1 + t0 yx  = 1− α
 SCx SCx 
B. Intervalo de confianza para b0

 1 x  
2
b 0 ≈ Ν  β 0 ,σ ε2  +
  n SC  
  x 
b0 − β 0 b0 − β 0
= ≈ t n−2
S b0 1 x
2
S yx +
n SC x
donde: 
 Y2 − (∑ Y ) 2

 − b 2 SC
∑ n  0 x
S 2yx =  
n−2
94
-t0 t0
Pr( −t 0 ≤ t ≤ t 0 )
 b − β0 
Pr  − t 0 ≤ 0 ≤ t0  = 1− α
 S b0 
 
( )
Pr b 0 − t 0 S b 0 ≤ β 0 ≤ b 0 + t 0 S b 0 = 1 − α
t0 con (n-2) grados de libertad y α
C. Intervalo de confianza para
 1 X −X
Ŷ ≈ N  µ y / X 0 , σ ε2  + 0
(2
) 
 n SC x 
  
Para un nivel dado de confianza, una variación aumentada
alrededor de la línea de regresión, medida a través del error
estándar de la estimación, tiene como resultado un intervalo
más amplio.
Sin embargo, como se esperaría, un tamaño de muestra

aumentado reduce el ancho del intervalo.
( )
Pr ŷ − t 0 S ŷ ≤ µ y / X 0 ≤ ŷ + t 0 S ŷ = 1 − α
donde:
 1 X − x2
S ŷ = S 2yx  + 0
( )
n SC x 
 
95
D. Intervalo de confianza para un valor individual

Además de obtener una estimación de intervalo de
confianza para el valor promedio, a menudo es
importante tener la capacidad de predecir la respuesta
que se obtendría para un valor individual.
  1 X − X  
Ŷ ≈ N µ y / X 0 , σ ε2  1 + + 0
2
( )
  n SC x  
 
El intervalo de predicción está estimando un valor
individual, no un parámetro.
(
Pr ŷ − t 0 S ŷ ≤ µ Y / X 0 ≤ ŷ + t 0 S ŷ = 1 − α )
donde:
 1 X −x
S ŷ = S 2yx  1 + + 0
2
( )
 n SC x 
 
7.9 ANÁLISIS DE VARIANZA DE LA REGRESIÓN SIMPLE
El análisis de varianza es una técnica que permite localizar

las fuentes de variabilidad que ayuden a explicar el
comportamiento de la variable dependiente.
SCtotal = SCerror + SCregresión

(SCresidual)
El cuadro de Análisis de
Varianza
Fuentes de Suma de Cuadrado F
variabilidad Cuadrados GL Medio calculado E(CMe)
Debido a la
Regresión
2
b SC X 1
2
b SC x
1
b12SCx
σε + β12SCx
2
S2yx
(∑Y) 2
σ ε2
Error
Experimental
∑Y 2
−
n
• b12SCx n − 2 S 2yx
Total SC total n −1
96
Asumiendo que existe una regresión lineal,

determine:
A. La ecuación de regresión e interprete los coeficientes
de regresión.
B. El intervalo de confianza para b1y para un valor
individual si X=3,8.
C. El cuadro de ANOVA para la regresión lineal
D. El valor de cuando X = 5,1
E. La prueba de hipótesis respectiva a partir del
ANOVA e interprete el resultado.
F. Estime el aumento de peso que puede darse se
consumen 6 Kg. del complemento nutricional
mediante un intervalo e interprete el resultado.
Solución
Primero se realizan los cálculos necesarios:
n = 10
∑ Xi = 32,5
∑ Yi = 126
∑ Xi2 = 126,25
∑ Yi2 = 1660
∑ Xi Yi = 442
A. Cálculo de los coeficientes de regresión:
Ŷ = b 0 + b1X
b 0 = Y − b1 X
∑ X Y − ∑ n∑
X Y i i
442 −
(32,5 )(126 )
i i
10 32,5
b1 = = = = 1,57
( X) (32,5 )
∑X − ∑
2
2 i 126,25 − 20,62
i
n 10
b 0 = 12,6 − (1,57 )( 3,25 ) = 7,49
97
La ecuación de regresión será:

Ŷ = 7 ,49 + 1,57 X
Interpretación:
b0= Se espera que el peso que un niño que no consume
este complemento nutricional sea 7,49 Kg.
b1= Por cada Kg. de complemento nutricional, el peso del
niño se incrementará en 1,57 Kg.
B. Intervalo de confianza para b1
 S yx S yx 
Pr 1,57 − t (0 ,10 )(8 ) ≤ β 1 ≤ 1,57 + t (0 ,10 )(8 )  = 1 − 0,10
 SC x SC x 
 S S 
Pr 1,57 − 1,86 yx ≤ β 1 ≤ 1,57 + 1,86 yx  = 0,90
 4,54 4,54 
1660 −
(126 )2 − (1,57 )2 (20,62 )
10 72,7 − 50,82
S 2yx = = = 2,69
8 8
S yx = 1,642
  1,642   1,642 
Pr 1,57 − 1,86   ≤ β 1 ≤ 1,57 + 1,86    = 0,90
  4,54   4,54 
Pr {0,8973 ≤ β 1 ≤ 2,2427 } = 0,90
Interpretación: Hay 0,90 de confianza que el intervalo que se

ha construido, pertenezca al grupo de intervalos que
contienen al verdadero parámetro b1.Intervalo de confianza
para un valor individual
98
Si X = 3,8 entonces Ŷ = 13,45
Pr {Ŷ − t 0 S Ŷ ≤ Yind ≤ Ŷ − t 0 S Ŷ } = 1 − α
Pr{13,45 − (1,86)S Ŷ ≤ Yind ≤ 13,45 − (1,86)S Ŷ } = 1 − α
1 (3,80 − 3,25 )
2
S Ŷ = 1,642 1 + + =
10 20,62
C. Análisis de Varianza
Fuentes de Suma de Cuadrado F
variabilidad Cuadrados GL Medio calculado E(CMe)
Debido a la
Regresión 50,82 1 50,82 18,84
Error
Experimental 21,58 8 2,697
Total
72,40 9
Interpretación: Se rechaza la hipótesis planteada. El

complemento nutricional si explica significativamente los
cambios en el peso de los niños.
D.Si X = 5,1
Ŷ = 7,49 + 1,57(5,51)
Ŷ = 16,14
E. Prueba de Hipótesis acerca de b1
1. Hp: β1= 0
Ha: β1≠ 0
2. α = 0,10
3. F = CMe regresión
c
CMe error
Supuestos
- La muestra seleccionada al azar
99
- La población se distribuye al azar

- Los valores de X fijas y de Y variables (o aleatorias)
- Asunciones de la regresión lineal simple
F1-α/2 Fα/2
Si {5,32 ≤ Fc ≤ 0,0041}se rechaza la hipótesis planteada
5. Cálculos
50,82
Fc = = 18,84
2,697
6. Conclusiones
La variable “complemento nutricional” es apropiada para
explicar el comportamiento del “aumento de peso” en niños
desnutridos. Además, la ecuación de regresión puede ser
usada con fines de predicción hasta cierto límite.
F.¿ Para X = 6, que promedio de Y vamos a obtener?

{ }
Pr 16,91 − (1,86 )S Ŷ ≤ µ Y X0 ≤ 16,91 + (1,86 )S Ŷ = 1 − α
Estadísticas de la regresión
Coeficiente de correlación múltiple 0.99582747
Coeficiente de determinación R^2 0.99167236
R^2 ajustado 0.98959045
Error típico 1.5310881
Observaciones 6
100
ANÁLISIS DE VARIANZA
GL SC CMe F cal P-valor
Regresión 1 1116.62308 1116.62308 476.328138 2.60786E-05
Residuos 4 9.37692308 2.34423077
Total 5 1126
Coefic Error Estadíst Inferior Superior Inferior Superior

ientes típico ico t P-valor 95% 95% 95.0% 95.0%
Intercepción 0.346154 0.9173433 0.37734384 0.72508508 -2.200804756 2.893112448 -2.200804756 2.893112448
Variable X 1 2.930769 0.13428531 21.824943 2.6079E-05 2.557932668 3.303605794 2.557932668 3.303605794
Ejemplo:
En la Farmacia Santa Rita, se desea determinar la relación
lineal simple entre la experiencia del vendedor y las ventas
durante un mes. Se seleccionan 5 vendedores, los datos
registrados se presentan a continuación:
VENDEDOR CARLOS PEDRO JOSE JUAN MANUEL

EXPERIENCIA
(años):X 3 1 2 5 4
VENTAS
(unidades) : Y 9 5 7 14 10
Caso 1
Un equipo de profesionales en salud mental de un hospital
psiquiátrico donde el tiempo de permanencia es largo, quiere
medir el nivel de respuesta de pacientes retraídos mediante
un programa de terapia de remotivación. Para este propósito
se contaba con una prueba estandarizada, que era costosa y
su aplicación tomaba mucho tiempo. Para salvar este
obstáculo, el equipo creó una prueba más fácil de aplicar.
Para probar la utilidad de este nuevo instrumento para medir

el nivel de respuesta del paciente, el equipo decidió
examinar la relación entre las calificaciones obtenidas con la
nueva prueba y las calificaciones obtenidas con la prueba
estandarizada.
101
Paciente 1 2 3 4 5 6 7 8 9 10 11
Prueba nueva 50 55 60 65 70 75 80 85 90 95 100
Prueba estandar 61 61 59 71 80 76 90 106 98 100 114
Caso 2
Se llevo a cabo un experimento para estudiar el efecto de
cierto medicamento para disminuir la frecuencia cardiaca en
adultos. Se reunieron los siguientes datos: dosis en
miligramos del medicamento y la diferencia entre la
frecuencia cardiaca mas baja después de la administración
del medicamento y un control antes de administrarlo.
Dosis (mg) 1 1 1 1 2 2 2 2 3 3 3 3
Reduccion ritmo cardiaco 10 8 12 12 14 12 16 18 17 20 18 20
Determine la ecuación de regresión lineal y explique el valor

de los coeficientes de regresión. Calcule e interprete el
coeficiente de correlación y el coeficiente de determinación.
102
CAPÍTULO 8
REGRESIÓN Y
CORRELACIÓN
MÚLTIPLE
OBJETIVOS
1. Construir un modelo utilizando dos o más variables
explicativas.
2. Probar una hipótesis para aceptar la validez de un
modelo de regresión múltiple
3. Realizar pruebas de hipótesis individuales para descartar
aquellas variables no significativas en un modelo de
regresión múltiple
4. Calcular en interpretar medidas de asociación múltiples.
5. Entender la importancia de los residuos en el análisis de
regresión.
8.1 EL MODELO
La regresión múltiple y el análisis de correlación múltiple

consiste en estimar una variable dependiente, utilizando dos
o más variables independientes.
El modelo genérico será
Yˆ = f ( X 1 , X 2 , X 3 ,....)
Variable Variables
dependiente independientes
Ejemplos
1. La cantidad de pacientes de enfermedades

respiratorias, dependen de la variación del clima, el nivel
nutricional del paciente y de la calidad de sus viviendas
entre otros factores.
2. La duración de la hospitalización depende del tipo de
afección, de la gravedad de la afección, de la presencia
de complicaciones, del sexo, de la edad y peso del
paciente, entre otros factores.
3. El nivel de colesterol de un paciente podría ser
explicado por la edad, el peso, el nivel de hemoglobina y
el perímetro abdominal.
La ventaja
Permite utilizar más información disponible para estimar la

variable dependiente de una manera confiable.
Proceso
En el proceso de regresión y correlación múltiple, se debe:
1. Describir la ecuación de regresión múltiple.

2. Examinar el error estándar de regresión múltiple de la
estimación.
104
3. Utilizar la ecuación de regresión para determinar qué tan

bien describe los datos observados.
Alcance
1. Permite ajustar los datos tanto a curvas como a rectas.

2. Se puede incluir variables cualitativas, haciendo uso de
las “variables ficticias”.
8.2 LA ECUACIÓN DE REGRESIÓN MÚLTIPLE
La forma simbólica de la ecuación lineal con dos variables

independientes:
Donde :
Ŷ = b 0 + b 1 X 1 + b 2 X 2
Ŷ : Valor estimado correspondiente a la variable

dependiente
b0 : intersección con el eje Y.
X1 y X 2 : valores de las dos variables independientes.
b1 y b2 : pendientes asociadas con X1 y X2
respectivamente
Visualización:
Se puede representar una ecuación de regresión múltiple

con dos variables, como un plano
105
El método de mínimos cuadrados
El problema consiste en decidir cuál de los planos posibles

que podemos dibujar, será el que mejor se ajuste
El método de mínimos cuadrados garantiza que la suma de
los cuadrados de los errores es mínimo. Las ecuaciones
normales serán
∑ Y = nb + b ∑ X + b ∑ X
0 1 1 2 2
∑ X Y =b ∑ X +b ∑ X +b ∑ X X
1 0 1 1
2
1 2 1 2
∑ X Y =b ∑ X +b ∑ X X +b ∑ X
2 0 2 1 1 2 2
2
2
Donde bo, b1 y b2 son los coeficientes de regresión

estimados.
106
Aplicación
En el siguiente caso, interesa construir un modelo para
determinar los niveles de colesterol, conociendo el peso (en
Kg), el diámetro de la cintura (en cms) y el nivel de
hemoglobina (en grs.)
COLESTEROL PESO CINTURA HEMOGLOBINA

250 76 80 13.5
220 61 72 12.1
200 50 70 11.6
350 94 122 12.5
210 55 75 13.5
205 61 95 14
285 80 120 12.5
190 52 68 14.5
Al aplicar las ecuaciones normales a los datos obtenemos

los siguientes coeficientes de regresión:
bo = 121,704 b1 = 2,949
b2 = 0,276 b3 = -7,843
Construyendo la siguiente ecuación de regresión:
Ŷ = 121,704 + 2,949 X1+ 0,276X2 - 7,843X3
8.3 EL ERROR ESTÁNDAR DE LA REGRESIÓN MÚLTIPLE

(SYX)
Es una medida de dispersión la estimación se hace más
precisa conforme el grado de dispersión alrededor del plano
de regresión se hace mas pequeño.
Para medirla se utiliza la formula:
S yx =
∑ ( Y − Ŷ ) 2
n − k −1
107
donde:
Y : Valores observados en la muestra
Yˆ : valores estimados a partir a partir de la
ecuación de regresión
n : mínimo de datos
k : número de variables independientes
En los resultados de Excel se llama error típico y para el

caso de colesterol que se viene desarrollando es 14,89
8.4 EL COEFICIENTE DE DETERMINACIÓN MÚLTIPLE (R2)
Mide la tasa porcentual de los cambios de Y que pueden

ser explicados por X1, X2 y X3 simultáneamente.
SCregresión
r2 =
SCtotal
19950,57
r2 = = 0,95
20837,5
Interpretación: El 95% de los cambios en el nivel de
colesterol de un paciente puede ser explicado por el peso,
perímetro abdominal y nivel de hemoglobina.
Coeficiente de determinación múltiple ajustado (r2a)

Hay personas que prefieren “ajustar” el r2 de acuerdo a:
n= número de datos
k= número de variables independientes
ra = 1 − (1 − r 2 )
2 n −1
n − k −1
8 −1
ra2 = 1 − (1 − 0,95 ) = 0,9125
8 − 3 −1
Coeficiente de correlación: r
r = r2
108
Para el caso de colesterol, tenemos:

r = 0,95 = 0,9746
De acuerdo al valor de r podemos afirmar que las variables
peso, perímetro abdominal y hemoglobina se encuentran
asociadas en forma directa, de una manera muy fuerte.
Los resultados de Excel nos da la siguiente información:

Estadísticas de la regresión
Coeficiente de correlación múltiple 0.97 r
Coeficiente de determinación R2 0.95 r2
R2 ajustado 0.92 r2 a
Error típico 14.89 Syx
Observaciones 8
8.5 LA PRUEBA GLOBAL DEL MODELO
No se debe perder de vista que como trabajamos con una

muestra, sólo tendremos estimaciones de los parámetros.
El modelo de la muestra es
Ŷ = b 0 + b 1 X 1 + b 2 X 2
Para el ejemplo será:
Ŷ = 121,704 + 2,949 X1+ 0,276X2 - 7,843X3

que estima al modelo de la población:
Y = βo + β 1X1 + β 2X2 + β 3X3
1. Formulación de hipótesis
Hp : b1 = b2 = b3 = 0
Ha : b1 ¹ b2 ¹ b3 ¹ 0
109
Si se acepta la hipótesis planteada, significa que ninguno de

los factores (X1,X2 y X3) son relevantes para explicar los
cambios en Y.
2. Determinación del nivel de significación

a = 0,10
3. Selección de la prueba estadística:

Se realiza a partir del Análisis de Varianza de la Regresión y
tiene como objeto aceptar o rechazar la validez del modelo.
CMeregresi ón
F=
CMeresiduo s
4. Determinación el criterio de decisión

El valor de F tabular se determina con 3 y 4 grados de
libertad y a/2 = 0,05
Si Fc es > 6,59 se rechaza la Hp
α/2=0,01
(1 -
α)
0,95
Fα
2
6,59
5. Cálculos
6650 ,19
Fc = = 29,99
221,73
Lo que se puede verificar con la salida de Excel.
El p-valor es 0,003 y como es menor al valor del nivel de
significación, por lo tanto se rechaza la Hp.
110
Resultado en Excel
GL SC CMe F p-valor
calculado
Regresión 3 19950.57 6650.19 29.99 0.003
Residuos 4 886.926 221.73
Total 7 20837.5
6. Conclusiones
A. Se rechaza la hipótesis planteada, se acepta la
alternante a un nivel de significación de 0,10. La
prueba resultó ser significativa.
B. Hay evidencia muestral suficiente para rechazar la
hipótesis planteada
C. Probablemente al menos uno de los factores
seleccionados (peso, diámetro de la cintura y
hemoglobina) explican el nivel de colesterol en un
paciente.
8.6 HIPÓTESIS SOBRE PARÁMETROS EN LA ECUACIÓN DE

REGRESIÓN
Una vez que se realiza la prueba global del modelo, y se

concluye que al menos uno de los factores tiene efecto
significativo sobre Y (nivel de colesterol), se deberá a probar
cada uno de los factores, a fin de determinar cuál o cuales
factores permanecen en el modelo, y cuales son
descartados.
(A) Hipótesis acerca de una pendiente individual: B1

Procedimiento
Hp : b1 = 0
Ha : b1 ¹ 0
2) Nivel de significación
a = 0,10
111
b1 − B1
tc =
S b1
donde
bi : pendiente de la regresión ajustada
(muestra)
Bio : pendiente real hipotizada para la población

Sbi : error estándar del coeficiente de regresión
con los supuestos

a) La población normal con m, s2
b) La muestra fue seleccionada al azar
t con Gl = n - k - 1
=8-3-1=6
α = 0,10
-1,94318 1,94318
Si (1,94318 ≤ tc ≤-1,94318) se acepta Hp, en caso

contrario se rechaza
112
5) Cálculos
b − B
tc = 1 10
S b1
S yx
S b1 = = 0,704
∑ X 2 − n(x )
2
Resultados en Excel
Coeficientes Error típico Estadístico t Probabilidad Inferior 95% Superior Inferior Superior
95% 95.0% 95.0%
Intercepción 121.704 83.00 1.466 0.216 -108.752 352.161 -108.752 352.161
PESO 2.949 0.70 4.189 0.014 0.995 4.904 0.995 4.904
CINTURA 0.276 0.49 0.558 0.607 -1.095 1.646 -1.095 1.646
HEMOGLO -7.843 5.73 -1.37 0.24 -23.74 8.06 -23.74 8.06

BINA
Reemplazando en la ecuación:
2 ,949 − 0
tc =
0 ,704
t c = 4 ,189
6) Conclusiones
A) Se rechaza la hipótesis planteada. Se acepta la
hipótesis nula.
B) Existe una diferencia suficientemente grande entre
el valor del estimador b1= 2,949 y el valor
hipotizado del parámetro b1= 0 y que nos permite
concluir que el factor X1 (peso del paciente) afecta
significativamente a Y (nivel de colesterol).
C) La variable X1 (peso) será considerada en el
modelo de regresión múltiple.
(B) Hipótesis acerca del coeficiente de correlación

poblacional: r (rho)
1. Planteo de hipótesis
Hp : r = 0
113
Ha : r ¹ 0
a = 0,05
3. Criterio de decisión:
-1,94318 1,94318
Si (1,94318 ≤ tc ≤-1,94318) se acepta Hp, en caso

contrario se rechaza
r n−2
tc =
1− r2
5. Cálculos
0,9746 8 − 2
tc = = 10 ,66
1 − (0,9746 )
2
6. Conclusiones
A) Se rechaza la hipótesis planteada, se acepta
la hipótesis alternante a un nivel de
significación de 0,10. La prueba fue
significativa.
B) La evidencia empírica permite afirmar que
existe una alta correlación entre los factores
peso, perímetro abdominal y hemoglobina.
114
8.7 ANÁLISIS DE RESIDUOS
Multicolinealidad: Varias X tienen alta asociación entre

ellas.
Homoscedasticidad: Residuos constantes a lo largo de

toda la data.
115
116
CAPÍTULO 9
ANÁLISIS DE
SERIES DE
TIEMPO
OBJETIVOS
1. Elaborar un modelo, que permita proyectar una
serie de datos, en un horizonte temporal
2. Desestacionalizar una serie histórica.
9.1 INTRODUCCIÓN
Los pronósticos o predicciones, son una herramienta

esencial en cualquier proceso de toma de decisiones.
La precisión de las predicciones depende de la calidad
de la información que se disponga
El análisis de las series de tiempo permite determinar
patrones en los datos recolectados a través del tiempo
Al proyectar estos patrones, se obtiene una estimación
para el futuro.
9.2 REPRESENTACIÓN GRÁFICA
Existen dos formas de graficar series temporales: diagrama

aritmético y diagrama logarítmico.
(A) Diagrama Aritmético:

La escala vertical es una escala ordinaria, cuyos intervalos
son de igual longitud. Cada intervalo representa, la misma
cantidad.
Año Ventas
Un diagrama de este tipo Millones de soles
representa la variación 1967

2,4
anual absoluta. 68
69
3,3
Ejemplo: Ventas de la 70
4,2
Compañía ABC 5,2
71
8,3
(1967-73) 72
15,6
73
17,1
Escala
Aritmética
118
(B) Diagrama Logarítmico: Los intervalos en esta escala

no solo son diferentes en longitud, sino que esta
disminuye a medida que se aleja del origen. El diagrama
muestra la tasa porcentual de cambio anual de la serie.
9.3 VARIACIONES EN LAS SERIES DE TIEMPO
Las variaciones de una serie cronológica se clasifican en:
(A) Sistemática:
Ocurren en regularidad, pudiendo por lo tanto se medidas

estadísticamente y predecir su recurrencia futura. Pueden
ser: tendencia secular, fluctuación cíclica y variación
temporal.
(a) Tendencia Secular: El valor de la variable tiende

a disminuir o aumentar en un periodo muy largo (
largo plazo).
119
Se refiere a un aumento o disminución ¨estable¨ en el

tiempo. En el siguiente gráfico se muestra una tendencia
secular en una serie temporal creciente que fluctúa.
(b) Fluctuación Cíclica: Se caracteriza porque a

través del tiempo hay años en que el ciclo toma
valores mayores que la tendencia y otros años en
que toma valores menores que la tendencia.
El tiempo entre el pico y el punto más bajo, es

por lo menos 1 año, suele durar entre 15 - 20
años. Los ciclos no siguen un patrón regular.
(c) Variación Temporales o Estacional:

Son variaciones regulares o predecibles dentro de
un año.
Ejemplo: la venta de ropa abrigo en invierno y de

bebidas en verano.
120
(B) Variaciones Aleatorias:
Son causadas por sucesos aislados, como guerras,

huelgas, terremotos, etc, en consecuencia, no pueden
se predecibles. En este caso el comportamiento de la
variable cambia en forma impredecible, es decir, en forma
aleatoria.
Ejemplo: La variación de los precios del pescado debido

a cambios en la Corriente del Niño.
Y
9.4 ANÁLISIS DE LA TENDENCIA(A) RAZONES PARA

ESTUDIAR TENDENCIAS
a) El estudio de tendencias seculares nos permite escribir

un patrón histórico.
b) El estudio de tendencias seculares nos
permite proyectar patrones parados (o tendencias),
hacia el futuro.
121
c) En muchas situaciones, el estudio de la tendencia

secular de una serie temporal nos permite eliminar la
componente de tendencia de una serie.
(A) Ajuste de la tendencia lineal: (Método de mínimos

cuadrados)
Ecuación
ŷ = b0 + b1x
A partir de las ecuaciones normales ya estudiadas se
puede deducir:
b1 =
∑ xy − n x y
∑ x - nx
b 0 = y - b1 x
(B) Codificación de la variable temporal:
Se codifica la variable temporal para simplificar los álculos,

si la serie es impar el año medio es cero, y hacia atrás
van los valores negativos y hacia adelante valores positivos
consecutivos.
Ejemplo:
X
Año Año Codificado
1990 -3
91 -2
92 -1
93 0 Año Medio
94 1
95 2
96 3
Si la serie es par el año medio es cero, pero no aparece en

la serie, pues se consideran semestres.Ejemplo:
122
X X
Año Año Codificado
1991 -5
92 -3
93 -1 Año Medio = 0
94 1
95 3
1996 5
Ejemplo:
Número de intervenciones quirúrgicas en el Hospital María
Auxiliadora entre 1995 y 2002. Encontrar la ecuación que
describa la tendencia secular de las intervenciones.
AÑO (X) 1995 1 996 1997 1998 1 999 2000 2001 2 002
Núm ero de
98 105 116 119 135 156 177 208
intervenciones (Y)
Primero se elabora una tabla para los cálculos previos.
Año X Y XY X2
1995 -7 98 -686 49
1996 -5 105 -525 25
1997 -3 116 -348 9
1998 -1 119 -119 1
1999 1 135 135 1
2000 3 156 468 9
2001 5 177 885 25
2002 7 208 1456 49
TOTAL 0 1114 1266 168
Se calcula la pendiente (b1)
123
∑xy = 1266= 7,536

b1 = 2
∑x 168
b1 = 7,536
y la intersección
b0 = y
b0 =
∑y = 1114 = 139,25
n 8
Así, la secuencia lineal general, que describe la tendencia
secular de las intervenciones quirúrgicas es:
ŷ =b0 +b1x
ŷ = 139,25 + 7,536x
(C) Proyección de la ecuación de la tendencia
Si se tiene la ecuación de la tendencia, se puede proyectarla

para predecir la variable de interés.
Ejemplo:
Si ŷ = 139,25 + 7,536x y se desea estimar los cargamentos
para 1997.
Primero se desea convertir 1997 al valor de tiempo

codificado: como es una serie par, el intervalo es en
medio año.
x = 9 semestres
es decir, hay 9 semestres entre el “año medio” y 1997.
Sustituir este valor en la ecuación

ŷ = 139,25 + 7,536(9)
ŷ = 139,25 + 67,82
ŷ = 207 intervenciones quirurgicas
124
(E) Ajuste de la tendencia parabólica
Muchas veces el modelo lineal de ajuste no describe

adecuadamente el comportamiento histórico de los
datos. Para salvar este inconveniente se suele utilizar
una curva parabólica, cuya forma general es:
2
y$ = a + bx + cx
Donde:
y$ = estimación de la
variable dependiente
a, b, c = coeficientes de
regresión
x = valor codificado de la
variable temporal
Búsqueda de los valores a, b, c

Utilizamos el método de mínimos cuadrados, de las cuales
se deducen las siguientes relaciones:
∑ y = an + c ∑ x 2
∑ x2y = a∑ x 2+ c∑ x4
∑ xy
b=
∑ x2
Una vez hallados los valores a, b, c, los sustituimos en la
ecuación de segundo grado.
Ejemplo: En los últimos años, las infecciones

postoperatorias en cirugías de no programadas. La tabla
siguiente muestra información acerca de las infecciones de
este tipo que nos será de ayuda para determinar la
tendencia parabólica que describe estas infecciones.
125
Año 1997 1998 1999 2000 2001

Infecciones 13 24 39 65 106
Elaboramos una tabla para los datos previos
Año X Y X2 X4 XY X2 Y
1997 -2 13 4 16 -26 52
1998 -1 24 1 1 -24 24
1999 0 39 0 0 0 0
2000 1 65 1 1 65 65
2001 2 106 4 16 212 424
TOTAL 0 247 10 34 227 565
Sustituyendo los valores de la tabla en las ecuaciones

anteriores, obtenemos.
247 = 5a + 10c 1
565 = 10a + 34 c 2
227 3
b=
10
De 3 , nos damos cuenta que:
b = 22.7
Ahora debemos encontrar a y c resolviendo las ecuaciones

y
1.- Multiplique la ecuación por dos, y resta la ecuación
de la ecuación .
126
1 x2 494 = 10a + 20c

- 2 -565 = -10a - 34c
4 -71 = -14c
De la ecuación 4 , rápidamente encontramos el
valor de c
-14c = -71
c = -71/-14 c = 5.07
Sustituya el valor c en la ecuación

247 = 5a + 10c
247 = 5a + 10 (5.07)
247 = 5a + 50.7
196.3 = 5a
a = 39.3
Con los valores a, b, c se construye la ecuación de la

manera siguiente
2
y$ = a + bx + cx
y$ = 39.3 + 22.7x + 5.07x
¿Se ajusta la parábola a la serie temporal? Para esto se

debe graficar los datos y la curva.
127
Predicción
Suponga que deseamos predecir las ventas de relojes para
2002. El valor codificado de X es 3.
y$ = 39.3 + 22.7x + 5.07x 2
2
y$ = 3 9 .3 + 2 2 .7(3 ) + 5 .0 7(3 )
y$ = 3 9 .3 + 6 8 .1 + 4 5 .6 3
y$ = 1 5 3 .0 3
Para el año 2002 se estima 153 infecciones post operatorias

en cirugías no programadas.
Caso: Proyección de ventas En una Clínica de Lima, se

cuenta con un histórico de facturación mensual (en miles de
US $), desde enero de 1998 hasta junio del 2002.
Primero, se hace una evaluación de los pronósticos

empleando varios modelos, entre ellos:
medias móviles
medias ponderadas
pronóstico con suavizamiento exponencial
tendencia de pronóstico lineal
tendencia de pronóstico cuadrático
tendencia de pronóstico exponencial.
Para poder seleccionar el pronóstico más apropiado, se

puede considerar dos criterios:
MSE : Media de la Suma de los Errores (o

desviaciones) del pronóstico al cuadrado.
MAD : Desviación Absoluta Media, es el promedio de
los valores absolutos de todos los errores del
pronósticos.
128
El modelo de pronóstico puede ser evaluado por

cualquiera de los dos criterios, pero el MSE es
influenciada por los errores grandes (ya que está al
cuadrado).
Se puede experimentar con varios modelos y elegir el

que genere el menor MSE o MAD.
VENTAS (en miles US $)
MES 1998 1999 2000 2001 2002
Enero 441.00 451.00 352.50 309.50 542.00
Febrero 434.50 543.50 314.50 250.50 382.00
Marzo 502.00 403.50 410.50 605.00 535.00
Abril 657.50 492.00 276.50 434.00 494.50
Mayo 606.50 299.50 357.50 456.00 468.00
Junio 364.00 797.00 323.00 382.00 560.50
Julio 417.50 263.00 274.50 543.50
Agosto 582.00 838.00 248.50 441.00
Septiembre 469.50 398.00 307.50 466.00
Octubre 406.50 462.50 361.00 583.00
Noviembre 506.50 396.50 333.50 620.00
Diciembre 832.00 380.50 302.00 360.00
Comparación entre el pronóstico con Medias Móviles y Medias

Ponderadas
Se elige el modelo que MES Ventas PMM EP EPC

presente el menor Error 1 441.00
Cuadrático Medio: MSE
2 434.50 459.17 42.83 1834.69
3 502.00 531.33 126.17 15918.03
Pronóstico con 4 657.50 588.67 17.83 318.03
Medias Móviles para 5 606.50 542.67 -178.67 31921.78
tres meses 6 364.00 462.67 -45.17 2040.03
50 382.00 486.33 48.67 2368.44
51 535.00 470.50 24.00 576.00
52 494.50 499.17 -31.17 971.36
53 468.00 507.67 52.83 2791.36
54 560.50
Suma de errores al cuadrado 474093
Error Cuadrático Medio 9117.18
129
Promedios móviles para tres meses
Actual
800 Predicted
Forecast
700 Actual
Predicted
600 Forecast
Ventas
500
Moving Average
400 Length: 3
300 MAPE: 23.8

MAD: 106.7
200 MSD: 21531.4
0 10 20 30 40 50
Time
Pronóstico con Media Ponderada para tres meses
MES Ventas PMP EP EPC Ponderaciones

1 441.00 Mes 1 0.2
2 434.50 469.55 32.45 1053.00 Mes 2 0.3
3 502.00 566.25 91.25 8326.56 Mes 3 0.5
4 657.50 600.9 5.60 31.36
51 535.00 484.15 10.35 107.12
52 494.50 489.35 -21.35 455.82
53 468.00 519.55 40.95 1676.90
54 560.50
Suma de Errores al Cuadrado 291910.64
Error Cuadrático Medio 5613.67
130
Promedios móviles para tres meses

Row Period Forecast Lower Upper
1 55 507.667 220.064 795.269
Suavizamiento Exponencial para un a = 0.2

Row Period Forecast Lower Upper
1 55 494.661 248.938 740.384
Single Exponential Smoothing
850 Actual
Predicted
750 Forecast
Actual
650 Predicted
Forecast
Ventas
550
Smoothing Constant
450
Alpha: 0.200
350
MAPE: 22.8
MAD: 100.3
250 MSD: 17605.2
0 10 20 30 40 50
Time
Tendencia Lineal
Row Period Forecast
1 55 418.630
131
Tendencia Cuadrática
Row Period Forecast
1 55 418.630
Tendencia Cuadrática
Row Period Forecast
1 55 418.630
132
Tendencia Exponencial
Row Period Forecast
1 55 405.787
¿Qué modelo se elige?

De acuerdo a lo expuesto, se puede tomar el MSE o el MAD.
Trabajaremos con el MAD. Veamos un resumen.
133
Modelo Forecast MAD

Promedio móviles 507.67 106.70
Suavizamiento exponencial 494.66 100.30
Tendencia lineal 418.63 106.70
Tendencia cuadrática 531.64 93.10
Tendencia exponencial 405.79 105.10
El modelo más apropiado es la Tendencia Cuadrática De

acuerdo a nuestro análisis, aún no se puede inferir que para
el periodo 55 (es decir julio del 2002), se proyecte una
ventas de 531,636.
Como se dispone de suficiente información, podemos

evaluar la estacionalidad mensual y hacer una proyección de
ventas más adecuada.
Procederemos a calcular el Índice de Estacionalidad
Mensual, para lo cual se ha tomado un intervalo de 3 meses
como intervalo.
Promedio Indice estacional Promedio Indice estacional

MES Ventas MES Ventas
Móvil 3 meses mensual Móvil 3 meses mensual
Ene-1998 441.00 Abr-2000 276.50 348.17 0.79415988511
Feb-1998 434.50 459.17 0.94627949183 May-2000 357.50 319.00 1.12068965517
Mar-1998 502.00 531.33 0.94479297365 Jun-2000 323.00 318.33 1.01465968586
Abr-1998 657.50 588.67 1.11693091733 Jul-2000 274.50 282.00 0.97340425532
May-1998 606.50 542.67 1.11762899263 Ago-2000 248.50 276.83 0.89765201686
Jun-1998 364.00 462.67 0.78674351585 Sep-2000 307.50 305.67 1.00599781897
Jul-1998 417.50 454.50 0.91859185919 Oct-2000 361.00 334.00 1.08083832335
Ago-1998 582.00 489.67 1.18856364874 Nov-2000 333.50 332.17 1.00401404917
Sep-1998 469.50 486.00 0.96604938272 Dic-2000 302.00 315.00 0.95873015873
Oct-1998 406.50 460.83 0.88209764919 Ene-2001 309.50 287.33 1.07714617169
Nov-1998 506.50 581.67 0.87077363897 Feb-2001 250.50 388.33 0.64506437768
Dic-1998 832.00 596.50 1.39480301760 Mar-2001 605.00 429.83 1.40752229546
Ene-1999 451.00 608.83 0.74076101834 Abr-2001 434.00 498.33 0.87090301003
Feb-1999 543.50 466.00 1.16630901288 May-2001 456.00 424.00 1.07547169811
Mar-1999 403.50 479.67 0.84120917304 Jun-2001 382.00 460.50 0.82953311618
Abr-1999 492.00 398.33 1.23514644351 Jul-2001 543.50 455.50 1.19319429199
May-1999 299.50 529.50 0.56562795090 Ago-2001 441.00 483.50 0.91209927611
Jun-1999 797.00 453.17 1.75873482898 Sep-2001 466.00 496.67 0.93825503356
Jul-1999 263.00 632.67 0.41570073762 Oct-2001 583.00 556.33 1.04793289395
Ago-1999 838.00 499.67 1.67711807872 Nov-2001 620.00 521.00 1.19001919386
Sep-1999 398.00 566.17 0.70297321166 Dic-2001 360.00 507.33 0.70959264126
Oct-1999 462.50 419.00 1.10381861575 Ene-2002 542.00 428.00 1.26635514019
Nov-1999 396.50 413.17 0.95966115369 Feb-2002 382.00 486.33 0.78546949966
Dic-1999 380.50 376.50 1.01062416999 Mar-2002 535.00 470.50 1.13708820404
Ene-2000 352.50 349.17 1.00954653938 Abr-2002 494.50 499.17 0.99065108514
Feb-2000 314.50 359.17 0.87563805104 May-2002 468.00 457.10 1.02384701502
Mar-2000 410.50 333.83 1.22965551672 Jun-2002 408.80
134
Luego se calcula el Índice de Estacionalidad Mensual

promediando los índices mensuales de todos los años
Año Ene Feb Mar Abr May Jun Jul Ago Sep Oct Nov Dic
1998 0.9463 0.9448 1.1169 1.1176 0.7867 0.9186 1.1886 0.9660 0.8821 0.8708 1.3948
1999 0.7408 1.1663 0.8412 1.2351 0.5656 1.7587 0.4157 1.6771 0.7030 1.1038 0.9597 1.0106
2000 1.0095 0.8756 1.2297 0.7942 1.1207 1.0147 0.9734 0.8977 1.0060 1.0808 1.0040 0.9587
2001 1.0771 0.6451 1.4075 0.8709 1.0755 0.8295 1.1932 0.9121 0.9383 1.0479 1.1900 0.7096
2002 1.2664 0.7855 1.1371 0.9907 1.0238
Total 4.0938 3.4725 4.6155 3.8909 3.7856 3.6029 2.5823 3.4869 2.6472 3.2326 3.1537 2.6789
Media 1.0235 0.8838 1.1121 1.0016 0.9807 1.0974 0.8752 1.1689 0.9033 1.0287 1.0061 1.0184
I Típico 1.0150 0.8765 1.1029 0.9933 0.9726 1.0884 0.8680 1.1592 0.8959 1.0202 0.9978 1.0101
La suma de las medias debería dar 12.000000 pero por

errores de redondeo da 12.099513 por que hay aplicar un
factor de corrección igual a 0.991775427 (obtenido de dividir
12/12.099513) con el que se obtiene el INDICE TÏPICO.
9.5 ELIMINACIÓN DE LA ESTACIONALIDAD
Indice Típico Ventas Indice Típico Ventas

MES Ventas MES Ventas
de Estacionalidad Desestacionalizadas de Estacionalidad Desestacionalizadas
Ene-1998 441.00 1.0150347597 434.47 Abr-2000 276.50 0.99332087893 278.36
Feb-1998 434.50 0.87648360289 495.73 May-2000 357.50 0.97258760947 367.58
Mar-1998 502.00 1.10290746607 455.16 Jun-2000 323.00 1.08839199380 296.77
Abr-1998 657.50 0.99332087893 661.92 Jul-2000 274.50 0.86802445215 316.24
May-1998 606.50 0.97258760947 623.59 Ago-2000 248.50 1.15924489482 214.36
Jun-1998 364.00 1.08839199380 334.44 Sep-2000 307.50 0.89588944962 343.23
Jul-1998 417.50 0.86802445215 480.98 Oct-2000 361.00 1.02021148346 353.85
Ago-1998 582.00 1.15924489482 502.05 Nov-2000 333.50 0.99784212593 334.22
Sep-1998 469.50 0.89588944962 524.06 Dic-2000 302.00 1.01006128315 298.99
Oct-1998 406.50 1.02021148346 398.45 Ene-2001 309.50 1.01503475972 304.92
Nov-1998 506.50 0.99784212593 507.60 Feb-2001 250.50 0.87648360289 285.80
Dic-1998 832.00 1.01006128315 823.71 Mar-2001 605.00 1.10290746607 548.55
Ene-1999 451.00 1.01503475972 444.32 Abr-2001 434.00 0.99332087893 436.92
Feb-1999 543.50 0.87648360289 620.09 May-2001 456.00 0.97258760947 468.85
Mar-1999 403.50 1.10290746607 365.85 Jun-2001 382.00 1.08839199380 350.98
Abr-1999 492.00 0.99332087893 495.31 Jul-2001 543.50 0.86802445215 626.13
May-1999 299.50 0.97258760947 307.94 Ago-2001 441.00 1.15924489482 380.42
Jun-1999 797.00 1.08839199380 732.27 Sep-2001 466.00 0.89588944962 520.15
Jul-1999 263.00 0.86802445215 302.99 Oct-2001 583.00 1.02021148346 571.45
Ago-1999 838.00 1.15924489482 722.88 Nov-2001 620.00 0.99784212593 621.34
Sep-1999 398.00 0.89588944962 444.25 Dic-2001 360.00 1.01006128315 356.41
Oct-1999 462.50 1.02021148346 453.34 Ene-2002 542.00 1.01503475972 533.97
Nov-1999 396.50 0.99784212593 397.36 Feb-2002 382.00 0.87648360289 435.83
Dic-1999 380.50 1.01006128315 376.71 Mar-2002 535.00 1.10290746607 485.08
Ene-2000 352.50 1.01503475972 347.28 Abr-2002 494.50 0.99332087893 497.83
Feb-2000 314.50 0.87648360289 358.82 May-2002 468.00 0.97258760947 481.19
Mar-2000 410.50 1.10290746607 372.20 Jun-2002 408.80 1.08839199380 375.60
135
Tendencia de Ventas Desestacionalizadas
Utilizando los datos desestacionalizadas se procede a

construir un modelo de pronóstico
Las proyecciones de las ventas corregidas, quedarán de la

siguiente forma:
Periodo Mes Pronóstico Corregido

55 Jul-2002 507.27
56 Ago-2002 516.87
57 Sep-2002 526.86
58 Oct-2002 537.24
59 Nov-2002 548.02
136

Manual de Estadística Aplicada

Hochgeladen von

Dokumentinformationen

Copyright

Verfügbare Formate

Dieses Dokument teilen

Dokument teilen oder einbetten

Freigabeoptionen

Stufen Sie dieses Dokument als nützlich ein?

Sind diese Inhalte unangemessen?

Copyright:

Verfügbare Formate

Manual de Estadística Aplicada

Hochgeladen von

Copyright:

Verfügbare Formate

MANUAL DE

Jorge Córdova Egocheaga

1ra Edición: Marzo del 2003

Estudios Doctorales en Ciencias Administrativas (UNFV), Maître

Los derechos intelectuales de esta obra son de propiedad exclusiva de

Toda reproducción total o parcial del contenido de esta obra requerirá la

La estadística se divide en DESCRIPTIVA e INFERENCIAL

1.1.1 Tipos de estimaciones

Un sólo número se utiliza para estimar un

Para el próximo mes se espera que las ventas sean

B)Estimación por intervalo

Un intervalo de valores se utiliza para estimar un

Para el próximo mes se espera que el número de

1.1.2 CRITERIOS PARA SELECCIONAR UN ESTIMADOR:

Coherencia: si al aumentar n, el estimador se

Eficiencia: proporciona menor error estándar que

Suficiente: utiliza mayor cantidad de la

Insesgado (o imparcial): si el estimador tiende a

1.2 LAS ESTIMACIONES PUNTUALES

(A) De la media poblacional

La media muestral estima a la media poblacional µ

(B) De la varianza y la desviación estándar

S2 estima ____ σ2 S estima ____ σ

(C) De la proporción poblacional

1.3 LOS INTERVALOS DE CONFIANZA

Nivel de confianza: probabilidad que asociamos con

Intervalos de confianza: es el alcance de la estimación

1.4 INTERVALO PARA LA MEDIA

1.4.1 A partir de muestras grandes

En un estudio de mercado, se realizó una encuesta a

Pr{700.80 ≤ µ ≤ 779.20} = 0.95

Hay 0,95 de confianza que el intervalo hallado se

1.4.2 A partir de muestras pequeñas

Se desea estimar el tiempo medio de estancia

Hay 0,90 de confianza que el intervalo construido se

Pr {28 ,80 ≤ µ ≤ 53 ,74 } = 0,95

Hay 0,95 de confianza que el intervalo construido se

Nueve automóviles del mismo modelo fueron

estándar de 1,14 Kms. Construya e interprete un

Hay 0,95 de confianza que el intervalo hallado se

1.5 INTERVALO PARA LA PROPORCIÓN

Suponga que 1600 de 2000 trabajadores sindicalizados que

votar por unirse a una federación. Si se utiliza un nivel de

1600 (0,80)(1− 0,80)

Pr{0,782 < π < 0,818} = 0,95

Hay 0,95 de confianza que el intervalo calculado pertenece

1.6 AJUSTE PARA POBLACIONES FINITAS

El error estándar de la estimación sufre un ajuste, cuando se

Error estándar de la media

Error estándar de la proporción

Como la muestra es mayor a 5%, procede el ajuste.

Hay 0,95 de confianza que el intervalo elaborado pertenezca

Hay 300 técnicos en una gran empresa metal mecánica. Una

Hay 0,95 de confianza que el intervalo construido pertenezca

1.7 EL TAMAÑO DE LA MUESTRA Y EL ICA.

A) ¿De qué depende el tamaño de la muestra (n)?

A fin de conocer el gasto mensual en medicinas por familia,

Para proporciones se calcula a partir de la formula

Un congresista desea determinar su popularidad en zona

1.8 INTERVALO PARA LA VARIANZA

El número de ventas realizadas durante 10 días (n = 10)

Datos:  9(9) 9(9) 

Pr{4.7875 ≤ σ 2 ≤ 24,3609} = 0.90

Hay 0,90 de confianza que el intervalo hallado se encuentre

S2 estima σ2 S estima σ