Beruflich Dokumente
Kultur Dokumente
2 Distribuciones muéstrales.
2.1 Introducción.
2.2 Distribución muestral de
la media con varianza
conocida.
2.3 Teorema del límite
central.
2.4 Distribución muestral de
la proporción.
2.5 Distribución muestral de
la diferencia de medias y de
diferencia de proporciones.
2.6 Distribución muestral de
la media con varianza
desconocida.
2.7 Distribución muestral de
la diferencia de medias.
2.8 Distribución muestral de
la varianza.
2.9 Distribución muestral de
la razón de varianzas.
2.10 Aplicación en el caso
específico.
3 Teoría de la estimación.
3.1 Introducción.
3.2 Estimación y propiedades
de los estimadores.
3.3 Estimación por intervalo.
3.4 Intervalo de confianza
para la media con varianza
conocida y desconocida.
3.5 Intervalo de confianza
para una proporción y
CUADERNILLO DE ESTADISTICA
diferencia de proporciones.
3.6 Intervalo de confianza
para diferencias de medias
con varianza conocida y
desconocida.
3.7 Intervalo de confianza
para una varianza.
3.8 Intervalo de confianza
para una razón de varianzas.
3.9 Aplicación en el caso
específico.
4 Pruebas de hipótesis.
4.1 Conceptos de la teoría
de prueba de hipótesis.
4.2 Errores tipo I y II.
4.3 Prueba de hipótesis para
una media con varianza
conocida y desconocida.
4.4 Prueba de hipótesis para
una proporción y diferencia
de proporciones.
4.5 Prueba de hipótesis para
diferencia de medias con
varianzas conocidas y
desconocidas.
4.6 Prueba de hipótesis para
una varianza
4.7 Prueba de hipótesis para
una razón de varianzas.
4.8 Prueba de bondad de
ajuste.
4.9 Aplicación en el caso
específico.
n
fiMi ( n1−1 ) s21 + ( n2 −1 ) s 22
x́=∑ ¿ S 2
=
i=1 ∑ fi n1+ n
2−2
n
Xi
x́=∑ ¿
n 2
i=1
S2 S
b=
∑ xy−n x́ ý
∑ x 2−n x́ 2 √
σ x́ 1- x́ 2¿=S x y=√1∑+y −a2∑ y−b∑ x y
n 1 n2
n−2
2
x−μ
Z= σ
p q p q
a= ý−b x́ r = √ r n1 √
σ ṕ1− ṕ2 = 2 1 1 + 2 2
n2
ESTADISTICA:
La estadística es la ciencia cuyo objetivo es reunir información cuantitativa
relacionada a individuos, grupos, series de hechos, entre otros. Gracias al análisis
de estos datos se pueden deducir algunos significados precisos o algunas
previsiones para el futuro. La estadística, en general, es la ciencia que trata la
recopilación, la organización, la presentación, el análisis y la interpretación de
datos numéricos con el fin de realizar una toma de decisiones más efectiva.
Importancia
La estadística resulta muy útil no sólo para recopilar y describir datos, sino
también para interpretar la información obtenida, que puede ser aprovechada para
demostrar la evolución de un fenómeno a través de cierto tiempo.
División de la Estadística
Conceptos básicos:
Nominal: son variables presentadas sin orden ni jerarquía. Ej. Estado civil,
preferencia por una marca, sexo, lugar de residencia.
Ordinal: son variables organizadas de acuerdo con una clasificación. Ej.
grado de estudios, días de la semana, calidad de la atención, nivel
socioeconómico.
B) Elaboración de un modelo.
Se establece un modelo teórico de comportamiento de las variables de estudio. En
ocasiones no es posible diseñar el modelo hasta realizar un estudio previo.
Los posibles modelos son Normal, Binomial, Poisson, Uniforme, etc.
C) Extracción de la muestra.
Se usa alguna técnica de muestreo o un diseño experimental para obtener
información de una pequeña parte de la población.
EJERCICIO:
RANGO:
5 8 8 11 11 11 14 16 = 5-16 =11
MODA: 11
CUADERNILLO DE ESTADISTICA
MEDIANA:
11+11=22/2=11
MEDIA ARITMETICA:
n
2 xi 5+8+ 8+11+11+ 11+14+16 84
μ =∑ ¿ =¿ = =¿ ¿10.5
i =1 n 8 8
VARIANZA:
n
σ 2=∑ ¿ ¿ ¿ ¿
i−1
+¿ ¿10.75
DESVIACION ESTANDAR:
“DATOS AGRUPADOS”
Es agrupar la información con la que se cuenta, e ir clasificando por características
que nos faciliten manejar y tener el control de los datos.
En los datos agrupados se pueden calcular, su media y varianza, pero sería útil
proporcionar además una idea visual de la información que contienen los datos.
Una ordenación de datos es una de las formas más sencillas de presentarlos:
Organiza los valores en orden ascendente o descendente.
La ordenación de datos ofrece varias ventajas con respecto a los datos sin
procesar.
• Podemos identificar los valores mayor y menor rápidamente.
n
fimi 1662
x́=∑ ¿ = =20.770
i=1 ∑ fi 80
CUADERNILLO DE ESTADISTICA
n
fi m2 36306.02
s2=∑ −x́ 2= −¿ ¿
i =1 n 80
s= √ s2 =√ 22.43=4.73
EJERCICIO
A) encuentre la media aritmética
b) determine la varianza
c) encuentre la desviación estándar
1820
x=̅ 42 =43.3
88,050
42
– ( 43.3) = 2,096.42-1,874.89
2
S2=221.53
S= √ 221.53
S=14.88
S= √ 221.53
S=14.88
Clases ventas f M fM F M2
dólares
10-20 1 15 15 225
20-30 8 25 200 5,000
30-40 10 35 350 12,250
40-50 9 45 405 18,225
50-60 8 55 440 24,200
60-70 4 65 260 16,900
70-80 2 75 150 11,250
CUADERNILLO DE ESTADISTICA
UNIDAD II
DISTRIBUCIONES MUESTRALES
EJERCICIO
DISTRIBUCIONES MUESTRALES
Una población normal tiene media=80 y desviación estándar=14
90−80
A) M=80 Z= 14 =0.7142=0.2611
σ =14
P (75<X<90)
75−80
P (90<X<80) Z= 14
=0.3571=0.1368
0.2611+0.168 R= 39.79%
C) M=80
σ =14
70−80
P (55<X<70) Z= 14
=0.7142 =.2611
.2611-.1368= .1243
R= 12.43%
CUADERNILLO DE ESTADISTICA
EJERCICIO
A) Se mayor que 63
B) Menor que 56
C) Este entre 56 y 63
C) P(56<X<63)
0.3938+.2734=0.3132
CUADERNILLO DE ESTADISTICA
0.3132X100= R=31.32%
Propiedades
E(X) = q, V(X) = q (1 - q)
Sigue una distribución normal estándar con media cero y varianza unitaria, cuando
el tamaño de la muestra n es grande.
EJEMPLO
ρ́− p
ρ́−ρ
ρ =.80 formula Z= σ ρ́ =¿ Z = ρq =
√ n
ρ́ =.775
CUADERNILLO DE ESTADISTICA
1550
n=2000 P ( A ) 2000 =.775
q=.225
.775−.80
Z= ( .775 ) (.225) = -2.67
√ 2000
Para conocer la distribución muestral de las diferencias entre las medias se debe
saber si las varianzas poblacionales son conocidas o desconocidas, y en caso de
que sean desconocidas, se debe saber si son iguales o diferentes. Cada uno de
estos tres casos se analizará por separado.
Por lo tanto, con base en la expresión anterior se pueden realizar inferencias con
respecto a la diferencia de medias poblacionales, bajo el supuesto de que las
varianzas sean conocidas. Si además, son iguales, la expresión anterior se puede
expresar como:
Cuando las varianzas son desconocidas, se debe realizar previamente una prueba
estadística para verificar si éstas son iguales o diferentes. Para realizar esta
prueba debemos hacer uso de la distribución F para verificar si la relación de
varianzas es igual a uno o diferente de uno.
Para cada una de las dos muestras se definen sus respectivas varianzas como:
CUADERNILLO DE ESTADISTICA
Además tienen distribuciones chi cuadrado con n1–1 y n2–1 grados de libertad
respectivamente. Por lo tanto su suma también sigue otra distribución chi
cuadrado con n1+n2–2 grados de libertad. Es decir:
Ahora bien, si Z es una variable normal (0,1) y Y tiene una distribución chi
cuadrado con n grados de libertad, entonces la variable tiene una distribución t con
n grados de libertad. Para nuestro caso la variable Z corresponde a la distribución
de la diferencia de las dos medias, con varianzas conocidas, y la variable chi
cuadrado corresponde a la variable Y acabada de definir. Por lo tanto
EJEMPLO
De una población se toma una muestra de 40 observaciones. La media muestral
es de 102 y la desviación estándar de 5. De otra población se toma una muestra
de 50 observaciones y la media muestral es ahora 99 y la desviación estándar es
6. Calcule el valor estadístico de la prueba.
Supongo que las medias poblacionales son iguales a las varianzas.
x͞ 1= 102 Z=¿ ¿ ¿= 99
S1=5
(102−99)(0) 3
Z= = =2.54
1.18 1.18
S2=6
2
S2 S2 31.13 31.13
σ x1 x 2
√ +
n1 n 2
=
√ 40
+
50
=√ 0.77+0.62= √1.3926=1.18
.5+.4945=0.9945
.1-0.9945=.0055
CUADERNILLO DE ESTADISTICA
DISTRIBUCION DE PROBABILIIDAD
T DE STUDENT
DISTRIBUCION DE PROBABILIDAD:
Con respecto a una variable aleatoria es una función que asigna a cada suceso
definido sobre la variable aleatoria la probabilidad de que dicho suceso ocurra. La
distribución de probabilidad está definida sobre el conjunto de todos los eventos
rango de valores de la variable aleatoria.
Cuando la variable aleatoria toma valores en el conjunto de los números reales, la
distribución de probabilidad está completamente especificada por la función de
distribución, cuyo valor en cada real x es la probabilidad de que la variable
aleatoria sea menor o igual que x.
T DE STUDENT:
Permite decidir si dos variables aleatorias normales y con la misma varianza
tienen medias diferentes. Dada la ubicuidad de la distribución normal puede
aplicarse en numerosos contextos, para comprobar si la modificación en las
condiciones de un proceso (humano o natural) esencialmente aleatorio producen
una elevación o disminución de la media poblacional. Esto opera decidiendo si una
diferencia en la media muestral entre dos muestras es estadísticamente
significativa, y entonces poder afirmar que las dos muestras corresponden a
distribuciones de probabilidad de media poblacional distinta, o por el contrario
afirmar que la diferencia de medias puede deberse a oscilaciones estadísticas.
La eficacia aumenta con el número de datos del que constan las dos muestras, en
concreto del número de grados de libertad conjunto de las dos muestras, este
CUADERNILLO DE ESTADISTICA
número viene siendo Ni el tamaño muestral, es decir, el número de datos en cada
muestral.
1.- Suponga que los datos siguientes se seleccionan al azar de una población de
valores normalmente distribuidos y realicen un intervalo de confianza del 95%para
calcular la media poblacional.
40,51,43,48,44,57,54,39,42,48,45,39 y 43
n
X i 40+51+ 43+48+ 44+57 +54+39+ 42+48+ 45+39+ 43 593
χ́ =∑ = = = 45.61
i=1 n 13 13
n
2
( x −xi )
s =∑ =¿ ¿
i=1 n−1
+¿ ¿
+¿ ¿
s= √ s2 =√ 32.42=5.69
∝=1−.95 %=0.05÷ 2=0.025
gl=n−1=13−1=12
5.69
S x= =1.57
√ 13
I ∝=x ±t S x
I ∝=45.61+ ( 2.179 ) (1.57 )=¿
45.61+3.42=49.03Límite superior
45.61−3.42=42.12Límite inferior
(42.12, 49.03)
CUADERNILLO DE ESTADISTICA
EJERCICIO
Si se supone que X esta normalmente distribuida utiliza la siguiente información
para calcular un intervalo de confianza de 90% para estimar la media poblacional.
n
Xi
χ́ =∑ 313, 320, 319, 340, 325, 310, 321, 329, 317, 311, 307, 318.
i=1 n
313 ,320 , 319 ,340 , 325 , 310 ,321 , 329 ,317 ,311 , 307 , 318.
= 319.16
12
n
2= ∑ ¿¿¿
S i=1
¿
¿¿
¿
37.9456+0.7056+0.0256+ 434.305634 .1056+83.9056+ 3.3856+96.82564 .6656+66.5856+ ¿147.8656+ 1.345
12−1
911.6672
= 11 = 82.87√ 82.87= 9.10
x́ =319.16
σ 2=82.87
σ =9.10
gl= n-1
gl= 12-1=11
∝ 1-.90%= 0.2/2=0.05
9.10
IC=319.16+ (1.796) (2.6269)S x́ = =2.6269
√ 12
319.16 + 4.7179=323.8779Límite Superior
319.16 – 4.7179=314.4421Límite Inferior
(314.4, 323.8)
CUADERNILLO DE ESTADISTICA
EJERCICIO
Use información en base a cada una de las siguientes muestras para calcular el
intervalo de confianza para estimar la proporción de la población.
A)n= 44 y p= .51 calcule en IC 99%
B)n= 300 y p= .82 calcule un IC 95%
C)n= 1150 y p= .48 calcule un IC 90%
D)n= 95 y p= .32 calcule un IC 88%
A)n=44
p=.51
σρ=x=
√( .51 ) (.49) =0.075
44
IC= p ± zσx
IC=.51± (2.57) (.075)
=.51+0.19=0.7
=.51-0.19=.32
B)n=300
p=.82
σp=√ ( .82 ) ¿ ¿ ¿
IC=.82± (1.96) (.022)
=.82+0.043=0.863
=.82-0.043=0.777
C)n=1150
p=.48
CUADERNILLO DE ESTADISTICA
σp=
√( .48 ) (.52) =0.014
1150
IC=.48± (1.65) (0.014)
=.48+0.023=.50
=.48-0.023=.45
D)n=95
p=.32
σp=
√( .32 ) (.68) =0.047
95
IC=.32± (1.56) (0.047)
=.32+.073=0.39
=.32-.073=0.24
UNIDAD 3
Estimador
En estadística, un estimador es un estadístico (esto es, una función de la muestra) usado
para estimar un parámetro desconocido de la población. Por ejemplo, si se desea conocer el
precio medio de un artículo (el parámetro desconocido) se recogerán observaciones del
precio de dicho artículo en diversos establecimientos (la muestra) y la media aritmética de
las observaciones puede utilizarse como estimador del precio medio.
Para cada parámetro pueden existir varios estimadores diferentes. En general, escogeremos
el estimador que posea mejores propiedades que los restantes, como insesgadez, eficiencia,
convergencia y robustez (consistencia).
que un estimador sea insesgado o centrado, es decir, que su sesgo sea nulo por ser su
esperanza igual al parámetro que se desea estimar.
Por ejemplo, si se desea estimar la media de una población, la media aritmética de la
muestra es un estimador insesgado de la misma, ya que su esperanza (valor esperado) es
igual a la media de la población.
Eficiencia
Diremos que un estimador es más eficiente o más preciso que otro estimador, si la varianza
del primero es menor que la del segundo.
La eficiencia de los estimadores está limitada por las características de la distribución de
probabilidad de la muestra de la que proceden.
Si un estimador alcanza esta cota mínima, entonces se dice que el estimador es de mínima
varianza.
Consistencia
Robustez
El estimador será un estimador robusto del parámetro θ si la vulneración de los supuestos
de partida en los que se basa la estimación (normalmente, atribuir a la población un
determinado tipo de función de distribución que, en realidad, no es la correcta), no altera de
manera significativa los resultados que éste proporciona.
Suficiencia
Se dice que un estimador es suficiente cuando resume toda la información relevante
contenida en la muestra, de forma que ningún otro estimador pueda proporcionar
información adicional sobre el parámetro desconocido de la población.
Invariancia
Se dice que un estimador es invariante cuando el estimador de la función del parámetro
coincide con la función del estimador del parámetro,
n=212P̅ =.16
34
P( A) =.16
212
P = IC =P̅ ± Zσ P̅
√ pq √( .16 ) (.84)
IC= .16 ± (1.65) (0.25)σ P̅ = n σ P̅ ¿ 212 =.025
PROBLEMAS
Usen la información sobre cada una de las siguientes muestras para calcular el
intervalo de confianza para estimar la proporción de la población.
a) n=44 ṕ=.51 ; Calcule un Intervalo de Confianza del 99%
n= 44 p= IC∝ = ṕ ±Z√ ṕ
ṕ=.51 IC= .51± (2.57) (0.075)
IC= .51+ 0.19= 0.7 Limite Superior
CUADERNILLO DE ESTADISTICA
P̅ =.32
.32 ± (1.56) (.047)
(.247, .393)
EJERCICIOS
Use la siguiente Información para construir intervalo de confianza de 90%, 95% y
99% para estimar la media poblacional de los siguientes datos que provienen de
una población normalmente distribuida.
12.3, 11.6, 11.9, 12.8, 12.5, 11.4, 12.0, 11.7, 11.8, 12.3
n
X i 12.3 , 11.6 , 11.9 , 12.8 , 12.5 ,11.4 , 12.0 ,11.7 ,11.8 ,12.3
χ́ =∑ =12.03
i=1 n 10
n
( x −xi )
s2=∑
i=1 n−1
CUADERNILLO DE ESTADISTICA
¿¿¿
¿
σ 2= .191
σ = .4370
(11.7, 12.2)
∝= 1-.95%= 0.05/2= 0.025
.4370
IC= 12.03+ (2.262) (0.1381) S x́ = =0.1381
√10
12.03+0.3123= 12.3423 Límite Superior
12.03-0.3123= 11.7177 Límite Inferior
CUADERNILLO DE ESTADISTICA
(11.7, 12.3)
P = IC =P̅ ± Zσ P̅
σ P̅ = √
pq
σ P̅ ¿
√( .71 ) (.29)
IC= .71±(1.65) (0.026) n 284
=0.026
.71+ 0.0429= 0.7529.71- 0.0429= 0.6671
(0.66, 0.75)
CUADERNILLO DE ESTADISTICA
b) n= 1,250
ṕ= .48
P = IC =P̅ ± Zσ P̅
σ P̅ = √
pq √( .48 )(.52)
n P̅
IC= .48±(1.96) (0.014) σ ¿
1,250
=0.014
.48+ 0.0274= 0.5074
.48- 0.0274= 0.4526
(0.45, 0.50)
UNIDAD 4
PRUEBA DE HIPOTESIS
CUADERNILLO DE ESTADISTICA
Afirmación acerca de los parámetros de la población.
Etapas Básicas enPruebas de Hipótesis.
Al realizar pruebas de hipótesis, se parte de un valorsupuesto (hipotético) en
parámetro poblacional. Después de recolectar una muestra aleatoria, se compara
la estadísticamuestral, así como la media (x), con el parámetro hipotético, se
compara con una supuesta media poblacional (). Después se acepta o se rechaza
el valor hipotético, según proceda. Se rechaza el valor hipotético sólo si el
resultado muestral resulta muy poco probable cuando la hipótesis es cierta.
Etapa 1.- Planear la hipótesis nula y la hipótesis alternativa. La hipótesis nula (H0)
es el valor hipotético del parámetro que se compra con el resultado muestral
resulta muy poco probable cuando la hipótesis es cierta.
Etapa 2.-Especificar el nivel de significancia que se va a utilizar. El nivel de
significancia del 5%, entonces se rechaza la hipótesis nula solamente si el
resultado muestral es tan diferente del valor hipotético que una diferencia de esa
magnitud o mayor, pudiera ocurrir aleatoria mente con una probabilidad de 1.05 o
menos.
Etapa 3.- Elegir la estadística de prueba. La estadística de prueba puede ser la
estadística muestral (el estimador no segado del parámetro que se prueba) o una
versión transformada de esa estadística muestral. Por ejemplo, para probar el
valor hipotético de una media poblacional, se toma la media de una muestra
aleatoria de esa distribución normal, entonces es común que se transforme la
media en un valor z el cual, a su vez, sirve como estadística de prueba.
Consecuencias de las Decisiones en Pruebas de Hipótesis.
La hipótesis nula La
es verdadera hipótesis
nula es
falsa
Hipótesis Estadística:
CUADERNILLO DE ESTADISTICA
Al intentar alcanzar una decisión, es útil hacer hipótesis (o conjeturas) sobre la
población aplicada.
Tales hipótesis, que pueden ser o no ciertas, se llaman hipótesis estadísticas.
Son, en general, enunciados acerca de las distribuciones de probabilidad de las
poblaciones.
Hipótesis Nula.
En muchos casos formulamos una hipótesis estadística con el único propósito de
rechazarla o invalidarla. Así, si queremos decidir si una moneda está trucada,
formulamos la hipótesis de que la moneda es buena (o sea p = 0,5, donde p es la
probabilidad de cara).
Analógicamente, si deseamos decidir si un procedimiento es mejor que otro,
formulamos la hipótesis de que no hay diferencia entre ellos (o sea. Que cualquier
diferencia observada se debe simplemente a fluctuaciones en el muestreo de la
misma población). Tales hipótesis se suelen llamar hipótesis nula y se denotan por
Ho.
Para todo tipo de investigación en la que tenemos dos o más grupos, se
establecerá una hipótesis nula.
La hipótesis nula es aquella que nos dice que no existen diferencias significativas
entre los grupos.
Por ejemplo, supongamos que un investigador cree que si un grupo de jóvenes se
somete a un entrenamiento intensivo de natación, éstos serán mejores nadadores
que aquellos que no recibieron entrenamiento. Para demostrar su hipótesis toma
al azar una muestra de jóvenes, y también al azar los distribuye en dos grupos:
uno que llamaremos experimental, el cual recibirá entrenamiento, y otro que no
recibirá entrenamiento alguno, al que llamaremos control. La hipótesis nula
señalará que no hay diferencia en el desempeño de la natación entre el grupo de
jóvenes que recibió el entrenamiento y el que no lo recibió.
Una hipótesis nula es importante por varias razones:
Es una hipótesis que se acepta o se rechaza según el resultado de la
investigación.
El hecho de contar con una hipótesis nula ayuda a determinar si existe una
diferencia entre los grupos, si esta diferencia es significativa, y si no se debió al
azar.
EJERCICIO
Un desarrollador considera 2 ubicaciones alternadas para un centro comercial
regional dado que el ingreso domestico de la comunidad es una consideración
importante en la selección del sitio, el desarrollador desea probar la hipótesis nula
de que no existe diferencia entre los montos de ingreso domestico medio que de
las 2 comunidades. En consonancia con esta hipótesis se supone que la
desviación estándar del ingreso domestico también es igual en los dos
comunidades.
En una muestra de n1=30 hogares de la primera comunidad el ingreso anual
promedio es de x̅ 1=45,000 con una desviación estándar S1= 1800. En una muestra
de n2 =40 hogares de la segunda comunidad x̅ 2=44,600 y S2=2,400. Pruebe la
hipótesis nula el nivel de significancia del 5%.
2 ( n1 −1 ) S 21+(n2−1) S 22
S=
n1 +n2 −2
( 30−1 ) 1,8002 + ( 40−1 ) 2,4002 318,600,000
S2 = 68
= 4, 685,294
30+ 40−2
2
S2 S2
σ x1 x 2
√ +
n1 n 2
4,685,294 4,685,294
= √ 30
+
40
=√ 156,176−117,132.35=522.78
EJERCICIO
.1285 .1285
√ 12
+
10
=.1534
EJERCICIO
Una empresa desea saber cómo está el ausentismo en sus trabajadores. A
continuación se da el número de días de ausencia durante una quincena en una
muestra de diez trabajadores 4, 1, 2, 2, 1, 2, 2, 1, 0 y 3.
A) Determine la media y la desviación estándar de la muestra
B) Cuál es la media poblacional y cuál es la mejor estimación de ese valor
C) Proporcione un intervalo de confianza de 95% para la media poblacional
CUADERNILLO DE ESTADISTICA
D) Explique por qué se usa la distribución “t” como punto del intervalo de
confianza
E) Es razonable concluir que el trabajador promedio no falto ningún día
durante la quincena
n
X i 4+ 1+ 2+ 2+ 1+ 2+ 2+ 1+ 0+3 18
χ́ =∑ = = = 1.8
i+1 n 10 10
n
2
( x −xi )
s =∑ =¿ ¿
i=1 n−1
11.6
= 9 =1.288
UNIDAD 5
Análisis de la regresión
La regresión estadística o regresión a lamedia es la tendencia de una medición extrema a
presentarse más cercana a la media en una segunda medición. La regresión se utiliza para
predecir una medida basándonos en el conocimiento de otra.
El análisis de regresión consiste en emplear métodos que permitan determinar la
mejorrelación funcional entre dos o más variables relacionadas.
CUADERNILLO DE ESTADISTICA
Regresión lineal
EJEMPLO
1.-Un especialista en administración de hospitales dice que el número de
empleados de tiempo completo de un hospital se puede estimar al contar el
número de camas de hospital. Una investigadora de campo de servicios de salud
decidió crear un modelo de regresión para pronosticar el número de empleados de
tiempo completo de un hospital respecto al número de camas por lo que realizo
una encuesta en 12 y obtuvo los datos que se presentan en secuencia según el
número de camas.
HOSPITAL NUMERO DE EMPLEADOS x2 xy
CAMAS(x) DE TIEMPO
(y)
1 23 69 529 1587
2 29 95 841 2755
3 29 102 841 2858
4 35 118 1225 4130
5 42 126 1764 5292
6 46 125 2116 5750
7 50 138 2500 6900
8 54 178 2916 9602
9 64 156 4096 9984
10 66 184 4356 12144
11 76 176 5776 13376
12 78 225 6084 17550
∑ ¿592 ∑ ¿1692 ∑ ¿33044 ∑ ¿ 92038
b=
∑ xy−n x́ ý
∑ x 2−n x́ 2
92038−( 12 ) ( 49.333 ) ( 141 ) 8566.564
b= = =¿
33044−( 12 ) ( 2433.744 ) 3839.072
b=2.231
a= ý−b x́
a=141−( 2.231 ) ( 49.33 ) =141−110.061
a=30.939
y=30.939+ 2.231 x
y=30.939+ 2.231 ( 23 ) =82.25
y=30.939+ 2.231 ( 78 ) =204.95
CUADERNILLO DE ESTADISTICA
10
Residuo
50 0
-10
10
-20
1
-40 -20 0 20 40 100 150 200
Residuo Valor ajustado
2 10
Residuo
0
1 -10
-20
0
-20 -10 0 10 20 30 1 2 3 4 5 6 7 8 9 10 11 12
Residuo Orden de observación
EJEMPLO
2) Un analista toma una muestra de 10 embarques recientes por una compañía
que registro la distancia en millas y tiempo de entrega al medio díamás cercano a
partir del momento en que el embarque estuvo listo para su cargo.
Elabora el diagrama de dispersión y considere si el análisis de regresión lineal
parece apropiado.
Embarque muestreado 1 2 3 4 5 6 7 8 9 10
Distancia en millas (x) = 825 215 1070 550 480 920 1350 325 670 1215
Tiempo de entrega (y)= 3.5 1.0 4.0 2.0 1.0 3.0 4.5 1.5 3.0 5.0
7620 28
x́= =762 ý = =2.85
10 10
b=Σxy−n x̅ y̅ = ¿ ¿
Σ x −n x͞ 2
2
b=.003582
a= y̅ −b x̅
a=2.85− (.00358 )( 762 )=2.85−2.7279
a=.1221
EJERCICIO
Se seleccionaron al azar las siguientes observaciones de muestra:
X Y X2 XY Y2
4 4 16 16 16
5 6 25 30 36
3 5 9 15 25
6 7 36 42 49
10 7 100 70 49
∑ ¿28 ∑ ¿29 ∑ ¿186 ∑ ¿173 ∑ ¿175
x y x
2
xy Y
2
28 29
X́ = =5.6 Ý = =5.8
5 5
n−2 5−2
CUADERNILLO DE ESTADISTICA
Formula
^y =a+b1 x 1+ b2 x 2 … …
En la tabla se presentan datos muéstrales relativos a números de horas de estudio
fuera de clase durante un periodo de tres semanas de alumnos de un curso de
estadísticas y a sus calificaciones en el examen final de este periodo. Elabore un
CUADERNILLO DE ESTADISTICA
diagrama de dispersión para estos datos y observe si se cumplen los supuestos
de linealidad e igualdad de las varianzas condicionales.
∑ xy−n x́ ý
a) b= ∑ x −n x́
2 2
15032−( 8 ) ( 24 ) ( 76 ) 440
b= = =b=1.4965
4902−( 8 )( 576 ) 294
a= ý−b x́
a=76−( 1.4965 )( 24 )=76−35.916=a=40.084
y=40.084+1.4965 ( 34 )=90.96
y=40.084−1.4965 (34 )=64.02
n−2
√ 22722.928−22495.388 = √227.54 =√ 37.9233 =6.1581 E. Estándar
6 6
2 aΣy+ bΣxy−n ý 2
r=
Σ y 2−n ý 2
( 40.084 ) ( 608 )+ 1.4965 ( 15032 )− ( 8 ) (5776)
r 2=
47094−( 8 ) ( 5776 )
24371+22495.388−46208
r 2=
47094−46208
658.338
r 2=
886
r 2=.7431
MINIMOS CUADRADOS
Es una técnica de análisis numérico encuadrada dentro de la optimización
matemática, en la que, dados un conjunto de pares (o ternas, etc.), se intenta
encontrar la función que mejor se aproxime a los datos (un "mejor ajuste"), de
acuerdo con el criterio de mínimo error cuadrático.
ESTIMACION ESTADISTICA
En inferencia estadística se llama estimación al conjunto de técnicas que permiten
dar un valor aproximado de un parámetro de una población a partir de los datos
proporcionados por una muestra. Por ejemplo, una estimación de la media de una
determinada característica de una población de tamaño N podría ser la media de
esa misma característica para una muestra de tamaño