Estadistikas Cuaderno Final

CUADERNILLO DE ESTADISTICA
Unidad Temas Subtemas

1 Estadística descriptiva.
1.1 Definición y campo de la
estadística.
1.2 Planteamiento de un caso
específico.
1.3 Organización de datos.
1.4 Medidas de tendencia
central.
1.5 Medidas de dispersión.
1.6 Aplicación en el caso
específico.
2 Distribuciones muéstrales.
2.1 Introducción.
2.2 Distribución muestral de
la media con varianza
conocida.
2.3 Teorema del límite
central.
la proporción.
la diferencia de medias y de
diferencia de proporciones.
la media con varianza
desconocida.
la diferencia de medias.
la varianza.
la razón de varianzas.
específico.
3 Teoría de la estimación.
3.1 Introducción.
3.2 Estimación y propiedades
de los estimadores.
3.3 Estimación por intervalo.
3.4 Intervalo de confianza
para la media con varianza
conocida y desconocida.
para una proporción y
diferencia de proporciones.
para diferencias de medias
con varianza conocida y
desconocida.
para una varianza.
para una razón de varianzas.
específico.
4 Pruebas de hipótesis.
4.1 Conceptos de la teoría
de prueba de hipótesis.
4.2 Errores tipo I y II.
4.3 Prueba de hipótesis para
una media con varianza
conocida y desconocida.
una proporción y diferencia
de proporciones.
diferencia de medias con
varianzas conocidas y
desconocidas.
una varianza
una razón de varianzas.
4.8 Prueba de bondad de
ajuste.
específico.
5 Análisis de regresión lineal.

5.1 Análisis de regresión
lineal con una variable
independiente.
5.2 Relaciones entre
variables.
5.3 Modelos de regresión y
sus usos.
5.4 Estimación de la
función de regresión.
5.4.1 Método de mínimos
cuadrados.
5.4.2 Estimadores de
n
2 ( x́ 1−x́2 ) −(μ 1−μ2) mínimos cuadrados.
2 ∑ ( x− x́ )
s=
Z= σ x́ 1−x́ 2
5.4.3 Estimación de la
i=1 varianza de los errores.
n−1 5.5 Inferencias en el análisis
n 2 de regresión.
σ 21 σ 2
σ =
∑2(x−μ)2
i=1
N
σ x́ 1- x́ 2=
√
n1 n2
+ 5.5.1 Inferencias respecto a
alfa y beta.
5.5.2 Intervalos de
2 2 confianza para la función de
σ =√ σ 2 ( n1−1 ) σ 1 + ( n2−1 ) σ 2 regresión y valores
σ 2=
n1 +n 2−2 observados.
5.6 Medidas descriptivas de
la asociación entre (x) y (y)
S=√ S 2 ( ṕ 1− ṕ2 )−( p 1− p2 ) en el modelo de regresión.
Z= p 1 q 1 p 2 q 2 5.7 Aplicación en el caso
√n1
+
n2 específico.
n
fiMi ( n1−1 ) s21 + ( n2 −1 ) s 22
x́=∑ ¿ S 2
=
i=1 ∑ fi n1+ n
2−2
n
Xi
x́=∑ ¿
n 2
i=1
S2 S
b=
∑ xy−n x́ ý
∑ x 2−n x́ 2 √
σ x́ 1- x́ 2¿=S x y=√1∑+y −a2∑ y−b∑ x y
n 1 n2
n−2
2
x−μ
Z= σ
p q p q
a= ý−b x́ r = √ r n1 √
σ ṕ1− ṕ2 = 2 1 1 + 2 2
n2
x́−μ ( ṕ 1− ṕ2 )−( p 1− p2 )

Z= σ x́ Z=
√ p 1−¿ p ¿
2
2 aΣy+ bΣxy−n ý 2 ŷ ±tSe

r=
x́−μ
Σ y 2−n ý 2 ( x́ 1−x́2 ) −(μ 1−μ2)
Z= σ t= σ x́ 1−x́ 2
√n
ṕ−P
^yZ=
=a+bσ 1ṕx 1+ b2 x 2 ^μ y ±tS ý
ESTADISTICA:
La estadística es la ciencia cuyo objetivo es reunir información cuantitativa
relacionada a individuos, grupos, series de hechos, entre otros. Gracias al análisis
de estos datos se pueden deducir algunos significados precisos o algunas
previsiones para el futuro. La estadística, en general, es la ciencia que trata la
recopilación, la organización, la presentación, el análisis y la interpretación de
datos numéricos con el fin de realizar una toma de decisiones más efectiva.
“Ciencia que se ocupa del estudio de fenómenos de tipo genérico, normalmente

complejos y enmarcados en un universo variable, mediante el empleo de modelos
de reducción de la información y de análisis de validación de los resultados en
términos de representatividad”. La información puede ser numérica, alfabética o
simbólica. Consta de las fases de recogida de información, de análisis y de
presentación e interpretación de los resultados y elaboración de métodos.
Importancia
La estadística resulta muy útil no sólo para recopilar y describir datos, sino
también para interpretar la información obtenida, que puede ser aprovechada para
demostrar la evolución de un fenómeno a través de cierto tiempo.
En México, el Instituto Nacional de Estadística y Geografía (INEGI) se encarga de

recabar información estadística y geográfica de todo el país, en diferentes áreas y
contextos. Los datos que publica sirven para dar a conocer a cualquier persona la
situación en la que se encuentra el área de donde se obtuvo la información. Al
gobierno le son muy útiles para tomar decisiones, por ejemplo, para saber qué
acciones se deben implementar en tal o cual zona del país, conocer los avances
que se han registrado o como herramienta para la evaluación de un proyecto. Los
métodos estadísticos se utilizan prácticamente en investigaciones de todas las
áreas de conocimiento; tanto en el ámbito académico, como en el profesional y
laboral.
División de la Estadística
La Estadística para su mejor estudio se ha dividido en dos grandes ramas: la

Estadística Descriptiva y la Inferencial.
 Estadística Descriptiva: La función descriptiva de la estadística se enfoca

en la presentación y clasificación de los datos obtenidos de la población
que se analiza.
 Estadística Inferencial: Esta aplicación de la estadística busca plantear y

resolver problemas específicos y/o hacer previsiones a partir de los datos
de una muestra.
La estadística descriptiva describe datos.

La estadística Inferencialinfiere con esos datos, entendiendo inferir como la
predicción de un resultado.
Conceptos básicos:
Población: Conjunto de todos los elementos que presentan una característica

común determinada, observabley medible. Por ejemplo, si el elemento es una
persona, se pueden estudiar las características edad,peso, nacionalidad, sexo,
etc. Los elementos que integran una población pueden corresponder apersonas,
objetos o grupos (por ejemplo, familias, las manzanas de una cosecha, empleados
deuna empresa, etc.).
Individuo: Un individuo o unidad estadística es cada uno de los elementos que

componen la población. Notaque un individuo en estadística puede ser distinto a
un individuo como persona. Por ejemplo, enlos censos económicos se obtienen
datos de los negocios. En este caso cada negocio, que estáformado por varias
personas, es un individuo de la población.
Muestra: La mayoría de los estudios estadísticos se realiza, no a partir de toda la

población, sino de unsubconjunto o parte de ésta, llamado muestra, partiendo del
supuesto de que este subconjuntopresenta el mismo comportamiento y
características que la población. En general el tamaño de lamuestra es mucho
menor al tamaño de la población.
Muestreo: Es el proceso de recabar los datos que se desean analizar, obtenidos

de una proporción reduciday representativa de la población.
Variable: Se llama variable a una característica que se observa en una población

o muestra, y a la cual sedesea estudiar. La variable puede tomar diferentes
valores dependiendo de cada individuo. Lasvariables se pueden clasificar en
cuantitativas y cualitativas:
a) Variable cuantitativa: se expresa en valores numéricos. Dentro de ella, se

subdividen en:
 Discreta: Se tratan de variables expresadas con valores enteros. Ej. N° de
hijos de una Familia, n° de alumnos de un curso.
 Continua: son valores que pueden tomar cualquier valor dentro de un
intervalo. Ej. Peso, estatura, sueldos.
b) Variable cualitativa: es aquella que describe cualidades. No son numéricas

y se subdividen en:
 Nominal: son variables presentadas sin orden ni jerarquía. Ej. Estado civil,
preferencia por una marca, sexo, lugar de residencia.
 Ordinal: son variables organizadas de acuerdo con una clasificación. Ej.
grado de estudios, días de la semana, calidad de la atención, nivel
socioeconómico.
Solución de un problema estadístico
La solución de un problema estadístico comprende los siguientes pasos:

A) Planteamiento del problema.
En el planteamiento se define la población, la característica a estudiar (las
variables), una hipótesis, etc. En este punto también se analizan los medios de los
que se dispone y el procedimiento a seguir.
B) Elaboración de un modelo.
Se establece un modelo teórico de comportamiento de las variables de estudio. En
ocasiones no es posible diseñar el modelo hasta realizar un estudio previo.
Los posibles modelos son Normal, Binomial, Poisson, Uniforme, etc.
C) Extracción de la muestra.
Se usa alguna técnica de muestreo o un diseño experimental para obtener
información de una pequeña parte de la población.
D) Tratamiento de los datos

En esta fase se eliminan posibles errores, se depura la muestra, se tabulan los
datos y se calculan los valores que serán necesarios en pasos posteriores, como
la media y la varianza de la muestra. Los métodos de esta etapa corresponden a
los métodos de la estadística descriptiva. Algunas de las etapas de esta fase son:
recopilación, clasificación y presentación de la información.
E) Estimación de los parámetros

La estadística Inferencial nos proporciona herramientas para la predicción o
estimación de los parámetros de la población que nos ayudarán a resolver el
problema. Un ejemplo de estas herramientas son las pruebas de hipótesis que se
obtienen del análisis de los datos y los intervalos de confianza.
EJERCICIO:
Durante un mes de verano los 8 vendedores en una empresa de equipos de

calefacción de aire acondicionado vendieron los siguientes números en unidades
centrales de aire acondicionado 8, 11, 5, 14, 8, 11, 16 y 11 con los datos
anteriores encuentre el rango, moda, mediana, media aritmética, varianza y
desviación estándar de esta población.
RANGO:
5 8 8 11 11 11 14 16 = 5-16 =11
MODA: 11
MEDIANA:
11+11=22/2=11
MEDIA ARITMETICA:
n
2 xi 5+8+ 8+11+11+ 11+14+16 84
μ =∑ ¿ =¿ = =¿ ¿10.5
i =1 n 8 8
VARIANZA:
n
σ 2=∑ ¿ ¿ ¿ ¿
i−1
+¿ ¿10.75
DESVIACION ESTANDAR:
σ =√ σ 2=√ 10.75=¿ 3.278
“DATOS AGRUPADOS”
Es agrupar la información con la que se cuenta, e ir clasificando por características
que nos faciliten manejar y tener el control de los datos.
Es decir cuando el conjunto de datos de interés, contiene solo pocas

observaciones, proporciona habitualmente un adecuado resumen de los mismos,
sin embargo, en la práctica, la mayor parte de los conjuntos de datos, contienen
Muchas observaciones y será preciso lograr una presentación más completa, de la

distribución de tales datos.
En los datos agrupados se pueden calcular, su media y varianza, pero sería útil
proporcionar además una idea visual de la información que contienen los datos.
Una ordenación de datos es una de las formas más sencillas de presentarlos:
Organiza los valores en orden ascendente o descendente.
La ordenación de datos ofrece varias ventajas con respecto a los datos sin
procesar.
• Podemos identificar los valores mayor y menor rápidamente.
• Es fácil dividir los datos en secciones.
• Podemos ver si algunos valores aparecen más de una vez en el arreglo.

• Podemos observar la distancia entre valores sucesivos de los datos.
Una distribución de frecuencias es una tabla, en la que organizamos los datos en

clases, es decir, en grupo de valores, qué describen una característica de los
datos, muestra el número de observaciones, del conjunto de datos que caen en
cada una de las clases. Si se puede determinar la frecuencia con la que se
presentan los valores en cada clase de un conjunto de datos, se puede construir
una distribución de frecuencias.
EJEMPLOS
n
fimi 1662
x́=∑ ¿ = =20.770
i=1 ∑ fi 80
n
fi m2 36306.02
s2=∑ −x́ 2= −¿ ¿
i =1 n 80
s= √ s2 =√ 22.43=4.73
EJERCICIO
A) encuentre la media aritmética
b) determine la varianza
c) encuentre la desviación estándar
1820
x=̅ 42 =43.3
88,050
42
– ( 43.3) = 2,096.42-1,874.89
2
S2=221.53
S= √ 221.53
S=14.88
S= √ 221.53
S=14.88
Clases ventas f M fM F M2
dólares
10-20 1 15 15 225
20-30 8 25 200 5,000
30-40 10 35 350 12,250
40-50 9 45 405 18,225
50-60 8 55 440 24,200
60-70 4 65 260 16,900
70-80 2 75 150 11,250
total 42 1,820 88,050
UNIDAD II
DISTRIBUCIONES MUESTRALES
Muestrear es una forma de evaluar la calidad de un producto, la opinión de los

consumidores, la eficacia de un medicamento o de un tratamiento. Muestra es una
parte de la población. Población es el total de resultados de un experimento.
Hacer una conclusión sobre el grupo entero (población) basados en información
estadística obtenida de un pequeño grupo (muestra) es hacer una inferencia
estadística.
A menudo no es factible estudiar la población entera. Algunas de las razones por

lo que es necesario muestrear son:
1. La naturaleza destructiva de algunas pruebas
2. La imposibilidad física de checar todos los elementos de la población.
3. El costo de estudiar a toda la población es muy alto.
4. El resultado de la muestra es muy similar al resultado de la población.
5. El tiempo para contactar a toda la población es inviable.
Distribución muestral de las medias. Es una distribución de probabilidad de todas

las posibles medias muestréales, de un tamaño de muestra dado, seleccionadas
de una población.
EJERCICIO
DISTRIBUCIONES MUESTRALES
Una población normal tiene media=80 y desviación estándar=14
A) Calcule la probabilidad de tener un valor entre 75 y 90.

B) La probabilidad de tener un valor de 75 o menor.
C) Calcule la probabilidad de tener un valor entre 55 y 70.
90−80
A) M=80 Z= 14 =0.7142=0.2611
σ =14
P (75<X<90)
75−80
P (90<X<80) Z= 14
=0.3571=0.1368
0.2611+0.168 R= 39.79%
B) μ=80 0.5 - 0.1368=.3632

σ =14 R= 36.32%
P (75<X)
C) M=80
σ =14
70−80
P (55<X<70) Z= 14
=0.7142 =.2611
.2611-.1368= .1243
R= 12.43%
EJERCICIO
la media de la población normal, es 60 y la desviación=12. Se toma una muestra

aleatoria de 9. Calcule la probabilidad de que la media muestral.
A) Se mayor que 63
B) Menor que 56
C) Este entre 56 y 63
A) x=̅ 60 P(x ̅>63)

63−20
3
σ =56 Z= 12 = 4 =.75 R=.75
√9
.5 + 2734 = .7734 1 - .7734 = 0.2266
22.66%
B) P (x>̅ 56) .05 + .0398 = .5398

56−60
4
Z= 12 = 4 =1 1 - .5398 = .4602=
√9
R=46.02%
C) P(56<X<63)
0.3938+.2734=0.3132
0.3132X100= R=31.32%
Teorema del límite central

El teorema del límite central o teorema central del límite indica que, en condiciones
muy generales, si Sn es la suma de nvariables aleatorias independientes, entonces
la función de distribución de Snse aproxima bien a una distribución normal (también
llamada distribución gaussiana, curva de Gauss o campana de Gauss). Así pues,
el teorema asegura que esto ocurre cuando la suma de estas variables aleatorias
e independientes es lo suficientemente grande
Propiedades
 El teorema del límite central garantiza una distribución normal cuando n es

suficientemente grande.
 Existen diferentes versiones del teorema, en función de las condiciones

utilizadas para asegurar la convergencia. Una de las más simples establece
que es suficiente que las variables que se suman sean independientes,
idénticamente distribuidas, con valor esperado y varianza finitas.
 La aproximación entre las dos distribuciones es, en general, mayor en el

centro de las mismas que en sus extremos o colas, motivo por el cual se
prefiere el nombre "teorema del límite central" ("central" califica al límite,
más que al teorema).
 Este teorema, perteneciente a la teoría de la probabilidad, encuentra

aplicación en muchos campos relacionados, tales como la inferencia
estadística o la teoría de renovación.
DISTRIBUCION MUESTRAL DE LA PROPORCION

Sea X1, X2,…, Xn una muestra aleatoria tomada de una población con una
distribución de Bernoulli con parámetro q. Por lo tanto su función de probabilidad,
su media y su varianza están dadas por:
E(X) = q, V(X) = q (1 - q)
Si P es la proporción muestral, definida como En virtud del Teorema Central del

Límite, como P es la media muestral de los diferentes valores de Xi, entonces P
tiende a seguir una distribución normal con los parámetros dados anteriormente,
es decir, P ~. Ó también la variable aleatoria
Sigue una distribución normal estándar con media cero y varianza unitaria, cuando
el tamaño de la muestra n es grande.
EJEMPLO
Se elije una muestra de 2000 electores potenciales en el estado de México.

Se encontró que 1550 planean votar por el gobernador actual ¿cuál es la
probabilidad de que el gobernador sea elegido presidente de la República?
En una encuesta previa se determinó que el 80% de la población total del padrón
votante elegiría a dicho candidato.
ρ́− p
ρ́−ρ
ρ =.80 formula Z= σ ρ́ =¿ Z = ρq =
√ n
ρ́ =.775
1550
n=2000 P ( A ) 2000 =.775
q=.225
.775−.80
Z= ( .775 ) (.225) = -2.67
√ 2000
DISTRIBUCION MUESTRAL DE LA DIFERENCIA DE

MEDIAS
Para conocer la distribución muestral de las diferencias entre las medias se debe
saber si las varianzas poblacionales son conocidas o desconocidas, y en caso de
que sean desconocidas, se debe saber si son iguales o diferentes. Cada uno de
estos tres casos se analizará por separado.
a) Distribución de la diferencia entre dos medias cuando las varianzas son

conocidas. Si las varianzas y son conocidas, tanto como se distribuyen
normalmente. Por lo tanto la distribución de la diferencia entre las medias
muéstrales es normal con el valor esperado y la varianza dados anteriormente, es
decir,
De acuerdo con lo anterior la siguiente variable aleatoria tiene una distribución

normal estándar:
Por lo tanto, con base en la expresión anterior se pueden realizar inferencias con
respecto a la diferencia de medias poblacionales, bajo el supuesto de que las
varianzas sean conocidas. Si además, son iguales, la expresión anterior se puede
expresar como:
b) Distribución de la diferencia entre dos medias cuando las varianzas son

desconocidas pero iguales (==)
Cuando las varianzas son desconocidas, se debe realizar previamente una prueba
estadística para verificar si éstas son iguales o diferentes. Para realizar esta
prueba debemos hacer uso de la distribución F para verificar si la relación de
varianzas es igual a uno o diferente de uno.
Para cada una de las dos muestras se definen sus respectivas varianzas como:
Además tienen distribuciones chi cuadrado con n1–1 y n2–1 grados de libertad
respectivamente. Por lo tanto su suma también sigue otra distribución chi
cuadrado con n1+n2–2 grados de libertad. Es decir:
Ahora bien, si Z es una variable normal (0,1) y Y tiene una distribución chi
cuadrado con n grados de libertad, entonces la variable tiene una distribución t con
n grados de libertad. Para nuestro caso la variable Z corresponde a la distribución
de la diferencia de las dos medias, con varianzas conocidas, y la variable chi
cuadrado corresponde a la variable Y acabada de definir. Por lo tanto
Donde es un estimador ponderado de la varianza poblacional s

Obtenida ponderando las varianzas poblacionales por sus respectivos grados de
libertad.
c) Distribución de la diferencia entre dos medias cuando las varianzas son

desconocidas y diferentes
EJEMPLO
De una población se toma una muestra de 40 observaciones. La media muestral
es de 102 y la desviación estándar de 5. De otra población se toma una muestra
de 50 observaciones y la media muestral es ahora 99 y la desviación estándar es
6. Calcule el valor estadístico de la prueba.
Supongo que las medias poblacionales son iguales a las varianzas.
x͞ 1= 102 Z=¿ ¿ ¿= 99
S1=5
(102−99)(0) 3
Z= = =2.54
1.18 1.18
S2=6
( n−1 ) S 21 +( n2−1) S22 ( 40−1 ) 52 + ( 50−1 ) 6 2 975+1764 2739

S2
= n1 +n −2 2
= 40+ 50−2 = 88
=
88 = 31.13
2
S2 S2 31.13 31.13
σ x1 x 2
√ +
n1 n 2
=
√ 40
+
50
=√ 0.77+0.62= √1.3926=1.18
.5+.4945=0.9945
.1-0.9945=.0055
DISTRIBUCION DE PROBABILIIDAD
T DE STUDENT
DISTRIBUCION DE PROBABILIDAD:
Con respecto a una variable aleatoria es una función que asigna a cada suceso
definido sobre la variable aleatoria la probabilidad de que dicho suceso ocurra. La
distribución de probabilidad está definida sobre el conjunto de todos los eventos
rango de valores de la variable aleatoria.
Cuando la variable aleatoria toma valores en el conjunto de los números reales, la
distribución de probabilidad está completamente especificada por la función de
distribución, cuyo valor en cada real x es la probabilidad de que la variable
aleatoria sea menor o igual que x.
T DE STUDENT:
Permite decidir si dos variables aleatorias normales y con la misma varianza
tienen medias diferentes. Dada la ubicuidad de la distribución normal puede
aplicarse en numerosos contextos, para comprobar si la modificación en las
condiciones de un proceso (humano o natural) esencialmente aleatorio producen
una elevación o disminución de la media poblacional. Esto opera decidiendo si una
diferencia en la media muestral entre dos muestras es estadísticamente
significativa, y entonces poder afirmar que las dos muestras corresponden a
distribuciones de probabilidad de media poblacional distinta, o por el contrario
afirmar que la diferencia de medias puede deberse a oscilaciones estadísticas.
La eficacia aumenta con el número de datos del que constan las dos muestras, en
concreto del número de grados de libertad conjunto de las dos muestras, este
número viene siendo Ni el tamaño muestral, es decir, el número de datos en cada
muestral.
1.- Suponga que los datos siguientes se seleccionan al azar de una población de
valores normalmente distribuidos y realicen un intervalo de confianza del 95%para
calcular la media poblacional.
40,51,43,48,44,57,54,39,42,48,45,39 y 43
n
X i 40+51+ 43+48+ 44+57 +54+39+ 42+48+ 45+39+ 43 593
χ́ =∑ = = = 45.61
i=1 n 13 13
n
2
( x −xi )
s =∑ =¿ ¿
i=1 n−1
+¿ ¿
+¿ ¿
s= √ s2 =√ 32.42=5.69
∝=1−.95 %=0.05÷ 2=0.025
gl=n−1=13−1=12
5.69
S x= =1.57
√ 13
I ∝=x ±t S x
I ∝=45.61+ ( 2.179 ) (1.57 )=¿
45.61+3.42=49.03Límite superior
45.61−3.42=42.12Límite inferior
(42.12, 49.03)
EJERCICIO
Si se supone que X esta normalmente distribuida utiliza la siguiente información
para calcular un intervalo de confianza de 90% para estimar la media poblacional.
n
Xi
χ́ =∑ 313, 320, 319, 340, 325, 310, 321, 329, 317, 311, 307, 318.
i=1 n
313 ,320 , 319 ,340 , 325 , 310 ,321 , 329 ,317 ,311 , 307 , 318.
= 319.16
12
n
2= ∑ ¿¿¿
S i=1
¿
¿¿
¿
37.9456+0.7056+0.0256+ 434.305634 .1056+83.9056+ 3.3856+96.82564 .6656+66.5856+ ¿147.8656+ 1.345
12−1
911.6672
= 11 = 82.87√ 82.87= 9.10
x́ =319.16
σ 2=82.87
σ =9.10
gl= n-1
gl= 12-1=11
∝ 1-.90%= 0.2/2=0.05
9.10
IC=319.16+ (1.796) (2.6269)S x́ = =2.6269
√ 12
319.16 + 4.7179=323.8779Límite Superior
319.16 – 4.7179=314.4421Límite Inferior
(314.4, 323.8)
EJERCICIO
Si una muestra aleatoria de 27 Artículos produce x́= 128.4 y S= 20.6, cual es el

intervalo de confianza de 98% para la media poblacional. Suponga que X esta
normalmente distribuida para la población. ¿Cuál es la estimación puntual?
x́ = 128.4
S= 20.6
σ= 4.53
gl= n-1
gl= 27-1= 26
∝= 1-.98%= 0.02/2=0.01
20.6
IC= 128.4+ (2.479) (3.96) S x́ = =3.96
√ 27
128.4 + 9.8168=138.21Límite Superior
128.4 – 9.8168=118.58 Límite Inferior
(118.58, 138.21)
Use información en base a cada una de las siguientes muestras para calcular el
intervalo de confianza para estimar la proporción de la población.
A)n= 44 y p= .51 calcule en IC 99%
B)n= 300 y p= .82 calcule un IC 95%
C)n= 1150 y p= .48 calcule un IC 90%
D)n= 95 y p= .32 calcule un IC 88%
A)n=44
p=.51
σρ=x=
√( .51 ) (.49) =0.075
44
IC= p ± zσx
IC=.51± (2.57) (.075)
=.51+0.19=0.7
=.51-0.19=.32
B)n=300
p=.82
σp=√ ( .82 ) ¿ ¿ ¿
IC=.82± (1.96) (.022)
=.82+0.043=0.863
=.82-0.043=0.777
C)n=1150
p=.48
σp=
√( .48 ) (.52) =0.014
1150
IC=.48± (1.65) (0.014)
=.48+0.023=.50
=.48-0.023=.45
D)n=95
p=.32
σp=
√( .32 ) (.68) =0.047
95
IC=.32± (1.56) (0.047)
=.32+.073=0.39
=.32-.073=0.24
UNIDAD 3
Estimador
En estadística, un estimador es un estadístico (esto es, una función de la muestra) usado
para estimar un parámetro desconocido de la población. Por ejemplo, si se desea conocer el
precio medio de un artículo (el parámetro desconocido) se recogerán observaciones del
precio de dicho artículo en diversos establecimientos (la muestra) y la media aritmética de
las observaciones puede utilizarse como estimador del precio medio.
Para cada parámetro pueden existir varios estimadores diferentes. En general, escogeremos
el estimador que posea mejores propiedades que los restantes, como insesgadez, eficiencia,
convergencia y robustez (consistencia).
El valor de un estimador proporciona lo que se denomina en estadística una estimación

puntual del valor del parámetro en estudio. En general, se suele preferir realizar una
estimación mediante un intervalo, esto es, obtener un intervalo [a,b] dentro del cual se
espera esté el valor real del parámetro con un cierto nivel de confianza.
Utilizar un intervalo resulta más informativo, al proporcionar información sobre el

posible error de estimación, asociado con la amplitud de dicho intervalo. El nivel
de confianza es la probabilidad de que a priori el verdadero valor del parámetro
quede contenido en el intervalo
Propiedades de los estimadores
Se denomina sesgo de un estimador a la diferencia entre la esperanza (o valor esperado) del

estimador y el verdadero valor del parámetro a estimar. Es deseable
que un estimador sea insesgado o centrado, es decir, que su sesgo sea nulo por ser su
esperanza igual al parámetro que se desea estimar.
Por ejemplo, si se desea estimar la media de una población, la media aritmética de la
muestra es un estimador insesgado de la misma, ya que su esperanza (valor esperado) es
igual a la media de la población.
Eficiencia
Diremos que un estimador es más eficiente o más preciso que otro estimador, si la varianza
del primero es menor que la del segundo.
La eficiencia de los estimadores está limitada por las características de la distribución de
probabilidad de la muestra de la que proceden.
Si un estimador alcanza esta cota mínima, entonces se dice que el estimador es de mínima
varianza.
Consistencia
Si no es posible emplear estimadores de mínima varianza, el requisito mínimo deseable

para un estimador es que a medida que el tamaño de la muestra crece, el valor del estimador
tienda a ser el valor del parámetro, propiedad que se denomina consistencia.
Robustez
El estimador será un estimador robusto del parámetro θ si la vulneración de los supuestos
de partida en los que se basa la estimación (normalmente, atribuir a la población un
determinado tipo de función de distribución que, en realidad, no es la correcta), no altera de
manera significativa los resultados que éste proporciona.
Suficiencia
Se dice que un estimador es suficiente cuando resume toda la información relevante
contenida en la muestra, de forma que ningún otro estimador pueda proporcionar
información adicional sobre el parámetro desconocido de la población.
Invariancia
Se dice que un estimador es invariante cuando el estimador de la función del parámetro
coincide con la función del estimador del parámetro,
INTERVALO DE CONFIANZA PARA ESTIMAR P

INTERVALO DE CONFIANZA:
Se llama intervalo de confianza en estadística a un par de números entre los
cuales se estima que estará cierto valor desconocido con una determinada
probabilidad de acierto. Formalmente, estos números determinan un intervalo, que
se calcula a partir de datos de una muestra, y el valor desconocido es un
parámetro poblacional.
El intervalo de confianza para estimar una proporción p, conocida una proporción
muestral pn de una muestra de tamaño n, a un nivel de confianza del (1-α)·100%
es:
Una compañía textil produce pantalones para hombre, los pantalones se

confeccionan y venden con corte regular o con corte de bota. En un esfuerzo por
estimar la proporción del mercado de sus pantalones para hombre en el centro de
la ciudad que prefiere pantalones con corte de bota, el analista toma una muestra
aleatoria de 212 ventas de pantalones de las 2 tiendas de venta al público de la
ciudad solo 34 de las ventas fueron con pantalones de corte de bota. Construye un
intervalo de confianza de 90% para estimar la proporción de la población en toda
la ciudad que prefieren pantalones con corte bota.
n=212P̅ =.16
34
P( A) =.16
212
P = IC =P̅ ± Zσ P̅
√ pq √( .16 ) (.84)
IC= .16 ± (1.65) (0.25)σ P̅ = n σ P̅ ¿ 212 =.025
IC=.16 + .041 = .2Limite Superior

IC= .16 - .041 = .11Límite Inferior
(.11, .2)
PROBLEMAS
Usen la información sobre cada una de las siguientes muestras para calcular el
intervalo de confianza para estimar la proporción de la población.
a) n=44 ṕ=.51 ; Calcule un Intervalo de Confianza del 99%
n= 44 p= IC∝ = ṕ ±Z√ ṕ
ṕ=.51 IC= .51± (2.57) (0.075)
IC= .51+ 0.19= 0.7 Limite Superior
IC= .51- 0.19= 0.32Límite Inferior

(.32, .7)
pq .51(.49)
σ ṕ= √
n √
= 44 = 0.075
b) n=300 P̅ =.82; calcule un intervalo de confianza de 95%

pq ( .82 ) (.18)
σ P̅= √ n σ P̅ = √ 300 =.022
.82 ± (1.96) (.022)
Límite superior .82+ .043=.863
Límite inferior .82 - .043= .777
(.77, .86)
c)n=1150 P̅ =.48; calcule un intervalo de confianza de 90%

n=1150
P̅ =.48 σ P̅ = √
pq
σ P̅ =
√( .48 )( .52) =.014
n 1150
.48 ± (1.65) (.014)
Limite Superior .48 + .023=.503
Límite Inferior .48 - .023=.45 (.457, 503)
d) n=95 P̅ =.32; calcule un intervalo de confianza de 88%

pq ( .32 ) (.68)
n=95 σ P̅ = √ σ P̅ = √ =.047
n 95
P̅ =.32
.32 ± (1.56) (.047)
Limite Superior.32 + .073=.393
Límite Inferior .32 - .073=.247

(.247, .393)
INTERVALO DE CONFIANZA PARA UNA VARIANZA

En el contexto de estimar un parámetro poblacional, un intervalo de confianza es
un rango de valores (calculado en una muestra) en el cual se encuentra el
verdadero valor del parámetro, con una probabilidad determinada.
La probabilidad de que el verdadero valor del parámetro se encuentre en el

intervalo construido se denomina nivel de confianza, y se denota 1- . La
probabilidad de equivocarnos se llama nivel de significancia y se simboliza .
Generalmente se construyen intervalos con confianza 1- =95% (o significancia
=5%). Menos frecuentes son los intervalos con =10% o =1%.
EJERCICIOS
Use la siguiente Información para construir intervalo de confianza de 90%, 95% y
99% para estimar la media poblacional de los siguientes datos que provienen de
una población normalmente distribuida.
12.3, 11.6, 11.9, 12.8, 12.5, 11.4, 12.0, 11.7, 11.8, 12.3
n
X i 12.3 , 11.6 , 11.9 , 12.8 , 12.5 ,11.4 , 12.0 ,11.7 ,11.8 ,12.3
χ́ =∑ =12.03
i=1 n 10
n
( x −xi )
s2=∑
i=1 n−1
¿¿¿
¿
0.0729+0.1849+0.0169+0.5929+ 0.2209+0.3969+.0009+0.1089+0.0529+ 0.0729

10−1
1.721
=
9
= .191 √ .191 = .4370
x́ = 12.03
σ 2= .191
σ = .4370
gl= n-1 gl=10-1 =9

∝ =1-.90% = 0.1/2= 0.05
.4370
IC= 12.03+ (1.833) (0.1381) S x́ = =0.1381
√10
12.03+0.2531= 12.2831 Límite Superior
12.03-0.2531= 11.7769 Límite Inferior
(11.7, 12.2)
∝= 1-.95%= 0.05/2= 0.025
.4370
IC= 12.03+ (2.262) (0.1381) S x́ = =0.1381
√10
12.03+0.3123= 12.3423 Límite Superior
12.03-0.3123= 11.7177 Límite Inferior
(11.7, 12.3)
∝= 1-.99%= 0.01/2= .005

.4370
IC= 12.03+ (3.250) (0.1381) S x́ = =0.1381
√10
12.03+0.4488= 12.478 Límite Superior
12.03-0.4488= 11.5812 Límite Inferior
(11.5, 12.4)
Use la Siguiente información para calcular el Intervalo de Confianza para la

proporción poblacional. 90% de Confianza
a) n= 284
ṕ= .71
P = IC =P̅ ± Zσ P̅
σ P̅ = √
pq
σ P̅ ¿
√( .71 ) (.29)
IC= .71±(1.65) (0.026) n 284
=0.026
.71+ 0.0429= 0.7529.71- 0.0429= 0.6671
(0.66, 0.75)
b) n= 1,250
ṕ= .48
P = IC =P̅ ± Zσ P̅
σ P̅ = √
pq √( .48 )(.52)
n P̅
IC= .48±(1.96) (0.014) σ ¿
1,250
=0.014
.48+ 0.0274= 0.5074
.48- 0.0274= 0.4526
(0.45, 0.50)
UNIDAD 4
PRUEBA DE HIPOTESIS
Afirmación acerca de los parámetros de la población.
Etapas Básicas enPruebas de Hipótesis.
Al realizar pruebas de hipótesis, se parte de un valorsupuesto (hipotético) en
parámetro poblacional. Después de recolectar una muestra aleatoria, se compara
la estadísticamuestral, así como la media (x), con el parámetro hipotético, se
compara con una supuesta media poblacional (). Después se acepta o se rechaza
el valor hipotético, según proceda. Se rechaza el valor hipotético sólo si el
resultado muestral resulta muy poco probable cuando la hipótesis es cierta.
Etapa 1.- Planear la hipótesis nula y la hipótesis alternativa. La hipótesis nula (H0)
es el valor hipotético del parámetro que se compra con el resultado muestral
resulta muy poco probable cuando la hipótesis es cierta.
Etapa 2.-Especificar el nivel de significancia que se va a utilizar. El nivel de
significancia del 5%, entonces se rechaza la hipótesis nula solamente si el
resultado muestral es tan diferente del valor hipotético que una diferencia de esa
magnitud o mayor, pudiera ocurrir aleatoria mente con una probabilidad de 1.05 o
menos.
Etapa 3.- Elegir la estadística de prueba. La estadística de prueba puede ser la
estadística muestral (el estimador no segado del parámetro que se prueba) o una
versión transformada de esa estadística muestral. Por ejemplo, para probar el
valor hipotético de una media poblacional, se toma la media de una muestra
aleatoria de esa distribución normal, entonces es común que se transforme la
media en un valor z el cual, a su vez, sirve como estadística de prueba.
Consecuencias de las Decisiones en Pruebas de Hipótesis.
Decisiones Posibles Situaciones Posibles
La hipótesis nula La
es verdadera hipótesis
nula es
falsa
Aceptar la Hipótesis Nula Se acepta correctamente Error tipo II
Rechazar la Hipótesis Error tipo I Se rechaza

Nula correctamente
Etapa 4.- Establecer el valor o valores críticos de la estadística de prueba.

Habiendo especificado la hipótesis nula, el nivel de significancia y la estadística de
prueba que se van a utilizar, se produce a establecer el o los valorescríticos de
estadística de prueba. Puede haber uno o más de esos valores, dependiendo de si
se va a realizar una prueba de uno o dos extremos.
Etapa 5.- Determinar el valor real de la estadística de prueba. Por ejemplo, al
probar un valor hipotético de la media poblacional, se toma una muestra aleatoria
y se determina el valor de la media muestral. Si el valor crítico que se establece es
un valor de z, entonces se transforma la media muestral en un valor de z.
Etapa 6.-Tomar la decisión. Se compara el valor observado de la estadística
muestral con el valor (o valores) críticos de la estadística de prueba. Después se
acepta o se rechaza la hipótesis nula. Si se rechaza ésta, se acepta la alternativa;
a su vez, esta decisión tendrá efecto sobre otras decisiones de los
administradores operativos, como por ejemplo, mantener o no un estándar de
desempeño o cuál de dos estrategias de mercadotecnia utilizar.
La distribución apropiada de la prueba estadística se divide en dos regiones: una
región de rechazo y una de no rechazo. Si la prueba estadística cae en esta última
región no se puede rechazar la hipótesis nula y se llega a la conclusión de que el
proceso funciona correctamente.
Al tomar la decisión con respecto a la hipótesis nula, se debe determinar el valor
crítico en la distribución estadística que divide la región del rechazo (en la cual la
hipótesis nula no se puede rechazar) de la región de rechazo. A hora bien el valor
crítico depende del tamaño de la región de rechazo.
PASOS DE LA PRUEBA DE HIPÓTESIS
1. Expresar la hipótesis nula

2. Expresar la hipótesis alternativa
3. Especificar el nivel de significancia
4. Determinar el tamaño de la muestra
5. Establecer los valores críticos que establecen las regiones de rechazo de
las de no rechazo.
6. Determinar la prueba estadística.
7. Coleccionar los datos y calcular el valor de la muestra de la prueba
estadística apropiada.
8. Determinar si la prueba estadística ha sido en la zona de rechazo a una de
no rechazo.
9. Determinar la decisión estadística.
10. Expresar la decisión estadística en términos del problema.
CONCEPTOS BÁSICOS PARA ELPROCEDIMIENTO DE

PRUEBAS DE HIPÓTESIS.
Hipótesis Estadística:
Al intentar alcanzar una decisión, es útil hacer hipótesis (o conjeturas) sobre la
población aplicada.
Tales hipótesis, que pueden ser o no ciertas, se llaman hipótesis estadísticas.
Son, en general, enunciados acerca de las distribuciones de probabilidad de las
poblaciones.
Hipótesis Nula.
En muchos casos formulamos una hipótesis estadística con el único propósito de
rechazarla o invalidarla. Así, si queremos decidir si una moneda está trucada,
formulamos la hipótesis de que la moneda es buena (o sea p = 0,5, donde p es la
probabilidad de cara).
Analógicamente, si deseamos decidir si un procedimiento es mejor que otro,
formulamos la hipótesis de que no hay diferencia entre ellos (o sea. Que cualquier
diferencia observada se debe simplemente a fluctuaciones en el muestreo de la
misma población). Tales hipótesis se suelen llamar hipótesis nula y se denotan por
Ho.
Para todo tipo de investigación en la que tenemos dos o más grupos, se
establecerá una hipótesis nula.
La hipótesis nula es aquella que nos dice que no existen diferencias significativas
entre los grupos.
Por ejemplo, supongamos que un investigador cree que si un grupo de jóvenes se
somete a un entrenamiento intensivo de natación, éstos serán mejores nadadores
que aquellos que no recibieron entrenamiento. Para demostrar su hipótesis toma
al azar una muestra de jóvenes, y también al azar los distribuye en dos grupos:
uno que llamaremos experimental, el cual recibirá entrenamiento, y otro que no
recibirá entrenamiento alguno, al que llamaremos control. La hipótesis nula
señalará que no hay diferencia en el desempeño de la natación entre el grupo de
jóvenes que recibió el entrenamiento y el que no lo recibió.
Una hipótesis nula es importante por varias razones:
Es una hipótesis que se acepta o se rechaza según el resultado de la
investigación.
El hecho de contar con una hipótesis nula ayuda a determinar si existe una
diferencia entre los grupos, si esta diferencia es significativa, y si no se debió al
azar.
No toda investigación precisa de formular hipótesis nula. Recordemos que la

hipótesis nula es aquella por la cual indicamos que la información a obtener es
contraria a la hipótesis de trabajo.
Al formular esta hipótesis, se pretende negar la variable independiente. Es decir,
se enuncia que la causa determinada como origen del problema fluctúa, por tanto,
debe rechazarse como tal.
Otro ejemplo:
Hipótesis: el aprendizaje de los niños se relaciona directamente con su edad.
Hipótesis Alternativa.
Toda hipótesis que difiere de una dada se llamará una hipótesis alternativa. Por
ejemplo: Si una hipótesis es p = 0,5, hipótesis alternativa podrían ser p = 0,7, p "
0,5 ó p > 0,5.
Una hipótesis alternativa a la hipótesis nula se denotará por H1.
 Al responder a un problema, es muy conveniente proponer otras hipótesis
en que aparezcan variables independientes distintas de las primeras que
formulamos. Por tanto, para no perder tiempo en búsquedas inútiles, es
necesario hallar diferentes hipótesis alternativas como respuesta a un mismo
problema y elegir entre ellas cuáles y en qué orden vamos a tratar su
comprobación.
Las hipótesis, naturalmente, serán diferentes según el tipo de investigación que se

esté realizando. En los estudios exploratorios, a veces, el objetivode la
investigación podrá ser simplemente el de obtener los mínimos conocimientos que
permitan formular una hipótesis. También es aceptable que, en este caso, resulten
poco precisas, como cuando afirmamos que "existe algún tipo de problema social
en tal grupo", o que los planetas poseen algún tipo de atmósfera, sin especificar
de qué elementos está compuesto.
Los trabajos de índole descriptiva generalmente presentan hipótesis del tipo
"todos los X poseen, en alguna medida, las característica Y". Por ejemplo,
podemos decir que todas las naciones poseen algún comercio internacional, y
dedicarnos a describir, cuantificando, las relaciones comerciales entre ellas.
También podemos hacer afirmaciones del tipo "X pertenece al tipo Y", como
cuando decimos que una tecnología es capital - intensiva. En estos casos,
describimos, clasificándolo, el objeto de nuestro interés, incluyéndolo en un tipo
ideal complejo de orden superior.
Por último, podemos construir hipótesis del tipo "X produce (o afecta) a Y", donde
estaremos en presencia de una relación entre variables.
Errores de tipo I y de tipo II.
Si rechazamos una hipótesis cuando debiera ser aceptada, diremos que se ha
cometido un error de tipo I.
Por otra parte, si aceptamos una hipótesis que debiera ser rechazada, diremos
que se cometió un error de tipo II.
En ambos casos, se ha producido un juicio erróneo.
Para que las reglas de decisión (o no contraste de hipótesis) sean buenos, deben
diseñarse de modo que minimicen los errores de la decisión; y no es una cuestión
sencilla, porque para cualquier tamaño de la muestra, un intento de disminuir un
tipo de error suele ir acompañado de un crecimiento del otro tipo. En la práctica,
un tipo de error puede ser más grave que el otro, y debe alcanzarse un
compromiso que disminuya el error más grave.
La única forma de disminuir ambos a la vez es aumentar el tamaño de la muestra
que no siempre es posible.
EJERCICIO
Un desarrollador considera 2 ubicaciones alternadas para un centro comercial
regional dado que el ingreso domestico de la comunidad es una consideración
importante en la selección del sitio, el desarrollador desea probar la hipótesis nula
de que no existe diferencia entre los montos de ingreso domestico medio que de
las 2 comunidades. En consonancia con esta hipótesis se supone que la
desviación estándar del ingreso domestico también es igual en los dos
comunidades.
En una muestra de n1=30 hogares de la primera comunidad el ingreso anual
promedio es de x̅ 1=45,000 con una desviación estándar S1= 1800. En una muestra
de n2 =40 hogares de la segunda comunidad x̅ 2=44,600 y S2=2,400. Pruebe la
hipótesis nula el nivel de significancia del 5%.
n1=30 H 0= M 1- M 2 = 0 z=.95 / 2= .475 = 1.96

S1=.4 H 1= M 1- M 2≠ 0
x̅ 1=45,500
S1 = 1800
n2 =40
x̅ 2=44,600
S2=2,400
∝=.05
( X́ − X́ 2)(μ−μ2 ) ( 45,500−44,600 )− ( 0 )
Z= 1 = =1.74
σ X́ 1− X́ 2 522.78
2 ( n1 −1 ) S 21+(n2−1) S 22
S=
n1 +n2 −2
( 30−1 ) 1,8002 + ( 40−1 ) 2,4002 318,600,000
S2 = 68
= 4, 685,294
30+ 40−2
2
S2 S2
σ x1 x 2
√ +
n1 n 2
4,685,294 4,685,294
= √ 30
+
40
=√ 156,176−117,132.35=522.78
Se acepta la hipótesis nula

EJERCICIO
Una muestra aleatoria de n1=12 de estudiantes de informática tiene un promedio

de calificación media de x͞ 1= 2.60 (donde a=4) con una desviación estándar de .
40.En el caso de los estudiantes de ingeniería en sistemas, una muestra aleatoria
de n2 =10 estudiantes tiene un promedio de calificación media de x͞ 2=2.9 con una
desviación estándar de .30. Se supone que los valores de calificación siguen la
distribución normal.Pruebe la hipótesis nula de que el promedio de calificación
medio de las 2 categorías de estudiantes no es diferente con un nivel de
significación del 5%
H 0 :μ 1−μ2=0
H 1 : μ 1−μ2 ≠ 0
n1 =12
x́ 1=2.7
S1=40
n2 =10
x́ 2=2.90
S2=30
α =.05
.05/2=.025
gl=n1 +n 2−2=12+10−2=20 t=2.086
( 2.7−2.9 )−( 0 )
t=¿ ¿ ¿= = -1.30
.1534
( n−1 ) S 21 +( n2−1) S22 ( 11 ) .4 2 + ( 9 ) . 32 2.57
S= = 12+10−2 = 20 =.1285
2
n1 +n −2
2
.1285 .1285
√ 12
+
10
=.1534
Se acepta la hipótesis nula
EJERCICIO
Una empresa desea saber cómo está el ausentismo en sus trabajadores. A
continuación se da el número de días de ausencia durante una quincena en una
muestra de diez trabajadores 4, 1, 2, 2, 1, 2, 2, 1, 0 y 3.
A) Determine la media y la desviación estándar de la muestra
B) Cuál es la media poblacional y cuál es la mejor estimación de ese valor
C) Proporcione un intervalo de confianza de 95% para la media poblacional
D) Explique por qué se usa la distribución “t” como punto del intervalo de
confianza
E) Es razonable concluir que el trabajador promedio no falto ningún día
durante la quincena
n
X i 4+ 1+ 2+ 2+ 1+ 2+ 2+ 1+ 0+3 18
χ́ =∑ = = = 1.8
i+1 n 10 10
n
2
( x −xi )
s =∑ =¿ ¿
i=1 n−1
11.6
= 9 =1.288
s2=1.288 s=√ s 2=√1.288=1.134

∝=1−.95 %=0.05÷ 2=0.025
gl=n−1=10−1=9
t =2.262
s 1.134
S x= = =.358
√n √ 10
I ∝=x ±t S x
I ∝=1.8+ ( 2.262 )( .358 )=¿
1.8+.809=2.609
1.8−.809=.991
(.991, 2.609)
UNIDAD 5
Análisis de la regresión
La regresión estadística o regresión a lamedia es la tendencia de una medición extrema a
presentarse más cercana a la media en una segunda medición. La regresión se utiliza para
predecir una medida basándonos en el conocimiento de otra.
El análisis de regresión consiste en emplear métodos que permitan determinar la
mejorrelación funcional entre dos o más variables relacionadas.
Regresión lineal
En estadística la regresión lineal o ajuste lineal es un métodomatemático que modeliza la

relación entre una dependiente Y, las variables independientesXi y un término aleatorio.
SUPOSICIONES DE LA REGRESIÓN LINEAL

1. Los valores de la variable independiente X son fijos, medidos sin error.
2. La variable Y es aleatoria
3. Para cada valor de X, existe una distribución normal de valores de Y (subpoblaciones Y)
4. Las variancias de las subpoblaciones Y son todas iguales.
5. Todas las medias de las subpoblaciones de Y están sobre la recta.
6. Los valores de Y están normalmente distribuidos y son estadísticamente
independientes.
RELACIÓN ENTRE VARIABLES.

Las técnicas de regresión permiten hacer predicciones sobre los valores de cierta
variable
Y (dependiente), a partir de los de otra X (independiente), entre las que se intuye
Que existe una relación.
ANÁLISIS DE REGRESION SIMPLE

En un Análisis de Regresión simple existe una variable respuesta o dependiente (y) que
puede ser el número de especies, la abundancia o la presencia-ausencia de una sola especie
y una variable explicativa o independiente (x). El propósito es obtener una función sencilla
de la variable explicativa, que sea capaz de describir lo más ajustadamente posible la
variación de la variable dependiente. Como los valores observados de la variable
dependiente difieren generalmente de los que predice la función, ésta posee un error. La
función más eficaz es aquella que
Describe la variable dependiente con el menor error posible o, dicho en otras

palabras, con la menor diferencia entre los valores observados y predichos. La
Diferencia entre los valores observados y predichos (el error de la función) se
denomina variación residual o residuos. Para estimar los parámetros de la función
se utiliza el ajuste por mínimos cuadrados. Es decir, se trata de encontrar la
función en la cual la suma de los cuadrados de las diferencias entre los valores
observados y esperados sea menor. Sin embargo, con este tipo de estrategia es
necesario que los residuos o errores estén distribuidos normalmente y que varíen
de modo similar a lo largo de todo el rango de valores de la variable dependiente.
Estas suposiciones pueden comprobarse examinando la distribución de los
residuos y su relación con la variable dependiente.
EJEMPLO
1.-Un especialista en administración de hospitales dice que el número de
empleados de tiempo completo de un hospital se puede estimar al contar el
número de camas de hospital. Una investigadora de campo de servicios de salud
decidió crear un modelo de regresión para pronosticar el número de empleados de
tiempo completo de un hospital respecto al número de camas por lo que realizo
una encuesta en 12 y obtuvo los datos que se presentan en secuencia según el
número de camas.
HOSPITAL NUMERO DE EMPLEADOS x2 xy
CAMAS(x) DE TIEMPO
(y)
1 23 69 529 1587
2 29 95 841 2755
3 29 102 841 2858
4 35 118 1225 4130
5 42 126 1764 5292
6 46 125 2116 5750
7 50 138 2500 6900
8 54 178 2916 9602
9 64 156 4096 9984
10 66 184 4356 12144
11 76 176 5776 13376
12 78 225 6084 17550
∑ ¿592 ∑ ¿1692 ∑ ¿33044 ∑ ¿ 92038
b=
∑ xy−n x́ ý
∑ x 2−n x́ 2
92038−( 12 ) ( 49.333 ) ( 141 ) 8566.564
b= = =¿
33044−( 12 ) ( 2433.744 ) 3839.072
b=2.231
a= ý−b x́
a=141−( 2.231 ) ( 49.33 ) =141−110.061
a=30.939
y=30.939+ 2.231 x
y=30.939+ 2.231 ( 23 ) =82.25
y=30.939+ 2.231 ( 78 ) =204.95
Gráficas de residuos para empleados

Gráfica de probabilidad normal vs. ajustes
99
20
90
Porcentaje
10
Residuo
50 0
-10
10
-20
1
-40 -20 0 20 40 100 150 200
Residuo Valor ajustado
Histograma vs. orden

3
20
Frecuencia
2 10
Residuo
0
1 -10
-20
0
-20 -10 0 10 20 30 1 2 3 4 5 6 7 8 9 10 11 12
Residuo Orden de observación
EJEMPLO
2) Un analista toma una muestra de 10 embarques recientes por una compañía
que registro la distancia en millas y tiempo de entrega al medio díamás cercano a
partir del momento en que el embarque estuvo listo para su cargo.
Elabora el diagrama de dispersión y considere si el análisis de regresión lineal
parece apropiado.
Embarque muestreado 1 2 3 4 5 6 7 8 9 10
Distancia en millas (x) = 825 215 1070 550 480 920 1350 325 670 1215
Tiempo de entrega (y)= 3.5 1.0 4.0 2.0 1.0 3.0 4.5 1.5 3.0 5.0
Embarque Distancia Tiempo x2 xy Y2

muestread en millas de
o (x) entrega
(y)
1 825 3.5 680625 2887.5 12.25
2 215 1.0 46225 215 1

3 1070 4.0 1144900 4280 16
4 550 2.0 302500 1100 4
5 480 1.0 230400 480 1
6 92 3.0 846400 2760 9
7 1350 4.5 1822500 6075 20.25
8 325 1.5 105625 487.5 2.25
9 670 3.0 449900 2010 9
10 1215 5.0 1476225 6075 25
∑ ¿7620 ∑ ¿28.5 ∑ ¿7,104,300 ∑ ¿26,370 ∑ ¿ 99.75
7620 28
x́= =762 ý = =2.85
10 10
b=Σxy−n x̅ y̅ = ¿ ¿
Σ x −n x͞ 2
2
26,370−10 ( 762 ) ( 2.85 ) 26,370−21,717

b= =
7,104,300−10 ( 580,644 ) 7,104,300−5,806,440
b=.003582
a= y̅ −b x̅
a=2.85− (.00358 )( 762 )=2.85−2.7279
a=.1221
y=.1221+.00358 ( 215 )=0.89

y=.1221+.00358 ( 1350 )=4.95
EJERCICIO
Se seleccionaron al azar las siguientes observaciones de muestra:
X Y X2 XY Y2
4 4 16 16 16
5 6 25 30 36
3 5 9 15 25
6 7 36 42 49
10 7 100 70 49
∑ ¿28 ∑ ¿29 ∑ ¿186 ∑ ¿173 ∑ ¿175
x y x
2
xy Y
2
28 29
X́ = =5.6 Ý = =5.8
5 5
a) Establezca la ecuación de regresión

∑ xy−n x́ ý
a) b=
∑ x 2−n x́ 2
173−( 5 ) ( 5.6 ) ( 5.8 ) 10.6
b= = =b=.3630
186−( 5 ) ( 31.36 ) 29.2
a= ý−b x́
a=5.8− (.3630 )( 5.6 ) =5.8−2.0328=a=3.7672
y=3.7672+.3630 ( 10 )=7.3972
y=3.7672−.3630 (3 )=4.8562
B) Obtenga el valor de la ecuación de ŷ cuando x=7

b) ŷ=3.7672−.3630 (7 )=6.3082
C) Determine el error estándar de estimación

c) ŷ ±tSe
¿S x y=√∑ y −a ∑ y−b∑ x y
= √175−( 3.7672 )( 29 )−.3630(173)
2
n−2 5−2
√ 65.7512−62.799 = √ 2.9522 = .9840 =.9919E.Estandar

3 3
√
D) Determine el intervalo de confianza del 95% para el valor medio

pronosticado cuando x=7
0.5
gl=5−2=3 1−95= =0.2 t=3.182
2
Ic= ŷ ± tSc
Ic=6.3082+ ( 3.182 ) ( .9919 )=9.4644
Ic=6.3082−( 3.182 )( .9919 ) =3.152
Ic=( 3.152,9 .46449 )
E) Obtenga el coeficiente de determinación

2 aΣy+ bΣxy−n ý 2
r=
Σ y 2−n ý 2
( 3.7672 ) ( 29 )+ .3630 ( 173 )−( 5 ) (33.64)
r 2=
175−( 5 ) ( 33.64 )
109.2488+62.799−168.2
r 2=
175−168.2
3.8478
r 2=
6.8
r 2=.5658
F) Suponiendo una relación directa entre las variables cual es el

coeficiente de correlación.
r =√ r 2
r =√.5658
r =.7521
ANÁLISIS DE REGRESION MULTIPLE

Como la Estadística Inferencial nos permite trabajar con una variable a nivel de
intervalo o razón, así también se puede comprender la relación de dos o más
variables y nos permitirá relacionar mediante ecuaciones, una variable en relación
de la otra variable llamándose Regresión Lineal y una variable en relación a otras
variables llamándose Regresión múltiple.
La regresión lineal nos permite trabajar con una variable a nivel de intervalo o
razón, así también se puede comprender la relación de dos o más variables y nos
permitirá relacionar mediante ecuaciones, una variable en relación a otras
variables llamándose Regresión múltiple.
Constantemente en la práctica de la investigación estadística, se encuentran
variables que de alguna manera están relacionados entre sí, por lo que es posible
que una de las variables puedan relacionarse matemáticamente en función de otra
u otras variables. Maneja varias variables independientes.
Constante en ecuación de regresión: Aunque el valor de a y los diversos valores

de x son estimaciones de parámetros en la mayoría de los casos el término
constante se refiere al valor de la intersección en a.
Coeficiente de regresión parcial: Cada uno de los coeficientes de regresión x n es

el coeficiente condicional dado que una o más variables independientes
adicionales y sus coeficientes también están incluidas en la ecuación de regresión
Uso de la prueba f: En el análisis de regresión se usa el análisis de varianza para

probar la significancia del modelo global.
Uso de pruebas t: Las pruebas t se usan para determinar si el coeficiente de

regresión parcial para cada variable independiente representa una contribución
significativa al modelo global.
Intervalo de confianza para la media condicional: La determinación de este

intervalo de confianza se designa de la siguiente manera:
μ^ Y ± t S ý Cuando el error estándar de la media condicional en el caso de las dos

variables independientes se designa S ý.
Intervalos de predicción: El intervalo de predicción para estimar el valor de una

observación individual de la variable dependiente dado los valores de las variables
independientes es similar al intervalo de predicción del análisis de regresión
simple.
Formula
^y =a+b1 x 1+ b2 x 2 … …
En la tabla se presentan datos muéstrales relativos a números de horas de estudio
fuera de clase durante un periodo de tres semanas de alumnos de un curso de
estadísticas y a sus calificaciones en el examen final de este periodo. Elabore un
diagrama de dispersión para estos datos y observe si se cumplen los supuestos
de linealidad e igualdad de las varianzas condicionales.
Estudiant Horas Calificació x2 xy y2

e de n (y)
muestrad estudio
o (x)
1 20 64 400 1280 4096
2 16 61 256 976 3721
3 34 84 1156 2856 7056
4 23 70 529 1610 4900
5 27 88 729 2376 7744
6 32 92 1124 2944 8464
7 18 72 324 1296 5184
8 22 77 484 1694 5929

∑ ¿24 ∑ Y =76 ∑ ¿ 4902 ∑ ¿15032 ∑ ¿ 47094
x
x
2
xy Y
2
a) Determine la línea de regresión de mínimos cuadrados de los datos y

trácela en el diagrama
b) Calcule el error estándar de la estimación
c) Use la ecuación de regresión para estimar la calificación en el examen
de un estudiante que dedico 30 horas al estudio del material del curso
d) Elabore el intervalo de confianza del 90% para estimar la calificación
media de los estudiantes que dedicaron 3 horas en el estudio
e) Calcule el coeficiente de determinación y el coeficiente de correlación.
Interprete los coeficientes calculados.
∑ xy−n x́ ý
a) b= ∑ x −n x́
2 2
15032−( 8 ) ( 24 ) ( 76 ) 440
b= = =b=1.4965
4902−( 8 )( 576 ) 294
a= ý−b x́
a=76−( 1.4965 )( 24 )=76−35.916=a=40.084
y=40.084+1.4965 ( 34 )=90.96
y=40.084−1.4965 (34 )=64.02
b) Determine el error estándar de estimación

b) ŷ ±tSe
¿Sxy=√ ∑ y −a∑ y−b ∑ xy
= √ 47094−( 40.084 )(8−2
608 ) −1.4965(15032)
2
n−2
√ 22722.928−22495.388 = √227.54 =√ 37.9233 =6.1581 E. Estándar
6 6
c) Obtenga el valor de la ecuación de ŷ cuando x=7

c) ŷ=40.084−1.4965 (30 )=84.979
D) Determine el intervalo de confianza del 95% para el valor medio

pronosticado cuando x=7
0.1
gl=8−2=6 1−90= =0.05 t=1.943
2
Ic= ŷ ± tSc
Ic=84.979+ (1.943 ) (6.1581)
Ic=84.979+ 11.9651=96.94
Ic=84.979−11.9651=73.01
Ic=( 73.01,96 .94 )
E) Obtenga el coeficiente de determinación

2 aΣy+ bΣxy−n ý 2
r=
Σ y 2−n ý 2
( 40.084 ) ( 608 )+ 1.4965 ( 15032 )− ( 8 ) (5776)
r 2=
47094−( 8 ) ( 5776 )
24371+22495.388−46208
r 2=
47094−46208
658.338
r 2=
886
r 2=.7431
F) Suponiendo una relación directa entre las variables cual es el

coeficiente de correlación.
r =√ r 2
r =√.7431
r =.8620
MINIMOS CUADRADOS
Es una técnica de análisis numérico encuadrada dentro de la optimización
matemática, en la que, dados un conjunto de pares (o ternas, etc.), se intenta
encontrar la función que mejor se aproxime a los datos (un "mejor ajuste"), de
acuerdo con el criterio de mínimo error cuadrático.
ESTIMACION ESTADISTICA
En inferencia estadística se llama estimación al conjunto de técnicas que permiten
dar un valor aproximado de un parámetro de una población a partir de los datos
proporcionados por una muestra. Por ejemplo, una estimación de la media de una
determinada característica de una población de tamaño N podría ser la media de
esa misma característica para una muestra de tamaño

Estadistikas Cuaderno Final

Hochgeladen von

Dokumentinformationen

Copyright

Verfügbare Formate

Dieses Dokument teilen

Dokument teilen oder einbetten

Freigabeoptionen

Stufen Sie dieses Dokument als nützlich ein?

Sind diese Inhalte unangemessen?

Copyright:

Verfügbare Formate

Estadistikas Cuaderno Final

Hochgeladen von

Copyright:

Verfügbare Formate

CUADERNILLO DE ESTADISTICA

Unidad Temas Subtemas

5 Análisis de regresión lineal.

x́−μ ( ṕ 1− ṕ2 )−( p 1− p2 )

2 aΣy+ bΣxy−n ý 2 ŷ ±tSe

“Ciencia que se ocupa del estudio de fenómenos de tipo genérico, normalmente

En México, el Instituto Nacional de Estadística y Geografía (INEGI) se encarga de

La Estadística para su mejor estudio se ha dividido en dos grandes ramas: la

 Estadística Descriptiva: La función descriptiva de la estadística se enfoca

 Estadística Inferencial: Esta aplicación de la estadística busca plantear y

La estadística descriptiva describe datos.

Población: Conjunto de todos los elementos que presentan una característica

Individuo: Un individuo o unidad estadística es cada uno de los elementos que

Muestra: La mayoría de los estudios estadísticos se realiza, no a partir de toda la

Muestreo: Es el proceso de recabar los datos que se desean analizar, obtenidos

Variable: Se llama variable a una característica que se observa en una población

a) Variable cuantitativa: se expresa en valores numéricos. Dentro de ella, se

b) Variable cualitativa: es aquella que describe cualidades. No son numéricas

Solución de un problema estadístico

La solución de un problema estadístico comprende los siguientes pasos:

D) Tratamiento de los datos

E) Estimación de los parámetros

Durante un mes de verano los 8 vendedores en una empresa de equipos de

σ =√ σ 2=√ 10.75=¿ 3.278

Es decir cuando el conjunto de datos de interés, contiene solo pocas

Muchas observaciones y será preciso lograr una presentación más completa, de la

• Es fácil dividir los datos en secciones.

• Podemos ver si algunos valores aparecen más de una vez en el arreglo.

• Podemos observar la distancia entre valores sucesivos de los datos.

Una distribución de frecuencias es una tabla, en la que organizamos los datos en

total 42 1,820 88,050

Muestrear es una forma de evaluar la calidad de un producto, la opinión de los

A menudo no es factible estudiar la población entera. Algunas de las razones por

1. La naturaleza destructiva de algunas pruebas

2. La imposibilidad física de checar todos los elementos de la población.

3. El costo de estudiar a toda la población es muy alto.

4. El resultado de la muestra es muy similar al resultado de la población.

5. El tiempo para contactar a toda la población es inviable.

Distribución muestral de las medias. Es una distribución de probabilidad de todas

A) Calcule la probabilidad de tener un valor entre 75 y 90.

B) μ=80 0.5 - 0.1368=.3632

la media de la población normal, es 60 y la desviación=12. Se toma una muestra

A) x=̅ 60 P(x ̅>63)

B) P (x>̅ 56) .05 + .0398 = .5398

Teorema del límite central

 El teorema del límite central garantiza una distribución normal cuando n es

 Existen diferentes versiones del teorema, en función de las condiciones

 La aproximación entre las dos distribuciones es, en general, mayor en el

 Este teorema, perteneciente a la teoría de la probabilidad, encuentra

DISTRIBUCION MUESTRAL DE LA PROPORCION

Si P es la proporción muestral, definida como En virtud del Teorema Central del

Se elije una muestra de 2000 electores potenciales en el estado de México.

DISTRIBUCION MUESTRAL DE LA DIFERENCIA DE

a) Distribución de la diferencia entre dos medias cuando las varianzas son

De acuerdo con lo anterior la siguiente variable aleatoria tiene una distribución

b) Distribución de la diferencia entre dos medias cuando las varianzas son

Donde es un estimador ponderado de la varianza poblacional s

c) Distribución de la diferencia entre dos medias cuando las varianzas son

( n−1 ) S 21 +( n2−1) S22 ( 40−1 ) 52 + ( 50−1 ) 6 2 975+1764 2739

Si una muestra aleatoria de 27 Artículos produce x́= 128.4 y S= 20.6, cual es el

El valor de un estimador proporciona lo que se denomina en estadística una estimación

Utilizar un intervalo resulta más informativo, al proporcionar información sobre el

Propiedades de los estimadores

Se denomina sesgo de un estimador a la diferencia entre la esperanza (o valor esperado) del