Beruflich Dokumente
Kultur Dokumente
Ejemplo: Si C es el evento de que un vuelo llegue a tiempo, entonces: P(C) = 800 /1000 = 0.8
Si D es el evento de que un vuelo sea cancelado, entonces: P(D) = 25 /1000 = 0.025
Utilice la regla del complemento para mostrar que la probabilidad de que el vuelo llegue antes de
tiempo (A) o demorado (B) es: P(A o B) = 1 - P(C o D) = 1 - [0.8 + 0.025] = 0.175
AyB
A
Ejemplo: En una muestra de 500 estudiantes, 320 dijeron tener un estéreo, 175 dijeron tener una
TV y 100 dijeron tener ambos:
TV
175
Ambos
100
Estéreo
320
Si un estudiante es seleccionado aleatoriamente, ¿cuál es la probabilidad de que tenga sólo un
estéreo, sólo una TV y uno de cada uno?
P(S) = 320 /500 = 0.64
P(T) = 175 /500 = 0.35
P(S y T) = 100 /500 = 0.20
Si un estudiante es seleccionado aleatoriamente, ¿cuál es la probabilidad de que tenga un estéreo
o una TV en su habitación?
P(S o T) = P(S) + P(T) - P(S y T) = 0.64 +0.35 - 0.20 = 0.79
Regla especial de multiplicación.
La regla especial de multiplicación requiere que dos eventos A y B sean independientes.
Dos eventos A y B son independientes si la ocurrencia de una no afecta la probabililidad de
ocurrencia del otro. La regla especial se escribe:
P(A y B) = P(A) * P(B)
Ejemplo: Chris posee dos inventarios independientes uno de otro. La probabilidad de que el
inventario A aumente su valor el próximo año es 0.5; La probabilidad de que el B aumente el suyo
es 0.7 ¿Cuál es la probabilidad de que ambos aumenten su valor el próximo año?
P(A y B) = (0.5)(0.7) = 0.35
¿Cuál es la probabilidad de que al menos uno aumente su valor el próximo año (esto implica que
cualquiera de los dos o ambos aumenten)?
Así, P(A)(al menos uno) = (0.5)(0.35) + (0.5)(0.7) + (0.7)(0.5) = 0.875
Así, P(B)(al menos uno) = (0.7)(0.35) + (0.5)(0.7) + (0.7)(0.5) = 0.945
Probabilidad conjunta: Probabilidad conjunta es una probabilidad que mide la posibilidad de que
dos o más eventos ocurran juntos.
Un ejemplo sería el hecho de que un estudiante tenga tanto un estéreo como una TV en su
habitación.
Probabilidad condicional: Probabilidad condicional es la probabilidad de que ocurra un evento
en particular, dado que ocurrió otro evento.
NOTA: la probabilidad de que ocurra el evento A dado que ya ocurrió B se denota como P(A|B).
Regla general de multiplicación
< Ing. Edmundo Alarcón Cáceres > 4
Control de calidad Aplicado a la Ingeniería [ESTADISTICA INFERENCIAL]
6/11 R2
R1
7/12
5/11 B2
7/11 R2
5/12
B1
4/11
B2
Teorema de Bayes
Las formulas de Bayes nos permiten calcular la probabilidad condicional de un evento cualquiera
perteneciente a una familia de eventos exhaustivos y mutuamente excluyentes, si sabemos que
ha ocurrido un evento B del espacio, siempre que P(Ai) y P(B/Ai) sean conocidas.
El Teorema de Bayes se apoya en el proceso inverso del Teorema de la Probabilidad Total, el
cual indica que a partir de las probabilidades del suceso A (probabilidad de que llueva o de que
haga buen tiempo) deducimos la probabilidad del suceso B (que ocurra un accidente). Por lo
tanto, el Teorema de Bayes: a partir de que ha ocurrido el suceso B (ha ocurrido un accidente)
deducimos las probabilidades del suceso A (¿estaba lloviendo o hacía buen tiempo?).
El teorema de Bayes se representa con la fórmula:
𝑃(𝐴𝑖 ) ∗ 𝑃(𝐵/𝐴𝑖 )
𝑃(𝐴𝑖 ⁄𝐵) = 𝑛
∑𝑖=1 𝑃(𝐴𝑖 ) ∗ 𝑃( 𝐵/𝐴𝑖 )
Ejemplo: El parte meteorológico ha anunciado tres posibilidades para el fin de semana:
a) Que llueva: probabilidad del 50%.
b) Que nieve: probabilidad del 30%
c) Que haya niebla: probabilidad del 20%.
Según estos posibles estados meteorológicos, la posibilidad de que ocurra un accidente es la
siguiente:
a) Si llueve: probabilidad de accidente del 20%.
b) Si nieva: probabilidad de accidente del 10%
c) Si hay niebla: probabilidad de accidente del 5%.
Resulta que efectivamente ocurre un accidente y como no estábamos en la ciudad no sabemos
que tiempo hizo (llovío, nevó o hubo niebla). El teorema de Bayes nos permite calcular estas
probabilidades:
Las probabilidades que manejamos antes de conocer que ha ocurrido un accidente se denominan
"probabilidades a priori" (lluvia con el 50%, nieve con el 30% y niebla con el 20%).
Una vez que incorporamos la información de que ha ocurrido un accidente, las probabilidades del
suceso A cambian: son probabilidades condicionadas P(A/B), que se denominan "probabilidades
a posteriori".
Vamos a aplicar la fórmula:
[(0.55)(0.03)]
𝑃(𝐴1 ⁄𝐵) = = 0.4783
[(0.55)(0.03) + (0.45)(0.04)]
Algunos principios de conteo.
Fórmula de la multiplicación: si hay m modos de hacer una cosa y n formas de hacer otra,
existen m x n formas de hacer ambas.
Ejemplo: el Doctor Périssé tiene 10 camisas y 8 corbatas. ¿Cuántos conjuntos de camisas
/corbatas tiene?
(10)(8) = 80
Permutación: un arreglo de r objetos seleccionados a partir de un grupo único de n objetos
posibles.
NOTA: el orden del arreglo es importante en las permutaciones.
Combinación: el número de modos para elegir r objetos de un grupo de n objetos sin considerar
el orden.
Ejemplo: El entrenador Alexis tiene que elegir 5 jugadores entre los doce del equipo para incluirlos
en alineación.
¿Cuántos grupos diferentes se pueden formar?
12C5 = ( 12! ) / [ 5! ( 12 - 5 )! ] =792
Suponga que el entrenador Alexis debe clasificarlos en orden:
12P5 = ( 12! ) / ( 12 - 5 )! = 95,040
MÓDULO 6: DISTRIBUCIONES PROBABILÍSTICAS DISCRETAS
Variables aleatorias
Una variable aleatoria es un valor numérico determinado por el resultado de un experimento.
Ejemplo: considere un experimento aleatorio en el que se lanza tres veces una moneda. Sea X el
número de caras. Sea H el resultado de obtener una cara y T el de obtener una cruz.
El espacio muestral para este experimento será: TTT, TTH, THT, THH, HTT, HTH, HHT, HHH.
Entonces, los valores posibles de X (número de caras) son x = 0, 1, 2, 3.
El resultado “cero caras” ocurrió una vez.
< Ing. Edmundo Alarcón Cáceres > 7
Control de calidad Aplicado a la Ingeniería [ESTADISTICA INFERENCIAL]
Distribución probabilística:
# de casas pintadas, X Probabilidad, P(X)
10 5/20 = 0.25
11 6/20 = 0.30
12 7/20 = 0.35
13 2/20 = 0.10
Total 20/20 = 1.00
Calcule el número medio de casas pintadas por semana:
Μ = (10)(0.25)+(11)(0.30)+(12)(0.35)+(13)(0.10) = 11.3
Calcule la variancia del número de casas pintadas por semana:
Ejemplo: La Secretaría del Trabajo del estado de Alabama reporta que 20% de la fuerza de
trabajo en Mobile está desempleada. De una muestra de 14 trabajadores, calcule las siguientes
probabilidades con la fórmula de la distribución binomial (n=14, =0.2):
Tres están desempleados (20% de 14): P(x=3)=0.250
< Ing. Edmundo Alarcón Cáceres > 9
Control de calidad Aplicado a la Ingeniería [ESTADISTICA INFERENCIAL]
Z N ( 0 )
Además, toda distribución normal se puede transformar en una normal tipificada llamada
estandarización, donde X se distribuye en la distribución normal estandarizada de valor “Z”, la cual
es la distancia entre un valor seleccionado, designado como X, y la población media μ, dividida
entre la desviación estándar de la población σ.
La distribución normal tipificada o estandarizada tiene la ventaja de que las probabilidades para
cada valor de la curva se encuentran recogidas en una tabla de Distribución de Frecuencia
Acumulada Normal (anexo 1).
¿Cómo se lee esta tabla? La columna de la izquierda indica el valor cuya probabilidad acumulada
queremos conocer. La primera fila nos indica el segundo decimal del valor que estamos
consultando.
Áreas bajo la curva normal. Para poder determinar la probabilidad del valor obtenido de Z,
existen siete casos para calcular la probabilidad según le corresponda la posición en la curva de la
normal estandarizada (anexo 2).
Ejemplo: Una corporación grande ofrece a los graduados en MBA un ingreso mensual que tiene
una distribución normal con media de $2000 y desviación estándar de $200.
¿Cuál es el valor z para un ingreso de $2200? y ¿cuál para uno de $1700?
Para X = $2200, z = (2200 - 2000) /200 = 1.0 probabilidad = 0.3416 (ver tabla 1)
Para X = $1700, z = (1700 - 2000) /200 = - 1.5 probabilidad = 0.4332 (ver tabla 1)
Un valor z igual a 1 indica que el valor de $2200 es mayor que la media de $2000, así como el
valor z igual a -1.5 indica que el valor de $1700 es menor que la media de $2000.
Ejemplo: El consumo de agua diario por persona en New Providence, Nueva Jersey tiene una
distribución normal con media de 20 galones y desviación estándar de 5 galones.
a). ¿Cuál es la probabilidad de que una persona de New Providence seleccionada al azar use
menos de 20 galones por día?
El valor z asociado es:
P(X<20) z = (20 - 20) /5 = 0.0 P(z<0) = 0.0 (ver tabla 1) Así es 0.0%
b). ¿Qué porcentaje usan entre 20 y 24 galones?
P(20≤X≤24) El valor z asociado con X = 20 es: z = 0.0
y con P(0≤X≤24), z = (24 - 20) /5 = 0.8 P(0≤Z≤0.8)
Así, P(0<z<0.8) = 0.2881
= 0.0 + 0.2881 = 0.2881 = 28.81%
verificar que se está dentro de las condiciones de respuesta del sistema esperadas. Sólo entonces
se podrá afirmar que la probabilidad de fallo de un componente es conocida y está controlada.
El objetivo es dar a conocer un tipo de distribución estadística aplicable al estudio de la fiabilidad
de componentes técnicos que, dentro de una misma clase, presentan distintos valores como
consecuencia de la conjunción de una serie de factores tales como su procedencia, carga,
temperatura de su entorno, presión de trabajo, medio ambiente de trabajo (agua, aire, ácidos.) etc.
La distribución lognormal tiene, principalmente, las siguientes aplicaciones:
a. Representa la evolución con el tiempo de la tasa de fallos, λ(t), en la primera fase de vida de
un componente, la correspondiente a los fallos infantiles en la "curva de la bañera"
entendiéndose como tasa de fallos la probabilidad de que un componente que ha funcionado
hasta el instante t, falle entre t y t + dt. En este caso la variable independiente de la distribución
es el tiempo (ver figura).
b. Permite fijar tiempos de reparación de componentes, siendo también en este caso el tiempo la
variable independiente de la distribución.
c. Describe la dispersión de las tasas de fallo de componentes, ocasionada por diferente origen
de los datos, distintas condiciones de operación, entorno, bancos de datos diferentes, etc. En
este caso la variable independiente de la distribución es la tasa de fallos.
Características de la distribución.
La distribución lognormal se obtiene cuando los logaritmos de una Variable se describen mediante
una distribución normal. Es el caso en el que las variaciones en la fiabilidad de una misma clase
de componentes técnicos se representan considerando la tasa de fallos λ aleatoria en lugar de
una variable constante.
Es la distribución cuando las desviaciones a partir del valor del modelo están formadas por
factores, proporciones o porcentajes más que por valores absolutos como es el caso de la
distribución normal.
La distribución lognormal tiene dos parámetros:
m* = media aritmética del logaritmo de los datos o tasa de fallos.
σ = desviación estándar del logaritmo de los datos o tasa de fallos.
Propiedades
La distribución lognormal se caracteriza por las siguientes propiedades:
Asigna a valores de la variable < 0 la probabilidad 0 y de este modo se ajusta a las tasas y
probabilidades de fallo que de esta forma sólo pueden ser positivas.
Como depende de dos parámetros, se ajusta bien a un gran número de distribuciones
empíricas.
Es idónea para parámetros que son a su vez producto de numerosas cantidades aleatorias
como son los múltiples efectos que influyen sobre la fiabilidad de un componente.
La esperanza matemática o media en la distribución lognormal es mayor que su mediana. De
este modo da más importancia a los valores grandes de las tasas de fallo que una distribución
normal con los mismos percentiles del 5% y 50% tendiendo, por tanto, a ser pesimista (ver
figura).
Comparación entre una distribución normal y una lognormal con los mismos percentiles del 5% y 50%.
Siendo m* y σ la media y la desviación estándar del logaritmo neperiano de las tasas de fallos.
Para caracterizar la distribución lognormal, normalmente se indica, además de su mediana, su
factor de dispersión D, que tiene la siguiente expresión:
En la ecuación los subíndices indican los percentiles correspondientes de la tasa de fallo λ al 95%.
Distribución exponencial.
La distribución exponencial es el equivalente continuo de la distribución geométrica discreta. Esta
ley de distribución describe procesos en los que nos interesa saber el tiempo hasta que ocurre
determinado evento, sabiendo que, el tiempo que pueda ocurrir desde cualquier instante dado t,
hasta que ello ocurra en un instante tf, no depende del tiempo transcurrido anteriormente en el que
no ha pasado nada.
Devuelve la probabilidad de una variable aleatoria continua siguiendo una distribución
exponencial. Se usa para la planeación del tiempo entre dos sucesos.
Las aplicaciones de este tipo de distribuciones son:
El tiempo que tarda una partícula radiactiva en desintegrarse. El conocimiento de la ley que
sigue este evento se utiliza en Ciencia para, por ejemplo, la datación de fósiles o cualquier
materia orgánica mediante la técnica del carbono 14, C14;
el tiempo que tardara un GPS en aviar la información a la central de procesos. Esta función
puede usarse para determinar la probabilidad de que el proceso tarde como máximo un
minuto.
El tiempo que puede transcurrir en un servicio mantenimiento de equipos, para la llegada de
una unidad móvil.
En un proceso de Poisson donde se repite sucesivamente un experimento a intervalos de tiempo
iguales, el tiempo que transcurre entre la ocurrencia de dos sucesos consecutivos sigue un
modelo probabilístico exponencial. Por ejemplo, el tiempo que transcurre entre que sufrimos dos
veces un desperfecto de una unidad de transporte importante.
Concretando, si una variable aleatoria continua X esta distribuida a lo largo de , es tal que su
función de densidad es:
Comienzo
¿Es la población Si
infinita?
No
¿Se muestrea Si
con reemplazo?
No
Si
¿Es N≥30n?
x Nn
x Error estándar de la media para una población finita.
n N 1
Estimaciones puntuales
Una estimación puntual es un valor (punto) que se usa para estimar un parámetro de la población.
Ejemplos de estimaciones puntuales son media muestral, desviación estándar muestral, variancia
muestral, relación proporcional de la muestra.
Ejemplo 2: se registra el número de defectos producidos durante 5 horas seleccionadas al azar en
una semana de 40 horas. Los defectos observados fueron 12, 4, 7, 14 y 10. La media muestral es
9.4. Entonces la estimación puntual para el promedio de defectos por hora es 9.4.
Estimaciones de intervalo
Una estimación de intervalo establece la amplitud en la que quizá se encuentre un parámetro
poblacional. El intervalo dentro del cual se espera que esté un parámetro poblacional se llama
intervalo de confianza.
Para ello vamos a establecer la notación a utilizar:
Hemos dicho que vamos a proponer un intervalo donde se encontrará el parámetro a estimar,
con una probabilidad de acierto alta. Al valor de esta probabilidad la representaremos por 1-α, y
la llamaremos nivel de confianza. A mayor valor de 1- α, más probabilidad de acierto en nuestra
estimación, por tanto eso implica que α tendrá que ser pequeño, próximo a 0.
Recordemos que 1- α representa siempre una probabilidad por lo que será un valor entre 0 y 1, si
bien en la mayoría de los enunciados de los problemas suele ser enunciado en términos de tanto
por ciento. Así cuando, por ejemplo, se dice que el nivel de confianza es del 90%, significa que
1- α vale 0,9 y por tanto α vale 0,1.
Ejemplo: El director de la escuela de administración desea estimar el número medio de horas por
semana que estudian los alumnos. Una muestra de 49 estudiantes dio una media de 24 h con
desviación estándar de 4 h.
La estimación puntual es 24 h (media muestral).
¿Cuál es el intervalo de confianza de 95% para el número promedio de horas por semana que
estudian los alumnos?
Si se usa un IC de 95% para la media poblacional, se tiene
Los puntos terminales del intervalo de confianza son los límites de confianza. El límite inferior de
confianza es 22.88 y el límite superior de confianza es 25.12
25.12
L.C.S.
24.00
μ
22.88
L.C.I.
Ejemplo: Matt Williams, planificador financiero, estudia los planes de retiro para jóvenes
ejecutivos. Una muestra de 500 ejecutivos que son dueños de sus casas reveló que 175 planean
venderlas y retirarse en Arizona. Desarrolle un intervalo de confianza de 98% para la proporción
de ejecutivos que planean vender e irse a Arizona.
Aquí, n=500, p=175/500=0.35 y z=2.33
el IC de 98% es:
𝟎. 𝟑𝟓(𝟏 − 𝟎. 𝟑𝟓)
𝑰. 𝑪. = 𝒑 ± 𝒁 𝝈𝒑̅ = 𝟎. 𝟑𝟓 ± (𝟐. 𝟑𝟑)√ = 𝟎. 𝟑𝟓 ± 𝟎. 𝟎𝟒𝟗𝟕
𝟓𝟎𝟎
L.C.S. = 0.35 + 0,0497 = 0.3997
L.C.I. = 0.35 - 0,0497 = 0.3003
0.3003 ≤ π ≤ 0.3997
30.03% ≤ π ≤ 39.97%
Control de calidad.
Uno de los casos más habituales en los que podemos aplicar el teorema del límite central es a la
hora de hacer un proceso de control de calidad. Entenderemos por control de calidad el
seguimiento de cierta variable aleatoria en un proceso de producción a partir de la media de
muestras sucesivas.
Estableceremos un intervalo, de manera que las medias que caigan fuera de este intervalo nos
indicarán que existe alguna anomalía en el proceso de producción en aquel instante. Los límites
de este intervalo se denominan límites de control.
Si μ es la esperanza de la variable de interés, σ la desviación típica y consideramos una muestra
de esta variable de tamaño n, los límites de control vendrán dados por μ + 3σ √n y μ - 3σ √n. Es
decir, calculamos tres veces el error estándar a lado y lado de la media. Por tanto, la longitud
del intervalo es dos veces el triple del error estándar.
¿Por qué tomamos este intervalo? Si aplicamos el teorema del límite central sobre la variable de
interés, sabemos que la media de n datos se distribuye como una normal con media μ y varianza
σ √n. Se demuestra fácilmente que la probabilidad de que una media esté fuera del intervalo μ +
3σ √n y μ - 3σ √n es de 0,001 (esto significa que un valor fuera de este intervalo, si el proceso
funcionase correctamente, se puede dar sólo con una probabilidad de 0,001). Por tanto, cuando
se dé un valor fuera del intervalo, pensaremos que no es casualidad y que en el problema la
variable no se comporta como suponíamos.
Ejemplo de realización de un control de calidad
Consideremos una máquina que llena tarros de pegamento. Supongamos que, de media, cada
tarro contiene 125 gramos de pegamento con una desviación típica de 1,5 gramos. Todas las
semanas hacemos un control de la máquina: analizamos una muestra de 30 tarros y calculamos
la media de cada uno.
En este ejemplo el error estándar es:
𝑍. 𝜎 2 𝑍2𝜎 2𝑁 𝑍2𝜎 2𝑁
𝑛=( ) 𝑛= 𝑛=
𝐸 𝐸 2 (𝑁 − 1) + 𝜎 2 𝑍 2 𝐸2𝑁 + 𝜎 2𝑍2
Donde: E es el error permitido, Z es el valor normal estándar asociado con el grado de confianza
seleccionado y σ es la desviación estándar estimada del estudio piloto.
Ejemplo: Un grupo de consumidores desea estimar la media mensual en los recibos de luz para
una casa unifamiliar. Según estudios similares la desviación estándar se estima en $20.00. Se
desea un nivel de confianza de 99%, con una precisión de ±$5.00. ¿Qué tamaño de muestra se
requiere?
𝑍 2 𝑍 2 𝑁𝑝(1 − 𝑝) 𝑍 2 𝑁𝑝(1 − 𝑝)
𝑛 = 𝑝(1 − 𝑝) ( ) 𝑛= 𝑛=
𝐸 𝐸 2 (𝑁 − 1) + 𝑍 2 𝑝(1 − 𝑝) 𝐸 2 𝑁 + 𝑍 2 𝑝(1 − 𝑝)
Definiciones
Ho es la hipótesis nula, y es la que se somete a contraste.
H1 es la hipótesis alternativa a H0, y es la negación de Ho. Mientras que Ho es exacta, H1 suele
ser inexacta.
Nivel de significancia de la prueba: La probabilidad es el nivel de significación de la prueba,
es el riesgo o la probabilidad que el investigador asume de manera voluntaria para equivocarse
al rechazar la hipótesis nula, cuando en realidad es verdadera. Es también la confiabilidad de
decidir si se rechaza o no la hipótesis nula.
La decisión (¿H0 sí o H0 no?).
La decisión requiere, en primer lugar, trazar un punto de corte (o dos, en el contraste bilateral),
que definirá dos zonas, una de rechazo (o crítica) y otra de aceptación.
Ese punto de corte vendrá dada por el nivel de confianza y el nivel de riesgo, α La decisión
consiste en rechazar la Ho si el estadístico de contraste cae en la región de rechazo, y
mantenerla si cae en la región de aceptación.
Mantener la Ho significa que la hipótesis es compatible con los datos. Rechazarla implica que
ambos son incompatibles, luego consideramos la Ho falsa.
Estado real
decisión
H0 es verdadera H0 es falsa
Rechazar H0 Error de tipo I OK.
No rechazar H0 OK. Error de tipo II
Error Tipo I: rechazar la hipótesis nula cuando en realidad es verdadera.
Error Tipo II: aceptar la hipótesis nula cuando en realidad es falsa.
Estadístico de prueba: Para rechazar o no la hipótesis nula se toma una muestra aleatoria de la
población bajo estudio y los resultados contenida en ella se usa en expresiones llamadas
estadísticos o estadísticas de prueba e indican el grado de discrepancia entre la hipótesis nula y
los datos muestrales que están resumidos en las estadísticas.
Valor crítico: el punto que divide la región de aceptación y la región de rechazo de la hipótesis
nula.
Región de Aceptación
Región de Rechazo
estadística Z z, en caso estadística Z z, en caso estadística Z z/ 2 ó Z z /
rechaza H 0 .
Pruebas de significancia
Ejemplo: Los fabricantes de Fries’ Catsup indican en su etiqueta que el contenido de la botella es
de 16 onzas. Cada hora se toma una muestra de 36 botellas y se pesa el contenido, el cual tiene
una distribución normal de probabilidad. La muestra de la última hora tiene un peso medio de
16.12 onzas con una desviación estándar de 0.5 onzas. ¿Está el proceso fuera de control para un
nivel de significancia de 0.05?
Caso general Ejemplo especifico
1. Hipótesis ¿Está el proceso fuera de control para un nivel de
Contr. Bilateral: H0 :μ = μ0 significancia de 0.05?
H1 :μ ≠ μ0 Media de la población μ = 16
Contr. Unil. Der.: H0 :μ ≤ μ0 Media de la muestra X = 16.12
H1 :μ > μ0 Nivel de Confianza = 0.95; n = 36, σ = 0.5
Contr. Unil. Izq.: H0 :μ ≥ μ0 H0 : μ = 16
H1 :μ < μ0 H1 : μ ≠ 16
2. Supuestos Tenemos n suficientemente grande para
a). Población con distribución normal garantizar una Distribución Media de la Muestra
b). Muestra aleatoria de tamaño n. normal.
3. Estadístico de contraste
𝑋̅−𝜇 𝑋̅−𝜇 𝑝−𝑃 𝑋̅ − 𝜇
𝑍 = 𝜎/ 𝑍 = 𝑆/ 𝑍= 𝑍=
√𝑛 √𝑛 √
𝑃𝑞 𝜎/√𝑛
𝑛
4. Definir la región
Primero, la zona de rechazo según α • α = 1 – NC = 1 – 0.95 = 0.05;
• Contraste Bilateral: α/2 = 0.05/2 = 0.025
p = 0.95/2 = 0.475
Tabla de D.N. Z0.475 = 1.96
• Contraste bilateral, luego
Z z/ 2 ó Z z/ 2 = ± 1.96
-1.96 +1.96
3. Estadístico de contraste 𝑋̅ − 𝜇
𝑋̅−𝜇 𝑑̅ 𝑡=
𝑡= 𝑡= 𝑆/√𝑛
𝑆/√𝑛 𝑆𝑑 /√𝑛
• α = 1 – NC = 1 – 0.95 = 0.05;
Para una cola es:
4. Definir la región
1/α = 1/0.05 = 20
Primero, la zona de rechazo según α
α/2 = 20/2 = 10
• Contraste Bilateral:
g.l. = n-1 = 10 – 1 = 9
Tabla de t de una cola t(g.l.),NC = t9,0.05
t9,0.05 = 1.8331
• Contraste Unilateral Derecho, luego
Contraste unilateral derecho, luego
tteor = tn−1,α−1 = t 9,0.95 =1.8331
+1.8331
•1.8331 •3.1623
6. La regla de decisión •3.1623 > 1.8331
Se rechaza H0 si temp cae en la zona de
rechazo determinada por tteor.
t emp > t teor
3.1623 > 1.8331
• Luego rechazamos H0: La nueva máquina es más
rápida.
La tabla que se utilizará esta en el anexo de probabilidad para valores críticos Ji cuadrado X2 a
grados de libertad para valores especiales de . Para denotar el valor crítico de una distribución
X2 con g.l. grados de libertad se usa el símbolo “X2 (gl)”; por ejemplo para encontrar X2 0.05(6)
en la tabla se localiza 6 g.l. en el lado izquierdo y =0.05 a o largo del lado superior de la misma
tabla.
El cálculo de probabilidad en una distribución muestral de varianzas nos sirve para saber como
se va a comportar la varianza o desviación estándar en una muestra que proviene de una
distribución normal. El cálculo de la prueba Ji cuadrado, se realiza con la siguiente formula:
𝑆2
𝑋 2 = (𝑛 − 1)
𝜎02
Donde X2 se distribuye con (n-1) g.l.
S2 = Varianza poblacional
σ2 = Varianza muestral
Las hipótesis a plantearse son:
Si aceptamos la H0, podemos considerar que no tenemos evidencia que nos hagan suponer una
dependencia entre las dos variables a un nivel de confianza = 1-α
Ejemplo: Una compañía que produce una parte maquinada para un motor, afirma que tiene una
varianza de diámetro no mayor a 0.0002 pulgadas. Una muestra aleatoria de 10 de dichas partes
dio una varianza de muestra S2=0.0003. Si se supone que las medidas del diámetro se distribuyen
en forma normal, ¿hay evidencia para refutar lo que afirma el proveedor? Use = 0.05
Solución:
Como en todos los ensayos de hipótesis que se han realizado anteriormente el procedimiento es
el mismo. Después de que se identifican los datos, se plantea la hipótesis para determinar el
tipo de ensayo.
Datos:
σ2= 0.0002
n = 10
S2 = 0.0003
= 0.05
Ensayo de hipótesis:
𝐻0 : 𝜎 2 = 0.0002
𝐻1 : 𝜎 2 > 0.0002
Regla de decisión:
Si X2 ≤ 16.919 no se rechaza Ho.
Si X2 > 16.919 se rechaza Ho.
Cálculos:
0.0003
𝑋 2 = (10 − 1) = 13.5
0.0002
Justificación y decisión:
Como 13.5 no es mayor que 16.919 por lo tanto no se rechaza Ho y se concluye con un nivel de
significancia de 0.05 que no se puede refutar la afirmación del proveedor.
ANOVA (Analysis Of Variance)
Es un método de cálculo para probar la hipótesis de que las medias de dos o más poblaciones son
iguales.
En un estudio ANOVA, se aplican tratamientos (programas de capacitación, métodos de
enseñanza, ingreso per cápita, etc.) a entidades denominados unidades experimentales
(estudiantes, clientes, consumidores, trabajadores). El atributo de las entidades, que se desea
medir recibe el nombre de factor.
En un estudio ANOVA se pueden aplicar modelos de efectos fijos o aleatorios. En un modelo de
efectos fijos, se seleccionan tratamientos específicos o se fijan antes del estudio determinístico.
En un modelo de efectos aleatorios, los tratamientos utilizados en el estudio se seleccionan
aleatoriamente. Como por ejemplos:1). Comparación de kilometraje logrado por cinco clases de
gasolina. 2). Cual de los cuatro métodos de capacitación produce el rápido aprendizaje. 3). La
dosificación de drogas en un paciente.
La necesidad de disponer de métodos estadísticos para comparar las varianzas de dos
poblaciones es evidente a partir del análisis de una sola población y para la solución de este tipo
de estudios se aplica la distribución “F” de FISHER. Frecuentemente se desea comparar la
precisión de un instrumento de medición con la de otro, la estabilidad de un proceso de
manufactura con la de otro.
La variable aleatoria F es no negativa, y la distribución tiene un sesgo hacia la derecha. La
distribución F tiene una apariencia muy similar a la distribución Ji cuadrada; sin embargo, se
encuentra centrada respecto a 1, y los dos parámetros v1 y v2 proporcionan una flexibilidad
adicional con respecto a la forma de la distribución.
Si S12 y s22 son las varianzas muestrales independientes de tamaño n1 y n2 tomadas de
poblaciones normales con varianzas σ12 y σ22, respectivamente, entonces se tiene la prueba
estadística de F con ((n1 – 1), (n2 – 1)) grados de libertad:
𝑆12
𝐹= >1
𝑆22
Las tablas tienen la siguiente estructura:
Para manejar las tablas de Fisher se tendrá que buscar los grados de libertad n1 y n2, para
calcular el valor de F.
n2 5% (normal) y 1% (negritas) puntos para la distribución F
n1 grados de libertad (para el mayor cuadrado medio)
1 1 2 3 4 5 6 7 8 …… 24 …… …… 500 ∞
2
…
2.11
19 63.621 49.782 44.412 41.531 39.727 38.475 37.558 36.86 36.307 33.804 32.363 32.058 31.621
2.92
20 46.071 34.794 30.457 28.114 26.645 25.633 24.891 24.324 23.88 21.828 20.649 20.409 20.045
n1 = 24 y n2 = 19. n1 = 24 y n2 = 19.
¿Presentan los datos evidencia suficiente para indicar que las variaciones del proceso son
menores para el 2? Realice una prueba con un a = 0.05.
Solución:
Datos:
Ensayo de hipótesis:
𝐻0 : 𝜎12 = 1
𝐻1 : 𝜎12 > 1
Estadístico de prueba:
𝑆12
𝐹= >1
𝑆22
La sugerencia que se hace es que el numerador sea el de valor mayor. Entonces los grados de
libertad uno será el tamaño de la muestra de la población uno menos uno. v1= 25 - 1 = 24 y v2 =
20 – 1 = 19.
Regla de decisión:
Si F ≤ 2.11 No se rechaza Ho,
Si F > 2.11 se rechaza Ho.
Cálculo:
𝑆12 1.04
𝐹= 2 = 0.51 = 2.04
𝑆2
Decisión y Justificación:
Como 2.04 es menor que 2.11 no se rechaza Ho, y se concluye con un a = 0.05 que no existe
suficiente evidencia para decir que la varianza del proceso 2 es menor que la del proceso 1.
MÓDULO 12: REGRESIÓN LINEAL Y CORRELACIÓN
Análisis de correlación: se usa un grupo de técnicas estadísticas para medir la fuerza de la
relación (correlación) entre dos variables. Al analizar un conjunto de datos bivariados es
conveniente obtener algún conocimiento acerca de la relación que puede existir entre estas
variables cuantitativas, por ejemplo, analizar la relación entre:
X Y UNIDAD ESTADÍSTICA
Municipio de Lima
Ingresos Egresos
Metropolitana
Personal obrero de una
Peso Edad
constructora
Ingresos generados
Gastos Centro hospitalario
Puntaje en prueba de Puntaje en prueba de Alumno de nivel secundaria en
habilidad matemática habilidad verbal Ate
La naturaleza e intensidad de las relaciones entre variables pueden ser examinadas por medio
del análisis de regresión y correlación, dos técnicas estadísticas relacionadas pero que sirven
para propósitos diferentes.
El análisis se realiza conjuntamente dos variables cuantitativas, una de ellas llamada variable
dependiente o de respuesta (y) cuyo comportamiento se debe o se explica por otra variable
llamada independiente (x), a ésta última se le denomina también variable explicativa o variable
regresora.
Diagrama de dispersión:
Gráfica que describe la relación entre las dos variables de interés. Es de gran utilidad porque los
puntos graficados nos mostrarán la naturaleza y la fuerza de la relación entre dichas variables:
y 0 1x
Es la ecuación que describe como se relaciona “y” con “x” y el término error aleatorio.
Donde:
y : variable dependiente o de respuesta. Es la variable por modelar o predecir.
x : variable independiente o regresora. Es la variable que se utiliza para modelar o predecir.
βo: parámetro del modelo; es la ordenada en el origen,
β1: parámetro del modelo, pendiente de la recta, indica la magnitud del incremento o
decremento de y por cada unidad de incremento en x.
e: error o perturbación aleatoria, explica la variabilidad en y, que no puede ser explicada en el
modelo.
Supuestos:
1. Los valores de la variable independiente “x” son "fijos".
2. La variable “x” se mide sin error (se desprecia el error de medición en x)
3. Los errores son aleatorios, se distribuyen normalmente con media cero y variancia uno.
Suposiciones fundamentales de regresión lineal
Para cada valor de X, existe un grupo de valores de Y que tienen una distribución normal.
Las medias de estas distribuciones normales de valores de Y deben estar sobre la recta de
regresión.
Coeficiente de covarianza.
Llamada también varianza simultanea o compartida, es el estadígrafa que mide la varianza
conjunta de las variables, se le representa por:
∑𝑛𝑖=1 𝑥𝑖 𝑦𝑖
𝑆𝑋𝑌 = − 𝑥𝑦
̅̅̅ = 𝑥𝑦
̅̅̅ − 𝑥̅ 𝑦̅
𝑛
Varianza residual.
Es el estadígrafo que mide el grado de dispersión de los datos respecto a la recta de ajuste,
𝑆𝑋𝑌
𝑆𝑋𝑌 2 = 𝑆𝑦2 −
𝑆𝑥2
Por tanto la varianza residual de la regresión del Y en función de X es:
𝑆𝐸2 = (1 − 𝑟 2 )𝑆𝑌2
Y la varianza residual de la regresión del X en función de Y es:
𝑆𝐸2 = (1 − 𝑟 2 )𝑆𝑋2
Ejemplo: Ejemplo: Dan Ireland, presidente de la sociedad Libro Páginas X Costo ($) Y
editora de libros, está preocupado por el costo de los libros. 1 500 28
Para tener un panorama del problema elige una muestra de 8 2 700 25
libros de venta en la librería. Desarrollar una ecuación de 3 800 33
regresión para la información dada para estimar el precio de 4 600 24
venta basado en el número de páginas. 5 400 23
Por el principio de mínimos cuadrados, 6 500 27
7 600 21
b = 0.01714 y a = 16.0 8 800 31
Ŷ = 16.0 + 0.01714X
Error estándar de la estimación
El error estándar de la estimación mide la dispersión de los valores observados alrededor de la
recta de regresión. La fórmula usada para calcular el error estándar es la raíz cuadrada positiva
de la varianza Residual.
Ejemplo: del ejercicio anterior calcule el error estándar de la estimación:
El ángulo entre el vector formado por las desviaciones del X con respecto a su valor medio y el
de la Y con respecto a su valor medio, , esta definido por:
El ángulo muestra el grado de paralelismo entre los vectores (a > θ > desviación y a < θ <
desviación).
La varianza que no es explicada por las rectas de regresión esta dada por: 100 - r2
Coeficiente de determinación.
El coeficiente de determinación, r2 es la proporción de la variación total en la variable
dependiente Y que está explicada por o se debe a la variación en la variable independiente X.
El coeficiente de determinación es el cuadrado del coeficiente de correlación, y toma valores de
0 a 1.
Ejemplo: Calcule el coeficiente de correlación del estudio de la relación entre el número de
páginas del libro y el costo.
r = 0.614 (verificar)
Pruebe la hipótesis.
La prueba de hipótesis se desarrolla con la t de student.
Ejemplo: Del ejercicio anterior se formula la hipótesis de que no existe correlación en la
población. Use 0.02 de nivel de significancia.
Paso 1: Ho: la correlación en la población = cero.
H1 : la correlación en la población ≠ cero.
Paso 2:
Determinar la t con α = 0.02 y (n – 2) gl (8 – 2) = 6 g.l.
t en tabla t = 3.143 para dos colas
Ho se rechaza si t > 3.143 o si t < -3.143,
Calcular es estadístico de prueba con:
𝑟√𝑛 − 2
𝑡=
√1 − 𝑟 2
0.614√8 − 2
𝑡= = 1.9055
√1 − 0.6142
El estadístico de prueba es t = 1.9055,
Paso 4:
Ho no se rechaza.
ANEXOS
DISTRIBUCIÓN DE FRECUENCIAS ACUMULATIVA NORMAL
(Área bajo la curva normal estándar de 0 a Z)
Z 0,00 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09
0,0 0.0000 0.0040 0.0080 0.0120 0.0160 0.0199 0.0239 0.0279 0.0319 0.0359
0,1 0.0398 0.0438 0.0478 0.0517 0.0557 0.0596 0.0636 0.0675 0.0714 0.0723
0,2 0.0793 0.0832 0.0871 0.0910 0.0948 0.0987 0.1026 0.1064 0.1103 0.1141
0,3 0.1179 0.1217 0.1255 0.1293 0.1331 0.1368 0.1406 0.1443 0.1480 0.1517
0,4 0.1554 0.1591 0.1628 0.1664 0.1700 0.1736 0.1772 0.1808 0.1844 0.1879
0,5 0.1915 0.1950 0.1985 0.2019 0.2054 0.2088 0.2123 0.2157 0.2090 0.2224
0,6 0.2257 0.2291 0.2324 0.2357 0.2389 0.2422 0.2454 0.2486 0.2517 0.2549
0,7 0.2580 0.2611 0.2642 0.2673 0.2704 0.2734 0.2764 0.2794 0.2813 0.2852
0,8 0.2881 0.2910 0.2939 0.2967 0.2995 0.3023 0.3051 0.3078 0.3106 0.3133
0,9 0.3159 0.3186 0.3212 0.3238 0.3264 0.3289 0.3315 0.3340 0.3365 0.3389
1,0 0.3416 0.3438 0.3461 0.3485 0.3508 0.3531 0.3554 0.3577 0.3599 0.3621
1,1 0.3643 0.3665 0.3686 0.3708 0.3729 0.3749 0.3770 0.3790 0.3810 0.3830
1,2 0.3849 0.3869 0.3888 0.3907 0.3925 0.3944 0.3962 0.3980 0.3997 0.4015
1,3 0.4032 0.4049 0.4066 0.4082 0.4099 0.4115 0.4131 0.4147 0.4162 0.4177
1,4 0.4192 0.4207 0.4222 0.4236 0.4251 0.4265 0.4279 0.4292 0.4306 0.4319
1,5 0.4332 0.4345 0.4357 0.4370 0.4382 0.4394 0.4406 0.4418 0.4429 0.4441
1,6 0.4452 0.4463 0.4474 0.4484 0.4495 0.4505 0.4515 0.4525 0.4535 0.4545
1,7 0.4554 0.4564 0.4573 0.4582 0.4591 0.4599 0.4608 0.4616 0.4625 0.4633
1,8 0.4641 0.4649 0.4656 0.4664 0.4671 0.4678 0.4686 0.4693 0.4699 0.4706
1,9 0.4713 0.4719 0.4726 0.4732 0.4738 0.4744 0.4750 0.4756 0.4761 0.4767
2,0 0.4773 0.4778 0.4783 0.4788 0.4793 0.4798 0.4803 0.4808 0.4812 0.4817
2,1 0.4821 0.4826 0.4830 0.4834 0.4838 0.4842 0.4846 0.4850 0.4854 0.4857
2,2 0.4861 0.4865 0.4868 0.4871 0.4875 0.4878 0.4881 0.4884 0.4887 0.4890
2,3 0.4893 0.4896 0.4898 0.4901 0.4904 0.4906 0.4909 0.4911 0.4913 0.4916
2,4 0.4918 0.4920 0.4922 0.4925 0.4927 0.4929 0.4931 0.4932 0.4934 0.4936
2,5 0.4938 0.4940 0.4941 0.4943 0.4945 0.4946 0.4948 0.4949 0.4951 0.4952
2,6 0.4953 0.4955 0.4956 0.4957 0.4959 0.4960 0.4961 0.4962 0.4963 0.4964
2,7 0.4965 0.4966 0.4967 0.4968 0.4969 0.4970 0.4971 0.4972 0.4973 0.4974
2,8 0.4974 0.4975 0.4976 0.4977 0.4977 0.4978 0.4979 0.4980 0.4980 0.4981
2,9 0.4981 0.4982 0.4983 0.4983 0.4984 0.4984 0.4985 0.4985 0.4986 0.4986
3.0 0.4987 0.4987 0.4987 0.4988 0.4988 0.4989 0.4989 0.4989 0.4990 0.4990
3.1 0.4990 0.4991 0.4991 0.4991 0.4992 0.4992 0.4992 0.4992 0.4993 0.4993
3.2 0.4993 0.4993 0.4994 0.4994 0.4994 0.4994 0.4994 0.4995 0.4995 0.4995
3.3 0.4995 0.4995 0.4995 0.4996 0.4996 0.4996 0.4996 0.4996 0.4996 0.4997
3.4 0.4997 0.4997 0.4997 0.4997 0.4997 0.4997 0.4997 0.4997 0.4997 0.4998
3.6 0.4998 0.4998 0.4999 0.4999 0.4999 0.4999 0.4999 0.4999 0.4999 0.4999
3.9 0.5000
2000000 0.0000005 7.1526 7.1526 7.1526 7.1526 6.5565 6.5565 6.5565 6.5565 6.5565 6.5565
gl -->
40 50 60 70 80 90 100 125 150 175
10 0.1 1.6839 1.6759 1.6706 1.6669 1.6641 1.6620 1.6602 1.6571 1.6551 1.6536
20 0.05 2.0211 2.0086 2.0003 1.9944 1.9901 1.9867 1.9840 1.9791 1.9759 1.9736
40 0.025 2.3289 2.3109 2.2990 2.2906 2.2844 2.2795 2.2757 2.2687 2.2641 2.2608
50 0.02 2.4233 2.4033 2.3901 2.3808 2.3739 2.3685 2.3642 2.3566 2.3515 2.3478
100 0.01 2.7045 2.6778 2.6603 2.6479 2.6387 2.6316 2.6259 2.6157 2.6090 2.6042
200 0.005 2.9712 2.9370 2.9146 2.8987 2.8870 2.8779 2.8707 2.8577 2.8492 2.8431
1000 0.001 3.5510 3.4960 3.4602 3.4350 3.4164 3.4019 3.3905 3.3701 3.3565 3.3469
2000 0.0005 3.7884 3.7230 3.6808 3.6508 3.6287 3.6118 3.5984 3.5742 3.5582 3.5472
10000 0.0001 4.3213 4.2282 4.1688 4.1269 4.0955 4.0722 4.0536 4.0198 3.9977 3.9814
20000 0.00005 4.5449 4.4378 4.3702 4.3213 4.2887 4.2608 4.2398 4.2003 4.1770 4.1584
100000 0.00001 5.0478 4.9174 4.8243 4.7684 4.7125 4.6752 4.6566 4.6007 4.5728 4.5449
200000 0.000005 5.2527 5.1036 5.0291 4.9546 4.8988 4.8429 4.8243 4.7684 4.7311 4.7125
1000000 0.000001 5.8115 5.6624 5.5134 5.3644 5.3644 5.2154 5.2154 5.2154 5.0664 5.0664
2000000 0.0000005 5.9605 5.9605 5.6624 5.6624 5.3644 5.3644 5.3644 5.3644 5.3644 5.3644
gl -->
200 225 250 275 300 325 350 375 400 450
10 0.1 1.6525 1.6517 1.6510 1.6504 1.6499 1.6496 1.6492 1.6489 1.6487 1.6482
20 0.05 1.9719 1.9706 1.9695 1.9686 1.9679 1.9673 1.9668 1.9663 1.9659 1.9652
40 0.025 2.2584 2.2565 2.2550 2.2537 2.2527 2.2518 2.2511 2.2504 2.2499 2.2489
50 0.02 2.3451 2.3430 2.3414 2.3400 2.3388 2.3379 2.3370 2.3363 2.3357 2.3347
100 0.01 2.6006 2.5979 2.5956 2.5938 2.5923 2.5910 2.5899 2.5890 2.5882 2.5868
200 0.005 2.8385 2.8350 2.8322 2.8299 2.8279 2.8263 2.8249 2.8237 2.8227 2.8210
1000 0.001 3.3398 3.3343 3.3299 3.3263 3.3232 3.3207 3.3186 3.3167 3.3151 3.3123
2000 0.0005 3.5387 3.5320 3.5268 3.5227 3.5192 3.5163 3.5137 3.5114 3.5093 3.5064
10000 0.0001 3.9698 3.9616 3.9546 3.9488 3.9442 3.9395 3.9360 3.9325 3.9302 3.9255
20000 0.00005 4.1444 4.1351 4.1281 4.1211 4.1164 4.1118 4.1071 4.1025 4.1001 4.0955
100000 0.00001 4.5262 4.5262 4.5076 4.5076 4.4890 4.4890 4.4890 4.4797 4.4703 4.4703
200000 0.000005 4.6939 4.6752 4.6566 4.6566 4.6566 4.6380 4.6380 4.6194 4.6194 4.6194
1000000 0.000001 5.0664 5.0664 5.0664 5.0664 5.0664 4.9919 4.9919 4.9919 4.9174 4.9174
2000000 0.0000005 5.3644 5.3644 5.0664 5.0664 5.0664 5.0664 5.0664 5.0664 5.0664 5.0664
gl -->
500 550 600 650 700 750 800 1000 2000 3000
10 0.1 1.6479 1.6476 1.6474 1.6472 1.6470 1.6469 1.6468 1.6464 1.6456 1.6454
20 0.05 1.9647 1.9643 1.9639 1.9636 1.9634 1.9631 1.9629 1.9623 1.9612 1.9608
40 0.025 2.2482 2.2476 2.2470 2.2466 2.2462 2.2459 2.2456 2.2448 2.2431 2.2425
50 0.02 2.3338 2.3331 2.3326 2.3321 2.3317 2.3313 2.3310 2.3301 2.3282 2.3276
100 0.01 2.5857 2.5848 2.5841 2.5834 2.5829 2.5824 2.5820 2.5807 2.5783 2.5775
200 0.005 2.8195 2.8184 2.8175 2.8167 2.8160 2.8154 2.8148 2.8133 2.8102 2.8091
1000 0.001 3.3101 3.3082 3.3068 3.3056 3.3044 3.3036 3.3027 3.3002 3.2954 3.2938
2000 0.0005 3.5038 3.5018 3.5000 3.4983 3.4971 3.4960 3.4951 3.4922 3.4863 3.4846
10000 0.0001 3.9220 3.9197 3.9162 3.9150 3.9127 3.9116 3.9104 3.9069 3.8987 3.8953
20000 0.00005 4.0908 4.0885 4.0862 4.0838 4.0815 4.0792 4.0792 4.0745 4.0652 4.0606
100000 0.00001 4.4610 4.4610 4.4517 4.4517 4.4517 4.4517 4.4517 4.4424 4.4331 4.4238
200000 0.000005 4.6194 4.6194 4.6194 4.6007 4.6007 4.6007 4.6007 4.5821 4.5821 4.5821
1000000 0.000001 4.9174 4.9174 4.9174 4.9174 4.9174 4.9174 4.9174 4.9174 4.9174 4.9174
2000000 0.0000005 5.0664 5.0664 5.0664 5.0664 5.0664 5.0664 5.0664 5.0664 5.0664 5.0664