Beruflich Dokumente
Kultur Dokumente
FACULTA DE CIENCIAS
DEPARTAMENTO DE MATEMATICAS
MANUAL
PROBABILIDAD Y ESTADÍSTICA
Autor
1
Probabilidad y Estadística
INDICE GENERAL
INTRODUCCIÓN A LA ESTADÍSTICA…………………………………………. 4
Importancia de la Estadística………………………………………………………… 5
Conceptos básicos en la estadística………………………………………………….. 6
Variables estadísticas………………………………………………………………… 7
Muestreo……………………………………………………………………………… 9
PRESENTACIÓN DE LOS DATOS………………………………………………. 17
Distribución de frecuencias…………………………………………………………… 17
Distribución de frecuencias por intervalos…………………………………………… 17
Distribución de frecuencias por clases……………………………………………….. 21
Distribución de frecuencias por categorías…………………………………………… 22
MEDIDAS ESTADÍSTICAS……………………………………………………….. 26
Medidas de centralización…………………………………………………………….. 26
Media Aritmética……………………………………………………………… 26
Mediana……………………………………………………………………….. 29
Moda………………………………………………………………………….. 32
Medidas de dispersión………………………………………………………………… 36
Varianza……………………………………………………………………….. 36
Desviación estándar…………………………………………………………… 37
Coeficiente de variación………………………………………………………. 37
Medidas de forma……………………………………………………………………... 40
Asimetría………………………………………………………………………. 40
Kurtosis…………………………………………………………………………42
PROBABILIDAD Y DISTRIBUCIONES DE PROBABILIDAD…………………43
Reseña histórica……………………………………………………………………….. 43
Conceptos básicos……………………………………………………………………... 44
Definición de probabilidad….………………………………………………………… 45
Enfoques de probabilidad…………………………………………………………….. 46
Propiedades de la probabilidad………………………………………………………. 47
Probabilidad condicional…………………………………………………………….. 47
Partición del espacio muestral……………………………………………………….. 49
Probabilidad total…………………………………………………………….. 49
Teorema de Bayes……………………………………………………………. 49
Variable Aleatoria……………………………………………………………………. 50
Variable aleatoria discreta……………………………………………………. 50
Variable aleatoria continúa…………………………………………………… 51
DISTRIBUCIONES PARA VARIABLES ALEATORIAS DISCRETAS……… 51
Distribución Binomial……………………………………………………… 52
Distribución de Poisson……………………………………………………… 55
DISTRIBUCIONES PARA VARIABLES ALEATORIAS CONTINUAS…….. 58
Distribución Normal…………………………………………………………. 58
Distribución t Student………………………………………………………... 62
Distribución Chi – cuadrado…………………………………………………. 64
Distribución F de Fisher……………………………………………………… 65
INTRODUCCIÓN A LA ESTADÍSTICA INFERENCIAL……………………... 67
Estimación de Parámetros…………………………………………………………. 68
Distribución de la media muestral…………………………………………… 68
Estimación por Intervalos de confianza para la media poblacional µ……….. 69
2
Probabilidad y Estadística
3
Probabilidad y Estadística
Capítulo 1
INTRODUCCIÓN A LA ESTADÍSTICA
A medida que aumenta la complejidad de nuestro mundo y nos internamos por los
senderos reales y virtuales del nuevo milenio, se hace más difícil tomar decisiones
informadas e inteligentes. Con frecuencia, estas decisiones han de tomarse con un
conocimiento imperfecto de la situación y un grado considerable de incertidumbre, sin
embargo, las soluciones pertinentes son esenciales para nuestro bienestar e incluso para
nuestra supervivencia. Estamos expuestos a la presión constante de problemas
económicos galopantes y angustiantes, en casi todos los países desarrollados,
subdesarrollados y tercermundistas, un sistema fiscal engorroso, coercitivo e injusto y
oscilaciones excesivas del ciclo económico.
Todo nuestro tejido socioeconómico esta amenazado por una contaminación ambiental
exponencialmente creciente, por una deuda pública opresiva y criminal, por un índice de
delincuencia que se incrementa sin cesar día a día como consecuencia de la perdida de
valores morales y por unos intereses impredecibles que coadyuvan a incrementar la ya
casi infinita brecha entre los países desarrollados y los países pobres de Asia,
Latinoamérica y África.
Nuestro periodo de éxito en este planeta, relativamente, breve no es ninguna garantía de
supervivencia futura. A menos que se encuentren soluciones viables a estos apremiantes
problemas. En razón de lo anteriormente expuesto, es necesario contar con herramientas
altamente confiables que nos permitan tomar decisiones acertadas y eficaces para poder
resolver los problemas prioritarios que podrían enmarcarse posiblemente de acuerdo al
criterio 80/20 (el 80% de todos los problemas se deben al 20% de las causas.) .De ahí
que sea fundamental que todos los futuros profesionales que pretendan dirigir
correctamente los destinos de la humanidad, aprendan y se sirvan de los métodos
estadísticos para minimizar la probabilidad de error en la toma de decisiones en esta era
llamada del conocimiento, que actualmente cuentan con todas las ayudas de última
generación que a través de excelentes software permiten agilizar todo el trabajo
estadístico. Es altamente recomendable que a la par con la formación humanística que
se imparte en nuestra universidad, se actualice las técnicas pedagógicas y se introduzcan
en los contenidos programáticos y curriculares de los diferentes programas, la
4
Probabilidad y Estadística
obligación que los docentes y estudiantes utilicen los diferentes software que se
consiguen en el mercado, que le permitan estar actualizados con las tecnologías de
puntas.
5
Probabilidad y Estadística
Estadística
Es una ciencia que requiere del conocimiento matemático y que nos permite recopilar,
organizar (clasificar, agrupar), presentar, describir y analizar datos a fin de realizar
generalizaciones validas o tomar eficientes decisiones.
Estadística Descriptiva
Presenta un conjunto de métodos que nos permite recolectar, presentar los datos en
tablas o cuadros y gráficos, describir y analizar mediante el caculo de las medidas de
resumen; sin intentar inferir nada que vaya más allá de los datos como tales.
Estadística Inferencial
Presenta un conjunto de métodos que nos permite realizar generalizaciones válidas en
una población con un nivel de confiabilidad sobre los resultados obtenidos en una
muestra.
Población
Es un conjunto de individuos, objetos o eventos que contienen una o más características
comunes observables de naturaleza cuantitativa o cualitativa. Su tamaño comúnmente se
denota por “N”.
6
Probabilidad y Estadística
Muestra
Es un sub conjunto o parte de una población seleccionada de acuerdo a un plan de
muestreo, de tal manera que sea representativa. El tamaño de la muestra se suele denotar
por “n”.
(s ).
2
7
Probabilidad y Estadística
VARIABLE DISCRETA: Es aquella que solo puede tomar determinados valores por lo
general, números enteros, por ejemplo, el numero de hijos de una familia, numero de
empleados de una empresa, numero de vacas en una hacienda, numero de carros
fabricados, etc.
8
Probabilidad y Estadística
CUADRO No 1
BASE DE DATOS DE LOS EMPLEADOS DE LA EMPRESA
Metalconsulting Ingenieria Ltda.
1.4. MUESTREO
9
Probabilidad y Estadística
10
Probabilidad y Estadística
Trata de obviar las dificultades que presentan los anteriores, ya que simplifica los
procesos y suele reducir el error muestral para un tamaño dado de la muestra. Consiste
en considerar categorías típicas diferentes entre si (estratos) que poseen gran
homogeneidad respecto a alguna característica (se puede estratificar, por ejemplo, según
la profesión, el municipio de residencia, el sexo, el estado civil, etc.). Lo que se
pretende con este tipo de muestreo es asegurarse de que todos los estratos de interés
estarán representados adecuadamente en la muestra. Cada estrato funciona
independientemente, pudiendo aplicarse dentro de ellos el muestreo aleatorio simple o
el estratificado para elegir los elementos concretos que formaran parte de la muestra. En
ocasiones, las dificultades que plantea son demasiado grandes, pues exige un
conocimiento detallado de la población (tamaño geográfico, sexos, edades...).
La distribución de la muestra en función de los diferentes estratos se denomina
afijación, y puede ser de diferentes tipos:
Si se emplea una afijación simple serian 300 niños de cada tipo de centro, pero en este
caso parece mas razonable utilizar una afijación proporcional pues hay bastante
11
Probabilidad y Estadística
Los métodos presentados hasta ahora están pensados para seleccionar directamente los
elementos de la población, es decir, que las unidades muestrales son los elementos de la
población. En el muestreo por conglomerados la unidad muestral es un grupo de
elementos de la población que forman una unidad, a la que se denomina conglomerado.
Las unidades hospitalarias, los departamentos universitarios, una caja de determinado
producto, etc. son conglomerados naturales. En otras ocasiones, se pueden utilizar
conglomerados no naturales como, por ejemplo, las urnas electorales. Cuando los
conglomerados son áreas geográficas suele hablarse de "muestreo por áreas".
El muestreo por conglomerados consiste en seleccionar aleatoriamente un cierto numero
de conglomerados (el necesario para alcanzar el tamaño muestral establecido) y en
investigar después todos los elementos pertenecientes a los conglomerados elegidos.
Por ejemplo, en una investigación se trata de conocer el grado de satisfacción laboral
de los empleados de una cadena de almacenes; se toma una muestra de 700 empleados.
Ante la dificultad de acceder individualmente a estos empleados, se decide hacer una
muestra por conglomerados.
Sabiendo que el número de empleados por almacén es aproximadamente de 35, los
pasos a seguir serian:
Recoger un listado de todos los almacenes.
Asignar un número a cada uno de ellos.
Elegir por muestreo aleatorio simple o sistemático los 20 almacenes (700/35 = 20)
que proporcionaran los 700 empleados que se necesitan.
Finalmente, ante lo compleja que puede llegar a ser la situación real de muestreo es muy
común emplear lo que se denomina muestreo polietápico. Este tipo de muestreo se
12
Probabilidad y Estadística
caracteriza por operar en sucesivas etapas, empleando en cada una de ellas el método de
muestreo probabilística mas adecuado.
13
Probabilidad y Estadística
Bola de nieve
Se localiza a algunos individuos, los cuales conducen a otros, y estos a otros, y así hasta
conseguir una muestra suficiente. Este tipo se emplea muy frecuentemente cuando se
hacen estudios con poblaciones "marginales", delincuentes, sectas, determinados tipos
de enfermos, egresados de una institución, etc.
14
Probabilidad y Estadística
No todas las personas están dispuestas a contestar una encuesta. El error de no respuesta
surge del fracaso al recopilar datos de todos los sujetos de la muestra y el resultado es
un sesgo de no respuesta. Como en general no se puede suponer que las personas que no
responden son semejantes a aquellas que si responden, es importante realizar un
seguimiento a las no respuestas después de un periodo determinado. Deben hacerse
varios intentos, ya sea por correo o por teléfono, para convencerlos de que diligencien la
encuesta. Con base en estos resultados, las estimaciones obtenidas con las respuestas
iniciales se combinan con las estimaciones obtenidas con el seguimiento, de manera que
las inferencias hechas a partir de la encuesta sean validas.
Error de muestreo
15
Probabilidad y Estadística
Error de medición
16
Probabilidad y Estadística
DISTRIBUCION DE FRECUENCIA
Una distribución de frecuencia es un método para organizar, clasificar y resumir datos.
También se conoce con el nombre de distribución de frecuencia a una tabulación de
datos en clases, intervalos de clase o categoría; con la frecuencia correspondiente a cada
una, a fin de realizar una especial descripción y análisis.
Para elaborar los cuadros o tablas de la distribución de los datos se debe, antes que todo
Identificar las características que se investigaron, ya que esto permite una mejor
clasificación de lo observado, estas características se refieren a las Cualitativas y
Cuantitativas.
fi
absoluta simples por el tamaño de la muestra. Se denota por hi = .
n
Frecuencia relativa acumulada, resulta de la acumulación de las frecuencias relativas
17
Probabilidad y Estadística
significado, lograrse una mayor síntesis, tabulando o agrupando los datos. Para agrupar
a un conjunto de observaciones, se selecciona un conjunto de intervalos, contiguos, que
no se traslapen, tales que cada valor en el conjunto de observación puede colocarse en
uno, de los intervalos de clase. Los pasos a seguir para la construcción de intervalos son
los siguientes:
Paso I: Hallar el Rango o Recorrido de los Datos (R)
La diferencia entre el dato mayor y el dato menor se llama RECORRIDO o RANGO
de los datos. Esto es:
R = Dato mayor – Dato menor
Como regla, este procedimiento proporciona una amplitud que no es conveniente usarla.
Una vez más, debe aplicarse el buen juicio y seleccionar una amplitud (por lo común,
próxima a la dada por la ecuación) que sea más conveniente.
18
Probabilidad y Estadística
Valores observados:
239, 254, 255, 248, 246, 249, 242, 250, 249, 244, 253, 248
250, 258, 252, 251, 250, 253, 247, 243, 245, 251, 247, 250
248, 250, 260, 249, 249, 250, 251, 253, 241, 251, 249, 252
250, 247, 251, 259, 250, 246, 252, 238, 251, 238, 235, 259
249, 257, 249, 247, 251, 246, 245, 243, 250, 249, 242, 238
Solución:
Tabla 01
19
Probabilidad y Estadística
Gráfico 01
HISTOGRAMA
FUENTE: Tabla 01
Gráfico 02
20
Probabilidad y Estadística
FUENTE: Tabla 01
DISTRIBUCIÓN DE FRECUENCIA POR CLASES
Ejemplo 2.
Unos grandes almacenes en la ciudad de Nuevo Chimbote disponen de un aparcamiento
para sus clientes. Los siguientes datos que se refieren al número de horas que
permanecen en el aparcamiento una serie de coches se registro en Diciembre del 2011,
los cuales se muestran a continuación:
4 4 2 4 5 3 6 3 5 3 2 1 3 7 3 1 5 1 7 2 5 2 4 7 3 6 2 2 4 1 6 4 3 3 4
5 4 3 2 4 3 2 4 4 3 6 6 4 5 5 4 5 5 1 7 4 4 3 6 5
Se pide:
A. Obtener la tabla de frecuencias para ese conjunto de datos. Interpretar la tabla.
B. Elaborar la gráfica.
Solución
Unidad de análisis : El coche
Variable de estudio : Número de horas que permanecen en el aparcamiento
Clasificación de la variable : Cuantitativa discreta
Lugar : Almacenes – Nuevo Chimbote
Tiempo : Diciembre, 2011
21
Probabilidad y Estadística
Tabla 02
Número de horas que permanecen en el aparcamiento una serie de coches en
grandes almacenes de Nuevo Chimbote – Diciembre, 2011.
Gráfico 03
FUENTE: Tabla 02
22
Probabilidad y Estadística
Ejemplo 3.
Se efectúa una encuesta sobre el nivel de estudios de personas que reciben planes jefes y
jefas de hogar de la Ciudad de Nvo. Chimbote, marzo 2012. Las observaciones
obtenidas son las siguientes:
Nº NIV. EST
1 Estudios Primarios
2 Estudios Primarios
3 Sin Estudios
4 Estudios Primarios
5 Estudios Primarios
6 Sin Estudios
7 Estudios Secundarios
8 Estudios Secundarios
9 Estudios Secundarios
10 Sin Estudios
11 Estudios Primarios
12 Sin Estudios
13 Estudios Primarios
14 Estudios Secundarios
15 Estudios Secundarios
16 Estudios Universitarios
17 Sin Estudios
18 Estudios Universitarios
19 Estudios Secundarios
20 Estudios Primarios
21 Estudios Primarios
22 Estudios Primarios
23 Estudios Universitarios
24 Estudios Primarios
25 Estudios Primarios
26 Sin Estudios
27 Estudios Secundarios
28 Estudios Secundarios
29 Estudios Primarios
30 Estudios Primarios
Se pide:
A. Obtener la tabla de frecuencias para ese conjunto de datos. Interpretar la tabla.
B. Elaborar las gráficas.
Solución
Unidad de análisis : Jefe o Jefa del hogar
Variable de estudio : Nivel de estudios
Clasificación de la variable : Cualitativa ordinal
Lugar : Nuevo Chimbote
23
Probabilidad y Estadística
Tabla 03
Nivel de estudios del jefe o jefa de hogar en la ciudad de Nvo. Chimbote – Marzo, 2012.
Gráfico 04
Nivel de estudios del jefe o jefa de hogar en la ciudad de Nvo. Chimbote – Marzo, 2012.
BARRAS
FUENTE: Tabla 03
Gráfico 05
Nivel de estudios del jefe o jefa de hogar en la ciudad de Nvo. Chimbote – Marzo,
2012.
SECTOR CIRCULAR
24
Probabilidad y Estadística
FUENTE: Tabla 03
Ejercicios propuestos
1. Determine qué tipo son las siguientes variables. Si son variables cualitativas (nominal
u ordinal) o cuantitativas (discretas o continuas).
a) Marca de automóvil.
b) Duración de un compacto (segundos).
c) Número de temas de un compacto.
d) Nivel educacional (básica, media, universitaria).
e) Temperatura al mediodía en Talara (grados Celcius).
f) Estado civil (soltero, casado, divorciado, viudo).
g) Cantidad de lluvia en un año en Iquitos (mm3).
h) Peso de los coches.
i) Número de coches vendidos de las diferentes marcas
105 221 186 121 181 180 97 154 153 174 120 168 167 141 228
199 181 158 176 110 131 154 208 158 133 207 180 190 193 133
123 134 178 76 167 184 135 146 218 101 171 165 158 169 199
151 163 145 171 148 158 160 175 149 87 160 237 150 196 201
25
Probabilidad y Estadística
52 50 38 52 74 61 36 57 49 66 76 37 76 69 61 66 62 4 42 62 51 83
34 38 51 75 59 48 67 42 61 58 74 61 56 86 91 54 76 69 84 41 50 61
86 45 56 56 47 67
Se pide:
a) Construir una taba de frecuencias para esos datos tomando como número de
intervalos el que proporciona la fórmula de Sturgess. Interpretas la tabla.
b) Dibujar el histograma y polígono de frecuencias porcentuales.
5. Ejercicios
a) Dé cuatro ejemplos de variables cualitativas.
b) Proponer dos ejemplos de cada una de los dos tipos de variables cuantitativas.
c) Menciones variables que permitan estimar el efecto de la crisis económica
mundial sobre la economía del Perú.
d) Se desea comparar la calidad de vida de varias ciudades del Perú. Proponer seis
variables que podrían utilizarse para el estudio. ¿Qué tipo de variable es cada
una de ellas?
6. Tomar cuarenta observaciones de una variable cualitativa
a) Calcular las frecuencias absolutas.
b) Hallar las frecuencias relativas.
c) Dibujar el diagrama de barra.
d) Cuál es la clase o (clases) modal.
e) ¿Qué conclusiones pueden extraerse de este estudio?
A) Media Aritmética
Definición 1: (Datos no agrupados o no tabulados)
Es la suma de todos los valores observados de una variable cuantitativa, dividido por el
número de datos.
Media aritmética poblacional ( m ) Media aritmética muestral ( x )
26
Probabilidad y Estadística
m= x i
x=
x i
N n
Donde:
xi : Valores observados en una población o muestra.
N: Tamaño de la población.
n : Tamaño de la muestra.
m= �y i fi
Y =
�y i fi
N n
Donde:
yi : Marca de clase de cada intervalo o valor numérico de cada clase.
27
Probabilidad y Estadística
SOLUCIÓN:
a) x = �x i
=
19, 75 + 20, 5 + 15, 0 + ... + 32, 5 �
X = 23, 67
n 8
Interpretación: La utilidad neta promedio por pedido es aproximadamente 23,67
nuevos soles.
b) x = �x i
=
95, 5 + 10, 6 + 14, 0 + ... + 9, 0 �
X = 26,95
n 8
Interpretación: La utilidad neta promedio por pedido es aproximadamente 26,95
nuevos soles.
Y=
�y f i i
=
7,5 x3 + 12,5 x10 + ... + 37,5 x2 1080
= � Y = 21, 6
n 50 50
Interpretación: La utilidad neta promedio por pedido es aproximadamente 21,6 nuevos
soles.
28
Probabilidad y Estadística
SOLUCIÓN:
Paso 1: Multiplicar cada clase por su respectiva frecuencia absoluta simple
Paso 2: Sumar los productos
Paso 3: Reemplazar en la formula
Nº de paquetes
yi fi yi f i
1 6 6
2 9 18
3 20 60
4 15 60
5 5 25
6 3 18
7 2 14
Y=
�y f i i
=
1x6 + 2 x9 + ... + 7 x 2 201 �
= Y = 3,35 �3
n 60 60
Interpretación: El número promedio de paquetes por pedido es aproximadamente 3.
B) Mediana
Es un valor generalmente denotado por Me, que divide a un conjunto de datos
recopilados de una variable cuantitativa o cualitativa ordinal en dos partes iguales,
previamente ordenados en forma creciente o decreciente.
Calculo de la mediana
Datos no agrupados o no tabulados
Para obtener el valor de la mediana en datos no agrupados se debe cumplir por lo menos
los siguientes pasos:
Paso I: Ordenar en forma creciente o decreciente los datos.
29
Probabilidad y Estadística
Donde:
LI : Límite inferior del intervalo que contiene la mediana.
n
: Mitad de la muestra
2
Fa : Frecuencia absoluta acumulada anterior a la frecuencia absoluta acumulada
Ventajas de la mediana
La mediana a diferencia de la media aritmética no depende de los valores, sino del
número de datos, en consecuencia no se afecta por valores extremos.
30
Probabilidad y Estadística
xn / 2 + xn / 2 +1 x4 + x5 20, 5 + 25,1
Me = = =
2 2 2
Me = 22,8
Interpretación: El 50% de los pedidos tienen una utilidad neta de a lo más 22,8 nuevos
soles y el 50% restante superior a este.
Solucionar la parte (b) estimado alumno.
31
Probabilidad y Estadística
n
Paso III: Determinar la primera frecuencia absoluta acumulada ( Fi ) que supera ,
2
n
entonces la primera frecuencia absoluta acumulada que supera a es F4 = 35 al cual
2
le corresponde el intervalo [20 – 25), donde se ubica el valor de la mediana.
Paso IV: Identificar todos los componentes de la formula en el intervalo que contiene la
mediana y reemplazar.
�n �
� - F �
a 25 - 20
Me = LI + �2 �* A = 20 + *5
f
� i � 15
� �
Me = 21,67
Interpretación: El 50% de los pedidos tienen una utilidad neta de a lo más 21,67
nuevos soles y el 50% restante superior a este.
Solución:
Paso I: Ordenar en forma creciente las clases.
n 60
Paso II: Hallar = = 30 que indica la posición de la mediana.
2 2
n
Paso III: Determinar la primera frecuencia absoluta acumulada ( Fi ) que supera ,
2
n
entonces la primera frecuencia absoluta acumulada que supera a es F3 = 35 al cual
2
le corresponde la clase numérica 3; siendo este el valor de la mediana, es decir:
Me = 3
32
Probabilidad y Estadística
C) Moda
Es un valor que generalmente se denota por, Mo, y que define como:
El valor cuantitativo o cualitativo nominal que más veces se repite.
El valor cuantitativo o cualitativo nominal más frecuente.
El valor cuantitativo o cualitativo nominal más común.
La moda a veces no existe y si existe a veces es única o múltiple.
Calculo de la moda
Datos no agrupados o no tabulados
No existe formula alguna, se obtiene por simple observación, teniendo en cuenta la
definición de moda.
Donde:
LI : Límite inferior del intervalo que contiene la moda.
d1 : Primer incremento.
d 2 : Segundo incremento.
f Mo : Frecuencia absoluta simple modal del intervalo que contiene la moda.
33
Probabilidad y Estadística
� d � 8
Mo = LI + � 1 � * A = 20 + *5
d
�1 + d 2 � 8 + 10
Mo = 22,22
d1 = f Mo - f a = 15 - 7 = 8
d 2 = f Mo - f p = 15 - 5 = 10
Interpretación: La utilidad neta más frecuente de entre todos los pedidos registrados es
aproximadamente 22,22 nuevos soles.
34
Probabilidad y Estadística
Solución:
Por simple observación y aplicando el concepto de moda se tiene: Mo = 3
Interpretación: El número de paquetes más frecuente de entre todos los pedidos
registrados es aproximadamente 3.
Ejercicios propuestos
1. Para lanzar un nuevo producto al mercado, una empresa estudia el tiempo de
publicidad, en segundos, empleando en los medios audiovisuales por otra empresa
que produce un producto similar.
Duración Nº de Anuncios
0 - 20 3
20 - 25 17
25 – 30 13
30 – 40 9
40 - 60 8
a) ¿Cuál es la duración media aproximada de los anuncios? ¿Es representativa?
b) ¿Cuál es la duración más frecuente?
c) ¿A partir de que valor un anuncio es de los veinte más largos?
d) Estudiad la forma de la distribución.
e) Si cada segundo cuesta mil cuatrocientas pesetas, ¿cuál es el gasto aproximado
que realiza la otra empresa en la publicidad de ese producto?
2. La distribución del importe de las facturas por reparación de carrocería (en miles de
ptas.) de una muestra de 80 vehículos en un taller, viene dad por la siguiente tabla:
Importe Nº de vehículos
0 - 60 10
60 - 80 20
80 - 120 40
120 - 180 10
a) Calcular el importe medio. Estudiar la representatividad en esta medida.
b) Calcular la mediana y estudiar su representatividad.
c) ¿Cuál es el importe más habitual?
d) ¿Qué interpretación tiene en este caso los deciles? Calcular el tercer decil.
35
Probabilidad y Estadística
DEFINICIÓN
Las medidas de dispersión son valores de resumen que determinan aproximadamente la
variabilidad o el grado de separación de los datos respecto de su medida central, que
generalmente es la media aritmética. Estas medidas son: Varianza, Desviación estándar
y Coeficiente de variación.
A) Varianza
Definición 1: (Datos no agrupados o no tabulados)
Es la suma de las separaciones o distancias al cuadrado de todos los valores
numéricos observados respecto de su media, dividido por el número de datos menos
uno.
Varianza muestral ( S 2 )
( x - x)
2
i
S 2
=
n -1
Donde:
xi : Valores numéricos observados en una muestra.
x : Media aritmética
N : Tamaño de la población.
n : Tamaño de la muestra.
�( y - Y )
2
i * fi
S2 =
n -1
Donde:
36
Probabilidad y Estadística
B) Desviación estándar
Definición: Es la raíz cuadrada positiva de la varianza y nos indica “cuanto” es la
variabilidad. Se denota por “S”. Esto es:
S= S2
C) Coeficiente de Variación
Definición: Es una medida de dispersión relativa (libre de unidades de medida), que
se define como la desviación estándar dividido por la media aritmética.
Comúnmente se denota por “CV”. Esto es:
S
CV = *100
X
El coeficiente de variación es una medida útil para comparar la variabilidad de
dos o más series de datos que tengan igual o distintas unidades de medida, con
igual o distinta media aritmética.
El coeficiente de variación permite también indicar la alta (heterogénea) o baja
dispersión (homogénea) de una serie de datos bajo el siguiente criterio:
Si CV < 15%, la serie de datos presenta baja dispersión (o es homogénea)
Si CV 15%, la serie de datos presenta alta dispersión ( o es heterogénea)
37
Probabilidad y Estadística
Ejemplo 1
La siguiente tabla presenta los resultados observados del número de plántulas de
malezas por m2 en una muestra de tamaño n=20.
x=
�x i
=
19, 75 + 20, 5 + 15, 0 + ... + 32, 5
n 8
X = 23,67
�( x - x)
2
(19, 75 - 23, 67) 2 + (20,5 - 23, 67) 2 + ... + (32,5 - 23, 67) 2
S 2
= i
=
n -1 8 -1
S 2 = 42,37 soles 2
38
Probabilidad y Estadística
Desviación estándar
S = S2 = 42,37
S = 6,51 soles
Interpretación: La variabilidad o grado de separación de cada utilidad del pedido
respecto de su promedio es aproximadamente 6,51 soles.
Coeficiente de variación
S 6, 51
CV = *100 = *100
X 23, 67
CV = 27,50
Interpretación: La variabilidad relativa indica que las utilidades de los pedidos son
altamente dispersos, toda vez que el CV = 27,50% > 15%.
Solución (b)
Para el estudiante o lector, resuélvalo y reflexione lo fácil que es.
Y=
�y f i i
=
7, 5 x3 + 12,5 x10 + ... + 37,5 x 2 1080
=
n 50 50
Y = 21,6
�( y - Y ) * fi
2
i (7, 5 - 21, 6) 2 x3 + (12, 5 - 21, 6) 2 x10 + ... + (37, 5 - 21, 6) 2 x 2
S 2
= =
n -1 50 - 1
3184,5
S2 = � S 2 = 64,99
49
39
Probabilidad y Estadística
Desviación estándar
S = S 2 = 64,99 � S = 8, 06
Coeficiente de variación
S 8, 06
CV = *100 = *100
X 21, 6
CV = 37,31%
Interpretación: La variabilidad relativa indica que las utilidades de los pedidos son
altamente dispersos, toda vez que el CV = 37,31% > 15%.
Varianza
Y=
�y f i i
=
1x6 + 2 x9 + ... + 7 x 2 201
= � Y = 3,35 �3
n 60 60
�( y - Y ) * fi
2
i (1 - 3, 35) 2 x6 + (2 - 3, 35) 2 x9 + ... + (7 - 3, 35) 2 x 2
S 2
= =
n -1 60 - 1
119, 65
S2 = � S 2 = 2, 03
59
Desviación estándar
S = S 2 = 2, 03 � S = 1,42
40
Probabilidad y Estadística
Coeficiente de variación
S 1, 42
CV = *100 = *100
X 3, 35
CV = 42,39%
Interpretación: La variabilidad relativa indica que el número de paquetes por pedido
son altamente dispersos, toda vez que el CV = 42,39% > 15%.
D) Medidas de Forma
Asimetría
Definición: Es una medida que estudia la deformación horizontal de los valores de
la variable respecto al valor central de la media. Las medidas de forma pretenden
estudiar la concentración de la variable hacia uno de sus extremos.
41
Probabilidad y Estadística
Solución:
3* ( Y - Me )
As =
S
Por resultados anteriores se tiene:
Y = 21,6
S = 8, 06
Me = 21,67
Reemplazando en la formula:
3 x(21, 6 - 21, 67)
As = � As = - 0,026
8, 06
Interpretación: La utilidad neta de los pedidos distribuidos muestra un ligerísimo
sesgo o asimetría hacia la izquierda o negativa.
Kurtosis
Tipos de kurtosis
Coeficiente de kurtosis
42
Probabilidad y Estadística
�( y
i =1
i - Y ) 4 xf i
K = n -3
(S 2 )2
Interpretación:
Si K = 0 los datos tienen distribución mesocurtica o normal
Si K > 0 los datos tienen distribución leptocúrtica o son más apuntada que la Normal
Si K < 0 los datos tienen distribución platicúrtica o son menos apuntada que la
Normal
Capítulo 2
PROBABILIDAD Y DISTRIBUCIONES DE
PROBABILIDAD
Reseña Histórica
Una disputa entre jugadores en 1654 llevó a dos famosos matemáticos franceses, Blaise
Pascal y Pierre de Fermat, a la creación del cálculo de Probabilidades. Antoine
Gombaud, caballero de Meré, noble francés interesado en cuestiones de juegos y
apuestas, llamó la atención a Pascal respecto a una aparente contradicción en un popular
juego de dados. Este y otros problemas planteados por de Meré motivaron un
intercambio de cartas entre Pascal y Fermat en las que por primera vez se formularon
los principios fundamentales de las probabilidades. Si bien unos pocos problemas sobre
juegos de azar habían sido resueltos por matemáticos italianos en los siglos XV y XVI,
no existía una teoría general antes de esa famosa correspondencia.
43
Probabilidad y Estadística
Conceptos Básicos
44
Probabilidad y Estadística
45
Probabilidad y Estadística
( A �B ) ( A �B )
c c
Leyes de De Morgan = Ac �B c y = Ac �B c .
Definición de Probabilidad
Definición axiomática debida a Andrei Kolmogorov, 1903 a 1987, probabilista ruso.
Sea W el espacio muestral asociado a un experimento aleatorio y sean Ai �W para i
1) 0 �P ( Ai ) �1 2) P ( W ) = 1
4) Si los Ai son mutuamente excluyentes, es decir Ai �Aj = f para todo i �j =1, 2,.., n
�n � n
entonces P �U Ai �= �P ( Ai )
�i =1 � i =1
Observe que estas propiedades no dependen de cómo se calculen las probabilidades
P ( Ai )
Enfoques de Probabilidad
Definición Clásica o “a priori”: Dice que si hay x posibles resultados favorables a la
ocurrencia de un evento A y z posibles resultados a la ocurrencia del experimento
aleatorio, y todos los resultados son igualmente posibles y mutuamente excluyente (no
pueden ocurrir los dos al mismo tiempo), entonces la probabilidad de que ocurra A es:
n( x ) n( x )
P ( A) = =
n ( z ) n (W )
El enfoque clásico de la probabilidad se basa en la suposición de que cada resultado sea
igualmente probable.
Este enfoque es llamado enfoque a priori porque permite, (en caso de que pueda
aplicarse) calcular el valor de probabilidad antes de observar cualquier evento de
muestra.
Ejemplo:
Si tenemos en una caja 15 piedras verdes y 9 piedras rojas. La probabilidad de sacar una
piedra roja en un intento es:
46
Probabilidad y Estadística
9
P ( A) = = 0,375 ó 37,5%
24
Definición Frecuencial o “a posteriori”: También llamado Enfoque Empírico,
determina la probabilidad sobre la base de la proporción de veces que ocurre un evento
favorable en un número de observaciones. En este enfoque no ese utiliza la suposición
previa de aleatoriedad, porque la determinación de los valores de probabilidad se basa
en la observación y recopilación de datos.
Ejemplo:
Se ha observado que 9 de cada 50 vehículos que pasan por una esquina no tienen
cinturón de seguridad. Si un vigilante de transito se para en esa misma esquina un día
cualquiera ¿Cuál será la probabilidad de que detenga un vehículo sin cinturón de
seguridad?
El enfoque subjetivo
Dice que la probabilidad de ocurrencia de un evento es el grado de creencia por parte de
un individuo de que un evento ocurra, basado en toda la evidencia a su disposición.
Bajo esta premisa se puede decir que este enfoque es adecuado cuando solo hay una
oportunidad de ocurrencia del evento. Es decir, que el evento ocurrirá o no ocurrirá esa
sola vez. El valor de probabilidad bajo este enfoque es un juicio personal.
Propiedades de la probabilidad
Proposición 1. La probabilidad de un suceso imposible f es cero.
Proposición 2. P ( A ) = 1 - P ( A )
c
47
Probabilidad y Estadística
Probabilidad Condicional
Sean A y B dos sucesos de un espacio muestral W . La expresión P (A / B) indica la
probabilidad de que ocurra el evento A dado que ya ha ocurrido el evento B. Puede
determinarse de la siguiente manera:
P (A / B) = P (A � B) / P (B)
P (A �B) se interpreta como la probabilidad de que los sucesos A y B ocurran
conjuntamente.
Ejercicio: Para obtener licencia para conducir, es necesario aprobar tanto el examen
teórico como el práctico. Se sabe que la probabilidad que un alumno apruebe la parte
teórica es 0,68, la de que apruebe la parte práctica es 0,72 y la de que haya aprobado
alguna de las dos partes es 0,82. Si se elige un alumno al azar, ¿cuál es la probabilidad
de que apruebe el examen para obtener licencia?
Eventos Independientes
Eventos dependientes
Dos o más eventos serán dependientes cuando la ocurrencia o no-ocurrencia de uno de
ellos afecta la probabilidad de ocurrencia del otro (o otros). Cuando tenemos este caso,
empleamos entonces, el concepto de probabilidad condicional para denominar la
probabilidad del evento relacionado. La expresión P (A|B) indica la probabilidad de
ocurrencia del evento A sí el evento B ya ocurrió.
Se debe tener claro que A|B no es una fracción.
48
Probabilidad y Estadística
Eventos dependientes:
P (A �B) = P (B) P (A/ B) ó P (A �B) = P (A) P (B / A)
Sucesos independientes:
Consideremos dos eventos A y B no vacíos en W . Las siguientes proposiciones son
equivalentes
A es independiente de B � P (A �B) = P (A) P (B)
� P (A/ B) = P(A)
� P (B/A) = P (B)
Ejercicio: En una tómbola hay dos bolitas blancas y tres bolitas negras, ¿cuál es la
probabilidad de sacar una blanca y después una negra?
a) Si hay reposición, esto es, después de sacar la primera bolita, ésta se devuelve a la
tómbola
b) Si no hay reposición, esto es, después de sacar la primera bolita, ésta no se devuelve a
la tómbola
Esto significa que W es cubierto por todas las partes Bi que son mutuamente
excluyentes, es decir que el experimento aleatorio asociado a W ocurre cuando sucede
alguno de los Bi .
Probabilidad total
Teorema de Bayes
49
Probabilidad y Estadística
Debida a Thomas Bayes, 1702 a 1761, matemático inglés que estableció el primer
método de inferencia estadística.
Regla de Bayes
Para medir la probabilidad de que un Bi sea la causa de un evento observado en A.
P ( Bi �A ) P ( Bi ) P ( A / Bi )
P ( Bi / A ) = = k
“fácil” P ( A) para i = 1, 2,3,..., k
�P ( Bi ) P ( A / Bi )
i =1
Variable Aleatoria
Se llama variable aleatoria a toda función que asocia a cada elemento del espacio
muestral E un número real.
Se utilizan letras mayúsculas X, Y,... para designar variables aleatorias, y las respectivas
minúsculas (x, y,...) para designar valores concretos de las mismas.
Una variable aleatori a dis creta es aquella que s ólo puede tomar valores
enteros .
Ejemplos
El número de hijos de una familia, la puntuación obtenida al lanzar un dado.
Función de Probabilidad
Sea X la variable aleatoria discreta, entonces su función de probabilidad
50
Probabilidad y Estadística
i) 0 �f ( x ) �1 ii) �f ( x ) = 1
x
función de probabilidad acumulada es: F ( x ) = P ( X �x ) = �f ( x )
X =0
Características
n
Media Aritmética m = �xf ( x )
X =0
Varianza
n
s = �x 2 f ( x ) - m 2
2
X =0
Mediana
Me = F ( X �Me ) = 0,5
Una variable aleatori a continua es aquella que puede tomar todos los
valores pos ibles dentro de un cierto intervalo de la recta real.
Ejemplos
La altura de los alumnos de una clase, las horas de duración de una pila.
Características
51
Probabilidad y Estadística
+�
Media Aritmética m= xf ( x ) dx
�
-�
Varianza
+�
s =
2
x f ( x ) dx - m
�
2 2
-�
Mediana
Me
Me = F ( X �Me ) = �f ( x ) dx =0,5
-�
52
Probabilidad y Estadística
P ( k ) = P ( X = k ) = Ckn p k q n - k
Nota:
Observar que las probabilidades de éxito y fracaso son complementarias, es decir, q = 1-
p y p =1-q, por lo que basta saber una de ellas para calcular la otra.
53
Probabilidad y Estadística
Ejemplo:
Supongamos que la probabilidad de que una pareja tenga un hijo o una hija es igual.
Calcular la Probabilidad de que una familia con 6 descendientes tenga 2 hijos.
En este caso Éxito = E = “tener hijo” y P (E) = 0,5.
Fracaso = F = “tener hija” y P (F) = 0,5.
Estamos por tanto ante una binomial B (6; 0,5) y nos piden P (X=2).
Si aplicamos la fórmula es:
P ( X = 2) = C26 0, 52 * 0, 54 = 0, 2344
Nota:
La elección de éxito o fracaso es subjetiva y queda a elección de la persona que resuelve
el problema, pero teniendo cuidado de plantear correctamente lo que se pide.
El uso de las tablas de la distribución Binomial
La distribución binomial se encuentra tabulada por lo que es fácil calcular
probabilidades sin necesidad de hacer demasiadas cuentas. Para usar las tablas de la
distribución binomial es necesario conocer:
El número de veces que se realiza el experimento (n).
La probabilidad de éxito (p).
El número de éxitos (k).
La probabilidad “p” se busca en la primera fila (valores desde 0,01 hasta 0,5).
El número de veces que se realiza el experimento, en la primera columna (valores desde
2 a 10) y el número de éxitos a su lado.
Por ejemplo en el caso anterior, B (6; 0,5), P(X=2), la columna p = 0,5 es la última, y
cuando n = 6 y k = 2 encontramos 0,2344, el valor que habríamos calculado.
Probabilidades acumuladas
Es posible que nos pidan no sólo la probabilidad de que ocurran un cierto número de
éxitos en concreto, sino que ocurran como mucho “k” éxitos o por lo menos k éxitos o
preguntas similares. Podrían pedirnos:
54
Probabilidad y Estadística
Ejemplos
En un vivero la probabilidad que una planta de vid tenga virus es de 0,04. Un viticultor
Necesita comprar 10 parras al vivero.
a) ¿Cuántas plantas con virus se espera que adquiera el viticultor?
b) ¿Cuál es la probabilidad de que el viticultor adquiera:
1) Ninguna planta con virus?
2) Al menos una planta con virus?
3) Entre 5 y 10 plantas con virus, ambos valores incluidos?
4) Exactamente 4 plantas con virus?
55
Probabilidad y Estadística
2. Cada muestra de aire tiene 10% de posibilidades de contener una molécula rara
particular. Suponga que las muestras son independientes con respecto a la presencia
de la molécula rara. Encuentre la probabilidad de que en las siguientes 18 muestras,
a) exactamente 2 contengan la molécula rara.
b) Por lo menos 5 contengan la molécula rara.
DISTRIBUCIÓN DE POISSON
Dato Histórico
La distribución de Poisson se llama así en honor a su creador, el francés Simeón Dennis
Poisson (1781 – 1840). Esta distribución de probabilidad fue uno de los múltiples
trabajos que Dennis completo en su productiva trayectoria.
Características:
En este tipo de experimentos los éxitos buscados son expresados por unidad de área,
tiempo, pieza, etc, etc,: Por ejemplo:
- # de defectos de una tela por m2
- # de aviones que aterrizan en un aeropuerto por día, hora, minuto, etc, etc.
- # de bacterias por cm2 de cultivo
- # de llamadas telefónicas a un conmutador por hora, minuto, etc, etc.
- # de llegadas de embarcaciones a un puerto por día, mes, etc, etc.
Para determinar la probabilidad de que ocurran x éxitos por unidad de tiempo, área, o
producto, la fórmula a utilizar sería:
l xe - l
P ( x, l ) =
x!
Donde:
p(x,l) = probabilidad de que ocurran x éxitos, cuando el número promedio de
ocurrencia de ellos es l
l = media o promedio de éxitos por unidad de tiempo, área o producto
56
Probabilidad y Estadística
e = 2.718
x = variable aleatoria que nos denota el número de éxitos que se desea que ocurra
Hay que hacer notar que en esta distribución el número de éxitos que ocurren por
unidad de tiempo, área o producto es totalmente al azar y que cada intervalo de tiempo
es independiente de otro intervalo dado, así como cada área es independiente de otra
área dada y cada producto es independiente de otro producto dado.
2) Varianza: V(X) = λ.
X1 ~ P (λ = λ1) y X2 ~ P (λ = λ2)
Z ~ P (λ = λ1 + λ2)
Ejemplos
a) En una cierta localidad se estima que el número promedio de madrigueras de
conejos que existen por hectárea es 2 y sea X el número de madrigueras por ha.
Calcular las probabilidades de que en un cultivo de:
1) una hectárea no haya madriguera
2) una hectárea haya exactamente 2 madrigueras
3) una hectárea se encuentren menos de 3 madrigueras
4) una hectárea haya más de 5 madrigueras
57
Probabilidad y Estadística
Ejemplos:
1. Si un banco recibe en promedio 6 cheques sin fondo por día, ¿cuáles son las
probabilidades de que reciba,
a) cuatro cheques sin fondo en un día dado,
b) 10 cheques sin fondos en cualquiera de dos días consecutivos?
Introducción
Una de las distribuciones teóricas mejor estudiadas en los textos de estadística y más
utilizada en la práctica es la distribución normal, también llamada distribución
gaussiana. Su importancia se debe fundamentalmente a la frecuencia con la que
58
Probabilidad y Estadística
Dato Histórico
La distribución normal fue reconocida por primera vez por el francés Abraham de
Moivre (1667-1754). Posteriormente, Carl Friedrich Gauss (1777-1855) elaboró
desarrollos más profundos y formuló la ecuación de la curva; de ahí que también se la
conozca, más comúnmente, como la "campana de Gauss".
Definición
Se dice que la v.a continua X es una v.a. normal con parámetros m y s 2 si su función
de densidad es:
2
-1�x-m �
1 �
2 �s
�
f ( x) = e �
, -� x �......(1)
s 2p
Se denota X~ N (µ, σ²) y se dice X se distribuye normal con
parámetros µ y σ²
59
Probabilidad y Estadística
1
.
s 2p
c). La curva normal es asintótica al eje de abscisas. Por ello, cualquier valor entre -� y
+� es teóricamente posible.
d). El área total bajo la curva es, igual a 1.
e). Es simétrica con respecto a su media. Según esto, para este tipo de variables existe
una probabilidad de un 50% de observar un dato mayor que la media, y un 50% de
observar un dato menor.
f). La distancia entre la línea trazada en la media y el punto de inflexión (µ-σ y µ+σ)
de la curva es igual a una desviación típica ( s ). Cuanto mayor sea s , más
aplanada será la curva de la densidad.
f). El área bajo la curva comprendido entre los valores situados aproximadamente a dos
desviaciones estándar de la media es igual a 0.95. En concreto, existe un 95% de
posibilidades de observar un valor comprendido en el intervalo.
g). La forma de la campana de Gauss depende de los parámetros m y s . La media
indica la posición de la campana, de modo que para diferentes valores de la gráfica
es desplazada a lo largo del eje horizontal. Por otra parte, la desviación estándar
determina el grado de apuntamiento de la curva. Cuanto mayor sea el valor de s ,
más se dispersarán los datos en torno a la media y la curva será más plana. Un valor
60
Probabilidad y Estadística
pequeño de este parámetro indica, por tanto, una gran probabilidad de obtener datos
cercanos al valor medio de la distribución.
Deduciendo de la última propiedad, no existe una única distribución normal, sino una
familia de distribuciones con una forma común, diferenciadas por los valores de su
media y su varianza. De entre todas ellas, la más utilizada es la distribución normal
estándar, que corresponde a una distribución de media 0 y varianza 1. Así, la expresión
que define su densidad se puede obtener de la Ecuación 1, resultando:
-1 2
1 z
f ( z) = e 2 , -� z �......(2)
2p
x-m
la transformación: z= , donde z � N (0,1) .
s
(-) 0 (+) Z
Ejercicios
1. Dada una distribución normal estándar, encuentre el área bajo la curva que está
a) a la izquierda de z = 1.43
b) a la derecha de z = -0.89
c) entre z = -2.16 y z = -0.65
d) a la izquierda de z = -1.39
e) a la derecha de z = 1.96
61
Probabilidad y Estadística
3. Se regula una máquina despachadora de refresco para que sirva un promedio de 200
mililitro por vaso. Si la cantidad de bebida se distribuye normalmente con una
desviación estándar igual a 15 mililitros,
a) ¿qué fracción de los vasos contendrán más de 224 mililitros?
b) ¿cuál es la probabilidad de que un vaso contenga entre 191 y 209 mililitros?
c) ¿cuántos vasos probablemente se derramarán si se utilizan vasos de 230 mililitros
para las siguientes 1000 bebidas?
d) ¿por debajo de qué valor obtendremos 25% de las bebidas más pequeñas?
3. La vida promedio de cierto tipo de motor pequeño es 10 años con una desviación
estándar de dos años. El fabricante reemplaza gratis todos los motores que fallen
dentro del tiempo de garantía. Si está dispuesto a reemplazar sólo 3% de los motores
que fallan, ¿de qué duración debe ser la garantía que ofrezca? Suponga que la
Importante
62
Probabilidad y Estadística
Son muy importantes pues son la base de metodologías inferenciales, tales como
Intervalos de Confianza y Pruebas de Hipótesis.
¿Quién era Student? Pues en realidad Student no era el nombre o el apellido del
responsable de esta distribución de probabilidad, sino que era un seudónimo. El
verdadero nombre del creador de la t de Student es William Sealy Gosset, (1876 –
1937); era un matemático y químico inglés.
DEFINICIÓN
Una variable con distribución t de Student se define como el cociente entre una
[ g (v + 1) / 2] �
- ( v +1) / 2
t2 �
h(t ) = 1+
� � , -� t +�
g (v / 2) p v � v �
CARACTERISTICAS
63
Probabilidad y Estadística
Ejemplo:
64
Probabilidad y Estadística
b) Encuentre k tal que P (k < t < -1.761) = 0.045, para una muestra aleatoria de tamaño
15 que se selecciona de una distribución normal.
Para muestras extraídas de una población normal con variancia s 2 , con tamaño n < 30,
siendo s 2 la varianza de la muestra.
DEFINICIÓN
CARACTERISTICAS
65
Probabilidad y Estadística
Para cada muestra, por ejemplo n = 5, transformamos cada valor de x: x1, x2, x3, x4 y
x5 en Z: z1, z2, z3, z4 y z5,
Ejercicio1: Calcular el percentil c n ,0,95 y c n ,0,25 en cada uno de los siguientes casos:
2 2
1. n=5
2. n=30.
DISTRIBUCIÓN F DE FISHER
DEFINICIÓN
Una variable F se define como el cociente entre dos variables ji-cuadrado divididas por
sus correspondientes grados de libertad.
Características
66
Probabilidad y Estadística
Capitulo 3
67
Probabilidad y Estadística
INTRODUCCIÓN
A LA
INFERENCIA ESTADÍSTICA
- Estimación de Parámetros
- Contraste de Hipótesis
Estimación de Parámetros
El método de estimación de un parámetro puede ser puntual o por intervalo.
68
Probabilidad y Estadística
Estimación puntual de µ
En nuestro ejemplo, a partir de una muestra de n=50 planchas de acero. Daríamos como
estimación del peso medio poblacional o teórico, X = 215 Kg.
Inconveniente(s):
Sin embargo
X -m
X � N (m ,s X ) � Z = � N (0,1)
sX
Donde: s X es el error típico o desviación estándar de la media muestral.
69
Probabilidad y Estadística
X -m
X � N (m , sX ) � T = � t n -1
sX
Donde: S X es el error típico o desviación estándar de la media muestral.
s s conocida
sx = Tamaño de población (N) demasiado grande o
n infinita.
s N -n s conocida
sx = Tamaño de población (N) conocido o finita.
n N -1
S s desconocida, entonces s @ S
Sx = Tamaño de población (N) demasiado grande o
n
infinita.
S N -n s desconocida, entonces s @ S
Sx = Tamaño de población (N) conocida o finita.
n N -1
70
Probabilidad y Estadística
X - Z1-a / 2 * s X �m �X + Z1-a / 2 *s X
Tamaño de muestra
Se puede determinar que tan grande debe ser el tamaño de la muestra, n, de manera que
si m se estima por x , el error de estimación no sea mayor que un valor dado e. En
efecto:
Ejercicio
Se desea establecer el contenido vitamínico de un alimento balanceado para pollos. Se toma una
muestra de 49 bolsas y se encuentra que el contenido promedio de vitaminas por cada 100 grs.
71
Probabilidad y Estadística
Ejercicio
Para estimar el rendimiento promedio del trigo en un departamento del sur cordobés se
relevan los campos de distintos productores mediante un esquema de muestreo aleatorio
simple. Se conoce por experiencias anteriores que s es igual a 0.7 qq/ha y que el
promedio histórico es 26 qq/ha.
1) ¿Qué número de campos se deben evaluar para estimar la media de rendimiento con
una confianza del 95% si la amplitud del intervalo no debe ser mayor que el 2.5% del
promedio histórico?
2) Si la varianza de la distribución aumenta (proponga s=1.4), ¿aumenta o disminuye el
tamaño muestral necesario para mantener la misma amplitud? Justificar la respuesta.
Datos:
X: Tiempo de empleo supuestamente Normal
Tamaño de muestra : n = 25 empleados
Tiempo medio de empleo : X = 5,3 años
Desviación típica muestral : S = 1,2 años ( s desconocido)
Confianza : 1 - a = 0,90 � a = 0,10
Entonces:
S 1, 2
X = 5,3 t1-a / 2,n -1 = t0,95;24 = 1, 711 (Buscar tabla) SX = = = 0, 24
n 25
Reemplazando en la fórmula:
72
Probabilidad y Estadística
Solución:b)
Si el margen de error hubiera sido de 1 año ¿qué grado de confianza se tendría?
a
1- = 0,99999 � a = 0, 00002
2
Solución: c)
Z2 a *S2
1- 4, 092 *1, 2 2
n= 2
=
e2 0, 4112
n = 142, 6 �143
Ejemplo 2: El número de horas diarias que los empleados de cierta entidad bancaria de
ámbito nacional trabajan delante del ordenador es una variable aleatoria normal con
varianza 1,5. Se toma una muestra al azar de 10 empleados y se anota el número de
horas que cierto día trabajaron con el ordenador:
6 3,4 5,6 6,3 6,4 5,3 5,4 5 5,2 5,5
a) Determina el intervalo de confianza al 95% para el número medio de horas diarias
que se trabaja en el ordenador en esa entidad. Explica claramente el resultado
comentando que significa el 95% de confianza.
73
Probabilidad y Estadística
Solución:a)
Datos:
X: Número de horas diarias variable Normal
Varianza poblacion : s 2 = 1,5 conocido � Desviación estándar s = 1,225
Tamaño de muestra : n = 10 empleados
Número promedio de horas diarias se halla a partir de los valores numéricos registrados
10
de los 10 empleados : �x i
6 + 3, 4 + 5, 6 + ... + 5,5 = 5,41 horas
X= 1=1
=
n 10
Confianza : 1 - a = 0,95 � a = 0,05
X - Z1-a / 2 * s X �m �X + Z1-a / 2 * s X
s 1, 225
X = 5,41 Z1-a / 2 = Z 0,975 = 1,960 (Buscar tabla) sX = = = 0,387
n 10
5,41 – 1,96*0,387 �m �5,41 + 1,96*0,387
5,41 – 0,759 �m �5,41 + 0,759
4,651 �m �6,169
Interpretación: El número medio de horas diarias que trabajan delante del ordenador
todos los empleados de cierta entidad bancaria se estima en 4,6 a 6,2horas, con una
confianza del 95%; el cual significa que de 100 muestras de empleados seleccionados
de toda la entidad bancaria, 95 de ellas estiman dicho parámetro.
Solución:b)
Datos:
Margen de error : e = 0,759
Varianza poblacional : s 2 = 1,5
Confianza : 1 - a = 0,90 � a = 0,10
Tamaño de la población : N desconocido
En base a los datos corresponde utilizar la formula:
Z 2 a *s 2 2
1- Z 0,95 *1, 5 1, 6452 *1, 5
n= 2
= =
e2 0, 759 2 0, 759 2
n = 7, 05 �7
Ejercicios Propuestos
74
Probabilidad y Estadística
75
Probabilidad y Estadística
( n - 1) s 2 (n - 1) s 2
�s 2 � 2
c12-a / 2; n -1 ca / 2; n -1
Ejercicio
Un productor decide probar el funcionamiento de su máquina y para ello, luego de
cosechar una parcela, cuenta en 10 unidades de 1 m2 la cantidad de semillas que quedan
en el suelo. Las normas técnicas indican que la desviación estándar del número de
semillas caídas por m2 no debería ser superior a 5. Los resultados, en semillas/m2,
fueron:
77 73 82 82 79 81 78 76 76 75
a) Construir un intervalo de confianza para s2 con una confianza del 97,5%.
b) Concluir sobre el funcionamiento de la máquina.
Solución:
Datos:
Calculando la cantidad media de impurezas a partir de los valores numéricos
10
�( X i - X )2
( 2, 2 - 2,1)
2
+ ( 1,8 - 2,1) + ... + ( 1, 2 - 2,1)
2 2
S =
2 i =1
=
n -1 8 -1
S 2 = 0,288
(n - 1) s 2
�s 2 (n - 1) s 2
� 2 =
( 8 - 1) * 0, 288 �s 2 �( 8 - 1) * 0, 288
c12-a / 2;n-1 ca / 2;n -1 2
c 0,99;7 2
c 0,01;7
76
Probabilidad y Estadística
2, 016 2, 016
�s 2 � � 0,109 �s 2 �1,627
18, 475 1, 239
Ejercicios Propuestos
Ejercicio 1: Se sabe por experiencia que el tiempo que tarda el servicio de caja
de una empresa prestadora del servicio de agua de una región para atender a los
clientes que llegan a efectuar el pago mensual del servicio se distribuye
normalmente. Se pide estimar el intervalo de confianza para la desviación
estándar poblacional del tiempo requerido para atender los pagos que efectúan
los clientes, con un nivel de confianza del 95%, si para el efecto se tomó una
muestra aleatoria de 25 clientes que arrojó una desviación estándar de 1.8
minutos.
Ejercicio 2: El tiempo que transcurre para los obreros de una gran compañía
entre el momento del ingreso a la planta y el momento en que están listos para
recibir las orientaciones de su jefe inmediato, se distribuye normalmente. Una
muestra de 20 obreros arroja una desviación estándar de 3.5 minutos. Se pide
calcular el intervalo de confianza del 99% para la desviación estándar del tiempo
transcurrido para todos los obreros de la compañía.
77
Probabilidad y Estadística
s 12 s 22
Donde: s X1 - X 2 = +
n1 n2
S X1 - X 2 =
( n1 - 1) * s12 + ( n2 - 1) * s22 �1 1 �
� + �
n1 + n2 - 2 �n1 n2 �
Donde:
2
�S12 S 22 �
� n +
� 1 n2 �
� -2
n= 2
�S1 � �S2 �
2 2 2
Es el grado de libertad, que toma un valor
� n� � n �
� 1 �+ � 2 �
n1 + 1 n2 + 1
numérico redondeado entero.
s12 s22
S X1 - X 2 = +
n1 n2
78
Probabilidad y Estadística
Ejercicio
Un grupo de conejos fue sometido a una serie de situaciones de tensión que producían
una respuesta de temor. Después de un período de tiempo bajo estas condiciones, los
conejos fueron comparados con los de un grupo control, que no había sido sometido a
tensión. La variable de respuesta fue el peso (en mg) de la glándula suprarrenal. Los
resultados fueron:
Grupo Experimental: 3.8 6.8 8.0 3.6 3.9 5.9 6.0 5.7 5.6 4.5 3.9 4.5
Grupo Control: 4.2 4.8 4.8 2.3 6.5 4.9 3.6 2.4 3.2 4.9
a) Comparar el peso de la glándula suprarrenal entre el grupo control y el experimental
con un nivel de confianza del 99%.
a = 0, 05
Estadístico de prueba
79
Probabilidad y Estadística
Semana 1:
Calculo de la media
10
�x i
93 + 86 + 90 + ... + 96 � X 1 = 91,50
X1 = 1=1
= = 91,50
n 8
Calculo de la varianza
n
�( X i - X )2
( 93 - 91, 50 )
2
+ ( 86 - 91, 50 ) + ... + ( 96 - 91, 50 )
2 2
� S12 = 9,143
S =
1
2 i =1
=
n -1 8 -1
Semana 2:
Calculo de la media
10
�x i
93 + 87 + 97 + ... + 93 � X 2 = 89,88
X2 = 1=1
= = 89,88
n 8
Calculo de la varianza
n
�( X i - X )2
( 93 - 89,88 )
2
+ ( 87 - 89,88 ) + ... + ( 93 - 89,88 )
2 2
� S2 2 = 17,839
S2 2 = i =1
=
n -1 8 -1
Regiones críticas
80
Probabilidad y Estadística
0,200 4,99
ZR/-------------------Zona------------------/--------Zona---------
Aceptación Rechazo
La zona de aceptación para un nivel de significación del 5% está delimitada por 0,200 y
4,990, correspondientes a las probabilidades a/2 y (1 - a/2) respectivamente.
Decisión
Como Fc = 1,951 se ubica en la zona de aceptación cuyo intervalo es (0,200; 4,99) se
2 2
acepta H 0 : s1 = s2
Luego se concluye que no hay diferencias entre las varianzas poblacionales, lo que
indica el cumplimiento del supuesto de homogeneidad de varianzas
S X1 - X 2 =
( 8 - 1) *9,143 + ( 8 - 1) *17,839 �1 + 1 �
� �
8+8-2 �8 8�
S X1 - X 2 = 1,8365
81
Probabilidad y Estadística
Ejercicios Propuestos
82
Probabilidad y Estadística
Vamos a considerar que tenemos una población de modo que en cada una de
ellas estudiamos una v.a. dicotómica (Bernoulli) de parámetro respectivo p . De la
población vamos a extraer una muestra de tamaño n .
Entonces,
n
X = �xi � B ( n, p )
i =1
x
y la proporción de éxito en la muestra es pˆ =
n
Luego se cumple:
a) m pˆ = E ( pˆ ) = p
p (1 - p)
b) s pˆ = V ( pˆ ) =
2
c) Si el tamaño muestral n es grande, el Teorema Central del Límite nos asegura que:
pˆ - p
z= � N (0,1)
pq
n
pq p y q conocidos
s p̂ = Tamaño de población (N) demasiado grande o
n infinita.
pq �N - n � p y q conocidos
s pˆ = � � Tamaño de población (N) conocido o finita.
n �N - 1 �
ˆˆ
pq p y q desconocidos, entonces p �pˆ y q �qˆ
S pˆ = Tamaño de población (N) demasiado grande o
n infinita.
ˆ ˆ �N - n � p y q desconocidos, entonces p @ pˆ y q @ qˆ
pq
S pˆ = � � Tamaño de población (N) conocida o finita.
n �N - 1 �
83
Probabilidad y Estadística
ˆ - Z1-a / 2 * s pˆ �p �p
p ˆ + Z1-a / 2 *s pˆ
Donde:
x
pˆ =
n
qˆ = 1 - pˆ
Solución:
x: Número de consumidores que prefieren los pastelillos.
n = 450 tamaño de muestra grande
x = 300 son los que prefieren los pastelillos en la muestra
84
Probabilidad y Estadística
x 300
pˆ = = = 0, 67 Es la proporción puntual muestral que prefieren los pastelillos
n 450
qˆ = 1 - pˆ = 1 - 0, 67 = 0,33 Es la proporción puntual muestral de los que no prefieren los
pastelillos.
Coeficiente de confianza 1 - a = 0,95 � a = 0,05
Z1-a / 2 = Z 0,975 = 1,96
ˆˆ
pq 0,67 *0,33
s pˆ = = = 0, 022
n 450
Tamaño de muestra
Se puede determinar que tan grande debe ser el tamaño de la muestra, n, de manera que
si p se estima por p̂ , el error de estimación no sea mayor que un valor dado e. En
efecto:
Ejercicios Propuestos
85
Probabilidad y Estadística
Vamos a considerar que tenemos dos poblaciones de modo que en cada una de ellas
estudiamos una v.a. dicotómica (Bernoulli) de parámetros respectivos p1 y p2 . De cada
población vamos a extraer muestras de tamaño n1 y n2 .
Entonces
n1
x
X 1 = �x1i � B ( n1 , p1 ) pˆ1 = 1
i =1
n1
n2
x2
X 2 = �x2i � B ( n2 , p2 ) pˆ 2 =
i =1
n2
Luego se cumple:
a) m pˆ1 - pˆ 2 = E ( pˆ1 - pˆ 2 ) = p1 - p2
p1q1 p2 q2
b) s pˆ ¨1 - pˆ¨ 2 = V ( pˆ1 - pˆ 2 ) = +
2
n1 n2
c) Si el tamaño muestral n es grande, el Teorema Central del Límite nos asegura que:
86
Probabilidad y Estadística
( pˆ1 - pˆ 2 ) - ( p1 - p2 )
Z= � N (0,1)
s pˆ1 - pˆ 2
Los hombres y mujeres adultos radicados en una ciudad grande del norte
difieren en sus opiniones sobre la promulgación de la pena de muerte para
personas culpables de asesinato. Se cree que el 12% de los hombres adultos
están a favor de la pena de muerte, mientras que sólo 10% de las mujeres
adultas lo están. Si se pregunta a dos muestras aleatorias de 100 hombres y
100 mujeres su opinión sobre la promulgación de la pena de muerte, determine
la probabilidad de que el porcentaje de hombres a favor sea al menos 3%
mayor que el de las mujeres.
Una encuesta del Boston College constó de 320 trabajadores de Michigan que
fueron despedidos entre 1979 y 1984, encontró que 20% habían estado sin
trabajo durante por lo menos dos años. Supóngase que tuviera que seleccionar
otra muestra aleatoria de 320 trabajadores de entre todos los empleados
despedidos entre 1979 y 1984. ¿Cuál sería la probabilidad de que su
porcentaje muestral de trabajadores sin empleo durante por lo menos dos
años, difiera del porcentaje obtenido en la encuesta de Boston College, en 5%
o más?
Si las muestras son suficientemente grandes ocurre que una aproximación para un
intervalo de confianza al nivel 1 - a para la diferencia de proporciones de dos
poblaciones es:
p1 - p2 �( p ˆ 2 ) �Z1-a / 2 * s pˆ1 - pˆ 2
ˆ1 - p
ˆ1qˆ1
p pˆ q
Dónde: s pˆ - pˆ = + 2 2
1 2
n1 n2
Solución:
Zona A
x1 : Número de personas que están a favor de las relaciones prematrimoniales
87
Probabilidad y Estadística
x1 = 124
n1 = 200
x 124
pˆ1 = 1 = � p̂1 = 0,62 qˆ1 = 1 - pˆ1 = 0,38
n1 200
Zona B
x2 : Número de personas que están a favor de las relaciones prematrimoniales
x2 = 133
n2 = 266
x 133
pˆ 2 = 2 = � p̂2 = 0,50 qˆ2 = 1 - pˆ 2 = 0,50
n2 266
1 - a = 0,90 � a = 0,10
ˆ1qˆ1
p pˆ q 0, 62 * 0, 38 0, 50 * 0, 50
s pˆ - pˆ = + 2 2 = +
1 2
n1 n2 200 266
s pˆ1 - pˆ 2 = 0, 046
Reemplazando en la formula se tiene:
p1 - p2 �( p ˆ 2 ) �Z1-a / 2 * s pˆ1 - pˆ 2
ˆ1 - p
(0,62 – 0,50) – 1,645 * 0,046 �p1 - p2 �(0,62 – 0,50) + 1,645 * 0,046
0,044 �p1 - p2 �0,196
Ejercicios Propuestos
88
Probabilidad y Estadística
el campo y registra que cantidad de semillas emergieron para cada variedad. Los
resultados son los siguientes:
Variedad Cultivadas Emergieron
Valenciano 230 126
Perita 358 293
a). Que modelo teórico de probabilidad considera apropiado si la variable
aleatoria es "numero de plantas que emergieron de una variedad en el total
que se cultivo de la misma"? ¿Cuales son los parámetros para cada una de las
variedades?
b). Estime para cada variable la proporción de emergencia.
c). Construya un intervalo de confianza al 95 % para la probabilidad de
emergencia de las plantas de cada variedad e interprete en términos del
problema
d). Que supuesto fue necesario para que el intervalo anterior sea valido?
e). Si comparamos ambas variedades con el tomate americano que tiene una
probabilidad de emergencia de 0.65, .que puede decir viendo los intervalos de
confianza?
f). Si el productor quiere saber si el tomate valenciano tiene la misma
probabilidad de emergencia que el tomate americano. ¿Cual es el
procedimiento a seguir? Explíquelo y concluya con el mismo.
Tipos de Hipótesis
Hipótesis nula, es la afirmación que está establecida y que se espera sea rechazada
después de aplicar una prueba estadística y se representa por Ho.
Hipótesis alterna, es la afirmación que se espera sea aceptada después de aplicar una
prueba estadística y se representa por H1 .
89
Probabilidad y Estadística
X -m
Z = � N (0,1)
sX
X -m
T = � tn -1
sX
Regiones Críticas:
Depende de las formas de contraste de las hipótesis.
90
Probabilidad y Estadística
Forma Tabular
Si el valor numérico del estadístico de prueba se ubica en la Zona de Aceptación (ZA)
se acepta la Hipótesis nula H 0 .
Si el valor numérico del estadístico de prueba se ubica en la Zona de Rechazo (ZR) se
rechaza la Hipótesis nula H 0 .
Formulación de Hipótesis
H o : m = 2400
H1 : m �2400
Nivel de significancia
a = 0, 05
Estadístico de Prueba
X -m X -m
Z= =
sX s
n
91
Probabilidad y Estadística
La población N de la producción de lámparas es desconocida, así que puede ser que sea
demasiado grande.
X -m 2320 - 2400
Z = =
s 300
n 100
Z = -2, 67
Regiones críticas
-- ZR-- /----------------ZA---------------/---ZR--
- Z 0,975 Z 0,975
-1,96 1,96
Decisión
En vista que el valor del estadístico de prueba (Z = -2,67) es inferior que el valor tabular
( Z t = -1,96) ubicándose en la zona de rechazo, entonces se rechaza la hipótesis nula H 0 .
Esto significa que el nuevo proceso de fabricación no es aceptable.
Nivel de significancia
a = 0, 025
Estadístico de Prueba
X -m X -m
T = =
sX s
n
92
Probabilidad y Estadística
257,3 - 250
T=
15
20
T = 2,176
Regiones críticas
----------------ZA---------------/-----ZR-----
t0,975;19
2,093
Decisión
Dado que el valor del estadístico de prueba ( T = 2,176 ) es superior que el valor tabular
(t = 2,093) , entonces se ubica en la zona de rechazo, rechazando la hipótesis nula H 0 .
Esto demuestra que no se necesita a lo sumo 250 micro amperes, en forma significativa.
Ejercicios Propuestos
Ejercicio 1: La tasa actual para producir fusibles de 5 amp en Neary Electric Co. Es
250 por hora. Se compró e instaló una máquina nueva que, según el proveedor,
aumentará la tasa de producción. Una muestra de 20 horas seleccionadas al azar el mes
pasado indica que la producción media por hora en la nueva máquina es 256, con
desviación estándar de 6 por hora. Con a = 0, 05 de nivel de significancia, ¿Puede
Neary Electric concluir que la nueva máquina es más rápida?
Ejercicio 2: Un fabricante de lámparas eléctricas sostiene que la duración media de
las mismas (horas) es en promedio superior a 1300 h. Se toma una muestra de 17
lámparas siendo el resultado de la inspección el siguiente:
980 1 350 1 020 1 140 1 520 1 390 1 205 1 180 970 1 420 1 850 1 300
1 305 1 040 1 050 1 520 1 320
Verificar el Ho del fabricante con un coeficiente de riesgo del 5% (suponiendo la
distribución normal).
Ejercicio 3: Una empresa desea concursar para ganar un contrato con el gobierno
como proveedor de concreto; uno de los requisitos es la resistencia a la compresión del
concreto a los 28 días de haberse preparado la mezcla. La empresa ganadora dice que
mantiene excelentes controles de calidad en su concreto y como tal hay una varianza
2
muy baja en resistencias a la compresión, del orden de 16 Kg f / cm 4 ; pero al hacerle en
2
la UNAM unas pruebas de resistencia se detecta una varianza mas elevada de 25 Kg f /
cm 4
93
Probabilidad y Estadística
a) ¿hay evidencia estadística suficiente para considerar que el proveedor está mintiendo
2
y en realidad la desviación estándar es DIFERENTE a 16 Kg f / cm 4 ?
b) Redacción de la prueba de hipótesis, indicando si debe ser prueba de una o dos colas
para responder la pregunta.
Ejercicio 4: Un vendedor de neumáticos dice que la vida media de sus neumáticos es
de 28000 Km. Admitiendo para la desviación típica el valor 1348 Km. diseñar un test de
hipótesis al 99% de confianza, basado en muestras de 40 elementos que permita
contrastar la hipótesis nula de ser μ = 28000Km usando como hipótesis alternativa μ <
28000Km
Ejercicio 5: Se pretende diseñar una prueba de hipótesis con una muestra de 74
automóviles para comprobar su capacidad de frenado. Para ello se medirá en todos ellos
la distancia de frenado si el automóvil parte de una velocidad inicial de 100 Km/h. Se
quiere saber si, tras un frenazo brusco, la distancia media recorrida antes de pararse es
de 110 metros. Se supone que la distancia de frenado sigue una distribución normal con
desviación típica conocida σ = 3 m. Supongamos ahora que hemos realizado
efectivamente la prueba a los 74 automóviles y hemos obtenido las siguientes distancias
de frenado.
Distancias 98 102 105 113 123 126
Num. de autos 15 10 12 8 16 13 Total 74
¿Se acepta la hipótesis de que la distancia media de frenado es de 110 m, con un nivel
de significación α = 0.05?
Ejercicio 6: Un fabricante asegura que sus fusibles, con una sobrecarga del 20%, se
fundirán por promedio al cabo de 12.40 min. Una muestra de 20 fusibles se sobrecarga
un 20%, obteniéndose una media de 10.63 y una cuasi desviación de 2.48 min.
¿Confirma la muestra la afirmación del fabricante para el promedio?
94
Probabilidad y Estadística
Estadístico de prueba:
( n - 1) s 2
c = 2
s2
Prueba Chi cuadrado ( c 2 ) para una muestra con n-1 grados de libertad (gl.)
Regiones críticas
Depende de las formas de contraste de las hipótesis.
Decisión:
Forma Tabular
Si el valor numérico del estadístico de prueba se ubica en la Zona de Aceptación (ZA)
se acepta la Hipótesis nula H 0 .
Si el valor numérico del estadístico de prueba se ubica en la Zona de Rechazo (ZR) se
rechaza la Hipótesis nula H 0 .
Ejemplo
Una firma agroindustrial desea incorporar un nuevo mecanismo en las
máquinas enfardadoras que fabrica. El ingeniero a cargo del proyecto
sospecha que esta innovación puede producir un aumento de la varianza del
peso de los fardos. La desviación estándar que se obtiene con la maquinaria
sin modificar es de 1.5 kg. Para evaluar el nuevo mecanismo, se realizó un
ensayo tomando 10 fardos al azar de un lote de alfalfa. Los pesos de dichos
fardos fueron: 28.3; 27.8; 29.3; 30.1; 32.5; 27.2; 25.3; 32.2; 33.6; 30.7, con
varianza muestral = 6.87.
95
Probabilidad y Estadística
Formulación de hipótesis
H 0 : s 2 = 25
H1 : s 2 �25
Nivel de significancia
a = 0,10
Estadístico de prueba
( n - 1) s 2 (16 - 1) * 28,1
c =2
=
0
s 2
25
c 02 = 16,86
Regiones críticas
----ZR----/---------------ZA------------/-------------ZR-------------
c 0,05;15
2
c 0,95;15
2
7,261 24,996
Decisión
Como que el valor del estadístico de prueba se ubica entre los valores tabulares (7,261
�c 02 = 16,86 �24,996), es decir dentro de la zona de aceptación, entonces se acepta la
hipótesis nula H 0 . Efectivamente se puede concluir con una confianza del 90% que la
varianza poblacional de las horas extras demandadas a la semana es
igual a 25.
96
Probabilidad y Estadística
Ejercicios propuestos
Estadístico de prueba
97
Probabilidad y Estadística
( X 1 - X 2 ) - ( m1 - m2 )
Z= � N (0,1)
s X1 - X 2
s 12 s 22
Donde: s X 1-X2
= +
n1 n2
( X 1 - X 2 ) - ( m1 - m2 )
T= � tn1 + n2 - 2
S X1 - X 2
S X1 - X 2 =
( n1 - 1) * s12 + ( n2 - 1) * s22 �1 1 �
� + �
n1 + n2 - 2 �n1 n2 �
( X 1 - X 2 ) - ( m1 - m2 )
T= � tv
S X1 - X 2
Donde:
s12 s22
S X1 - X 2 = +
n1 n2
2
� S12 S22 �
� n +
n2 �
n= � 2 � -2
1
�S1 � �
2
S2 �
2 2
Es el grado de libertad, que toma un valor numérico
� n � � n �
� 1 �+ � 2 �
n1 + 1 n2 + 1
redondeado entero.
98
Probabilidad y Estadística
Regiones críticas
Decisión:
Forma Tabular
Si el valor numérico del estadístico de prueba se ubica en la Zona de Aceptación (ZA)
se acepta la Hipótesis nula H 0 .
Si el valor numérico del estadístico de prueba se ubica en la Zona de Rechazo (ZR) se
rechaza la Hipótesis nula H 0 .
Variedad n X s2
1 10 160,4 65,3
2 10 165,6 67,9
Solución:
Según los datos corresponden al CASO II: Muestras independientes, varianzas
poblacionales desconocidas ( s 1 , s 2 ). Ahora el problema es;
2 2
99
Probabilidad y Estadística
Formulación de hipótesis
H 0 : s 12 = s 22 vs. H1 : s 12 �s 22
Nivel de significancia
a = 0,05.
Estadístico de prueba
s12 65, 3
F = 2
=
s2 67, 9
65, 3
F = = 0, 96
67, 9
Regiones críticas
Distribución F de Snedecor
-ZR-/--------------------------ZA-------------------------/-----------ZR--------------
Decisión:
La región de aceptación para un nivel de significación del 5% está delimitada por 0,248
y 4,03, correspondientes a las probabilidades a/2 y (1 - a/2) respectivamente.
Formulación de hipótesis
Nivel de significancia
a = 0,05.
100
Probabilidad y Estadística
Estadístico de prueba
T =
(X 1 - X 2 ) - ( m1 - m2 )
( n1 - 1) S12 + ( n2 - 1) S 22
�1 1 � S p2 =
S p2 � + � n1 + n2 - 2
�n1 n2 �
s 2p =
( 10 - 1) *65,3 + ( 10 - 1) *67,9 = 66,6
10 + 10 - 2
T =
( 160, 4 - 165, 6 ) - ( 0 ) = -1, 42
�1 1 �
66, 6 � + �
�10 10 �
Regiones críticas
Distribución T de Student
---------ZR-------/---------------------ZA-------------------/--------ZR---------
Decisión
La región de aceptación para un nivel de significación del 5% está delimitada por -2,101
y 2,101, correspondientes a los probabilidades a/2 y (1 - a/2) respectivamente y 18
grados de libertad
101
Probabilidad y Estadística
Formulación de hipótesis
H 0 :m1 - m2 �1,5
H1 : m1 - m2 1,5
Nivel de significancia
a = 0,05
Estadístico de prueba
Según los datos corresponden al CASO I: Muestras independientes con varianzas
poblacionales conocidas. Entonces:
( X 1 - X 2 ) - ( m1 - m2 ) ( X 1 - X 2 ) - ( m1 - m2 )
Z= =
s X1 - X 2 s 12 s 22
+
n1 n2
Z = - 1,195
Regiones críticas
----ZR-----/-------------ZA-----------------
- z1-a
-1,645
Decisión
La región de aceptación para un nivel de significación del 5% está delimitada por -1,645
y + �, correspondientes a la probabilidad (1 - a).
102
Probabilidad y Estadística
Ejercicios propuestos
Aguas abajo
9 12 8 15 12 10 7 12 10 14 12 13 10 12 9 12
9 14 10 10 13 12 12 15 11 9 9 12 8 15 12 10
12 13 10 12 9 12 7 13 15 10 9 14 10 10 13 12
12 15 11 9 7 12 10 14 7 13 15 10
¿Cree Ud. que existen diferencias en la concentración de este metal pesado entre uno y
otro sitio? Evalúe su respuesta para un α = 0,02
Ejercicio 2. Un fabricante que usa dos líneas de producción 1 y 2 hizo un ligero ajuste
a la línea 2 con la esperanza de reducir tanto la variabilidad como la cantidad promedio
de impurezas en la sustancia química. Muestras aleatorias en cada línea arrojaron las
siguientes mediciones:
Línea n Promedio Varianza
1 16 3,2 1,04
2 16 3,0 0,51
¿Los datos aportan suficiente evidencia para concluir que la cantidad promedio de
impurezas de la línea 1 es menor que la línea 2?
Ejercicio 3. Una muestra de 80 alambres de acero producidos por la fábrica A
presenta una resistencia promedio a la ruptura de 1.230 lbs. con una desviación estándar
de 120 lbs Una muestra de 100 alambres de acero producidos por la fábrica B presenta
una resistencia promedio a la ruptura de 1.110 lbs . con una desviación estándar de 90
lbs .. Con base en ésta información pruebe si la resistencia promedio a la rotura de los
alambres de acero de la marca A es significativamente mayor que la de los alambres de
acero de la marca B. Asuma un nivel de confianza del 99 por ciento.
Ejercicio 4. El jefe de personal de una gran empresa afirma que la diferencia de los
promedios de antigüedad entre los obreras y obreros de la compañía es de 3.5 años. El
presidente de la compañía considera que ésta diferencia es superior. Para comprobar
dicha situación, se toma una muestra aleatoria de 40 obreras cuyo promedio de
antigüedad es de 12.4 años con desviación estándar de 1.5 años y de un grupo de 45
103
Probabilidad y Estadística
obreros cuyo promedio de antigüedad es de 8.3 años con desviación estándar de 1.7
años. Comprobar la hipótesis con un nivel de significación del 5%.
Caso III: Normal- Muestras dependientes
Los datos se obtienen de muestras que están relacionadas, es decir, los resultados del
primer grupo no son independientes de los del segundo.
Por ejemplo, esto ocurre cuando se mide el nivel de un metabolito en cada uno de los
individuos de un grupo experimental antes y después de la administración de una
droga.
Ejemplo
Formulación de Hipótesis
Estadístico de prueba
T =
( D-m ) d
~ t n -1
�S d2 �
� �
�n �
104
Probabilidad y Estadística
T =
( D-m ) d
=
0, 22 - 0
= 1.26
� S � 2 0, 50
d
� � 8
�n �
Regiones críticas
-- ZR-- /-------------ZA--------------/--ZR--
- ta / 2 t1-a / 2
-2,365 2,365
Como T = 1,26 es menor que t1- a/2= 2,365, se ubica en la zona de aceptación, por lo
tanto se acepta H 0 : m d = 0
Vamos a considerar que tenemos una población de modo que en cada una de ellas
estudiamos una v.a. dicotómica (Bernoulli) de parámetro respectivo p . De la
población vamos a extraer una muestra de tamaño n .
Entonces,
n
X = �xi � B ( n, p )
i =1
� p (1 - p ) �
pˆ � N �p; �
� n �
105
Probabilidad y Estadística
O bien:
pˆ - p
z= � N (0,1)
ˆˆ
pq
n
Donde:
Formulación de Hipótesis
Estadística de prueba
pˆ - p 0
Z = � Normal ( 0 , 1)
p 0q 0
Donde:
q0 = 1 - p0
p : Proporción muestral de éxitos
Regiones críticas
Decisión
Forma Tabular
106
Probabilidad y Estadística
Formulación de hipótesis
H 0 : p = 0,18
H1 : p > 0,18
Nivel de significancia
a = 1%
Estadístico de prueba
ˆ - p0
p 0,30 -0,18
Z = =
p 0q 0 0,18*0,82
n 120
Z = 3,43
Regiones críticas
------------------ZA--------------/----ZR-----
z1-a
2,33
Decisión
Fijando a = 0.01, la región de aceptación es el intervalo (- � ; z1-a = 2,33)
107
Probabilidad y Estadística
Como el estadístico de prueba Z = 3,43 es mayor que z1-a = 2,33, es decir se ubica en la
zona de rechazo, se rechaza H0
El gerente concluye que efectivamente el 18% o más de los trabajadores están de
acuerdo con un proyecto de ley que modifica el código laboral Peruano.
Ejercicios propuestos
Vamos a considerar que tenemos dos poblaciones de modo que en cada una de
ellas estudiamos una v.a. dicotómica (Bernoulli) de parámetros respectivos p1 y
p2 . De cada población vamos a extraer muestras de tamaño n1 y n2 .
Entonces
n1
X 1 = �x1i � B ( n1 , p1 )
i =1
n2
X 2 = �x2i � B ( n2 , p2 )
i =1
108
Probabilidad y Estadística
Si las muestras son suficientemente grandes ocurre que una aproximación para la
prueba de hipótesis al nivel de significancia “ a ” para la diferencia de
proporciones de dos poblaciones es:
Formulación de Hipótesis
Estadística de prueba
(pˆ 1 - pˆ 2 )-(p1-p 2 )
Z = � Normal ( 0 , 1)
�1 1 �
pq � + �
�
�n1 n2 �
�
ˆ 1 + n 2 pˆ 2
n1 p
p =
n1 + n 2
Regiones críticas
Decisión
Forma Tabular
Si el valor numérico del estadístico de prueba se ubica en la Zona de Aceptación (ZA)
se acepta la Hipótesis nula H 0 .
Si el valor numérico del estadístico de prueba se ubica en la Zona de Rechazo (ZR) se
rechaza la Hipótesis nula H 0 .
109
Probabilidad y Estadística
Marca A Marca B
X 1 : Número de agricultores que X 2 : Número de agricultores que
prefieren la variedad A prefieren la variedad B
X 1 = 56 X 2 = 29
n1 = 200 n2 = 150
X 56 X 29
pˆ1 = 1 = pˆ 2 = 2 =
n1 200 n2 150
p̂1 = 0,28 � q̂1 = 0,72 p̂2 = 0,19 � q̂2 = 0,81
Formulación de hipótesis
H 0 : p1 = p2
H1 : p1 > p2
Nivel de significancia
a = 5%
Estadístico de prueba
ˆ1 - p
(p ˆ 2 )-(p1-p 2 ) (0,28-0,19) -0
Z = =
�1 1 � �1 1 �
pq �
�
+ � 0,24*0,76� + �
�n1 n2 �
� �200 150 �
Z = 1,96
Calculando
ˆ1 + n2p
n1 p ˆ2 200 * 0, 28 + 150 * 0,19
p = =
n1 + n 2 200 + 150
p = 0,24 q = 0,76
Regiones críticas
110
Probabilidad y Estadística
----------------ZA---------------/-----ZR----
z1-a
1,645
Decisión
Fijando a = 0.05, la región de aceptación es el intervalo (- � ; z1-a = 1,645)
Como el estadístico de prueba Z = 1,96 es mayor que z1-a = 1,645, es decir se ubica en
la zona de rechazo, se rechaza H0
Se concluye que efectivamente la variedad A tiene mayor preferencia que la variedad B
con un nivel de confianza del 95%.
Ejercicios propuestos
111
Probabilidad y Estadística
Formulación de hipótesis
Ho: Ambos criterios de clasificación son independientes
H1: Ambos criterios de clasificación no son independientes
Nivel de significación
a = 0,05; 0,01 etc.
n i. x n. j
E ij =
n
Forma Tabular
Rechazar Ho si c2 > c tab2
112
Probabilidad y Estadística
No rechazar Ho si c 2
c 2
tab
Forma Método “p”
Esto es:
Ejemplo 1: Se hizo en Perú un estudio hacia fines del año 2010 con una muestra
informantes dirigentes sociales, 17 hombres y 15 mujeres, a fin de conocer su
percepción de la situación económica del país. Los resultados son los siguientes, en
número de casos:
Sexo Percepción de la situación económica Total
Buena Aceptable Deficiente
Hombre 8 (9,03) 6 (5,31) 3 (2,66) 17
Mujer 9 (7,97) 4 (4,69) 2 (2,34) 15
Total 17 10 5 32
Con un nivel de significación del 10% realice un contraste de hipótesis para responder a
la afirmación de que la percepción de la situación económica está asociada al género del
encuestado.
Solución:
Formulación de hipótesis
H 0 : La percepción de la situación económica es independiente del sexo del encuestado
H1 : La percepción de la situación económica es dependiente del sexo del encuestado
Nivel de significancia
a = 10%
Estadístico de prueba
(Oij - E ij ) 2
c2 =
E ij
Hallando la frecuencia esperada
n1. x n .1 17 *17
E11 = = = 9, 03
n 32
113
Probabilidad y Estadística
n2. * n.3 17 *5
E23 = = = 2, 66
n 32
Reemplazando
c 2 = 0,535
Valor tabular
Regiones críticas
-----------------ZA---------/----------ZR----------
4,605
Decisión
Fijando a = 0.10, la región de aceptación es el intervalo (0; c 0,90;2 = 4,605)
2
Como el estadístico de prueba c 2 = 0,535 es menor que c 0,90;2 = 4,605, es decir se ubica
2
Bibliografía
114
Probabilidad y Estadística
115