Sie sind auf Seite 1von 115

Probabilidad y Estadística

UNIVERSIDAD NACIONAL DEL SANTA

FACULTA DE CIENCIAS

DEPARTAMENTO DE MATEMATICAS

Escuela Académica Profesional de Ingeniería en Energía

MANUAL

PROBABILIDAD Y ESTADÍSTICA

Autor

Ms. Luis Pajuelo Gonzáles

Primera Edición 2011

1
Probabilidad y Estadística

INDICE GENERAL
INTRODUCCIÓN A LA ESTADÍSTICA…………………………………………. 4
Importancia de la Estadística………………………………………………………… 5
Conceptos básicos en la estadística………………………………………………….. 6
Variables estadísticas………………………………………………………………… 7
Muestreo……………………………………………………………………………… 9
PRESENTACIÓN DE LOS DATOS………………………………………………. 17
Distribución de frecuencias…………………………………………………………… 17
Distribución de frecuencias por intervalos…………………………………………… 17
Distribución de frecuencias por clases……………………………………………….. 21
Distribución de frecuencias por categorías…………………………………………… 22
MEDIDAS ESTADÍSTICAS……………………………………………………….. 26
Medidas de centralización…………………………………………………………….. 26
Media Aritmética……………………………………………………………… 26
Mediana……………………………………………………………………….. 29
Moda………………………………………………………………………….. 32
Medidas de dispersión………………………………………………………………… 36
Varianza……………………………………………………………………….. 36
Desviación estándar…………………………………………………………… 37
Coeficiente de variación………………………………………………………. 37
Medidas de forma……………………………………………………………………... 40
Asimetría………………………………………………………………………. 40
Kurtosis…………………………………………………………………………42
PROBABILIDAD Y DISTRIBUCIONES DE PROBABILIDAD…………………43
Reseña histórica……………………………………………………………………….. 43
Conceptos básicos……………………………………………………………………... 44
Definición de probabilidad….………………………………………………………… 45
Enfoques de probabilidad…………………………………………………………….. 46
Propiedades de la probabilidad………………………………………………………. 47
Probabilidad condicional…………………………………………………………….. 47
Partición del espacio muestral……………………………………………………….. 49
Probabilidad total…………………………………………………………….. 49
Teorema de Bayes……………………………………………………………. 49
Variable Aleatoria……………………………………………………………………. 50
Variable aleatoria discreta……………………………………………………. 50
Variable aleatoria continúa…………………………………………………… 51
DISTRIBUCIONES PARA VARIABLES ALEATORIAS DISCRETAS……… 51
Distribución Binomial……………………………………………………… 52
Distribución de Poisson……………………………………………………… 55
DISTRIBUCIONES PARA VARIABLES ALEATORIAS CONTINUAS…….. 58
Distribución Normal…………………………………………………………. 58
Distribución t Student………………………………………………………... 62
Distribución Chi – cuadrado…………………………………………………. 64
Distribución F de Fisher……………………………………………………… 65
INTRODUCCIÓN A LA ESTADÍSTICA INFERENCIAL……………………... 67
Estimación de Parámetros…………………………………………………………. 68
Distribución de la media muestral…………………………………………… 68
Estimación por Intervalos de confianza para la media poblacional µ……….. 69

2
Probabilidad y Estadística

Tamaños de muestra para variables cuantitativas………………………………70


Intervalo de confianza para la varianza………………………………………...74
Distribución para la diferencia de medias muestrales…………………………75
Intervalo de confianza para la diferencia de medias ( m1 - m 2 )……………….75
Distribución para una proporción muestral…………………………………….80
Intervalo de confianza para una proporción……………………………………81
Tamaño de muestra para variables dicotomicas………………………………..82
Distribución para la diferencia de proporciones muestrales……………………83
Intervalo de confianza para la diferencia de proporciones……………………..83
Pruebas de hipótesis…………………………………………………………………. 86
Prueba de hipótesis para la media µ…………………………………………... 86
Prueba de hipótesis para la varianza………………………………………….. 91
Prueba de hipótesis para la diferencia de medias ( m1 - m 2 )……………… 93
Prueba de hipótesis para la proporción………………………………………..101
Prueba de hipótesis para la diferencia de proporciones……………………….104
Prueba de hipótesis de independencia de criterios…………………………….107

3
Probabilidad y Estadística

Capítulo 1

INTRODUCCIÓN A LA ESTADÍSTICA

A medida que aumenta la complejidad de nuestro mundo y nos internamos por los
senderos reales y virtuales del nuevo milenio, se hace más difícil tomar decisiones
informadas e inteligentes. Con frecuencia, estas decisiones han de tomarse con un
conocimiento imperfecto de la situación y un grado considerable de incertidumbre, sin
embargo, las soluciones pertinentes son esenciales para nuestro bienestar e incluso para
nuestra supervivencia. Estamos expuestos a la presión constante de problemas
económicos galopantes y angustiantes, en casi todos los países desarrollados,
subdesarrollados y tercermundistas, un sistema fiscal engorroso, coercitivo e injusto y
oscilaciones excesivas del ciclo económico.
Todo nuestro tejido socioeconómico esta amenazado por una contaminación ambiental
exponencialmente creciente, por una deuda pública opresiva y criminal, por un índice de
delincuencia que se incrementa sin cesar día a día como consecuencia de la perdida de
valores morales y por unos intereses impredecibles que coadyuvan a incrementar la ya
casi infinita brecha entre los países desarrollados y los países pobres de Asia,
Latinoamérica y África.
Nuestro periodo de éxito en este planeta, relativamente, breve no es ninguna garantía de
supervivencia futura. A menos que se encuentren soluciones viables a estos apremiantes
problemas. En razón de lo anteriormente expuesto, es necesario contar con herramientas
altamente confiables que nos permitan tomar decisiones acertadas y eficaces para poder
resolver los problemas prioritarios que podrían enmarcarse posiblemente de acuerdo al
criterio 80/20 (el 80% de todos los problemas se deben al 20% de las causas.) .De ahí
que sea fundamental que todos los futuros profesionales que pretendan dirigir
correctamente los destinos de la humanidad, aprendan y se sirvan de los métodos
estadísticos para minimizar la probabilidad de error en la toma de decisiones en esta era
llamada del conocimiento, que actualmente cuentan con todas las ayudas de última
generación que a través de excelentes software permiten agilizar todo el trabajo
estadístico. Es altamente recomendable que a la par con la formación humanística que
se imparte en nuestra universidad, se actualice las técnicas pedagógicas y se introduzcan
en los contenidos programáticos y curriculares de los diferentes programas, la

4
Probabilidad y Estadística

obligación que los docentes y estudiantes utilicen los diferentes software que se
consiguen en el mercado, que le permitan estar actualizados con las tecnologías de
puntas.

1.1. IMPORTANCIA DE LA ESTADÍSTICA


Todos los campos de la investigación científica seria, se pueden beneficiar del análisis
estadístico ya que las técnicas estadísticas se pueden utilizar en casi todos los aspectos
de la vida. Se diseñan encuestas para recopilar información previa al día de elecciones y
así predecir el resultado de las mismas. Se seleccionan al azar consumidores para
obtener información con el fin de predecir la preferencia con respecto a ciertos
productos y/o servicios.
Los responsables de la toma de decisiones sobre la política económica, asesores
presidenciales, ministeriales y de otros altos cargos públicos, tienen en la estadística una
herramienta muy valiosa. Los economistas consideran varios índices de la situación
económica durante cierto periodo y utilizan la información para predecir la situación
económica futura. Únicamente con la ayuda del análisis estadístico pueden tomarse
decisiones inteligentes en relación con los tipos tributarios, programas sociales, gastos
de defensas, políticas laborales, inversiones prioritarias.
Es fundamental para los empresarios, en su búsqueda incansable del beneficio, donde
las actividades de control total de calidad, minimización de costos, combinación de
productos - existencias y multitud de aspectos empresariales se pueden gestionar con
eficacia mediante procedimientos estadísticos contrastados. Los ingenieros muestrean
las características de calidad de un producto, juntos con otras variables controladas del
proceso para facilitar la identificación de las variables que están mas relacionadas con
dicha calidad.
En la investigación de mercados, la estadística representa una ayuda inestimable para
determinar si es probable que un nuevo producto y/o servicio tenga éxito. Su utilidad es
evidente también para los asesores financieros que han de evaluar las oportunidades de
inversión a través de las bolsas de valores. Contadores, directores de personal y
fabricantes se benefician igualmente del análisis estadístico.
Incluso los investigadores médicos, sicólogos, siquiatras y muchos profesionales del
sector de la salud y del comportamiento, que preocupados por la eficacia de nuevos
medicamentos, realizan experimentos para determinar su efecto bajo ciertas condiciones

5
Probabilidad y Estadística

ambientales controladas en los humanos y en los animales para la determinación del


método apropiado para curar ciertas enfermedades, encuentran en la estadística un
aliado imprescindible.
En término generales la estadística se puede utilizar para mejorar el rendimiento en el
trabajo y en muchos aspectos de la vida diaria ya que es una guía universal para lo
desconocido.

1.2. CONCEPTOS BÁSICOS EN LA ESTADÍSTICA

Estadística
Es una ciencia que requiere del conocimiento matemático y que nos permite recopilar,
organizar (clasificar, agrupar), presentar, describir y analizar datos a fin de realizar
generalizaciones validas o tomar eficientes decisiones.

Estadística Descriptiva
Presenta un conjunto de métodos que nos permite recolectar, presentar los datos en
tablas o cuadros y gráficos, describir y analizar mediante el caculo de las medidas de
resumen; sin intentar inferir nada que vaya más allá de los datos como tales.

Estadística Inferencial
Presenta un conjunto de métodos que nos permite realizar generalizaciones válidas en
una población con un nivel de confiabilidad sobre los resultados obtenidos en una
muestra.

Población
Es un conjunto de individuos, objetos o eventos que contienen una o más características
comunes observables de naturaleza cuantitativa o cualitativa. Su tamaño comúnmente se
denota por “N”.

Unidad de observación, unidad estadística o unidad de análisis, es el individuo,


objeto o evento de una población, de quien se obtiene información. La unidad debe ser
adecuada al tipo de investigación y debe poseer características claras y entendibles que
permitan mediciones y comparaciones.

6
Probabilidad y Estadística

Dato, valor observado o simplemente observación, es el resultado de medir una


característica de una unidad de análisis.

Parámetro, es un número o una medida de resumen que describe a una característica de

la población, tal como la media poblacional ( m ) o la varianza poblacional ( s ) .


2

Tamaño de la Población, por el número de elementos que la componen la población se


clasifica en finita o infinita.
La población es finita cuando tiene un número limitado de elementos y es infinita caso
contrario. En la práctica una población finita que tiene un gran número de elementos se
le considera una población infinita.

Muestra
Es un sub conjunto o parte de una población seleccionada de acuerdo a un plan de
muestreo, de tal manera que sea representativa. El tamaño de la muestra se suele denotar
por “n”.

Estadístico o estadígrafo, es un número o una medida de resumen que describe a una

característica de la muestra, tal como la media muestral ( X) o la varianza muestral

(s ).
2

1.3. VARIABLES ESTADÍSTICAS


Rasgo, característica o propiedades medibles, observables con variabilidad que poseen
los elementos de una población o de una muestra. Una variable puede ser cualitativa o
cuantitativa.

ESCALA DE MEDIDA. Es un patrón o conjunto de criterios claramente definidos que


permite asignar, sin ambigüedades, valor a una variable. El concepto de valor incluye,
además de números, letras, letras y números, palabras, etc.

VARIABLE CUALITATIVA: Es aquella que su medición se puede expresar


normalmente por medio de una palabra o palabras y no de números.

7
Probabilidad y Estadística

Por ejemplo, el estado civil, la nacionalidad, el sexo, la profesión, la raza, el color de la


piel de los profesores de la UNS.

Las variables cualitativas pueden ser binomiales o multinomiales. Se pueden hacer


observaciones solas en dos categorías sobre una variable cualitativa binomial, por
ejemplo, hombre o mujer, buenas o malas, rico o pobre, ausente o presente, empleado o
desempleado.
Sobre una variable cualitativa multinomial se pueden hacer observaciones en más de
dos categorías, por ejemplo, en puestos de trabajo, colores, idiomas, nacionalidades,
religiones, etc. Las variables cualitativas pueden ser nominales u ordinales.

NOMINAL. Sirven únicamente para identificar la diferencia o semejanza, así como el


criterio para asignar el número u el código, por ejemplo para saber el color del pelo de
una persona.

ORDINAL. Permite distinguir diferencia o semanaza y jerarquía, además asigna el


número a una variable que sirve sólo para ordenar, por ejemplo como el puesto que
ocupa un atleta en una carrera.

VARIABLE CUANTITATIVA: Es aquella que su medición se expresa


numéricamente. Por ejemplo, las exportaciones de café, las ventas de acero, el ingreso
per cápita, la producción de autos, el decomiso de cocaína, las hectáreas fumigadas, etc.
Las variables cuantitativas pueden ser discretas o continuas.

VARIABLE DISCRETA: Es aquella que solo puede tomar determinados valores por lo
general, números enteros, por ejemplo, el numero de hijos de una familia, numero de
empleados de una empresa, numero de vacas en una hacienda, numero de carros
fabricados, etc.

VARIABLE CONTINUA: Es aquella que toma cualquier valor dentro de un intervalo


dado. Por muy cerca que estén dos observaciones siempre es posible hacer otra
medición que caigan dentro de esas dos. Los valores de una variable continua provienen
de las mediciones y de los pesajes. Por ejemplo el peso del recién nacido, las
exportaciones en dólares del espárrago, etc.

8
Probabilidad y Estadística

DATO: Es cualquier observación individual de una característica (variable) especifica,


susceptible de ser comparada. Un conjunto de datos es univariado, bivariado o
multivariado si contiene una, dos, o mas de dos variables.

En el cuadro No 1 que aparece a continuación se muestra una base de datos donde se


pueden observar los diferentes componentes (unidad elemental, tipos de variables,
datos, muestra, etc.).

CUADRO No 1
BASE DE DATOS DE LOS EMPLEADOS DE LA EMPRESA
Metalconsulting Ingenieria Ltda.

1.4. MUESTREO

Los métodos estadísticos proponen diferentes tipos de muestreo, aunque en general


pueden dividirse en dos grandes grupos: métodos de muestreo probabilísticas y métodos
de muestreo no probabilísticas.

9
Probabilidad y Estadística

Métodos de muestreo probabilísticas

Los métodos de muestreo probabilística son aquellos que se basan en el principio de


equiprobabilidad. Es decir, aquellos en los que todos los individuos tienen la misma
probabilidad de ser elegidos para formar parte de una muestra y, consiguientemente,
todas las posibles muestras de tamaño “n” tienen la misma probabilidad de ser elegidas.
Solo estos métodos de muestreo probabilística aseguran la representatividad de la
muestra extraída y son, por tanto, los más recomendables. Dentro de los métodos de
muestreo probabilística se encuentran los siguientes tipos:

Muestreo aleatorio simple

El procedimiento empleado es el siguiente: 1) se asigna un número a cada individuo de


la población, y 2) a través de algún medio mecánico (bolas dentro de una bolsa, tablas
de números aleatorios, números aleatorios generados con una calculadora u ordenador,
etc.) se eligen tantos sujetos como sea necesario para completar el tamaño de muestra
requerido. Este procedimiento, atractivo por su simpleza, tiene poca o nula utilidad
practica cuando la población que se esta manejando es muy grande.

Muestreo aleatorio sistemático

Este procedimiento exige, como el anterior, numerar todos los elementos de la


población, pero en lugar de extraer “n” números aleatorios solo se extrae uno. Se parte
de ese numero aleatorio i, que es un numero elegido al azar, y los elementos que
integran la muestra son los que ocupan los lugares i, i+k, i+2k, i+3k,..., i+(n-1) k, es
decir se toman los individuos de k en k, siendo k el resultado de dividir el tamaño de la
población entre el tamaño de la muestra:
k=N/n. El numero i que se emplea como punto de partida será un número al azar entre 1
y k.
El riesgo se este tipo de muestreo esta en los casos en que se dan periodicidades en la
población ya que al elegir a los miembros de la muestra con una periodicidad constante
(k) se puede introducir una homogeneidad que no se da en la población. Supóngase que
se esta seleccionando una muestra sobre listas de 10 individuos en los que los 5
primeros son varones y los 5 últimos mujeres; si se emplea un muestreo aleatorio
sistemático con k=10 siempre serán seleccionados o solo hombres o solo mujeres; no
podría haber una representación de los dos sexos.

10
Probabilidad y Estadística

Muestreo aleatorio estratificado

Trata de obviar las dificultades que presentan los anteriores, ya que simplifica los
procesos y suele reducir el error muestral para un tamaño dado de la muestra. Consiste
en considerar categorías típicas diferentes entre si (estratos) que poseen gran
homogeneidad respecto a alguna característica (se puede estratificar, por ejemplo, según
la profesión, el municipio de residencia, el sexo, el estado civil, etc.). Lo que se
pretende con este tipo de muestreo es asegurarse de que todos los estratos de interés
estarán representados adecuadamente en la muestra. Cada estrato funciona
independientemente, pudiendo aplicarse dentro de ellos el muestreo aleatorio simple o
el estratificado para elegir los elementos concretos que formaran parte de la muestra. En
ocasiones, las dificultades que plantea son demasiado grandes, pues exige un
conocimiento detallado de la población (tamaño geográfico, sexos, edades...).
La distribución de la muestra en función de los diferentes estratos se denomina
afijación, y puede ser de diferentes tipos:

Afijación simple: a cada estrato le corresponde igual número de elementos muestrales.


Afijación proporcional: la distribución se hace de acuerdo con el peso (tamaño) de la
población en cada estrato.
Afijación óptima: se tiene en cuenta la previsible dispersión de los resultados, de modo
que se consideran la proporción y la desviación típica. Tiene poca aplicación ya que no
se suele conocer la desviación.

Por ejemplo, se esta interesado en estudiar el grado de aceptación que la implantación


de la reforma educativa ha tenido entre los padres de un municipio. A tal efecto se
selecciono una muestra de 600 padres de familia. Se conoce por los datos del Ministerio
de Educación que de los 10000 niños escolarizados en la básica, 7000 acuden a colegios
públicos y 3000 a colegios privados. Como el interés es que en la muestra estén
representados todos los tipos de colegio, se realiza un muestreo estratificado empleando
como variable de estratificación el tipo de colegio.

Si se emplea una afijación simple serian 300 niños de cada tipo de centro, pero en este
caso parece mas razonable utilizar una afijación proporcional pues hay bastante

11
Probabilidad y Estadística

diferencia en el tamaño de los estratos. Por consiguiente, se calcula la proporción para


cada uno de los estratos respecto de la población, para poder reflejarlo en la muestra.
Colegios públicos: 7000/10000 = 0.70
Colegios privados: 3000/10000 = 0.30
Para conocer el tamaño de cada estrato en la muestra se multiplica la proporción por el
tamaño muestral.
Colegios públicos: 0.70x600 = 420 padres de familia
Colegios privados: 0.30x600 = 180 padres de familia

Muestreo aleatorio por conglomerados

Los métodos presentados hasta ahora están pensados para seleccionar directamente los
elementos de la población, es decir, que las unidades muestrales son los elementos de la
población. En el muestreo por conglomerados la unidad muestral es un grupo de
elementos de la población que forman una unidad, a la que se denomina conglomerado.
Las unidades hospitalarias, los departamentos universitarios, una caja de determinado
producto, etc. son conglomerados naturales. En otras ocasiones, se pueden utilizar
conglomerados no naturales como, por ejemplo, las urnas electorales. Cuando los
conglomerados son áreas geográficas suele hablarse de "muestreo por áreas".
El muestreo por conglomerados consiste en seleccionar aleatoriamente un cierto numero
de conglomerados (el necesario para alcanzar el tamaño muestral establecido) y en
investigar después todos los elementos pertenecientes a los conglomerados elegidos.
Por ejemplo, en una investigación se trata de conocer el grado de satisfacción laboral
de los empleados de una cadena de almacenes; se toma una muestra de 700 empleados.
Ante la dificultad de acceder individualmente a estos empleados, se decide hacer una
muestra por conglomerados.
Sabiendo que el número de empleados por almacén es aproximadamente de 35, los
pasos a seguir serian:
 Recoger un listado de todos los almacenes.
 Asignar un número a cada uno de ellos.
 Elegir por muestreo aleatorio simple o sistemático los 20 almacenes (700/35 = 20)
que proporcionaran los 700 empleados que se necesitan.
Finalmente, ante lo compleja que puede llegar a ser la situación real de muestreo es muy
común emplear lo que se denomina muestreo polietápico. Este tipo de muestreo se

12
Probabilidad y Estadística

caracteriza por operar en sucesivas etapas, empleando en cada una de ellas el método de
muestreo probabilística mas adecuado.

Métodos de muestreo no probabilísticas

A veces, para estudios exploratorios, el muestreo probabilística resulta excesivamente


costoso y se acude a métodos no probabilísticas, aun siendo conscientes de que no
sirven para realizar generalizaciones, pues no se tiene certeza de que la muestra extraída
sea representativa, ya que no todos los sujetos de la población tienen la misma
probabilidad de ser elegidos. En general, se selecciona a los sujetos siguiendo
determinados criterios procurando que la muestra sea representativa.
Muestreo por cuotas

También denominado en ocasiones "accidental". Se asienta generalmente sobre la base


de un buen conocimiento de los estratos de la población y/o de los individuos más
"representativos" o "adecuados" para los fines de la investigación. Mantiene, por tanto,
semejanzas con el muestreo aleatorio estratificado, pero no tiene el carácter de
aleatoriedad de aquel. En este tipo de muestreo se fijan unas "cuotas" que consisten en
un número de individuos que reúnen determinadas condiciones, por ejemplo: 20
individuos de 25 a 40 anos, de sexo femenino y residentes en una misma ciudad. Una
vez determinada la cuota, se eligen los primeros que se encuentre que cumplan esas
características. Este método se utiliza mucho en las encuestas de opinión.
Por ejemplo, una universidad desea estudiar la incidencia de las drogas en la
adolescencia. Lo que debería hacer seria: conocer por los informes del Estado cuales
son los centros educativos mas afectados por el problema, fijar un numero de sujetos a
entrevistar, proporcional a cada uno de los estratos (cuotas) y, finalmente, dejar en
manos de los responsables del trabajo de campo a que sujetos concretos se deberá
entrevistar.

Muestreo opinático o intencional

Este tipo de muestreo se caracteriza por un esfuerzo deliberado de obtener muestras


"representativas" mediante la inclusión en la muestra de grupos supuestamente típicos.
Es muy frecuente su utilización en sondeos preelectorales de zonas que en anteriores
votaciones han marcado tendencias de voto.

13
Probabilidad y Estadística

Muestreo casual o incidental

Se trata de un proceso en el que el investigador selecciona directa e intencionadamente


los individuos de la población. El caso mas frecuente de este procedimiento es el utilizar
como muestra los individuos a los que se tiene fácil acceso (los profesores de
universidad emplean con mucha frecuencia a sus propios alumnos). Un caso particular
es el de los voluntarios.

Bola de nieve

Se localiza a algunos individuos, los cuales conducen a otros, y estos a otros, y así hasta
conseguir una muestra suficiente. Este tipo se emplea muy frecuentemente cuando se
hacen estudios con poblaciones "marginales", delincuentes, sectas, determinados tipos
de enfermos, egresados de una institución, etc.

Evaluación del valor de una encuesta

Cotidianamente se oye o se lee sobre resultados de encuestas en los diferentes medios


de comunicación. Es evidente que los avances tecnológicos en las comunicaciones han
provocado la proliferación de investigaciones por medio de encuestas; sin embargo, no
todas son aceptables, significativas o importantes.
Para evitar encuestas carentes de objetividad o credibilidad, debe evaluarse con sentido
crítico todo lo que se lee y escucha, además de examinarse el valor de la encuesta,
evaluando los siguientes aspectos:
 Propósito de la encuesta: por que y para quien se realiza. Un resultado de opinión o
una encuesta realizada para satisfacer la curiosidad pertenece a la esfera de la
diversión. Su resultado es un fin en si mismo, no un medio para lograr un fin. Debe
existir escepticismo ante tales encuestas porque el resultado no tiene una aplicación
posterior.
 Determinar si la encuesta esta basada en una muestra probabilística o no
probabilística: el único medio disponible para hacer inferencias estadísticas
correctas a partir de una muestra es el uso de un muestreo probabilística. Las
encuestas que emplean métodos de muestreo no probabilística están sujetas a errores
significativos, quizás no intencionales, que pueden generar resultados sin sentido.

14
Probabilidad y Estadística

Errores en las encuestas

Aun cuando en las encuestas se utilizan métodos de muestreo probabilística, están


sujetas a errores potenciales, los cuales se describen a continuación:

Error de cobertura o sesgo en la selección

La clave para una selección apropiada en la muestra es un marco de población adecuado


o una lista actualizada de todos los elementos que participaran en el muestreo. El error
de cobertura ocurre si se excluyen ciertos elementos de la lista de población, de manera
que no tienen oportunidad de ser seleccionados en la muestra. El error de cobertura
conduce a un sesgo de selección. Si el listado es inadecuado porque no se incluyeron
algunos elementos de la población, cualquier muestra probabilística aleatoria
proporcionara una estimación de las características del marco, no de la población real.

Error o sesgo de no respuesta

No todas las personas están dispuestas a contestar una encuesta. El error de no respuesta
surge del fracaso al recopilar datos de todos los sujetos de la muestra y el resultado es
un sesgo de no respuesta. Como en general no se puede suponer que las personas que no
responden son semejantes a aquellas que si responden, es importante realizar un
seguimiento a las no respuestas después de un periodo determinado. Deben hacerse
varios intentos, ya sea por correo o por teléfono, para convencerlos de que diligencien la
encuesta. Con base en estos resultados, las estimaciones obtenidas con las respuestas
iniciales se combinan con las estimaciones obtenidas con el seguimiento, de manera que
las inferencias hechas a partir de la encuesta sean validas.

Error de muestreo

El error de muestreo se presenta cuando se encuesta una muestra y no la población, es


decir, cuando no se aplica un censo. Aun cuando no se puede evitar este error, si se
puede controlar; una forma importante de controlarlo es seleccionar un método o un
diseño adecuado de muestreo. El error de muestreo muestra la heterogeneidad o las
“diferencias aleatorias” de una muestra a otra, según la probabilidad de que elementos
específicos sean seleccionados en unas muestras determinadas.

15
Probabilidad y Estadística

Error de medición

Se refiere a la falta de precisión en las respuestas registradas, debido a fallas en la


redacción del enunciado de las preguntas, la influencia del entrevistador en la persona
que responde, o por el esfuerzo que realiza la persona que responde.

Aspectos éticos del muestreo

En la actualidad se existe una tendencia a la proliferación de investigaciones que se


apoyan en encuestas; no todas son buenas, significativas o importantes, y no todas son
éticas. Debe intentarse distinguir entre un diseño de encuesta deficiente y un diseño
carente de ética.
Las consideraciones éticas surgen con relación a cuatro tipos de errores potenciales que
pueden ocurrir cuando se diseñan encuestas que utilizan muestras probabilísticas
aleatorias: error de cobertura o sesgo de selección, error o sesgo de no respuesta, error
de muestreo y error de medición. El error de cobertura o sesgo de selección se convierte
en un problema ético, solo si se excluyen a propósito grupos específicos de individuos
del marco de población, para obtener resultados sesgados, que indican una oposición
más favorable para los intereses del investigador.
De igual manera, el error o sesgo de no respuesta se convierte en un problema ético,
solo si es menos probable que grupos o individuos específicos respondan a una
encuesta, y si el investigador la diseña a propósito con el fin de excluir grupos o
elementos. El error de muestreo se convierte en un problema ético, solo cuando los
resultados se presentan, a propósito, sin referencia al tamaño de muestra o al margen de
error, de modo que el investigador puede promover un punto de vista que de otra
manera seria insignificante.
El error de medición se convierte en un problema ético en cualquiera de las siguientes
situaciones:
 Un investigador puede elegir preguntas orientadas que guían las respuestas hacia
una dirección específica.
 Un investigador, mediante actitudes y tono de voz, puede crear un efecto deliberado
de halo o puede guiar las respuestas en cierta dirección.
 Alguien que responde, pero no esta de acuerdo con la encuesta, puede proporcionar
información falsa a propósito.

16
Probabilidad y Estadística

1.5. PRESENTACION DE LOS DATOS

DISTRIBUCION DE FRECUENCIA
Una distribución de frecuencia es un método para organizar, clasificar y resumir datos.
También se conoce con el nombre de distribución de frecuencia a una tabulación de
datos en clases, intervalos de clase o categoría; con la frecuencia correspondiente a cada
una, a fin de realizar una especial descripción y análisis.
Para elaborar los cuadros o tablas de la distribución de los datos se debe, antes que todo
Identificar las características que se investigaron, ya que esto permite una mejor
clasificación de lo observado, estas características se refieren a las Cualitativas y
Cuantitativas.

Componentes de una Distribución de Frecuencias


Frecuencia absoluta simple, representa el número de veces que se repite la clase,

intervalo de clase o categoría. Se denota por f i .


Frecuencia absoluta acumulada, se obtiene sumando las frecuencias absolutas
simples, y siempre nos da un acumulado igual al tamaño de la muestra. Se denota por
Fi .

Frecuencia relativa simple, representa la proporción de unidades de análisis en la


clase, intervalo de clase o categoría y resulta de dividir cada una de las frecuencias

fi
absoluta simples por el tamaño de la muestra. Se denota por hi = .
n
Frecuencia relativa acumulada, resulta de la acumulación de las frecuencias relativas

simples, esta frecuencia siempre tiende a la unidad. Se denota por H i .


n : Tamaño de la muestra, es el número de observaciones.

xi : La variable, es cada uno de los diferentes valores que se han observando o

también puede ser la marca de clase.

DISTRIBUCIÓN DE FRECUENCIA POR INTERVALOS

Como se ha visto, un conjunto de observaciones normalmente cuantitativas continuas o


discretas con valores grandes, puede hacerse más comprensible y adquirir mayor

17
Probabilidad y Estadística

significado, lograrse una mayor síntesis, tabulando o agrupando los datos. Para agrupar
a un conjunto de observaciones, se selecciona un conjunto de intervalos, contiguos, que
no se traslapen, tales que cada valor en el conjunto de observación puede colocarse en
uno, de los intervalos de clase. Los pasos a seguir para la construcción de intervalos son
los siguientes:
Paso I: Hallar el Rango o Recorrido de los Datos (R)
La diferencia entre el dato mayor y el dato menor se llama RECORRIDO o RANGO
de los datos. Esto es:
R = Dato mayor – Dato menor

Paso II: Hallar el número de Intervalos (m)


La pregunta es ¿cuántos intervalos van a incluirse? Demasiado o poco no es
conveniente debido a que hay pérdida de información. Por otra parte, si se usan
demasiados intervalos, no se logra objetivo de la síntesis.
Una de las formas para obtener el número de intervalos es aplicando la regla de
STURGES, con la cual se obtiene una aproximación aceptable sobre el número de
intervalos necesarios para agruparlos. Esto es: m = 1 + 3,33log(n)

Donde n nos representa el tamaño de muestra o número de datos considerados, esta


regla de STURGES no se considera como final, sino sólo como una guía. El número de
intervalos especificado por medio de esta regla debe aumentarse o disminuirse según
convenga y el beneficio de una presentación clara.

Paso III: Hallar la Amplitud del Intervalo (A)


Aunque a veces es imposible, por lo general, los intervalos deben tener amplitudes
iguales. Puede determinarse esta amplitud (A) dividiendo el recorrido (R) entre el
número de intervalo (m). Esto es:
A=R/m

Como regla, este procedimiento proporciona una amplitud que no es conveniente usarla.
Una vez más, debe aplicarse el buen juicio y seleccionar una amplitud (por lo común,
próxima a la dada por la ecuación) que sea más conveniente.

Consideramos el siguiente Ejemplo 1:

18
Probabilidad y Estadística

Colectivo: 60 cilindros fabricados por una máquina en el taller el Milagro. Chimbote.


2011.
Variable X: longitud en centímetros

Valores observados:

239, 254, 255, 248, 246, 249, 242, 250, 249, 244, 253, 248
250, 258, 252, 251, 250, 253, 247, 243, 245, 251, 247, 250
248, 250, 260, 249, 249, 250, 251, 253, 241, 251, 249, 252
250, 247, 251, 259, 250, 246, 252, 238, 251, 238, 235, 259
249, 257, 249, 247, 251, 246, 245, 243, 250, 249, 242, 238

Solución:

a) Identificar la unidad de análisis, variable de estudio, clasificación de la variable, el


lugar y tiempo.

Unidad de análisis : El cilindro


Variable de estudio : Longitud
Clasificación de la variable : Cuantitativa continua
Lugar : Taller el Milagro - Chimbote
Tiempo : 2011

b) Construir la distribución de frecuencias y sus respectivos gráficos.

Rango : R = Dato máximo – Dato mínimo


R = 260 – 235 � R = 25

Número de Intervalos : m = 1 + 3,33log(n) � m=1 + 3,33log (60)


m = 1 + 3,33*1,778 � m = 6,92 @ 5, 6 ó 7
R 25
Amplitud del Intervalo : A= � A= =5
m 5
Construyendo la Tabla de frecuencias con datos agrupados en intervalos:

Tabla 01

Longitud en centímetros de los cilindros fabricados por una máquina en el taller el


Milagro, Chimbote – 2011.

Intervalos Marcas de Frecuencias Frecuencias Frecuencia


[ Li -1 - Li ) clase absolutas relativas porcentual
yi fi Fi hi Hi hi *100%
235 - 240 237,5 5 5 0,08 0,08 8%
240 - 245 242,5 8 13 0,13 0,22 13%
245 - 250 247,5 27 40 0,45 0,67 45%
250 - 255 252,5 15 55 0,25 0,92 25%
255 - 260 257,5 5 60 0,08 1,00 8%

19
Probabilidad y Estadística

Total n=60 1,00 100%


FUENTE: Taller el Milagro
Presentación gráfica: En distribución de frecuencias por intervalos de clase los
gráficos a presentar son: Histograma de frecuencias y Polígono de frecuencias

Gráfico 01

Longitud en centímetros de los cilindros fabricados por una máquina en el taller el


Milagro, Chimbote – 2011.

HISTOGRAMA

FUENTE: Tabla 01

Gráfico 02

Longitud en centímetros de los cilindros fabricados por una máquina en el taller el


Milagro, Chimbote – 2011.
POLIGONO

20
Probabilidad y Estadística

FUENTE: Tabla 01
DISTRIBUCIÓN DE FRECUENCIA POR CLASES

Un conjunto de observaciones normalmente cuantitativas discretas con valores


pequeños, puede hacerse más comprensible, adquirir mayor significado, lograrse una
mayor síntesis, tabulando o agrupando los datos. Para agrupar a un conjunto de
observaciones, se selecciona las clases o valores numéricos contiguos, tales que cada
valor en el conjunto de observación puede colocarse en uno, de las clases.

Ejemplo 2.
Unos grandes almacenes en la ciudad de Nuevo Chimbote disponen de un aparcamiento
para sus clientes. Los siguientes datos que se refieren al número de horas que
permanecen en el aparcamiento una serie de coches se registro en Diciembre del 2011,
los cuales se muestran a continuación:

4 4 2 4 5 3 6 3 5 3 2 1 3 7 3 1 5 1 7 2 5 2 4 7 3 6 2 2 4 1 6 4 3 3 4
5 4 3 2 4 3 2 4 4 3 6 6 4 5 5 4 5 5 1 7 4 4 3 6 5

Se pide:
A. Obtener la tabla de frecuencias para ese conjunto de datos. Interpretar la tabla.
B. Elaborar la gráfica.

Solución
Unidad de análisis : El coche
Variable de estudio : Número de horas que permanecen en el aparcamiento
Clasificación de la variable : Cuantitativa discreta
Lugar : Almacenes – Nuevo Chimbote
Tiempo : Diciembre, 2011

A) Obtener la tabla de frecuencias para ese conjunto de datos. Interpretar la tabla.

21
Probabilidad y Estadística

Tabla 02
Número de horas que permanecen en el aparcamiento una serie de coches en
grandes almacenes de Nuevo Chimbote – Diciembre, 2011.

Nº de Frecuencias Frecuencias Frecuencia


Horas… absolutas relativas porcentual
yi fi Fi hi Hi hi *100%
1 5 5 0,08 0,08 8%
2 8 13 0,13 0,21 13%
3 12 25 0,20 0,41 20%
4 15 40 0,25 0,66 25%
5 10 50 0,17 0,83 17%
6 6 56 0,10 0,93 10%
7 4 60 0,07 1,00 7%
Total n=60 1,00 100%
FUENTE: Municipalidad Nuevo Chimbote
B. Elaborar la gráfica.

Presentación gráfica: En distribución de frecuencias por clases el gráfico a presentar se


denomina Bastones

Gráfico 03

Número de horas que permanecen en el aparcamiento una serie de coches en


grandes almacenes de Nuevo Chimbote – Diciembre, 2011.

FUENTE: Tabla 02

DISTRIBUCIÓN DE FRECUENCIA POR CATEGORIAS

Un conjunto de observaciones normalmente cualitativas con categorías nominales u


ordinales, puede hacerse más comprensible, adquirir mayor significado, lograrse una
mayor síntesis, tabulando o agrupando los datos. Para agrupar a un conjunto de

22
Probabilidad y Estadística

observaciones, se selecciona las categorías contiguas, tales que cada valor en el


conjunto de observación puede colocarse en uno, de las categorías.

Ejemplo 3.
Se efectúa una encuesta sobre el nivel de estudios de personas que reciben planes jefes y
jefas de hogar de la Ciudad de Nvo. Chimbote, marzo 2012. Las observaciones
obtenidas son las siguientes:

Nº NIV. EST
1 Estudios Primarios
2 Estudios Primarios
3 Sin Estudios
4 Estudios Primarios
5 Estudios Primarios
6 Sin Estudios
7 Estudios Secundarios
8 Estudios Secundarios
9 Estudios Secundarios
10 Sin Estudios
11 Estudios Primarios
12 Sin Estudios
13 Estudios Primarios
14 Estudios Secundarios
15 Estudios Secundarios
16 Estudios Universitarios
17 Sin Estudios
18 Estudios Universitarios
19 Estudios Secundarios
20 Estudios Primarios
21 Estudios Primarios
22 Estudios Primarios
23 Estudios Universitarios
24 Estudios Primarios
25 Estudios Primarios
26 Sin Estudios
27 Estudios Secundarios
28 Estudios Secundarios
29 Estudios Primarios
30 Estudios Primarios

Se pide:
A. Obtener la tabla de frecuencias para ese conjunto de datos. Interpretar la tabla.
B. Elaborar las gráficas.

Solución
Unidad de análisis : Jefe o Jefa del hogar
Variable de estudio : Nivel de estudios
Clasificación de la variable : Cualitativa ordinal
Lugar : Nuevo Chimbote

23
Probabilidad y Estadística

Tiempo : Marzo, 2012

B) Obtener la tabla de frecuencias para ese conjunto de datos. Interpretar la tabla.

Tabla 03
Nivel de estudios del jefe o jefa de hogar en la ciudad de Nvo. Chimbote – Marzo, 2012.

Frecuencias Frecuencias Frecuencia


Nivel de absolutas relativas porcentual
Estudios
fi hi hi *100%
Sin estudios 6 0,20 20%
Primaria 13 0,43 43%
Secundaria 8 0,27 27%
Universitarios 3 0,10 10%
Total n=30 1,00 100%
FUENTE: Encuesta aplicada
B. Elaborar las gráficas.

Presentación gráfica: En distribución de frecuencias por categorías los gráficos a


presentar se denominan Barras y Sector circular.

Gráfico 04
Nivel de estudios del jefe o jefa de hogar en la ciudad de Nvo. Chimbote – Marzo, 2012.

BARRAS

FUENTE: Tabla 03
Gráfico 05

Nivel de estudios del jefe o jefa de hogar en la ciudad de Nvo. Chimbote – Marzo,
2012.

SECTOR CIRCULAR

24
Probabilidad y Estadística

FUENTE: Tabla 03

Ejercicios propuestos

1. Determine qué tipo son las siguientes variables. Si son variables cualitativas (nominal
u ordinal) o cuantitativas (discretas o continuas).
a) Marca de automóvil.
b) Duración de un compacto (segundos).
c) Número de temas de un compacto.
d) Nivel educacional (básica, media, universitaria).
e) Temperatura al mediodía en Talara (grados Celcius).
f) Estado civil (soltero, casado, divorciado, viudo).
g) Cantidad de lluvia en un año en Iquitos (mm3).
h) Peso de los coches.
i) Número de coches vendidos de las diferentes marcas

2. Tenemos las resistencias de la tensión de 60 muestras de aleación Aluminio-Litio.


Elaborar la Tabla de Distribución de Frecuencias. Dibujar el Histograma y Polígono
de Frecuencia. Aplicar los estadísticos de: posición, variación, simetría. Aplicar los
estadísticos de apuntamiento. ¿Que concluye Ud. después de todo eso?

105 221 186 121 181 180 97 154 153 174 120 168 167 141 228
199 181 158 176 110 131 154 208 158 133 207 180 190 193 133
123 134 178 76 167 184 135 146 218 101 171 165 158 169 199
151 163 145 171 148 158 160 175 149 87 160 237 150 196 201

3. Un fabricante de neumáticos ha recabado, de los diferentes concesionarios,


información sobre la cantidad de miles de kilómetros recorridos por un modelo
concreto de esos neumáticos hasta que se ha producido un pinchazo o un reventón
del neumático. Los concesionarios la han proporcionado los siguientes datos:

25
Probabilidad y Estadística

52 50 38 52 74 61 36 57 49 66 76 37 76 69 61 66 62 4 42 62 51 83
34 38 51 75 59 48 67 42 61 58 74 61 56 86 91 54 76 69 84 41 50 61
86 45 56 56 47 67
Se pide:
a) Construir una taba de frecuencias para esos datos tomando como número de
intervalos el que proporciona la fórmula de Sturgess. Interpretas la tabla.
b) Dibujar el histograma y polígono de frecuencias porcentuales.

4. En una Universidad se ha realizado una encuesta a 200 alumnos de la Escuela de


Ingeniería. El 32% afirma que esta muy contento con la universidad, el 40% esta
contento, el 23% no esta contento, y el resto muy descontento.
a) Forma la tabla de frecuencias absolutas, relativas, y explique si crees que la
universidad lo esta haciendo bien.
b) Elabore sus gráficos.

5. Ejercicios
a) Dé cuatro ejemplos de variables cualitativas.
b) Proponer dos ejemplos de cada una de los dos tipos de variables cuantitativas.
c) Menciones variables que permitan estimar el efecto de la crisis económica
mundial sobre la economía del Perú.
d) Se desea comparar la calidad de vida de varias ciudades del Perú. Proponer seis
variables que podrían utilizarse para el estudio. ¿Qué tipo de variable es cada
una de ellas?
6. Tomar cuarenta observaciones de una variable cualitativa
a) Calcular las frecuencias absolutas.
b) Hallar las frecuencias relativas.
c) Dibujar el diagrama de barra.
d) Cuál es la clase o (clases) modal.
e) ¿Qué conclusiones pueden extraerse de este estudio?

1.6. MEDIDAS ESTADÍSTICAS

MEDIDAS DE TENDENCIA CENTRAL


Las medidas de tendencia central son valores de resumen que determinan
aproximadamente el centro de un conjunto de datos de una muestra o población. Estas
medidas son: Media Aritmética, Mediana y Moda.

A) Media Aritmética
Definición 1: (Datos no agrupados o no tabulados)
Es la suma de todos los valores observados de una variable cuantitativa, dividido por el
número de datos.
Media aritmética poblacional ( m ) Media aritmética muestral ( x )

26
Probabilidad y Estadística

m= x i
x=
x i

N n
Donde:
xi : Valores observados en una población o muestra.

N: Tamaño de la población.
n : Tamaño de la muestra.

Definición 2: (Datos agrupados o tabulados)


Es la suma de todos los productos entre la marca de clase o valor numérico y la
frecuencia absoluta simple, dividida por el número de datos.

Media aritmética poblacional ( m ) Media aritmética muestral ( x )

m= �y i fi
Y =
�y i fi
N n
Donde:
yi : Marca de clase de cada intervalo o valor numérico de cada clase.

Uso de la media aritmética


La media aritmética es recomendable utilizar en datos cuantitativos que tienen
tendencia aritmética, es decir en datos cuya variabilidad es pequeña.

Desventaja de la media aritmética


 La media aritmética se afecta por valores extremos, en casos de datos no agrupados.
 La media aritmética se afecta por intervalos que no tienen definidos sus límites
inferior o superior, en caso de datos agrupados por intervalos.

Ejemplo 1: La utilidad neta por la muestra de pedidos distribuidos por la empresa


Quemalapata fueron los siguientes:
a) 19.75, 20.5, 15.0, 31.2, 25.1, 28.0, 17.3, 32.5
b) 95.5, 10.6, 14.0, 27.7, 22.8, 20.1, 15.9, 9.0
Calcular e interpretar la media aritmética.

27
Probabilidad y Estadística

SOLUCIÓN:

a) x = �x i
=
19, 75 + 20, 5 + 15, 0 + ... + 32, 5 �
X = 23, 67
n 8
Interpretación: La utilidad neta promedio por pedido es aproximadamente 23,67
nuevos soles.

b) x = �x i
=
95, 5 + 10, 6 + 14, 0 + ... + 9, 0 �
X = 26,95
n 8
Interpretación: La utilidad neta promedio por pedido es aproximadamente 26,95
nuevos soles.

Ejemplo 2: La utilidad neta de una muestra de 50 pedidos distribuidos por la empresa


Quemalapata se presenta en la siguiente tabla:

Calcular e interpretar la media aritmética.


[Utilidad neta) fi
05 – 10 3
10 – 15 10 SOLUCIÓN:
15 – 20 7 Paso 1: Hallar las marcas de clase de cada intervalo
20 – 25 15
25 – 30 5 Paso 2: Multiplicar cada marca de clase por su respectiva
30 – 35 8 frecuencia absoluta simple
35 - 40 2
Paso 3: Sumar los productos
Paso 4: Reemplazar en la formula
yi fi yi f i
[Utilidad neta)
05 – 10 7,5 3 22,5
10 – 15 12,5 10 125
15 – 20 17,5 7 122,5
20 – 25 22,5 15 337,5
25 – 30 27,5 5 137,5
30 – 35 32,5 8 260
35 - 40 37,5 2 75

Y=
�y f i i
=
7,5 x3 + 12,5 x10 + ... + 37,5 x2 1080
= � Y = 21, 6
n 50 50
Interpretación: La utilidad neta promedio por pedido es aproximadamente 21,6 nuevos
soles.

28
Probabilidad y Estadística

Ejemplo 3: El número de paquetes del pedido registrado en una muestra de 60,


distribuidos por la empresa Quemalapata se presenta en la siguiente tabla:
Nº de paquetes Calcular e interpretar la media aritmética.
yi fi
1 6
2 9
3 20
4 15
5 5
6 3
7 2

SOLUCIÓN:
Paso 1: Multiplicar cada clase por su respectiva frecuencia absoluta simple
Paso 2: Sumar los productos
Paso 3: Reemplazar en la formula
Nº de paquetes
yi fi yi f i
1 6 6
2 9 18
3 20 60
4 15 60
5 5 25
6 3 18
7 2 14

Y=
�y f i i
=
1x6 + 2 x9 + ... + 7 x 2 201 �
= Y = 3,35 �3
n 60 60
Interpretación: El número promedio de paquetes por pedido es aproximadamente 3.

B) Mediana
Es un valor generalmente denotado por Me, que divide a un conjunto de datos
recopilados de una variable cuantitativa o cualitativa ordinal en dos partes iguales,
previamente ordenados en forma creciente o decreciente.

Calculo de la mediana
Datos no agrupados o no tabulados
Para obtener el valor de la mediana en datos no agrupados se debe cumplir por lo menos
los siguientes pasos:
Paso I: Ordenar en forma creciente o decreciente los datos.

29
Probabilidad y Estadística

Paso II: Observar si el número de datos es par o impar.


Paso III: Reemplazar en las formulas

 X  n+1  , si" n"impar


  2 

Me =  X + X
n n
 2 2 +1
 2 , si" n" par
Datos agrupados o tabulados (solamente en intervalos)
Se debe cumplir también por lo menos los siguientes pasos:
Paso I: Ordenar en forma creciente o decreciente los intervalos.
n
Paso II: Hallar que indica la posición de la mediana.
2
n
Paso III: Determinar la primera frecuencia absoluta acumulada ( Fi ) que supera a
2
fin de determinar el intervalo que contiene la mediana.
Paso IV: Identificar todos los componentes de la formula en el intervalo que contiene la
mediana y reemplazar.
n 
 2 - Fa 
Me = LI +  * A
 fi 
 

Donde:
LI : Límite inferior del intervalo que contiene la mediana.
n
: Mitad de la muestra
2
Fa : Frecuencia absoluta acumulada anterior a la frecuencia absoluta acumulada

( Fi ) del intervalo que contiene la mediana.


f i : Frecuencia absoluta simple del intervalo que contiene la mediana.

A : Amplitud del intervalo que contiene la mediana.

Ventajas de la mediana
 La mediana a diferencia de la media aritmética no depende de los valores, sino del
número de datos, en consecuencia no se afecta por valores extremos.

30
Probabilidad y Estadística

 La mediana a diferencia de la media aritmética no depende de todos los intervalos,


sino de un intervalo que contiene la mediana, en consecuencia generalmente no se
afecta por intervalos que no tienen límite inferior o superior definido.

Ejemplo 1: La utilidad neta por la muestra de pedidos distribuidos por la empresa


Quemalapata fueron los siguientes:
a) 19.75, 20.5, 15.0, 31.2, 25.1, 28.0, 17.3, 32.5
b) 95.5, 10.6, 14.0, 27.7, 22.8, 20.1, 15.9,
Calcular e interpretar la mediana.
Solución (a):
Paso I: Ordenar en forma creciente los datos.
15,0 17,3 19,75 20,5 25,1 28,0 31,2 32,5
Paso II: Observar si el número de datos es par o impar.
n = 8 par
Paso III: Reemplazar en las formulas

xn / 2 + xn / 2 +1 x4 + x5 20, 5 + 25,1
Me = = =
2 2 2
Me = 22,8
Interpretación: El 50% de los pedidos tienen una utilidad neta de a lo más 22,8 nuevos
soles y el 50% restante superior a este.
Solucionar la parte (b) estimado alumno.

Ejemplo 2: La utilidad neta de una muestra de 50 pedidos distribuidos por la empresa


Quemalapata se presenta en la siguiente tabla:
Calcular e interpretar la mediana.
[Utilidad neta) fi Fi
05 – 10 3 3
10 – 15 10 13 Solución:
15 – 20 7 20
Paso I: Ordenar en forma creciente los
20 – 25 15 35
25 – 30 5 40 intervalos.
30 – 35 8 48
35 - 40 2 50 n 50
Paso II: Hallar = = 25 que indica la
2 2
posición de la mediana.

31
Probabilidad y Estadística

n
Paso III: Determinar la primera frecuencia absoluta acumulada ( Fi ) que supera ,
2

n
entonces la primera frecuencia absoluta acumulada que supera a es F4 = 35 al cual
2
le corresponde el intervalo [20 – 25), donde se ubica el valor de la mediana.
Paso IV: Identificar todos los componentes de la formula en el intervalo que contiene la
mediana y reemplazar.

�n �
� - F �
a 25 - 20
Me = LI + �2 �* A = 20 + *5
f
� i � 15
� �
Me = 21,67
Interpretación: El 50% de los pedidos tienen una utilidad neta de a lo más 21,67
nuevos soles y el 50% restante superior a este.

Ejemplo 3: El número de paquetes del pedido registrado en una muestra de 60,


distribuidos por la empresa Quemalapata se presenta en la siguiente tabla:
Nº de paquetes Calcular e interpretar la mediana.
xi fi Fi
1 6 6
2 9 15
3 20 35
4 15 50
5 5 55
6 3 58
7 2 60

Solución:
Paso I: Ordenar en forma creciente las clases.
n 60
Paso II: Hallar = = 30 que indica la posición de la mediana.
2 2
n
Paso III: Determinar la primera frecuencia absoluta acumulada ( Fi ) que supera ,
2

n
entonces la primera frecuencia absoluta acumulada que supera a es F3 = 35 al cual
2
le corresponde la clase numérica 3; siendo este el valor de la mediana, es decir:
Me = 3

32
Probabilidad y Estadística

Interpretación: El 50% de los pedidos tienen a lo más 3 paquetes y el 50% restante


superior a este.

C) Moda
Es un valor que generalmente se denota por, Mo, y que define como:
El valor cuantitativo o cualitativo nominal que más veces se repite.
El valor cuantitativo o cualitativo nominal más frecuente.
El valor cuantitativo o cualitativo nominal más común.
La moda a veces no existe y si existe a veces es única o múltiple.

Calculo de la moda
Datos no agrupados o no tabulados
No existe formula alguna, se obtiene por simple observación, teniendo en cuenta la
definición de moda.

Datos agrupados o tabulados (solamente en intervalos)


Se debe identificar por lo menos los siguientes pasos:
Paso I: Hallar la mayor frecuencia absoluta simple, el cual se denotará como
frecuencia absoluta simple modal ( f Mo )
Paso II: Determinar el intervalo que contiene la moda.
Paso III: Identificar todos los componentes de la formula en el intervalo que contiene la
moda y reemplazar.
 d 
Mo = LI +  1  * A
 d1 + d 2 
d1 = f Mo - f a
d 2 = f Mo - f p

Donde:
LI : Límite inferior del intervalo que contiene la moda.

d1 : Primer incremento.

d 2 : Segundo incremento.
f Mo : Frecuencia absoluta simple modal del intervalo que contiene la moda.

f a : Frecuencia absoluta simple anterior a la frecuencia absoluta simple modal.

33
Probabilidad y Estadística

fp : Frecuencia absoluta simple posterior a la frecuencia absoluta simple


modal.
A : Amplitud del intervalo que contiene la moda.

Ejemplo 1: La utilidad neta por la muestra de pedidos distribuidos por la empresa


Quemalapata fueron los siguientes:
a) 19.75, 20.5, 15.0, 31.2, 25.1, 28.0, 17.3, 32.5
b) 95.5, 10.6, 14.0, 10.6, 22.8, 20.1, 22.8, 22,8
Calcular e interpretar la moda.
Solución (a):
No existe moda, dado que ninguno se repite más que otro.

Ejemplo 2: La utilidad neta de una muestra de 60 pedidos distribuidos por la empresa


Quemalapata se presenta en la siguiente tabla:
Calcular e interpretar la moda.
[Utilidad neta) fi
Solución:
05 – 10 3
10 – 15 10 Paso I: Hallar la mayor frecuencia absoluta simple,
15 – 20 7
20 – 25 15 f Mo = 15
25 – 30 5
30 – 35 8 Paso II: El intervalo que contiene la moda es: [20 – 25).
35 - 40 2
Paso III: Identificar todos los componentes de la formula
en el intervalo que contiene la moda y reemplazar.

� d � 8
Mo = LI + � 1 � * A = 20 + *5
d
�1 + d 2 � 8 + 10

Mo = 22,22

d1 = f Mo - f a = 15 - 7 = 8
d 2 = f Mo - f p = 15 - 5 = 10
Interpretación: La utilidad neta más frecuente de entre todos los pedidos registrados es
aproximadamente 22,22 nuevos soles.

Ejemplo 3: El número de paquetes del pedido registrado en una muestra de 60,


distribuidos por la empresa Quemalapata se presenta en la siguiente tabla:

34
Probabilidad y Estadística

Nº de paquetes Calcular e interpretar la moda.


xi fi
1 6
2 9
3 20
4 15
5 5
6 3
7 2

Solución:
Por simple observación y aplicando el concepto de moda se tiene: Mo = 3
Interpretación: El número de paquetes más frecuente de entre todos los pedidos
registrados es aproximadamente 3.
Ejercicios propuestos
1. Para lanzar un nuevo producto al mercado, una empresa estudia el tiempo de
publicidad, en segundos, empleando en los medios audiovisuales por otra empresa
que produce un producto similar.

Duración Nº de Anuncios
0 - 20 3
20 - 25 17
25 – 30 13
30 – 40 9
40 - 60 8
a) ¿Cuál es la duración media aproximada de los anuncios? ¿Es representativa?
b) ¿Cuál es la duración más frecuente?
c) ¿A partir de que valor un anuncio es de los veinte más largos?
d) Estudiad la forma de la distribución.
e) Si cada segundo cuesta mil cuatrocientas pesetas, ¿cuál es el gasto aproximado
que realiza la otra empresa en la publicidad de ese producto?

2. La distribución del importe de las facturas por reparación de carrocería (en miles de
ptas.) de una muestra de 80 vehículos en un taller, viene dad por la siguiente tabla:

Importe Nº de vehículos
0 - 60 10
60 - 80 20
80 - 120 40
120 - 180 10
a) Calcular el importe medio. Estudiar la representatividad en esta medida.
b) Calcular la mediana y estudiar su representatividad.
c) ¿Cuál es el importe más habitual?
d) ¿Qué interpretación tiene en este caso los deciles? Calcular el tercer decil.

35
Probabilidad y Estadística

e) ¿Cuál es el importe mínimo pagado por las 75 reparaciones más baratas.


f) Estudiar la concentración del importe de las facturas.
1.7. MEDIDAS DE DISPERSIÓN

DEFINICIÓN
Las medidas de dispersión son valores de resumen que determinan aproximadamente la
variabilidad o el grado de separación de los datos respecto de su medida central, que
generalmente es la media aritmética. Estas medidas son: Varianza, Desviación estándar
y Coeficiente de variación.

A) Varianza
Definición 1: (Datos no agrupados o no tabulados)
Es la suma de las separaciones o distancias al cuadrado de todos los valores
numéricos observados respecto de su media, dividido por el número de datos menos
uno.
Varianza muestral ( S 2 )

( x - x)
2
i
S 2
=
n -1
Donde:
xi : Valores numéricos observados en una muestra.

x : Media aritmética
N : Tamaño de la población.
n : Tamaño de la muestra.

Definición 2: (Datos agrupados o tabulados)


Es la suma de las separaciones o distancias al cuadrado de todos los valores numéricos
observados respecto de su media, multiplicado por su frecuencia absoluta simple y
dividido por el número de datos menos uno.
Varianza muestral ( S 2 )

�( y - Y )
2
i * fi
S2 =
n -1
Donde:

36
Probabilidad y Estadística

yi : Marca de clase de cada intervalo o valor numérico de cada clase.


Propiedades de la varianza
 La varianza es un número no negativo y viene expresado en unidades cuadráticas.
 La varianza puede calcularse también en distribuciones de frecuencias de intervalos
de amplitud diferente, siempre que puedan determinarse las marcas de clase.
 La varianza se afecta por valores extremos, ya que depende de todos los datos.

B) Desviación estándar
Definición: Es la raíz cuadrada positiva de la varianza y nos indica “cuanto” es la
variabilidad. Se denota por “S”. Esto es:
S= S2

Propiedades de la desviación estándar


 La desviación estándar es un número no negativo y viene expresada en las mismas
unidades en las que vienen expresados los datos.
 La desviación estándar puede calcularse también en distribuciones de frecuencias de
intervalos de amplitud diferente, siempre que puedan determinarse las marcas de
clase.
 La desviación estándar se afecta por valores extremos, ya que depende de todos los
datos.

C) Coeficiente de Variación
Definición: Es una medida de dispersión relativa (libre de unidades de medida), que
se define como la desviación estándar dividido por la media aritmética.
Comúnmente se denota por “CV”. Esto es:
S
CV = *100
X
 El coeficiente de variación es una medida útil para comparar la variabilidad de
dos o más series de datos que tengan igual o distintas unidades de medida, con
igual o distinta media aritmética.
 El coeficiente de variación permite también indicar la alta (heterogénea) o baja
dispersión (homogénea) de una serie de datos bajo el siguiente criterio:
Si CV < 15%, la serie de datos presenta baja dispersión (o es homogénea)
Si CV  15%, la serie de datos presenta alta dispersión ( o es heterogénea)

37
Probabilidad y Estadística

Ejemplo 1
La siguiente tabla presenta los resultados observados del número de plántulas de
malezas por m2 en una muestra de tamaño n=20.

La siguiente tabla muestra la distribución de frecuencias de la variable salarios


mensuales (en pesos), obtenida en un muestreo aleatorio de 65 empleados de una
firma agropecuaria:

Ejemplo 1: La utilidad neta por la muestra de pedidos distribuidos por la empresa


Quemalapata fueron los siguientes:
a) 19.75, 20.5, 15.0, 31.2, 25.1, 28.0, 17.3, 32.5
b) 95.5, 10.6, 14.0, 27.7, 22.8, 20.1, 15.9, 9.0
Calcular e interpretar la varianza, desviación estándar y coeficiente de variación.
Solución (a):
Varianza
Para hallar la varianza se necesita primero calcular la media aritmética muestral, esto es:

x=
�x i
=
19, 75 + 20, 5 + 15, 0 + ... + 32, 5
n 8
X = 23,67

�( x - x)
2
(19, 75 - 23, 67) 2 + (20,5 - 23, 67) 2 + ... + (32,5 - 23, 67) 2
S 2
= i
=
n -1 8 -1
S 2 = 42,37 soles 2

38
Probabilidad y Estadística

Desviación estándar
S = S2 = 42,37
S = 6,51 soles
Interpretación: La variabilidad o grado de separación de cada utilidad del pedido
respecto de su promedio es aproximadamente 6,51 soles.

Coeficiente de variación
S 6, 51
CV = *100 = *100
X 23, 67

CV = 27,50
Interpretación: La variabilidad relativa indica que las utilidades de los pedidos son
altamente dispersos, toda vez que el CV = 27,50% > 15%.

Solución (b)
Para el estudiante o lector, resuélvalo y reflexione lo fácil que es.

Ejemplo 2: La utilidad neta de una muestra de 50 pedidos distribuidos por la empresa


Quemalapata se presenta en la siguiente tabla:
Calcular e interpretar la varianza, desviación estándar y
[Utilidad neta) fi coeficiente de variación.
05 – 10 3 Solución:
10 – 15 10
15 – 20 7
20 – 25 15 Varianza
25 – 30 5
30 – 35 8 Hallando primero la media aritmética
35 - 40 2

Y=
�y f i i
=
7, 5 x3 + 12,5 x10 + ... + 37,5 x 2 1080
=
n 50 50
Y = 21,6

�( y - Y ) * fi
2
i (7, 5 - 21, 6) 2 x3 + (12, 5 - 21, 6) 2 x10 + ... + (37, 5 - 21, 6) 2 x 2
S 2
= =
n -1 50 - 1
3184,5
S2 = � S 2 = 64,99
49

39
Probabilidad y Estadística

Desviación estándar

S = S 2 = 64,99 � S = 8, 06

Interpretación: La variabilidad o grado de separación de cada utilidad del pedido


respecto de su promedio es aproximadamente 8,06 soles.

Coeficiente de variación
S 8, 06
CV = *100 = *100
X 21, 6

CV = 37,31%
Interpretación: La variabilidad relativa indica que las utilidades de los pedidos son
altamente dispersos, toda vez que el CV = 37,31% > 15%.

Ejemplo 3: El número de paquetes del pedido registrado en una muestra de 60,


distribuidos por la empresa Quemalapata se presenta en la siguiente tabla:

Nº de paquetes Calcular e interpretar la media aritmética.


xi fi
1 6
2 9
3 20
4 15
5 5
6 3
7 2
Solución:

Varianza

Y=
�y f i i
=
1x6 + 2 x9 + ... + 7 x 2 201
= � Y = 3,35 �3
n 60 60

�( y - Y ) * fi
2
i (1 - 3, 35) 2 x6 + (2 - 3, 35) 2 x9 + ... + (7 - 3, 35) 2 x 2
S 2
= =
n -1 60 - 1
119, 65
S2 = � S 2 = 2, 03
59

Desviación estándar

S = S 2 = 2, 03 � S = 1,42

40
Probabilidad y Estadística

Interpretación: La variabilidad o grado de separación del número de paquetes en cada


pedido respecto de su promedio es aproximadamente 1,42.

Coeficiente de variación
S 1, 42
CV = *100 = *100
X 3, 35

CV = 42,39%
Interpretación: La variabilidad relativa indica que el número de paquetes por pedido
son altamente dispersos, toda vez que el CV = 42,39% > 15%.

D) Medidas de Forma
Asimetría
Definición: Es una medida que estudia la deformación horizontal de los valores de
la variable respecto al valor central de la media. Las medidas de forma pretenden
estudiar la concentración de la variable hacia uno de sus extremos.

De la relación entre la media aritmética, mediana y moda se puede obtener la


asimetría de un conjunto de datos. Esto es:
Si X = Me = Mo , los datos se distribuyen simétricamente.
Si X  Me  Mo , los datos tienen asimetría negativa.
Si Mo  Me  X , los datos tienen asimetría positiva.

Coeficiente Asimetría de Pearson


Definición: Se define como el cociente de 3 veces de la diferencia entre la media y
la mediana sobre la desviación estándar. Esto es:
3 * ( X - Me)
As =
S
Interpretación:
Si As = 0 los datos se distribuyen simétricamente
Si As > 0 los datos se distribuyen asimétricamente o sesgado positivamente
Si As < 0 los datos se distribuyen asimétricamente o sesgado negativamente

Ejemplo 12: Calcular e interpretar el coeficiente de asimetría de la utilidad neta de una


muestra de 50 pedidos distribuidos por la empresa Quemalapata y presentado en la tabla
por intervalos.

41
Probabilidad y Estadística

Solución:

3* ( Y - Me )
As =
S
Por resultados anteriores se tiene:
Y = 21,6
S = 8, 06
Me = 21,67
Reemplazando en la formula:
3 x(21, 6 - 21, 67)
As = � As = - 0,026
8, 06
Interpretación: La utilidad neta de los pedidos distribuidos muestra un ligerísimo
sesgo o asimetría hacia la izquierda o negativa.

Ejemplo 2: Obtenga los coeficientes de asimetría de los restantes ejemplos anteriores


¿es sencillo?

Kurtosis

Definición: La kurtosis mide el grado de agudeza o achatamiento de una distribución


con relación a la distribución normal, es decir, mide cuán puntiaguda es una
distribución.

Tipos de kurtosis

La kurtosis determina el grado de concentración que presentan los valores en la región


central de la distribución. Así puede ser:

Leptocúrtica.- Existe una gran concentración.

Mesocúrtica.- Existe una concentración normal.

Platicúrtica.- Existe una baja concentración.

Coeficiente de kurtosis

42
Probabilidad y Estadística

�( y
i =1
i - Y ) 4 xf i

K = n -3
(S 2 )2

Interpretación:
Si K = 0 los datos tienen distribución mesocurtica o normal
Si K > 0 los datos tienen distribución leptocúrtica o son más apuntada que la Normal
Si K < 0 los datos tienen distribución platicúrtica o son menos apuntada que la
Normal

Capítulo 2

PROBABILIDAD Y DISTRIBUCIONES DE
PROBABILIDAD

Reseña Histórica

Una disputa entre jugadores en 1654 llevó a dos famosos matemáticos franceses, Blaise
Pascal y Pierre de Fermat, a la creación del cálculo de Probabilidades. Antoine
Gombaud, caballero de Meré, noble francés interesado en cuestiones de juegos y
apuestas, llamó la atención a Pascal respecto a una aparente contradicción en un popular
juego de dados. Este y otros problemas planteados por de Meré motivaron un
intercambio de cartas entre Pascal y Fermat en las que por primera vez se formularon
los principios fundamentales de las probabilidades. Si bien unos pocos problemas sobre
juegos de azar habían sido resueltos por matemáticos italianos en los siglos XV y XVI,
no existía una teoría general antes de esa famosa correspondencia.

43
Probabilidad y Estadística

El científico holandés Christian Huygens, enterado de esa correspondencia publicó


rápidamente en 1657 el primer libro de probabilidades; fue un tratado de problemas
relacionado con los juegos. El cálculo de probabilidades llego a ser pronto popular por
sus alusiones a los juegos de azar, y se desarrollo rápidamente a lo largo del siglo XVIII.
Quienes más contribuyeron a su desarrollo fueron James Bernoulli y Abraham de
Moivre.

En 1812, Pierre de Laplace introdujo gran cantidad de ideas nuevas y técnicas


matemáticas en su libro, Teoría Analítica de Probabilidades. Antes de Laplace, las
probabilidades prácticamente consistían en un análisis matemático de los juegos del
azar. Laplace demostró que esa teoría podía ser aplicada a multitud de problemas
científicos y prácticos. Ejemplo de tales aplicaciones son la teoría de errores, la
matemática actuarial y la mecánica estadística que se desarrollaron en el siglo XIX. Una
de las dificultades que se presentaron al desarrollar una teoría matemática ha sido
alcanzar una definición de probabilidad lo bastante precisa para su utilización
matemática.

La búsqueda de una definición completamente aceptable duro cerca de 3 siglos y fue


caracterizada por un gran número de controversias. El asunto fue definitivamente
resuelto en el siglo XX al tratar la teoría de la probabilidad en forma axiomática
establecida por el matemático ruso Andrei Kolmogorov, quien consideró la relación
entre la frecuencia relativa de un suceso y su probabilidad cuando el número de veces
que se realiza el experimento es muy grande.

Conceptos Básicos

Experimento Aleatorio: Conjunto de pruebas realizadas bajo las mismas condiciones y


cuyos resultados son impredecibles. Los rasgos que distinguen a los experimentos
aleatorios son:
i. Todos los resultados del experimento son conocidos con anterioridad a su realización.
ii. No se puede predecir el resultado del experimento.
iii. El experimento puede repetirse en condiciones idénticas.

44
Probabilidad y Estadística

Espacio Muestral: Es el conjunto de todos los resultados posibles de un experimento


aleatorio.
Se denota generalmente por W y se clasifica en:
i. Cardinalidad: Finito, Infinito numerable, Infinito no numerable.
ii. Discreto: Aquel cuyo resultado puede ponerse en una correspondencia uno a uno,
con el conjunto de los números naturales.
iii. Continuo: Aquel cuyos resultados consisten del intervalo de los números reales.

Suceso o evento aleatorio: Es cualquier subconjunto del espacio muestral. Conjunto de


posibles resultados de un experimento aleatorio.
a) Suceso o evento seguro: Es un evento que siempre ocurre.
b) Suceso o evento imposible: Es aquel que indefectiblemente no ocurrirá, se
denomina conjunto vacío f
c) Eventos igualmente probables: Todos tienen la misma probabilidad de ocurrir
(equiprobables).
d) Eventos dependientes: Aquellos en que la ocurrencia de uno afecta la probabilidad
de ocurrencia de los demás.
e) Eventos independientes: La ocurrencia de uno no afecta la probabilidad de
ocurrencia o no de los demás.

Álgebra de sucesos de probabilidad


Algunos conceptos de teoría de conjuntos extendidos a sucesos de probabilidad se
deben recordar
La unión de dos sucesos A y B en un espacio muestral W se define como:
A �B = {x/x �A ó x �B} , el conjunto correspondiente A � B significa que

ocurre A, ocurre B u ocurren A y B.


La intersección de dos sucesos A y B en un espacio muestral W se define como:
A � B = AB = { x / x �A y x �B} , A � B significa que ocurren A y B conjunta o
simultáneamente.
El complemento del suceso A en el espacio muestral W se define como la diferencia
entre el conjunto W y el conjunto A:

W - A = Ac = A’ = A = { x / x �W y x �A} y significa que no ocurre A.

45
Probabilidad y Estadística

( A �B ) ( A �B )
c c
Leyes de De Morgan = Ac �B c y = Ac �B c .

Definición de Probabilidad
Definición axiomática debida a Andrei Kolmogorov, 1903 a 1987, probabilista ruso.
Sea W el espacio muestral asociado a un experimento aleatorio y sean Ai �W para i

=1, 2,..., n eventos. A cada suceso Ai le asignaremos un número real P ( Ai ) ,

denominada probabilidad de Ai , que satisface las propiedades siguientes:

1) 0 �P ( Ai ) �1 2) P ( W ) = 1

3) Si A1 excluye a A2 entonces P ( A1 �A2 ) = P ( A1 ) + P ( A2 )

4) Si los Ai son mutuamente excluyentes, es decir Ai �Aj = f para todo i �j =1, 2,.., n

�n � n
entonces P �U Ai �= �P ( Ai )
�i =1 � i =1
Observe que estas propiedades no dependen de cómo se calculen las probabilidades

P ( Ai )

Enfoques de Probabilidad
Definición Clásica o “a priori”: Dice que si hay x posibles resultados favorables a la
ocurrencia de un evento A y z posibles resultados a la ocurrencia del experimento
aleatorio, y todos los resultados son igualmente posibles y mutuamente excluyente (no
pueden ocurrir los dos al mismo tiempo), entonces la probabilidad de que ocurra A es:
n( x ) n( x )
P ( A) = =
n ( z ) n (W )
El enfoque clásico de la probabilidad se basa en la suposición de que cada resultado sea
igualmente probable.
Este enfoque es llamado enfoque a priori porque permite, (en caso de que pueda
aplicarse) calcular el valor de probabilidad antes de observar cualquier evento de
muestra.
Ejemplo:
Si tenemos en una caja 15 piedras verdes y 9 piedras rojas. La probabilidad de sacar una
piedra roja en un intento es:

46
Probabilidad y Estadística

9
P ( A) = = 0,375 ó 37,5%
24
Definición Frecuencial o “a posteriori”: También llamado Enfoque Empírico,
determina la probabilidad sobre la base de la proporción de veces que ocurre un evento
favorable en un número de observaciones. En este enfoque no ese utiliza la suposición
previa de aleatoriedad, porque la determinación de los valores de probabilidad se basa
en la observación y recopilación de datos.
Ejemplo:
Se ha observado que 9 de cada 50 vehículos que pasan por una esquina no tienen
cinturón de seguridad. Si un vigilante de transito se para en esa misma esquina un día
cualquiera ¿Cuál será la probabilidad de que detenga un vehículo sin cinturón de
seguridad?

Tanto el enfoque clásico como el enfoque empírico conducen a valores objetivos de


probabilidad, en el sentido de que los valores de probabilidad indican al largo plazo la
tasa relativa de ocurrencia del evento.

El enfoque subjetivo
Dice que la probabilidad de ocurrencia de un evento es el grado de creencia por parte de
un individuo de que un evento ocurra, basado en toda la evidencia a su disposición.
Bajo esta premisa se puede decir que este enfoque es adecuado cuando solo hay una
oportunidad de ocurrencia del evento. Es decir, que el evento ocurrirá o no ocurrirá esa
sola vez. El valor de probabilidad bajo este enfoque es un juicio personal.

Propiedades de la probabilidad
Proposición 1. La probabilidad de un suceso imposible f es cero.

Proposición 2. P ( A ) = 1 - P ( A )
c

Proposición 3. Si A y B son sucesos no necesariamente excluyentes entonces


P (A � B) = P (A) + P (B) - P (A � B)
Proposición 4.
P (A �B �C)=P(A)+ P(B) +P(C) - P(A �B) - P(A �C) - P(B � C) + P(A �B �C)
Proposición 5. P (A-B) = P(A) – P(A �B)

47
Probabilidad y Estadística

Probabilidad Condicional
Sean A y B dos sucesos de un espacio muestral W . La expresión P (A / B) indica la
probabilidad de que ocurra el evento A dado que ya ha ocurrido el evento B. Puede
determinarse de la siguiente manera:
P (A / B) = P (A � B) / P (B)
P (A �B) se interpreta como la probabilidad de que los sucesos A y B ocurran
conjuntamente.

Ejercicio: Para obtener licencia para conducir, es necesario aprobar tanto el examen
teórico como el práctico. Se sabe que la probabilidad que un alumno apruebe la parte
teórica es 0,68, la de que apruebe la parte práctica es 0,72 y la de que haya aprobado
alguna de las dos partes es 0,82. Si se elige un alumno al azar, ¿cuál es la probabilidad
de que apruebe el examen para obtener licencia?

Eventos Independientes

Dos o más eventos son independientes cuando la ocurrencia o no-ocurrencia de un


evento o suceso no tiene efecto sobre la probabilidad de ocurrencia del otro
evento (o eventos). Un caso típico de eventos independiente es el muestreo con
reposición, es decir, una vez tomada la muestra se regresa de nuevo a la
población donde se obtuvo.
Ejemplo:
Lanzar al aire dos veces una moneda son eventos independientes por que el resultado
del primer evento no afecta sobre las probabilidades efectivas de que ocurra cara o sello,
en el segundo lanzamiento.

Eventos dependientes
Dos o más eventos serán dependientes cuando la ocurrencia o no-ocurrencia de uno de
ellos afecta la probabilidad de ocurrencia del otro (o otros). Cuando tenemos este caso,
empleamos entonces, el concepto de probabilidad condicional para denominar la
probabilidad del evento relacionado. La expresión P (A|B) indica la probabilidad de
ocurrencia del evento A sí el evento B ya ocurrió.
Se debe tener claro que A|B no es una fracción.

48
Probabilidad y Estadística

P (A / B) = P(A � B) / P (B) o P (B /A) = P(A � B) / P(A)

Proposición 5: Regla de la multiplicación de probabilidades

Eventos dependientes:
P (A �B) = P (B) P (A/ B) ó P (A �B) = P (A) P (B / A)

Sucesos independientes:
Consideremos dos eventos A y B no vacíos en W . Las siguientes proposiciones son
equivalentes
A es independiente de B � P (A �B) = P (A) P (B)
� P (A/ B) = P(A)
� P (B/A) = P (B)

Ejercicio: En una tómbola hay dos bolitas blancas y tres bolitas negras, ¿cuál es la
probabilidad de sacar una blanca y después una negra?
a) Si hay reposición, esto es, después de sacar la primera bolita, ésta se devuelve a la
tómbola
b) Si no hay reposición, esto es, después de sacar la primera bolita, ésta no se devuelve a
la tómbola

Partición del espacio muestral W

Decimos que los sucesos B1 , B2 ,..., Bk , representan una partición de W si:


k

a) Bi �B j = f para i �j, b) UB i =W c) 0 �P ( Bi ) �1 , "Bi


i =1

Esto significa que W es cubierto por todas las partes Bi que son mutuamente
excluyentes, es decir que el experimento aleatorio asociado a W ocurre cuando sucede
alguno de los Bi .

Probabilidad total

Sea A un suceso y B1 , B2 ,..., Bk una partición de W . Entonces:


k
P ( A ) = �P ( Bi ) P ( A / Bi )
i =1

Teorema de Bayes

49
Probabilidad y Estadística

Debida a Thomas Bayes, 1702 a 1761, matemático inglés que estableció el primer
método de inferencia estadística.
Regla de Bayes
Para medir la probabilidad de que un Bi sea la causa de un evento observado en A.

P ( Bi �A ) P ( Bi ) P ( A / Bi )
P ( Bi / A ) = = k
“fácil” P ( A) para i = 1, 2,3,..., k
�P ( Bi ) P ( A / Bi )
i =1

Proposición 8. Independencia de sucesos complementarios


Si A y B son sucesos independientes en un espacio muestral W entonces Ac y B c
también lo son.
Ejercicio
El inspector de calidad de una gran empresa tiene un plan de muestreo de forma que
cuando el pedido es de buena calidad lo acepta el 98% de las veces. Por otra parte, el
inspector acepta el 94% de los pedidos y sabe que el 5% de los pedidos son de mala
calidad. Calcule la probabilidad que un pedido:
a) De buena calidad se acepte
b) Malo se acepte
c) Se rechace dado que es de mala calidad

Variable Aleatoria
Se llama variable aleatoria a toda función que asocia a cada elemento del espacio
muestral E un número real.
Se utilizan letras mayúsculas X, Y,... para designar variables aleatorias, y las respectivas
minúsculas (x, y,...) para designar valores concretos de las mismas.

Variable aleatoria discreta

Una variable aleatori a dis creta es aquella que s ólo puede tomar valores
enteros .

Ejemplos
El número de hijos de una familia, la puntuación obtenida al lanzar un dado.

Función de Probabilidad
Sea X la variable aleatoria discreta, entonces su función de probabilidad

f ( x ) = P ( x ) = P ( X = x ) debe satisfacer lo siguiente:

50
Probabilidad y Estadística

i) 0 �f ( x ) �1 ii) �f ( x ) = 1

Función de Probabilidad Acumulada


Sea X la variable aleatoria discreta, con función de probabilidad, f ( x ) , entonces su

x
función de probabilidad acumulada es: F ( x ) = P ( X �x ) = �f ( x )
X =0

Características
n
Media Aritmética m = �xf ( x )
X =0

Varianza
n
s = �x 2 f ( x ) - m 2
2

X =0

Mediana
Me = F ( X �Me ) = 0,5

Variable aleatoria continúa

Una variable aleatori a continua es aquella que puede tomar todos los
valores pos ibles dentro de un cierto intervalo de la recta real.
Ejemplos
La altura de los alumnos de una clase, las horas de duración de una pila.

Función de Densidad de Probabilidad


Sea X la variable aleatoria continúa, entonces su función de probabilidad

f ( x ) = P ( x ) = P ( X = x ) debe satisfacer lo siguiente:


� b

i) f ( x ) �0 "x �R ii) �f ( x ) dx = 1 iii) P ( A ) = P ( a �X �b ) = �


f ( x ) dx
-� a

Función de Probabilidad Acumulada


Sea X la variable aleatoria continua, con función de probabilidad, f ( x ) , entonces su

función de probabilidad acumulada es: F ( x ) = P ( X �x ) = �f ( x ) dx


-�

Características

51
Probabilidad y Estadística

+�

Media Aritmética m= xf ( x ) dx

-�

Varianza
+�
s =
2
x f ( x ) dx - m

2 2

-�

Mediana
Me

Me = F ( X �Me ) = �f ( x ) dx =0,5
-�

DISTRIBUCIONES PARA VARIABLES ALEATORIAS DISCRETAS

Las distribuciones Binomial y Poisson, se derivan de experimentos aleatorios en las


cuales nos interesa el número de éxito en las “n” repeticiones, en los periodos y
regiones, aún más están relacionadas con la teoría del muestreo pequeño n< 30.
Son muy importantes pues son la base de metodologías inferenciales, tales como
Intervalos de Confianza y Pruebas de Hipótesis.
DISTRIBUCIÓN BINOMIAL

Estudiaremos en este tema una de las distribuciones de probabilidad más importantes y


que son imprescindibles a la hora de adentrarnos en el estudio de la inferencia
estadística. La distribución binomial es uno de los primeros ejemplos de las llamadas
distribuciones discretas (que sólo pueden tomar un número finito, o infinito numerable,
de valores). Fue estudiada por Jakob Bernoulli (Suiza, 1654-1705), quién escribió el
primer tratado importante sobre probabilidad, “Arsconjectandi” (El arte de pronosticar).
Los Bernoulli formaron una de las sagas de matemáticos más importantes de la historia.

La distribución Binomial o de Bernoulli

La distribución binomial está asociada a experimentos del siguiente tipo:


 Realizamos “n” veces cierto experimento en el que consideramos sólo la posibilidad
de éxito o fracaso.
 La obtención de éxito o fracaso en cada ocasión es independiente de la obtención de
éxito o fracaso en las demás ocasiones.

52
Probabilidad y Estadística

 La probabilidad de obtener éxito o fracaso siempre es la misma en cada ocasión


(invariante).

Veamos con un ejemplo


Tiramos un dado 7 veces y contamos el número de cincos que obtenemos. ¿Cuál es la
probabilidad de obtener tres cincos?
Este es un típico ejemplo de distribución binomial, pues estamos repitiendo 7 veces el
experimento de lanzar un dado. .
¿Cuál es nuestro éxito?
Evidentemente, sacar un 5, que es en lo que nos fijamos.
El fracaso, por tanto, sería no sacar 5, sino sacar cualquier otro número.
Por tanto, ´Éxito = E = “sacar un 5” = P (E) = 1/6
Fracaso = F = “no sacar un 5” = P (F) = 5/6
Para calcular la probabilidad que nos piden, fijémonos en que nos dicen que sacamos 3
cincos y por lo tanto tenemos 3 éxitos y 4 fracasos, ¿de cuántas maneras pueden darse
estas posibilidades?
Podríamos sacar 3 cincos en las 3 primeras tiradas y luego 4 tiradas sin sacar cinco, es
decir: EEEFFFF
Pero también podríamos sacar EFEFFFE, es decir que en realidad estamos calculando
de cuántas maneras se pueden ordenar 4 fracasos y 3 éxitos. Recordando las técnicas
combinatorias, este problema se reduce a calcular las permutaciones con elementos
repetidos:

Definición de distribución Binomial:


Si realizamos “n” veces un experimento en el que podemos obtener éxito, E, con
probabilidad “p” y fracaso, F, con probabilidad “q” (q = 1 − p), diremos que estamos
ante una distribución binomial de parámetros “n y p”, y lo representaremos por B (n;
p). En este caso la función de probabilidad de obtener k éxitos viene dada por:

P ( k ) = P ( X = k ) = Ckn p k q n - k
Nota:
Observar que las probabilidades de éxito y fracaso son complementarias, es decir, q = 1-
p y p =1-q, por lo que basta saber una de ellas para calcular la otra.

53
Probabilidad y Estadística

Ejemplo:
Supongamos que la probabilidad de que una pareja tenga un hijo o una hija es igual.
Calcular la Probabilidad de que una familia con 6 descendientes tenga 2 hijos.
En este caso Éxito = E = “tener hijo” y P (E) = 0,5.
Fracaso = F = “tener hija” y P (F) = 0,5.
Estamos por tanto ante una binomial B (6; 0,5) y nos piden P (X=2).
Si aplicamos la fórmula es:

P ( X = 2) = C26 0, 52 * 0, 54 = 0, 2344
Nota:
La elección de éxito o fracaso es subjetiva y queda a elección de la persona que resuelve
el problema, pero teniendo cuidado de plantear correctamente lo que se pide.
El uso de las tablas de la distribución Binomial
La distribución binomial se encuentra tabulada por lo que es fácil calcular
probabilidades sin necesidad de hacer demasiadas cuentas. Para usar las tablas de la
distribución binomial es necesario conocer:
 El número de veces que se realiza el experimento (n).
 La probabilidad de éxito (p).
 El número de éxitos (k).
La probabilidad “p” se busca en la primera fila (valores desde 0,01 hasta 0,5).
El número de veces que se realiza el experimento, en la primera columna (valores desde
2 a 10) y el número de éxitos a su lado.
Por ejemplo en el caso anterior, B (6; 0,5), P(X=2), la columna p = 0,5 es la última, y
cuando n = 6 y k = 2 encontramos 0,2344, el valor que habríamos calculado.

Nota importante: El caso en que p >0,5, no se encuentra tabulado.


La razón es bien sencilla. Si p >0,5, entonces q <0,5 y basta intercambiar los papeles de
éxito y fracaso para que podamos utilizar la tabla.

Probabilidades acumuladas

Es posible que nos pidan no sólo la probabilidad de que ocurran un cierto número de
éxitos en concreto, sino que ocurran como mucho “k” éxitos o por lo menos k éxitos o
preguntas similares. Podrían pedirnos:

54
Probabilidad y Estadística

a) ¿Cuál es la probabilidad de que aprueben como mucho 2 alumnos?


Si éxito = aprobar y fracaso = desaprobar, p = 0,7 y q = 0,3, entonces nos piden P(X
≤ 2). En este caso, basta pensar en que para que aprueben 2 alumnos como mucho,
puede que aprueben 2, 1 o ninguno, es decir:
P(X ≤ 2) = P(X = 0)+P(X = 1)+P(X = 2) = 0,0001 + 0,0012 + 0,01 = 0,1013

b) ¿Cuál es la probabilidad de que aprueben entre 3 y 6 alumnos (inclusive)?.


Del mismo modo:
p (3 ≤ X ≤ 6) = p(X = 3)+p(X = 4)+p(X = 5)+p(X = 6) = 0,0467 + 0,1361 + 0,2541 +
0,2965 = 0,7334
Hemos de tener en cuenta que para la distribución binomial, en las tablas sólo se
admiten valores hasta n =25 (25 repeticiones del experimento). Para valores de n >25,
inevitablemente hemos de utilizar la fórmula.

Media y Desviación típica en una distribución Binomial

El número esperado de éxitos o media, viene dado por µ = n p


La desviación típica, σ, que es una medida de dispersión y mide lo alejados que están

los datos de la media, viene dada por σ = npq

Ejemplos
En un vivero la probabilidad que una planta de vid tenga virus es de 0,04. Un viticultor
Necesita comprar 10 parras al vivero.
a) ¿Cuántas plantas con virus se espera que adquiera el viticultor?
b) ¿Cuál es la probabilidad de que el viticultor adquiera:
1) Ninguna planta con virus?
2) Al menos una planta con virus?
3) Entre 5 y 10 plantas con virus, ambos valores incluidos?
4) Exactamente 4 plantas con virus?

1. Supongamos que la probabilidad de tener una unidad defectuosa en una línea de


ensamblaje es de 0.05. Si el conjunto de unidades terminadas constituye un conjunto
de ensayos independientes:
1. ¿cuál es la probabilidad de que entre diez unidades dos se encuentren
defectuosas?
2. ¿y de que a lo sumo dos se encuentren defectuosas?
3. ¿cuál es la probabilidad de que por lo menos una se encuentre defectuosa?

55
Probabilidad y Estadística

2. Cada muestra de aire tiene 10% de posibilidades de contener una molécula rara
particular. Suponga que las muestras son independientes con respecto a la presencia
de la molécula rara. Encuentre la probabilidad de que en las siguientes 18 muestras,
a) exactamente 2 contengan la molécula rara.
b) Por lo menos 5 contengan la molécula rara.

DISTRIBUCIÓN DE POISSON
Dato Histórico
La distribución de Poisson se llama así en honor a su creador, el francés Simeón Dennis
Poisson (1781 – 1840). Esta distribución de probabilidad fue uno de los múltiples
trabajos que Dennis completo en su productiva trayectoria.

La distribución de Poisson es una distribución de probabilidad discreta que expresa, a


partir de una frecuencia de ocurrencia media, la probabilidad que ocurra un determinado
número de eventos durante cierto periodo de tiempo.

Características:
En este tipo de experimentos los éxitos buscados son expresados por unidad de área,
tiempo, pieza, etc, etc,: Por ejemplo:
- # de defectos de una tela por m2
- # de aviones que aterrizan en un aeropuerto por día, hora, minuto, etc, etc.
- # de bacterias por cm2 de cultivo
- # de llamadas telefónicas a un conmutador por hora, minuto, etc, etc.
- # de llegadas de embarcaciones a un puerto por día, mes, etc, etc.

Para determinar la probabilidad de que ocurran x éxitos por unidad de tiempo, área, o
producto, la fórmula a utilizar sería:

l xe - l
P ( x, l ) =
x!
Donde:
p(x,l) = probabilidad de que ocurran x éxitos, cuando el número promedio de
ocurrencia de ellos es l
l = media o promedio de éxitos por unidad de tiempo, área o producto

56
Probabilidad y Estadística

e = 2.718
x = variable aleatoria que nos denota el número de éxitos que se desea que ocurra

Hay que hacer notar que en esta distribución el número de éxitos que ocurren por
unidad de tiempo, área o producto es totalmente al azar y que cada intervalo de tiempo
es independiente de otro intervalo dado, así como cada área es independiente de otra
área dada y cada producto es independiente de otro producto dado.

Propiedades del modelo de Poisson

1) Esperanza matemática: E(X) = λ.

2) Varianza: V(X) = λ.

En esta distribución la esperanza y la varianza coinciden.

3) La suma de dos variables aleatorias independientes con distribución de Poisson


resulta en una nueva variable aleatoria, también con distribución de Poisson, de
parámetro igual a la suma de parámetros:

X1 ~ P (λ = λ1) y X2 ~ P (λ = λ2)

y definimos Z = X1 + X2, entonces,

Z ~ P (λ = λ1 + λ2)

Este resultado se extiende inmediatamente al caso de n variables aleatorias


independientes con distribución de Poisson. En este caso, la variable suma de todas ellas
sigue una distribución de Poisson de parámetro igual a la suma de los parámetros.

Ejemplos
a) En una cierta localidad se estima que el número promedio de madrigueras de
conejos que existen por hectárea es 2 y sea X el número de madrigueras por ha.
Calcular las probabilidades de que en un cultivo de:
1) una hectárea no haya madriguera
2) una hectárea haya exactamente 2 madrigueras
3) una hectárea se encuentren menos de 3 madrigueras
4) una hectárea haya más de 5 madrigueras

57
Probabilidad y Estadística

Ejemplos:

1. Si un banco recibe en promedio 6 cheques sin fondo por día, ¿cuáles son las
probabilidades de que reciba,
a) cuatro cheques sin fondo en un día dado,
b) 10 cheques sin fondos en cualquiera de dos días consecutivos?

2. En la inspección de hojalata producida por un proceso electrolítico continuo, se


identifican 0.2 imperfecciones en promedio por minuto. Determine las
probabilidades de identificar:
a) una imperfección en 3 minutos,
b) al menos dos imperfecciones en 5 minutos,
c) cuando más una imperfección en 15 minutos.

3. Una compañía telefónica recibe llamadas a razón de 5 por minuto. Si la distribución


del número de llamadas es de Poisson, calcular la probabilidad de recibir menos de
cuatro llamadas en un determinado minuto.

4. El dueño de un criadero de árboles está especializado en la producción de abetos de


Navidad. Estos crecen en filas de 300. Se sabe que por término medio 6 árboles no
son aptos para su venta. Asume que la cantidad de árboles aptos para la venta por
fila plantada sigue una distribución de Poisson.
a) Calcula la probabilidad de encontrar 2 árboles no vendibles en una fila de
árboles.
b) Calcula la probabilidad de encontrar 2 árboles no vendibles en media fila de
árboles.

DISTRIBUCIONES PARA VARIABLES ALEATORIAS


CONTINUAS

Distribución Normal o de Gauss

Introducción

Una de las distribuciones teóricas mejor estudiadas en los textos de estadística y más
utilizada en la práctica es la distribución normal, también llamada distribución
gaussiana. Su importancia se debe fundamentalmente a la frecuencia con la que

58
Probabilidad y Estadística

distintas variables asociadas a fenómenos naturales y cotidianos siguen,


aproximadamente, esta distribución. Caracteres morfológicos (como la talla o el peso),
o psicológicos (como el cociente intelectual) son ejemplos de variables de las que
frecuentemente se asume que siguen una distribución normal.
El uso extendido de la distribución normal en las aplicaciones estadísticas puede
explicarse, además, por otras razones. Muchos de los procedimientos estadísticos
habitualmente utilizados asumen la normalidad de los datos observados. Aunque
muchas de estas técnicas no son demasiado sensibles a desviaciones de la normal y, en
general, esta hipótesis puede obviarse cuando se dispone de un número suficiente de
datos, resulta recomendable contrastar siempre si se puede asumir o no una distribución
normal. La simple exploración visual de los datos puede sugerir la forma de su
distribución. No obstante, existen otras medidas, gráficos de normalidad y contrastes de
hipótesis que pueden ayudarnos a decidir, de un modo más riguroso, si la muestra de la
que se dispone procede o no de una distribución normal. Cuando los datos no sean
normales, podremos o bien transformarlos o emplear otros métodos estadísticos que no
exijan este tipo de restricciones (los llamados métodos no paramétricos).
A continuación se describirá la distribución normal, su ecuación matemática y sus
propiedades más relevantes, proporcionando algún ejemplo sobre sus aplicaciones a la
inferencia estadística.

Dato Histórico
La distribución normal fue reconocida por primera vez por el francés Abraham de
Moivre (1667-1754). Posteriormente, Carl Friedrich Gauss (1777-1855) elaboró
desarrollos más profundos y formuló la ecuación de la curva; de ahí que también se la
conozca, más comúnmente, como la "campana de Gauss".
Definición

Se dice que la v.a continua X es una v.a. normal con parámetros m y s 2 si su función
de densidad es:
2
-1�x-m �
1 �
2 �s

f ( x) = e �
, -� x  �......(1)
s 2p
Se denota X~ N (µ, σ²) y se dice X se distribuye normal con
parámetros µ y σ²

59
Probabilidad y Estadística

Gráfica de la Distribución Normal

Propiedades de la distribución normal

La distribución normal posee ciertas propiedades importantes que conviene destacar:


a). La función siempre es positiva, f(x) > 0 para toda x.
b). Tiene una única moda, que coincide con su media y su mediana, cuyo valor es

1
.
s 2p
c). La curva normal es asintótica al eje de abscisas. Por ello, cualquier valor entre -� y
+� es teóricamente posible.
d). El área total bajo la curva es, igual a 1.
e). Es simétrica con respecto a su media. Según esto, para este tipo de variables existe
una probabilidad de un 50% de observar un dato mayor que la media, y un 50% de
observar un dato menor.
f). La distancia entre la línea trazada en la media y el punto de inflexión (µ-σ y µ+σ)
de la curva es igual a una desviación típica ( s ). Cuanto mayor sea s , más
aplanada será la curva de la densidad.
f). El área bajo la curva comprendido entre los valores situados aproximadamente a dos
desviaciones estándar de la media es igual a 0.95. En concreto, existe un 95% de
posibilidades de observar un valor comprendido en el intervalo.
g). La forma de la campana de Gauss depende de los parámetros m y s . La media
indica la posición de la campana, de modo que para diferentes valores de la gráfica
es desplazada a lo largo del eje horizontal. Por otra parte, la desviación estándar
determina el grado de apuntamiento de la curva. Cuanto mayor sea el valor de s ,
más se dispersarán los datos en torno a la media y la curva será más plana. Un valor

60
Probabilidad y Estadística

pequeño de este parámetro indica, por tanto, una gran probabilidad de obtener datos
cercanos al valor medio de la distribución.

Distribución Normal Estándar

Deduciendo de la última propiedad, no existe una única distribución normal, sino una
familia de distribuciones con una forma común, diferenciadas por los valores de su
media y su varianza. De entre todas ellas, la más utilizada es la distribución normal
estándar, que corresponde a una distribución de media 0 y varianza 1. Así, la expresión
que define su densidad se puede obtener de la Ecuación 1, resultando:

-1 2
1 z
f ( z) = e 2 , -� z  �......(2)
2p

Es importante conocer que, a partir de cualquier variable X � N ( m , s ) , se puede


obtener otra característica Z con una distribución normal estándar, sin más que efectuar

x-m
la transformación: z= , donde z � N (0,1) .
s

Gráfica de la Distribución Normal Estándar

(-) 0 (+) Z

Ejercicios

1. Dada una distribución normal estándar, encuentre el área bajo la curva que está
a) a la izquierda de z = 1.43
b) a la derecha de z = -0.89
c) entre z = -2.16 y z = -0.65
d) a la izquierda de z = -1.39
e) a la derecha de z = 1.96

61
Probabilidad y Estadística

f) entre z = -0.48 y z = 1.74


2. Una fábrica de alimentos empaca productos cuyos pesos están normalmente
distribuidos con media de 450 gramos y desviación estándar de 20 gramos.
Encuentre la probabilidad de que un paquete escogido al azar pese entre 425 y 486
gramos.

3. Se regula una máquina despachadora de refresco para que sirva un promedio de 200
mililitro por vaso. Si la cantidad de bebida se distribuye normalmente con una
desviación estándar igual a 15 mililitros,
a) ¿qué fracción de los vasos contendrán más de 224 mililitros?
b) ¿cuál es la probabilidad de que un vaso contenga entre 191 y 209 mililitros?
c) ¿cuántos vasos probablemente se derramarán si se utilizan vasos de 230 mililitros
para las siguientes 1000 bebidas?
d) ¿por debajo de qué valor obtendremos 25% de las bebidas más pequeñas?

3. La vida promedio de cierto tipo de motor pequeño es 10 años con una desviación
estándar de dos años. El fabricante reemplaza gratis todos los motores que fallen
dentro del tiempo de garantía. Si está dispuesto a reemplazar sólo 3% de los motores
que fallan, ¿de qué duración debe ser la garantía que ofrezca? Suponga que la

duración de un motor sigue una distribución normal.

4. La resistencia a la tracción de cierto componente de metal se distribuye normalmente


con una media de 10000 kilogramos por centímetro cuadrado y una desviación
estándar de 100 kilogramos por centímetro cuadrado. Las mediciones se registran a
los 50 kilogramos por centímetro cuadrado más cercanos.
a) ¿Qué proporción de estos componentes excede 10150 kilogramos por centímetro
cuadrado de resistencia a la tracción?
b) Si las especificaciones requieren de todos los componentes tengan resistencia a la
tracción entre 9800 y 10200 kilogramos por centímetro cuadrado inclusive, ¿qué
proporción de piezas esperaría que se descartará?

Importante

Las distribuciones “t” de Student, Chi cuadrado ( c 2 ) y F, se derivan de la distribución


Normal y están relacionadas con la teoría del muestreo pequeño n < 30.

62
Probabilidad y Estadística

Son muy importantes pues son la base de metodologías inferenciales, tales como
Intervalos de Confianza y Pruebas de Hipótesis.

Las variables “t”, c 2 y F surgen de transformaciones de variables aleatorias en las que


están involucrados estadísticos muestrales, tales como la media y la varianza. En la
práctica, por lo tanto, no podemos decir por Ejemplo que el peso, la altura, etc., se

distribuyen según t”, c 2 y F

DISTRIBUCIÓN DE STUDENT O DISTRIBUCIÓN “t”

¿Quién era Student? Pues en realidad Student no era el nombre o el apellido del
responsable de esta distribución de probabilidad, sino que era un seudónimo. El
verdadero nombre del creador de la t de Student es William Sealy Gosset, (1876 –
1937); era un matemático y químico inglés.

En muchos casos se seleccionan de una población normal, muestras de tamaño pequeño


n < 30 y s desconocido.

DEFINICIÓN

Una variable con distribución t de Student se define como el cociente entre una

variable normal estandarizada y la raíz cuadrada positiva de una variable c 2 dividida


por sus grados de libertad.

La función de densidad de probabilidad de la variable aleatoria “t” está dada por:

[ g (v + 1) / 2] �
- ( v +1) / 2
t2 �
h(t ) = 1+
� � , -� t  +�
g (v / 2) p v � v �

Esta se conoce como la distribución t con grados de libertad.

CARACTERISTICAS

 La distribución se denomina distribución de Student o distribución “t”.

63
Probabilidad y Estadística

 Cada curva “t” tiene forma de campana con centro en 0.


v
Es simétrica, con media 0, y variancia mayor que 1. Es decir: s = ,v > 2
2

v-2
 Es más achatada que la normal y adopta diferentes formas, según el número de
grados de libertad.

 La variable t se extiende desde - � a + �.


 A medida que aumenta los (v = n -1, es decir v � �) grados de libertad la
distribución “t” se aproxima en su forma a una distribución normal estándar. Por lo
que la curva “z” recibe a veces el nombre de curva “t” con gl = grande “ �”.

 El parámetro de la distribución es (v = n-1) grados de libertad, originando una


distribución diferente para cada tamaño de muestra.

¿Cómo se deduce una distribución de “t”?

 Extraigo K muestras de tamaño n < 30.


 Calculo para cada muestra el valor de “t”.
 Grafique la distribución para cada tamaño muestral

Distribución “t” para diferentes grados de libertad (n-1)

Ejemplo:

a) Encuentre la probabilidad de –t0.025 < t < t0.05.

64
Probabilidad y Estadística

b) Encuentre k tal que P (k < t < -1.761) = 0.045, para una muestra aleatoria de tamaño
15 que se selecciona de una distribución normal.

c) Un ingeniero químico afirma que el rendimiento medio de la población de cierto


proceso en lotes es 500 gramos por milímetro de materia prima. Para verificar esta
afirmación toma una muestra de 25 lotes cada mes. Si el valor de t calculado cae
entre –t0.05 y t0.05, queda satisfecho con su afirmación. ¿Qué conclusión extraería de
una muestra que tiene una media de 518 gramos por milímetro y una desviación
estándar de 40 gramos? Suponga que la distribución de rendimientos es
aproximadamente normal.

d) Calcular el percentil t0,95 y t0,25 en cada uno de los siguientes casos:


1. En una distribución t-Student con 3 grados de libertad.
2. En una distribución t-Student con 30 grados de libertad.
3. En una distribución t-Student con 52 grados de libertad.
4. En una distribución t-Student con 120 grados de libertad.

DISTRIBUCIÓN CHI - CUADRADO

Para muestras extraídas de una población normal con variancia s 2 , con tamaño n < 30,
siendo s 2 la varianza de la muestra.

DEFINICIÓN

Una variable Chi cuadrado se define como la suma de n variables normales


estandarizadas elevadas al cuadrado.

CARACTERISTICAS

Por definición, una variable c adopta valores positivos: c �0.


2 2

 La distribución es asimétrica positiva.
 A medida que aumenta el tamaño de la muestra la curva es menos asimétrica,
aproximándose a una curva normal.
Para cada tamaño muestral, se tendrá una distribución c diferente.
2

El parámetro que caracteriza a una distribución c son sus grados de libertad (v =


2

n-1), originado una distribución para cada grado de libertad,

¿Cómo se deduce una distribución c 2 ?

65
Probabilidad y Estadística

Extraer K muestras de tamaño n < 30

Para cada muestra, por ejemplo n = 5, transformamos cada valor de x: x1, x2, x3, x4 y
x5 en Z: z1, z2, z3, z4 y z5,

Distribución de ji-cuadrado para algunos valores de grados de libertad.

Ejercicio1: Calcular el percentil c n ,0,95 y c n ,0,25 en cada uno de los siguientes casos:
2 2

1. n=5

2. n=30.

DISTRIBUCIÓN F DE FISHER

Considerando dos muestras aleatorias independientes, de tamaño n1 y n2, extraídas de


una población normal, el estadístico F será

DEFINICIÓN

Una variable F se define como el cociente entre dos variables ji-cuadrado divididas por
sus correspondientes grados de libertad.

Características

 Una variable con distribución F es siempre positiva por lo tanto su campo de


variación es “0 a ∞"
 La distribución de la variable es asimétrica, pero su asimetría disminuye cuando
aumentan los grados de libertad del numerador y denominador.
 Hay una distribución F por cada par de grados de libertad.
 Parámetros: Grados de libertad asociados al numerador y denominador

¿Cómo se deduce una distribución F?

66
Probabilidad y Estadística

 Extraiga k pares de muestras aleatorias independientes de tamaño n < 30.


 Calcule para cada par el cociente de variancias que proporciona un valor de F.
 Graficar los valores de F de los k pares de muestras.

Distribución F para diferentes grados de libertad

Capitulo 3

67
Probabilidad y Estadística

INTRODUCCIÓN

A LA

INFERENCIA ESTADÍSTICA

El proceso de Inferencia Estadística permite extraer conclusiones


científicamente válidas acerca de la población a partir de los resultados
muéstrales (obtenidos a través de la estadística descriptiva).

El propósito de la inferencia estadística es realizar:

- Estimación de Parámetros

- Contraste de Hipótesis

Estimación de Parámetros
El método de estimación de un parámetro puede ser puntual o por intervalo.

68
Probabilidad y Estadística

Estimación puntual de µ

En base al resultado de la muestra particular de tamaño n, una estimación puntual de µ


sería el valor numérico que toma X en dicha muestra.

En nuestro ejemplo, a partir de una muestra de n=50 planchas de acero. Daríamos como
estimación del peso medio poblacional o teórico, X = 215 Kg.

Inconveniente(s):

 La estimación puntual depende de la muestra particular que se obtenga.


 Existe una incertidumbre total, acerca de la proximidad (lejanía) del valor puntual a
la media poblacional o teórica.

Sin embargo

Conocemos la distribución de la medias muéstrales bajo ciertas condiciones sobre la


población de partida.

DISTRIBUCIÓN DE LA MEDIA MUESTRAL

a) Si asumimos que X → N (µ, σ), σ → conocida

Las (infinitas) medias muéstrales obtenidas con muestras de tamaño n se distribuyen


según una distribución normal (campana de Gauss):

X -m
X � N (m ,s X ) � Z = � N (0,1)
sX
Donde: s X es el error típico o desviación estándar de la media muestral.

b) Si asumimos que X → N (µ, σ), σ desconocida

Las (infinitas) medias muéstrales obtenidas con muestras de tamaño n se


distribuyen según una distribución t-student con n-1 grados de libertad (gl)

69
Probabilidad y Estadística

X -m
X � N (m , sX ) � T = � t n -1
sX
Donde: S X es el error típico o desviación estándar de la media muestral.

Nota: (Error estándar o Error típico de la media)

s  s conocida
sx =  Tamaño de población (N) demasiado grande o
n infinita.
s N -n  s conocida
sx =  Tamaño de población (N) conocido o finita.
n N -1
S  s desconocida, entonces s @ S
Sx =  Tamaño de población (N) demasiado grande o
n
infinita.
S N -n  s desconocida, entonces s @ S
Sx =  Tamaño de población (N) conocida o finita.
n N -1

Estimación por Intervalo de confianza para µ

Supongamos que de una población normal con media desconocida m y varianza


conocida o desconocida s 2 se extrae una muestra de tamaño n, entonces de la
distribución de la media muestral X se obtiene que, lleva asociado un error típico de
dicho estadístico de lo que ha de tenerse en cuenta para valorar la precisión de una
estimación puntual.
Idea

Construir intervalos de confianza, basado X , que contenga “con alta probabilidad” el


parámetro µ.
Caso I: X → N (µ, σ), σ conocida

El Intervalo de confianza para µ es:

70
Probabilidad y Estadística

X - Z1-a / 2 * s X �m �X + Z1-a / 2 *s X

Con un nivel de confianza del 1 - a .

Caso II: X → N (µ, σ), σ desconocida

El intervalo de confianza para µ es:

X - t1-a / 2;n -1 * S X �m �X + t1-a / 2; n -1 * S X

Con un nivel de confianza del 1 - a .

Tamaño de muestra

Se puede determinar que tan grande debe ser el tamaño de la muestra, n, de manera que
si m se estima por x , el error de estimación no sea mayor que un valor dado e. En
efecto:

 Tamaño de población (N) demasiado grande


o infinita.
Z 2
a *s 2
s
1-  Si la desviación estándar ( ) es
n= 2
desconocida, se estima por la desviación
e2 estándar muestral (S) hallado a partir de una
muestra piloto.

Z 2 a *s 2 * N  Tamaño de población (N) conocida o finita


1-  Si la desviación estándar ( ) ess
n= 2
desconocida, se estima por la desviación
Z 2 a * s 2 + e 2 ( N - 1) estándar muestral (S) hallado a partir de
1-
2
una muestra piloto.
Ejercicio
Considerar la variable rendimiento de maíz, cuya distribución es normal con media μ y
desviación estándar σ. Para estimar el rendimiento promedio del maíz bajo el efecto de un
herbicida, se toma una muestra de tamaño 40 y se obtiene un promedio de 60 qq/ha. Se sabe por
experiencias anteriores que la varianza poblacional σ2 es 25 (qq/ha)2.
a) Construir los intervalos de confianza del 95% y 99% para μ.
b) ¿Cómo cambia el intervalo anterior (95%) si el tamaño de la muestra fuese 100 y se obtiene
el mismo promedio?
c) ¿Cómo se modifica el intervalo del 95% calculado en a) si la desviación estándar fuese de 7
qq/ha.?

Ejercicio
Se desea establecer el contenido vitamínico de un alimento balanceado para pollos. Se toma una
muestra de 49 bolsas y se encuentra que el contenido promedio de vitaminas por cada 100 grs.

71
Probabilidad y Estadística

es de 12 mg. y que la desviación estándar es de 2 mg. Encontrar el intervalo de confianza del


95% para el verdadero promedio del contenido de vitaminas.

Ejercicio
Para estimar el rendimiento promedio del trigo en un departamento del sur cordobés se
relevan los campos de distintos productores mediante un esquema de muestreo aleatorio
simple. Se conoce por experiencias anteriores que s es igual a 0.7 qq/ha y que el
promedio histórico es 26 qq/ha.
1) ¿Qué número de campos se deben evaluar para estimar la media de rendimiento con
una confianza del 95% si la amplitud del intervalo no debe ser mayor que el 2.5% del
promedio histórico?
2) Si la varianza de la distribución aumenta (proponga s=1.4), ¿aumenta o disminuye el
tamaño muestral necesario para mantener la misma amplitud? Justificar la respuesta.

Ejemplo 1: Una encuesta realizada a 25 empleados de un sector dio como resultados


que el tiempo medio de empleo era de 5,3 años con una desviación típica de 1,2 años.
a) Estimar, al 90% de confianza, el tiempo medio de empleo para el sector, suponiendo
Normalidad.
b) Si el margen de error hubiera sido de 1 año ¿qué grado de confianzase tendría?
c) ¿Qué tamaño muestral es necesario si se quisiera el margen de error del apartado
primero y el grado de confianza del apartado segundo?
Solución: a)

Estimar, al 90% de confianza, el tiempo medio de empleo para el sector, suponiendo


Normalidad.

Datos:
X: Tiempo de empleo supuestamente Normal
Tamaño de muestra : n = 25 empleados
Tiempo medio de empleo : X = 5,3 años
Desviación típica muestral : S = 1,2 años ( s desconocido)
Confianza : 1 - a = 0,90 � a = 0,10

En base a los datos corresponde al CASO II, donde su intervalo es:

X - t1-a / 2;n -1 * S X �m �X + t1-a / 2;n-1 * S X

Entonces:
S 1, 2
X = 5,3 t1-a / 2,n -1 = t0,95;24 = 1, 711 (Buscar tabla) SX = = = 0, 24
n 25
Reemplazando en la fórmula:

5,3 – 1,711*0,24 �m �5,3 + 1,711*0,24

72
Probabilidad y Estadística

5,3 – 0,411 �m �5,3 + 0,411


4,889 �m �5,711

Interpretación: El tiempo medio de empleo de todos los empleados del sector se


estima en 4,9 a 5,7 años, con una confianza del 90%.

Solución:b)
Si el margen de error hubiera sido de 1 año ¿qué grado de confianza se tendría?

Error de estimación: e = z1-a / 2 * S X


s 1, 2
1 = z1-a / 2 * � 1 = z1-a / 2 *
n 25

z1-a / 2 = 4,17 (Buscando en la tabla estadística)

a
1- = 0,99999 � a = 0, 00002
2

Por lo tanto el grado de confianza es: 1 - a = 0,99998

Solución: c)

¿Qué tamaño muestral es necesario si se quisiera el margen de error del apartado


primero y el grado de confianza del apartado segundo?

Tamaño de muestra con margen de error de 0,411 y


Grado de confianza 0,99998
N=Tamaño de población de empleados desconocido de la entidad

Entonces la formula que le corresponde es:

Z2 a *S2
1- 4, 092 *1, 2 2
n= 2
=
e2 0, 4112

n = 142, 6 �143

Ejemplo 2: El número de horas diarias que los empleados de cierta entidad bancaria de
ámbito nacional trabajan delante del ordenador es una variable aleatoria normal con
varianza 1,5. Se toma una muestra al azar de 10 empleados y se anota el número de
horas que cierto día trabajaron con el ordenador:
6 3,4 5,6 6,3 6,4 5,3 5,4 5 5,2 5,5
a) Determina el intervalo de confianza al 95% para el número medio de horas diarias
que se trabaja en el ordenador en esa entidad. Explica claramente el resultado
comentando que significa el 95% de confianza.

73
Probabilidad y Estadística

b) ¿Qué tamaño muestral es necesario si se quisiera el margen de error del apartado


primero y el grado de confianza de 90%?

Solución:a)
Datos:
X: Número de horas diarias variable Normal
Varianza poblacion : s 2 = 1,5 conocido � Desviación estándar s = 1,225
Tamaño de muestra : n = 10 empleados
Número promedio de horas diarias se halla a partir de los valores numéricos registrados
10

de los 10 empleados : �x i
6 + 3, 4 + 5, 6 + ... + 5,5 = 5,41 horas
X= 1=1
=
n 10
Confianza : 1 - a = 0,95 � a = 0,05

En base a los datos corresponde al CASO I, cuyo intervalo es:

X - Z1-a / 2 * s X �m �X + Z1-a / 2 * s X

s 1, 225
X = 5,41 Z1-a / 2 = Z 0,975 = 1,960 (Buscar tabla) sX = = = 0,387
n 10
5,41 – 1,96*0,387 �m �5,41 + 1,96*0,387
5,41 – 0,759 �m �5,41 + 0,759
4,651 �m �6,169
Interpretación: El número medio de horas diarias que trabajan delante del ordenador
todos los empleados de cierta entidad bancaria se estima en 4,6 a 6,2horas, con una
confianza del 95%; el cual significa que de 100 muestras de empleados seleccionados
de toda la entidad bancaria, 95 de ellas estiman dicho parámetro.

Solución:b)
Datos:
Margen de error : e = 0,759
Varianza poblacional : s 2 = 1,5
Confianza : 1 - a = 0,90 � a = 0,10
Tamaño de la población : N desconocido
En base a los datos corresponde utilizar la formula:
Z 2 a *s 2 2
1- Z 0,95 *1, 5 1, 6452 *1, 5
n= 2
= =
e2 0, 759 2 0, 759 2

n = 7, 05 �7

Ejercicios Propuestos

74
Probabilidad y Estadística

Ejercicio 1: La duración aleatoria de las unidades producidas de un artículo, se


distribuye según la ley normal, con desviación típica igual a seis minutos.
Elegidas al azar cien unidades, resulto ser la duración media de 14,35 minutos.
Elaborar el intervalo de confianza del 99% para la duración media de las
unidades producidas.

Ejercicio 2: Se analizan 9 zumos de fruta y se ha obtenido un contenido medio


de fruta de 22 mg por 100 cc de zumo. La varianza poblacional es desconocida,
por lo que se ha calculado la cuasi desviación típica de la muestra que ha
resultado ser 6,3 mg de fruta por cada 100 cc de zumo. Suponiendo que el
contenido de fruta del zumo es normal, estimar el contenido medio de fruta de los
zumos tanto puntualmente como por intervalos al 95% de confianza.

Ejercicio 3: Se desea estimar el número medio de libros que los estudiantes de


cierta titulación adquieren en el último curso de sus estudios. Suponiendo
conocida la dispersión (varianza igual a 36) y siendo Normal el comportamiento
de la variable,
a) ¿qué tamaño muestral hace falta para alcanzar un grado de confianza del 95%
y un margen de error no superior a 2 unidades?
b) ¿Cuál sería el tamaño muestral si queremos reducir el intervalo a la mitad sin
perder fiabilidad?

Ejercicio 4: Queremos ajustar una máquina de refrescos de modo que el


promedio del líquido dispensado quede dentro de cierto rango. La cantidad de
líquido vertido por la máquina sigue una distribución normal con desviación
estándar 0.15 decilitros. Deseamos que el valor estimado que se vaya a obtener
comparado con el verdadero no sea superior a 0.2 decilitros con una confianza
del 95%. ¿De qué tamaño debemos escoger la muestra?
Ejercicio 5: Es necesario estimar entre 10000 establos, el número de vacas lecheras
por establo con un error de estimación de 4 y un nivel de confianza del 95%.Sabemos
que la varianza es 1000. ¿Cuántos establos deben visitarse para satisfacer estos
requerimientos?

Intervalo de Confianza para la varianza

La varianza como medida de dispersión es importante dado que nos


ofrece una mejor visión de dispersión de datos. Nuevamente
consideramos que la población sigue una distribución de probabilidad
normal.

Otro campo del conocimiento donde la varianza se ocupa en gran


medida es en control de calidad; cuando un producto se elabora el
área de control de calidad busca que los productos esté dentro de
ciertos límites de tolerancia, pero también que la variabilidad de un
producto sea lo menor posible.

75
Probabilidad y Estadística

El Intervalo de confianza para la varianza poblacional ( s 2 ) es:

( n - 1) s 2 (n - 1) s 2
�s 2 � 2
c12-a / 2; n -1 ca / 2; n -1

Con un nivel de confianza del 1 - a .

Ejercicio
Un productor decide probar el funcionamiento de su máquina y para ello, luego de
cosechar una parcela, cuenta en 10 unidades de 1 m2 la cantidad de semillas que quedan
en el suelo. Las normas técnicas indican que la desviación estándar del número de
semillas caídas por m2 no debería ser superior a 5. Los resultados, en semillas/m2,
fueron:
77 73 82 82 79 81 78 76 76 75
a) Construir un intervalo de confianza para s2 con una confianza del 97,5%.
b) Concluir sobre el funcionamiento de la máquina.

Ejercicio: Se han recogido muestras de aire para estudiar su contaminación,


obteniéndose las siguientes cantidades de impurezas en Kg/m3
2.2; 1.8; 3.1; 2.0; 2.4; 2.0; 2.1; 1.2
Construir un intervalo de confianza al 98% para la desviación estándar de impurezas
contenidas en el aire.

Solución:
Datos:
Calculando la cantidad media de impurezas a partir de los valores numéricos
10

registrados en las 8 muestras de aire : �x i


2, 2 + 1,8 + 3,1 + ... + 1, 2
X= 1=1
= = 2,1
n 8

Calculando la varianza muestral obtenido de los valore numéricos :


n

�( X i - X )2
( 2, 2 - 2,1)
2
+ ( 1,8 - 2,1) + ... + ( 1, 2 - 2,1)
2 2

S =
2 i =1
=
n -1 8 -1

S 2 = 0,288

Confianza : 1 - a = 0,98 � a = 0,02


Entonces el intervalo es:

(n - 1) s 2
�s 2 (n - 1) s 2
� 2 =
( 8 - 1) * 0, 288 �s 2 �( 8 - 1) * 0, 288
c12-a / 2;n-1 ca / 2;n -1 2
c 0,99;7 2
c 0,01;7

76
Probabilidad y Estadística

2, 016 2, 016
�s 2 � � 0,109 �s 2 �1,627
18, 475 1, 239

Por lo tanto: 0, 330 �s �1, 275

Interpretación: La variabilidad de impurezas con respecto a su media que contiene el


aire se estima en 0,109 a 1,627 Kg./ m3 , con una confianza del 98%.

Ejercicios Propuestos

Ejercicio 1: Se sabe por experiencia que el tiempo que tarda el servicio de caja
de una empresa prestadora del servicio de agua de una región para atender a los
clientes que llegan a efectuar el pago mensual del servicio se distribuye
normalmente. Se pide estimar el intervalo de confianza para la desviación
estándar poblacional del tiempo requerido para atender los pagos que efectúan
los clientes, con un nivel de confianza del 95%, si para el efecto se tomó una
muestra aleatoria de 25 clientes que arrojó una desviación estándar de 1.8
minutos.

Ejercicio 2: El tiempo que transcurre para los obreros de una gran compañía
entre el momento del ingreso a la planta y el momento en que están listos para
recibir las orientaciones de su jefe inmediato, se distribuye normalmente. Una
muestra de 20 obreros arroja una desviación estándar de 3.5 minutos. Se pide
calcular el intervalo de confianza del 99% para la desviación estándar del tiempo
transcurrido para todos los obreros de la compañía.

Intervalo de Confianza para la diferencia de medias ( m1 - m2 )

Supongamos que se tiene dos poblaciones distribuidas normalmente con medias


desconocidas m1 y m 2 , respectivamente. Se puede aplicar una prueba z o t de Student
para comparar las medias de dichas poblaciones basándonos en dos muestras
independientes tomadas de ellas. La primera muestra es de tamaño n1 , con media X 1 y
la segunda muestra es de tamaño n2 , tiene media X 2 . Donde las varianzas
poblacionales pueden ser conocidas ( s 12 y s 22 ) o desconocidas ( s 12 s12 y s 22 s22 ).
≈ ≈

Caso I: Muestras independientes, Varianzas poblacionales conocidas


( s 12 y s 22 )

El intervalo de confianza es:

(X 1 - X 2 ) - Z1-a / 2 * s X1 - X 2 �m1 - m2 �( X 1 - X 2 ) + Z1-a / 2 * s X1 - X 2

77
Probabilidad y Estadística

s 12 s 22
Donde: s X1 - X 2 = +
n1 n2

Caso IIA: Normal-Muestras independientes, Varianzas poblacionales


desconocidas pero iguales ( s 12 = s 22 )

El intervalo de confianza es:

(X 1 - X 2 ) - t1-a / 2;v * S X1 - X 2 �m1 - m2 �( X1 - X 2 ) + t1-a / 2;v * S X1 - X 2

Donde: v = n1 + n2 - 2 es el grado de libertad.

S X1 - X 2 =
( n1 - 1) * s12 + ( n2 - 1) * s22 �1 1 �
� + �
n1 + n2 - 2 �n1 n2 �

Caso IIB: Normal-Muestras independientes, Varianzas poblacionales


desconocidas y diferentes ( s 12 �s 22 )

El intervalo de confianza es:

(X 1 - X 2 ) - t1-a / 2;v * S X1 - X 2 �m1 - m2 �( X 1 - X 2 ) + t1-a / 2;v * S X1 - X 2

Donde:

2
�S12 S 22 �
� n +
� 1 n2 �
� -2
n= 2
�S1 � �S2 �
2 2 2
Es el grado de libertad, que toma un valor
� n� � n �
� 1 �+ � 2 �
n1 + 1 n2 + 1
numérico redondeado entero.

s12 s22
S X1 - X 2 = +
n1 n2

78
Probabilidad y Estadística

Ejercicio
Un grupo de conejos fue sometido a una serie de situaciones de tensión que producían
una respuesta de temor. Después de un período de tiempo bajo estas condiciones, los
conejos fueron comparados con los de un grupo control, que no había sido sometido a
tensión. La variable de respuesta fue el peso (en mg) de la glándula suprarrenal. Los
resultados fueron:
Grupo Experimental: 3.8 6.8 8.0 3.6 3.9 5.9 6.0 5.7 5.6 4.5 3.9 4.5
Grupo Control: 4.2 4.8 4.8 2.3 6.5 4.9 3.6 2.4 3.2 4.9
a) Comparar el peso de la glándula suprarrenal entre el grupo control y el experimental
con un nivel de confianza del 99%.

Ejemplo 1: En el departamento de control de calidad de una empresa, se quiere


determinar si ha habido un descenso significativo de la calidad de su producto
entre las producciones de dos semanas consecutivas a consecuencia de un
incidente ocurrido durante el fin de semana. Deciden tomar una muestra de la
producción de cada semana, si la calidad de cada artículo se mide en una escala
de 100, obtienen los resultados siguientes:
Semana 1: 93 86 90 90 94 91 92 96
Semana 2: 93 87 97 90 88 87 84 93
Construye un intervalo de confianza para la diferencia de medias al nivel de
95%.Interpreta los resultados obtenidos.
Solución:
Suponiendo normalidad las producciones de las dos semanas
Cada semana son muestras independientes
Varianzas poblacionales desconocidas ( s 12 , s 22 )
Ahora

¿Cómo saber si las varianzas son iguales o diferentes?

Se realiza la prueba de homogeneidad de varianzas, que consiste en lo siguiente:

Formular las hipótesis


: H 0 : s1 = s 2
2 2
Hipótesis nula
: H1 : s 1 �s 2
2 2
Hipótesis alterna

Fijar nivel de significancia

a = 0, 05

Estadístico de prueba

79
Probabilidad y Estadística

máx ( s12 , s22 )


F =
mín( s12 , s22 )

Semana 1:

Calculo de la media

10

�x i
93 + 86 + 90 + ... + 96 � X 1 = 91,50
X1 = 1=1
= = 91,50
n 8

Calculo de la varianza
n

�( X i - X )2
( 93 - 91, 50 )
2
+ ( 86 - 91, 50 ) + ... + ( 96 - 91, 50 )
2 2
� S12 = 9,143
S =
1
2 i =1
=
n -1 8 -1

Semana 2:

Calculo de la media

10

�x i
93 + 87 + 97 + ... + 93 � X 2 = 89,88
X2 = 1=1
= = 89,88
n 8

Calculo de la varianza
n

�( X i - X )2
( 93 - 89,88 )
2
+ ( 87 - 89,88 ) + ... + ( 93 - 89,88 )
2 2
� S2 2 = 17,839
S2 2 = i =1
=
n -1 8 -1

Reemplazando en el estadístico de prueba

s22 17, 839


Fc = 2
= = 1, 951
s1 9,143

Regiones críticas

80
Probabilidad y Estadística

0,200 4,99
ZR/-------------------Zona------------------/--------Zona---------
Aceptación Rechazo

La zona de aceptación para un nivel de significación del 5% está delimitada por 0,200 y
4,990, correspondientes a las probabilidades a/2 y (1 - a/2) respectivamente.
Decisión
Como Fc = 1,951 se ubica en la zona de aceptación cuyo intervalo es (0,200; 4,99) se
2 2
acepta H 0 : s1 = s2

Luego se concluye que no hay diferencias entre las varianzas poblacionales, lo que
indica el cumplimiento del supuesto de homogeneidad de varianzas

Entonces el intervalo de confianza para la diferencia de medias es el CASO


IIA:

(X 1 - X 2 ) - t1-a / 2;v * S X1 - X 2 �m1 - m2 �( X1 - X 2 ) + t1-a / 2;v * S X1 - X 2

Diferencia de medias muestrales : X 1 - X 2 = 91,50 – 89,88 = 1,62


Coeficiente de confianza : 1 - a = 0,95 � a = 0,05
Grados de libertad : v = n1 + n2 - 2 = 8 + 8 – 2 = 14
t1-a / 2;n1 + n2 -2 = t0,975;14 = 2,145

S X1 - X 2 =
( 8 - 1) *9,143 + ( 8 - 1) *17,839 �1 + 1 �
� �
8+8-2 �8 8�

S X1 - X 2 = 1,8365

Reemplazando en la formula del intervalo se tiene:

1,62 – 2,145*1,8365 �m1 - m2 �1,62 + 2,145*1,8365


-2,319 �m1 - m2 �5,559

81
Probabilidad y Estadística

Interpretación: La diferencia promedio de producciones de artículos en las dos


semanas se estima entre -2,319 a 5,559, con una confianza del 95%. Esto significa que
la producción promedio de artículos entre las dos semanas es igual.

Ejercicios Propuestos

Ejercicio 1: Un profesor de estadística realiza un idéntico cuestionario a dos


grupos de estudiantes de dos universidades diferentes de la misma ciudad. En una
muestra aleatoria de 9 estudiantes de la universidad A, el promedio de notas fue
de 7.5 y desviación estándar de 0.4. En otra muestra aleatoria de 9 estudiantes de
la universidad B la media de las notas fue de 6.7 y desviación estándar de 0.6.
Calcular los límites de confianza del 95% para la diferencia de medias de las
notas entre las dos universidades. Se sabe que la escala de calificación es de 0 a
10.

Ejercicio 2: Se quiere estimar la diferencia de los promedios de los salarios entre


la industria metalmecánica y la industria de los muebles en una ciudad. Para tal
fin se toma una muestra aleatoria de 200 operarios en la primera industria la cual
arroja un salario promedio de $535000 mensuales y desviación estándar de
$128000, mientras que una muestra de 120 operarios en la segunda industria
arroja un salario promedio de $492000 y desviación estándar de $75000. Se pide
estimar el intervalo de confianza para la diferencia de salarios entre las dos
industrias con un nivel de confianza del 90%.

Ejercicio 3: En una compañía se quiere estimar la diferencia de los promedios de


los rendimientos para producir cierta pieza por parte de los obreros en dos turnos
diferentes. Para tal fin el Jefe de producción de la empresa toma muestras de 32
obreros para el turno 1 y encuentra que la media en la misma es de 20 minutos
mientras que la desviación estándar es de 2.8 minutos. Por otra parte tomó una
muestra de 35 obreros del turno 2 y encuentra que la media de la misma es de 22
minutos mientras que la desviación estándar es de 1.9 minutos. Se pide calcular
el intervalo de confianza de la diferencia de las medias de los rendimientos en los
dos turnos con un nivel de confianza del 98%.

Ejercicio 4: Para comparar el contenido promedio de aceites de las semillas de


dos variedades de maní, se diseña un ensayo en el que para cada variedad se
obtienen los contenidos de aceite de 10 bolsas de 1 kg de semillas de maní,
extraídas aleatoriamente de distintos productores de semillas.
Los resultados del ensayo son los siguientes:
Variedad n X s2
1 10 160,4 65,3
2 10 165,6 67,9

Distribución de la proporción muestral

82
Probabilidad y Estadística

Vamos a considerar que tenemos una población de modo que en cada una de
ellas estudiamos una v.a. dicotómica (Bernoulli) de parámetro respectivo p . De la
población vamos a extraer una muestra de tamaño n .
Entonces,
n
X = �xi � B ( n, p )
i =1

x
y la proporción de éxito en la muestra es pˆ =
n

Luego se cumple:

a) m pˆ = E ( pˆ ) = p

p (1 - p)
b) s pˆ = V ( pˆ ) =
2

c) Si el tamaño muestral n es grande, el Teorema Central del Límite nos asegura que:

pˆ - p
z= � N (0,1)
pq
n

Nota: (Error estándar o Error típico de la proporción muestral)

pq p y q conocidos
s p̂ = Tamaño de población (N) demasiado grande o
n infinita.
pq �N - n � p y q conocidos
s pˆ = � � Tamaño de población (N) conocido o finita.
n �N - 1 �
ˆˆ
pq p y q desconocidos, entonces p �pˆ y q �qˆ
S pˆ = Tamaño de población (N) demasiado grande o
n infinita.
ˆ ˆ �N - n � p y q desconocidos, entonces p @ pˆ y q @ qˆ
pq
S pˆ = � � Tamaño de población (N) conocida o finita.
n �N - 1 �

83
Probabilidad y Estadística

Intervalo de Confianza para una Proporción


En este caso, interesa construir un intervalo de confianza para una proporción o un
porcentaje poblacional (por ejemplo, el porcentaje de personas con hipertensión,
fumadoras, etc.)

Donde, p es el porcentaje de personas u objetos con la característica de interés en la


población (o sea, es el parámetro de interés) y p̂ es su estimador puntual muestral.

Luego, procediendo en forma análoga al caso de la media, podemos construir un


intervalo de confianza para la proporción poblacional p, con una confianza de 1 - a .

ˆ - Z1-a / 2 * s pˆ �p �p
p ˆ + Z1-a / 2 *s pˆ

Donde:
x
pˆ =
n
qˆ = 1 - pˆ

Ejemplo 1: Una compañía que fabrica pastelillo desea estimar la proporción de


consumidores que prefieran su marca. Los agentes de la compañía observan a 450
compradores, del número total observado 300 compraron los pastelillos. Calcule un
intervalo de confianza del 95% para la venta de la proporción de compradores que
prefieren la marca de esta compañía.

Solución:
x: Número de consumidores que prefieren los pastelillos.
n = 450 tamaño de muestra grande
x = 300 son los que prefieren los pastelillos en la muestra

84
Probabilidad y Estadística

x 300
pˆ = = = 0, 67 Es la proporción puntual muestral que prefieren los pastelillos
n 450
qˆ = 1 - pˆ = 1 - 0, 67 = 0,33 Es la proporción puntual muestral de los que no prefieren los
pastelillos.
Coeficiente de confianza 1 - a = 0,95 � a = 0,05
Z1-a / 2 = Z 0,975 = 1,96
ˆˆ
pq 0,67 *0,33
s pˆ = = = 0, 022
n 450

Reemplazando en el intervalo de confianza se tiene:


ˆ - Z1-a / 2 * s pˆ �p �p
p ˆ + Z1-a / 2 * s pˆ

0,67 – 1,96 * 0,022 �p �0,67 + 1,96 * 0,022


0,63 �p �0,71

Interpretación: La proporción de consumidores que prefieren la marca de la


compañía por parte de los consumidores se estima entre 0,63 a 0,71, con una confianza
del 95%.

Tamaño de muestra

Se puede determinar que tan grande debe ser el tamaño de la muestra, n, de manera que
si p se estima por p̂ , el error de estimación no sea mayor que un valor dado e. En
efecto:

 Tamaño de población (N) demasiado


grande o infinita.
 Si p y q son desconocidas, se estima por p̂
Z12-a / 2 * pq
n= y q̂ hallados a partir de una muestra piloto.
e2  En últimos de los casos si no se tiene
ninguna información de p y q se asume el
máximo riesgo de p = 0,5 y q = 0,5.
 Tamaño de población (N) conocida o
finita
Z12-a / 2 * pq * N
n= 2  Si p y q son desconocidas, se estima por p̂
Z1-a / 2 * pq + e 2 ( N - 1) y q̂ hallados a partir de una muestra piloto.
 En últimos de los casos si no se tiene
ninguna información de p y q se asume el
máximo riesgo de p = 0,5 y q = 0,5.

Ejercicios Propuestos

85
Probabilidad y Estadística

Ejercicio 1: Una compañía quiere conocer la proporción de consumidores que


adquieren su producto. Encarga a una empresa un estudio de mercado para
obtener un intervalo de confianza al 99% de su proporción de clientes a partir de
una muestra de tamaño 1000. Los resultados muestral es arrojaron que 740 de los
entrevistados eran clientes de su producto.
Ejercicio 2: En un experimento para determinar la toxicidad de una sustancia se
administra una dosis de esta a cada uno de 300 conejos, y se registra el número
de muertos, que resulta ser de 192.
a) Calcule el estimador de p.
b) la probabilidad de que un conejo elegido al azar muera a causa de una dosis
de la sustancia.
c) Calcule la desviación estándar.
d) Construya un intervalo de confianza al 98%.

Distribución de la diferencia de proporciones muestrales

Vamos a considerar que tenemos dos poblaciones de modo que en cada una de ellas
estudiamos una v.a. dicotómica (Bernoulli) de parámetros respectivos p1 y p2 . De cada
población vamos a extraer muestras de tamaño n1 y n2 .
Entonces
n1
x
X 1 = �x1i � B ( n1 , p1 ) pˆ1 = 1
i =1
n1
n2
x2
X 2 = �x2i � B ( n2 , p2 ) pˆ 2 =
i =1
n2

Luego se cumple:

a) m pˆ1 - pˆ 2 = E ( pˆ1 - pˆ 2 ) = p1 - p2
p1q1 p2 q2
b) s pˆ ¨1 - pˆ¨ 2 = V ( pˆ1 - pˆ 2 ) = +
2

n1 n2

c) Si el tamaño muestral n es grande, el Teorema Central del Límite nos asegura que:

86
Probabilidad y Estadística

( pˆ1 - pˆ 2 ) - ( p1 - p2 )
Z= � N (0,1)
s pˆ1 - pˆ 2

Los hombres y mujeres adultos radicados en una ciudad grande del norte
difieren en sus opiniones sobre la promulgación de la pena de muerte para
personas culpables de asesinato. Se cree que el 12% de los hombres adultos
están a favor de la pena de muerte, mientras que sólo 10% de las mujeres
adultas lo están. Si se pregunta a dos muestras aleatorias de 100 hombres y
100 mujeres su opinión sobre la promulgación de la pena de muerte, determine
la probabilidad de que el porcentaje de hombres a favor sea al menos 3%
mayor que el de las mujeres.

Una encuesta del Boston College constó de 320 trabajadores de Michigan que
fueron despedidos entre 1979 y 1984, encontró que 20% habían estado sin
trabajo durante por lo menos dos años. Supóngase que tuviera que seleccionar
otra muestra aleatoria de 320 trabajadores de entre todos los empleados
despedidos entre 1979 y 1984. ¿Cuál sería la probabilidad de que su
porcentaje muestral de trabajadores sin empleo durante por lo menos dos
años, difiera del porcentaje obtenido en la encuesta de Boston College, en 5%
o más?

Intervalo de Confianza para la diferencia de dos proporciones

Si las muestras son suficientemente grandes ocurre que una aproximación para un
intervalo de confianza al nivel 1 - a para la diferencia de proporciones de dos
poblaciones es:
p1 - p2 �( p ˆ 2 ) �Z1-a / 2 * s pˆ1 - pˆ 2
ˆ1 - p

ˆ1qˆ1
p pˆ q
Dónde: s pˆ - pˆ = + 2 2
1 2
n1 n2

Ejemplo 1: En un estudio sobre las relaciones prematrimoniales se encontró en la zona


A que, de 200 personas, 124 estaban a favor y en la zona B, de 266 personas, 133
también lo estaban. Estimar la diferencia de proporciones de ambas zonas al 90% de
confianza comentando el resultado.

Solución:
Zona A
x1 : Número de personas que están a favor de las relaciones prematrimoniales

87
Probabilidad y Estadística

x1 = 124
n1 = 200
x 124
pˆ1 = 1 = � p̂1 = 0,62 qˆ1 = 1 - pˆ1 = 0,38
n1 200

Zona B
x2 : Número de personas que están a favor de las relaciones prematrimoniales
x2 = 133
n2 = 266
x 133
pˆ 2 = 2 = � p̂2 = 0,50 qˆ2 = 1 - pˆ 2 = 0,50
n2 266

1 - a = 0,90 � a = 0,10

Z1-a / 2 = Z 0,95 = 1,645

ˆ1qˆ1
p pˆ q 0, 62 * 0, 38 0, 50 * 0, 50
s pˆ - pˆ = + 2 2 = +
1 2
n1 n2 200 266

s pˆ1 - pˆ 2 = 0, 046
Reemplazando en la formula se tiene:
p1 - p2 �( p ˆ 2 ) �Z1-a / 2 * s pˆ1 - pˆ 2
ˆ1 - p
(0,62 – 0,50) – 1,645 * 0,046 �p1 - p2 �(0,62 – 0,50) + 1,645 * 0,046
0,044 �p1 - p2 �0,196

Interpretación: La diferencia de proporciones de personas que están a favor de las


relaciones prematrimoniales en las dos zonas se estima entre 0,044 a 0,196, con una
confianza del 90%. Esto significa que la proporción de personas de la zona A son las
que están mayormente a favor de las relaciones prematrimoniales respecto a la zona B.

Ejercicios Propuestos

Ejercicio 1: Se está considerando cambiar el procedimiento de manufactura de


partes. Se toman muestras del procedimiento actual así como del nuevo para
determinar si este último resulta mejor. Si 75 de 1000 artículos del procedimiento
actual presentaron defectos y lo mismo sucedió con 80 de 2500 partes del nuevo,
determine un intervalo de confianza del 90 % para la verdadera diferencia de
proporciones de partes defectuosas.
Ejercicio 2: Un productor decide cultivar dos variedades de tomate, valencia y
perita. De la variedad valencia planta 230 semillas y de la variedad perita planta
358. Luego de tres semanas de cultivadas ambas variedades el productor recorre

88
Probabilidad y Estadística

el campo y registra que cantidad de semillas emergieron para cada variedad. Los
resultados son los siguientes:
Variedad Cultivadas Emergieron
Valenciano 230 126
Perita 358 293
a). Que modelo teórico de probabilidad considera apropiado si la variable
aleatoria es "numero de plantas que emergieron de una variedad en el total
que se cultivo de la misma"? ¿Cuales son los parámetros para cada una de las
variedades?
b). Estime para cada variable la proporción de emergencia.
c). Construya un intervalo de confianza al 95 % para la probabilidad de
emergencia de las plantas de cada variedad e interprete en términos del
problema
d). Que supuesto fue necesario para que el intervalo anterior sea valido?
e). Si comparamos ambas variedades con el tomate americano que tiene una
probabilidad de emergencia de 0.65, .que puede decir viendo los intervalos de
confianza?
f). Si el productor quiere saber si el tomate valenciano tiene la misma
probabilidad de emergencia que el tomate americano. ¿Cual es el
procedimiento a seguir? Explíquelo y concluya con el mismo.

Inferencia basada en pruebas de hipótesis para una y


dos muestras

Hipótesis Estadística es una afirmación, conjetura que se hace acerca de un parámetro


poblacional.

Tipos de Hipótesis

Hipótesis nula, es la afirmación que está establecida y que se espera sea rechazada
después de aplicar una prueba estadística y se representa por Ho.

Hipótesis alterna, es la afirmación que se espera sea aceptada después de aplicar una
prueba estadística y se representa por H1 .

Nivel de significación, representada por a , es la probabilidad de cometer error tipo I, y


por lo general se asume que tiene un valor de 0,05 ó 0,01.

Prueba estadística o Estadístico de prueba, es una fórmula, basada en la distribución


del estimador puntual del parámetro que aparece en la hipótesis y que va a permitir
tomar una decisión acerca de aceptar o rechazar una hipótesis nula.

89
Probabilidad y Estadística

Contraste de Hipótesis para la media “µ”

Formas de contraste de las hipótesis:

Depende del planteamiento de la hipótesis alterna

Prueba bilateral Prueba unilateral superior Prueba unilateral inferior


H 0 : m = m0 H 0 : m = m0 H 0 : m = m0
H1 : m �m0 H1 : m > m0 H1 : m > m 0
Fijar nivel de significancia: a = 0,05; 0,01 etc.

Seleccionar el estadístico de prueba:

Caso I: X→ N (µ, σ), σ conocida

El estadístico de prueba es:

X -m
Z = � N (0,1)
sX

Prueba Z- Normal estándar para una muestra.

Usualmente la varianza es desconocida

Caso II: X→ N (µ, σ), σ desconocida

El estadístico de prueba es:

X -m
T = � tn -1
sX

Prueba T- Student para una muestra con n - 1 grados de libertad (gl.)

Regiones Críticas:
Depende de las formas de contraste de las hipótesis.

Contraste Bilateral Contraste unilateral superior Contraste unilateral inferior

90
Probabilidad y Estadística

-- ZR-- /-------------ZA--------------/--ZR-- ----------------ZA---------------/----ZR---- ----ZR-----/-------------ZA----------------


Decisión:

Forma Tabular
Si el valor numérico del estadístico de prueba se ubica en la Zona de Aceptación (ZA)
se acepta la Hipótesis nula H 0 .
Si el valor numérico del estadístico de prueba se ubica en la Zona de Rechazo (ZR) se
rechaza la Hipótesis nula H 0 .

Forma Método “p”


Si el valor numérico de “p” es superior que el nivel de significancia fijado “ a ” se
acepta la Hipótesis nula H 0 .
Si el valor numérico de “p” es inferior que el nivel de significancia fijado “ a ” se
rechaza la Hipótesis nula H 0 .

Ejemplo 1. Un fabricante de lámparas eléctricas está ensayando un nuevo método de


producción que se considerará aceptable si las lámparas obtenidas por este método dan
lugar a una población normal de duración media 2400 horas, con una desviación típica
igual a 300. Se toma una muestra de 100 lámparas producidas por este método y esta
muestra tiene una duración media de 2320 horas. ¿Se puede aceptar la hipótesis de
validez del nuevo proceso de fabricación con un riesgo igual o menor al 5%?
Solución:

Formulación de Hipótesis
H o : m = 2400
H1 : m �2400

Nivel de significancia
a = 0, 05

Estadístico de Prueba

Caso I: X → N (µ, σ), σ = 300 conocida

X -m X -m
Z= =
sX s
n

91
Probabilidad y Estadística

La población N de la producción de lámparas es desconocida, así que puede ser que sea
demasiado grande.

X -m 2320 - 2400
Z = =
s 300
n 100

Z = -2, 67
Regiones críticas

-- ZR-- /----------------ZA---------------/---ZR--
- Z 0,975 Z 0,975
-1,96 1,96

Decisión
En vista que el valor del estadístico de prueba (Z = -2,67) es inferior que el valor tabular
( Z t = -1,96) ubicándose en la zona de rechazo, entonces se rechaza la hipótesis nula H 0 .
Esto significa que el nuevo proceso de fabricación no es aceptable.

Ejemplo 2. Un fabricante de aparatos de TV afirma que se necesita a lo sumo 250


microamperes de corriente para alcanzar cierto grado de brillantez con un tipo de
televisor en particular. Una muestra de 20 aparatos de TV produce un promedio
muestral de corriente de 257,3 microemperes. Denotemos por m el verdadero promedio
de corriente necesaria para alcanzar la brillantez deseada con aparatos de este tipo, y
supongamos que m es la media de una población con s = 15. Pruebe al nivel de
significación del 2,5% la hipótesis nula de que m es a lo sumo 250 microamperes.
Solución:
Formulación de Hipótesis
H 0 : m �250
H1 : m > 250

Nivel de significancia
a = 0, 025
Estadístico de Prueba

Caso II: X → N (µ, σ), s �s = 15 desconocida

X -m X -m
T = =
sX s
n

92
Probabilidad y Estadística

257,3 - 250
T=
15
20

T = 2,176

Regiones críticas

----------------ZA---------------/-----ZR-----
t0,975;19
2,093

Decisión
Dado que el valor del estadístico de prueba ( T = 2,176 ) es superior que el valor tabular
(t = 2,093) , entonces se ubica en la zona de rechazo, rechazando la hipótesis nula H 0 .
Esto demuestra que no se necesita a lo sumo 250 micro amperes, en forma significativa.

Ejercicios Propuestos

Ejercicio 1: La tasa actual para producir fusibles de 5 amp en Neary Electric Co. Es
250 por hora. Se compró e instaló una máquina nueva que, según el proveedor,
aumentará la tasa de producción. Una muestra de 20 horas seleccionadas al azar el mes
pasado indica que la producción media por hora en la nueva máquina es 256, con
desviación estándar de 6 por hora. Con a = 0, 05 de nivel de significancia, ¿Puede
Neary Electric concluir que la nueva máquina es más rápida?
Ejercicio 2: Un fabricante de lámparas eléctricas sostiene que la duración media de
las mismas (horas) es en promedio superior a 1300 h. Se toma una muestra de 17
lámparas siendo el resultado de la inspección el siguiente:
980 1 350 1 020 1 140 1 520 1 390 1 205 1 180 970 1 420 1 850 1 300
1 305 1 040 1 050 1 520 1 320
Verificar el Ho del fabricante con un coeficiente de riesgo del 5% (suponiendo la
distribución normal).
Ejercicio 3: Una empresa desea concursar para ganar un contrato con el gobierno
como proveedor de concreto; uno de los requisitos es la resistencia a la compresión del
concreto a los 28 días de haberse preparado la mezcla. La empresa ganadora dice que
mantiene excelentes controles de calidad en su concreto y como tal hay una varianza
2
muy baja en resistencias a la compresión, del orden de 16 Kg f / cm 4 ; pero al hacerle en
2
la UNAM unas pruebas de resistencia se detecta una varianza mas elevada de 25 Kg f /
cm 4

93
Probabilidad y Estadística

a) ¿hay evidencia estadística suficiente para considerar que el proveedor está mintiendo
2
y en realidad la desviación estándar es DIFERENTE a 16 Kg f / cm 4 ?
b) Redacción de la prueba de hipótesis, indicando si debe ser prueba de una o dos colas
para responder la pregunta.
Ejercicio 4: Un vendedor de neumáticos dice que la vida media de sus neumáticos es
de 28000 Km. Admitiendo para la desviación típica el valor 1348 Km. diseñar un test de
hipótesis al 99% de confianza, basado en muestras de 40 elementos que permita
contrastar la hipótesis nula de ser μ = 28000Km usando como hipótesis alternativa μ <
28000Km
Ejercicio 5: Se pretende diseñar una prueba de hipótesis con una muestra de 74
automóviles para comprobar su capacidad de frenado. Para ello se medirá en todos ellos
la distancia de frenado si el automóvil parte de una velocidad inicial de 100 Km/h. Se
quiere saber si, tras un frenazo brusco, la distancia media recorrida antes de pararse es
de 110 metros. Se supone que la distancia de frenado sigue una distribución normal con
desviación típica conocida σ = 3 m. Supongamos ahora que hemos realizado
efectivamente la prueba a los 74 automóviles y hemos obtenido las siguientes distancias
de frenado.
Distancias 98 102 105 113 123 126
Num. de autos 15 10 12 8 16 13 Total 74
¿Se acepta la hipótesis de que la distancia media de frenado es de 110 m, con un nivel
de significación α = 0.05?
Ejercicio 6: Un fabricante asegura que sus fusibles, con una sobrecarga del 20%, se
fundirán por promedio al cabo de 12.40 min. Una muestra de 20 fusibles se sobrecarga
un 20%, obteniéndose una media de 10.63 y una cuasi desviación de 2.48 min.
¿Confirma la muestra la afirmación del fabricante para el promedio?

Prueba de hipótesis para la varianza

La varianza como medida de dispersión es importante dado que nos


ofrece una mejor visión de dispersión de datos. Nuevamente
consideramos que la población sigue una distribución de probabilidad
normal.

Formulación de las hipótesis

Depende del planteamiento de la hipótesis alterna

Prueba bilateral Prueba unilateral derecho Prueba unilateral inferior


H0 :s = s
2 2
0 H0 : s = s
2 2
0 H 0 : s 2 = s 02
H1 : s 2 �s 02 H1 : s 2 > s 02 H1 : s 2  s 02

Fijar nivel de significancia: a = 0,05; 0,01 etc.

94
Probabilidad y Estadística

Estadístico de prueba:

Si X → N (µ, σ), σ conocida

El estadístico de prueba es:

( n - 1) s 2
c = 2

s2

Prueba Chi cuadrado ( c 2 ) para una muestra con n-1 grados de libertad (gl.)
Regiones críticas
Depende de las formas de contraste de las hipótesis.

Contraste Bilateral Contraste unilateral inferior Contraste unilateral superior

---ZR--/----------ZA---------/--------ZR---------- ----ZR--/-------------------ZA---------------------- ------------------ZA---------/----------ZR----------

Decisión:

Forma Tabular
Si el valor numérico del estadístico de prueba se ubica en la Zona de Aceptación (ZA)
se acepta la Hipótesis nula H 0 .
Si el valor numérico del estadístico de prueba se ubica en la Zona de Rechazo (ZR) se
rechaza la Hipótesis nula H 0 .

Ejemplo
Una firma agroindustrial desea incorporar un nuevo mecanismo en las
máquinas enfardadoras que fabrica. El ingeniero a cargo del proyecto
sospecha que esta innovación puede producir un aumento de la varianza del
peso de los fardos. La desviación estándar que se obtiene con la maquinaria
sin modificar es de 1.5 kg. Para evaluar el nuevo mecanismo, se realizó un
ensayo tomando 10 fardos al azar de un lote de alfalfa. Los pesos de dichos
fardos fueron: 28.3; 27.8; 29.3; 30.1; 32.5; 27.2; 25.3; 32.2; 33.6; 30.7, con
varianza muestral = 6.87.

95
Probabilidad y Estadística

Ejemplo 1: Un negocio debe pagar horas extra dada la demanda


incierta de su producto, por lo cual en promedio se pagan 50 horas
extra a la semana; el gerente de recursos humanos considera que
siempre se ha tenido una varianza de 25 en las horas extras
demandadas. Si se toma una muestra de 16 semanas se obtiene una
varianza muestral de 28,1. Determine con alfa = 0,10 si la varianza
poblacional de las horas extras demandadas a la semana puede
considerarse igual a 25.
Solución:

Formulación de hipótesis
H 0 : s 2 = 25
H1 : s 2 �25

Nivel de significancia

a = 0,10

Estadístico de prueba
( n - 1) s 2 (16 - 1) * 28,1
c =2
=
0
s 2
25

c 02 = 16,86

Regiones críticas

----ZR----/---------------ZA------------/-------------ZR-------------
c 0,05;15
2
c 0,95;15
2

7,261 24,996

Decisión
Como que el valor del estadístico de prueba se ubica entre los valores tabulares (7,261
�c 02 = 16,86 �24,996), es decir dentro de la zona de aceptación, entonces se acepta la
hipótesis nula H 0 . Efectivamente se puede concluir con una confianza del 90% que la
varianza poblacional de las horas extras demandadas a la semana es
igual a 25.

96
Probabilidad y Estadística

Ejercicios propuestos

Ejercicio 1: Un supervisor de control de calidad en una enlatadora sabe que la


cantidad exacta en cada lata varía, pues hay ciertos factores imposibles de controlar que
afectan a la cantidad de llenado. El llenado medio por lata es importante, pero
igualmente importante es la variación s 2 de la cantidad de llenado. Si s 2 es grande,
algunas latas contendrán muy poco, y otras, demasiado. A fin de estimar la variación del
llenado en la enlatadora, el supervisor escoge al azar 10 latas y pesa el contenido de
cada una, obteniendo el siguiente pesaje (en onzas):
7,96 7,90 7,98 8,01 7,97 7,96 8,03 8,02 8,04 8,02
Suponga que las agencias reguladoras especifican que la desviación estándar de la
cantidad de llenado debe ser menor que 0,1 onzas. ¿Esta información proporciona
pruebas suficientes de que la desviación estándar de las mediciones de llenado es menor
que 0,1 onzas si el nivel de significación queda fijado en un 5%?

Ejercicio 2: Se supone que los diámetros de cierta marca de válvulas están


distribuidos normalmente con una varianza poblacional de 0,2 pu lg adas 2 , pero se cree
que últimamente ha aumentado. Se toma una muestra aleatoria de válvulas a las que se
les mide su diámetro, obteniéndose los siguientes resultados en pulgadas: 5,5 5,4 5,4
5,6 5,8 5,4 5,5 5,4 5,6 5,7
Con ésta información pruebe si lo que se cree es cierto.

Prueba de Hipótesis para la diferencia de medias ( m1 - m2 )

Supongamos que se tiene dos poblaciones distribuidas normalmente con medias


desconocidas m1 y m 2 , respectivamente. Se puede aplicar una prueba z o t de Student
para comparar las medias de dichas poblaciones basándonos en dos muestras
independientes tomadas de ellas. La primera muestra es de tamaño n1 , con media X 1 y
la segunda muestra es de tamaño n2 , tiene media X 2 . Donde las varianzas
poblacionales pueden ser conocidas ( s 1 y s 2 ) o desconocidas ( s1 y s2 ).
2 2 2 2

Formulación de las hipótesis para muestras independientes

Depende del planteamiento de la hipótesis alterna

Prueba bilateral Prueba unilateral superior Prueba unilateral inferior


H 0 : m1 = m2 H 0 : m1 = m 2 H 0 : m1 = m 2
H1 : m1 �m 2 H1 : m1 > m 2 H1 : m1  m 2

Fijar el nivel de significancia: a = 0,05; 0,01 etc.

Estadístico de prueba

97
Probabilidad y Estadística

Caso I: Muestras independientes, Varianzas poblacionales conocidas ( s 12 y s 22 )

El estadístico de prueba es:

( X 1 - X 2 ) - ( m1 - m2 )
Z= � N (0,1)
s X1 - X 2
s 12 s 22
Donde: s X 1-X2
= +
n1 n2

Caso IIA: Normal-Muestras independientes, Varianzas poblacionales iguales (


s 12 = s 22 ) y desconocidas

El estadístico de prueba es:

( X 1 - X 2 ) - ( m1 - m2 )
T= � tn1 + n2 - 2
S X1 - X 2

Donde: v = n1 + n2 - 2 es el grado de libertad.

S X1 - X 2 =
( n1 - 1) * s12 + ( n2 - 1) * s22 �1 1 �
� + �
n1 + n2 - 2 �n1 n2 �

Caso IIB: Normal-Muestras independientes, Varianzas poblacionales diferentes (


s 12 �s 22 ) y desconocidas

El estadístico de prueba es:

( X 1 - X 2 ) - ( m1 - m2 )
T= � tv
S X1 - X 2

Donde:
s12 s22
S X1 - X 2 = +
n1 n2

2
� S12 S22 �
� n +
n2 �
n= � 2 � -2
1

�S1 � �
2
S2 �
2 2
Es el grado de libertad, que toma un valor numérico
� n � � n �
� 1 �+ � 2 �
n1 + 1 n2 + 1
redondeado entero.

98
Probabilidad y Estadística

Usualmente las varianzas son desconocidas

Regiones críticas

Contraste Bilateral Contraste unilateral superior Contraste unilateral inferior

-- ZR-- /-------------ZA--------------/--ZR-- ----------------ZA---------------/----ZR---- ----ZR-----/-------------ZA----------------

Decisión:

Forma Tabular
Si el valor numérico del estadístico de prueba se ubica en la Zona de Aceptación (ZA)
se acepta la Hipótesis nula H 0 .
Si el valor numérico del estadístico de prueba se ubica en la Zona de Rechazo (ZR) se
rechaza la Hipótesis nula H 0 .

Forma Método “p”


Si el valor numérico de “p” es superior que el nivel de significancia fijado “ a ” se
acepta la Hipótesis nula H 0 .
Si el valor numérico de “p” es inferior que el nivel de significancia fijado “ a ” se
rechaza la Hipótesis nula H 0 .

Ejemplo 1: Para comparar el contenido promedio de aceites de las semillas de dos


variedades de maní, se plantean las hipótesis H0: m1= m2 vs. H1: m1 ¹ m2
Se diseña un ensayo en el que para cada variedad se obtienen los contenidos de aceite de
10 bolsas de 1 kg de semillas de maní, extraídas aleatoriamente de distintos productores
de semillas. Usar a = 0,05.
Los resultados del ensayo son los siguientes:

Variedad n X s2
1 10 160,4 65,3
2 10 165,6 67,9

Solución:
Según los datos corresponden al CASO II: Muestras independientes, varianzas
poblacionales desconocidas ( s 1 , s 2 ). Ahora el problema es;
2 2

¿Cómo saber si las varianzas son iguales o diferentes?

Suponiendo normalidad para las observaciones de las muestras, se realiza la prueba de


homogeneidad de varianzas, que consiste en lo siguiente:

99
Probabilidad y Estadística

Formulación de hipótesis

H 0 : s 12 = s 22 vs. H1 : s 12 �s 22

Nivel de significancia
a = 0,05.

Estadístico de prueba
s12 65, 3
F = 2
=
s2 67, 9

65, 3
F = = 0, 96
67, 9

Regiones críticas
Distribución F de Snedecor

0.0 0.248 1.5 3.0 4.03 4.5 6.0

-ZR-/--------------------------ZA-------------------------/-----------ZR--------------

Decisión:

La región de aceptación para un nivel de significación del 5% está delimitada por 0,248
y 4,03, correspondientes a las probabilidades a/2 y (1 - a/2) respectivamente.

Como F = 0,96 está en el intervalo (0,248; 4,03), es decir en la zona de aceptación, se


2 2
acepta H 0 : s1 = s2 , lo cual significa el cumplimiento del supuesto de homogeneidad
de varianzas.

Entonces aplicaremos CASO IIA: Prueba T para la diferencia de medias con


varianzas poblacionales ( s 1 = s 2 ) y desconocidas
2 2

Formulación de hipótesis

H0: m1= m2 vs. H1: m1 ¹ m2

Nivel de significancia
a = 0,05.

100
Probabilidad y Estadística

Estadístico de prueba

T =
(X 1 - X 2 ) - ( m1 - m2 )
( n1 - 1) S12 + ( n2 - 1) S 22
�1 1 � S p2 =
S p2 � + � n1 + n2 - 2
�n1 n2 �

s 2p =
( 10 - 1) *65,3 + ( 10 - 1) *67,9 = 66,6
10 + 10 - 2

T =
( 160, 4 - 165, 6 ) - ( 0 ) = -1, 42
�1 1 �
66, 6 � + �
�10 10 �

Regiones críticas

Distribución T de Student

-4.0 -2.7 -1.3 0.0 1.3 2.7 4.0


-2.101 2.101

---------ZR-------/---------------------ZA-------------------/--------ZR---------

Decisión

La región de aceptación para un nivel de significación del 5% está delimitada por -2,101
y 2,101, correspondientes a los probabilidades a/2 y (1 - a/2) respectivamente y 18
grados de libertad

Como T = -1,42 está en el intervalo (-2,101; 2,101), es decir en la zona de aceptación,


se acepta H0: m1= m2
Entonces se concluye que no hay diferencias entre el contenido promedio de aceites de
las semillas de dos variedades de maní.

Ejemplo 2. Un constructor está considerando dos lugares alternativos para construir


un centro comercial. Como los ingresos de los hogares de la comunidad son una
consideración importante en ésta selección, desea probar que el ingreso promedio de la
primera comunidad excede al promedio de la segunda comunidad en cuando menos
$1,5 diarios. Con la información de un censo realizado el año anterior sabe que la
desviación estándar del ingreso diario de la primera comunidad es de $1,8 y la de la
segunda es de $2,4

101
Probabilidad y Estadística

Para una muestra aleatoria de 30 hogares de la primera comunidad, encuentra que el


ingreso diario promedio es de $35,5 y con una muestra de 40 hogares de la segunda
comunidad el ingreso promedio diario es de $34,6. Pruebe la hipótesis con un nivel de
confianza del 95 por ciento.
Solución:
Datos
Primera comunidad Segunda comunidad
s 1 = $ 1,8 s 2 = $ 2,4
n1 = 30 n2 = 40
X 1 = $ 35,5 X 2 = $ 34,6

Formulación de hipótesis
H 0 :m1 - m2 �1,5
H1 : m1 - m2  1,5

Nivel de significancia
a = 0,05

Estadístico de prueba
Según los datos corresponden al CASO I: Muestras independientes con varianzas
poblacionales conocidas. Entonces:

( X 1 - X 2 ) - ( m1 - m2 ) ( X 1 - X 2 ) - ( m1 - m2 )
Z= =
s X1 - X 2 s 12 s 22
+
n1 n2

(35,5 - 34, 6) - 1,5


Z=
1,82 2, 42
+
30 40

Z = - 1,195

Regiones críticas

----ZR-----/-------------ZA-----------------
- z1-a
-1,645

Decisión
La región de aceptación para un nivel de significación del 5% está delimitada por -1,645
y + �, correspondientes a la probabilidad (1 - a).

102
Probabilidad y Estadística

Como Z = -1,195 está en el intervalo (- �;-1,645), es decir en la zona de echazo, se


rechaza H0
Entonces se concluye que el ingreso promedio de la primera comunidad no excede al
promedio de la segunda comunidad en cuando menos $1,5 diarios, con un nivel de
confianza del 95%.

Ejercicios propuestos

Ejercicios 1. Un investigador desea averiguar si una industria está contaminando el


agua de un arroyo al cual evacua sus efluentes. A tal fin toma muestras de agua en dos
sitios: 1) aguas arriba del establecimiento y 2) aguas abajo del mismo. Los siguientes
son valores de concentración de uno de los metales pesados encontrados en cada sitio.
Aguas arriba
8 10 6 9 4 7 5 12 8 7 8 7 12 5 6 9
6 4 5 9 8 11 8 6 12 9 8 10 6 9 4 7
8 7 12 5 6 9 7 10 6 8 6 4 5 9 8 11
8 6 12 9 5 12 8 7 7 10 6 8

Aguas abajo
9 12 8 15 12 10 7 12 10 14 12 13 10 12 9 12
9 14 10 10 13 12 12 15 11 9 9 12 8 15 12 10
12 13 10 12 9 12 7 13 15 10 9 14 10 10 13 12
12 15 11 9 7 12 10 14 7 13 15 10

¿Cree Ud. que existen diferencias en la concentración de este metal pesado entre uno y
otro sitio? Evalúe su respuesta para un α = 0,02
Ejercicio 2. Un fabricante que usa dos líneas de producción 1 y 2 hizo un ligero ajuste
a la línea 2 con la esperanza de reducir tanto la variabilidad como la cantidad promedio
de impurezas en la sustancia química. Muestras aleatorias en cada línea arrojaron las
siguientes mediciones:
Línea n Promedio Varianza
1 16 3,2 1,04
2 16 3,0 0,51
¿Los datos aportan suficiente evidencia para concluir que la cantidad promedio de
impurezas de la línea 1 es menor que la línea 2?
Ejercicio 3. Una muestra de 80 alambres de acero producidos por la fábrica A
presenta una resistencia promedio a la ruptura de 1.230 lbs. con una desviación estándar
de 120 lbs Una muestra de 100 alambres de acero producidos por la fábrica B presenta
una resistencia promedio a la ruptura de 1.110 lbs . con una desviación estándar de 90
lbs .. Con base en ésta información pruebe si la resistencia promedio a la rotura de los
alambres de acero de la marca A es significativamente mayor que la de los alambres de
acero de la marca B. Asuma un nivel de confianza del 99 por ciento.
Ejercicio 4. El jefe de personal de una gran empresa afirma que la diferencia de los
promedios de antigüedad entre los obreras y obreros de la compañía es de 3.5 años. El
presidente de la compañía considera que ésta diferencia es superior. Para comprobar
dicha situación, se toma una muestra aleatoria de 40 obreras cuyo promedio de
antigüedad es de 12.4 años con desviación estándar de 1.5 años y de un grupo de 45

103
Probabilidad y Estadística

obreros cuyo promedio de antigüedad es de 8.3 años con desviación estándar de 1.7
años. Comprobar la hipótesis con un nivel de significación del 5%.
Caso III: Normal- Muestras dependientes

Los datos se obtienen de muestras que están relacionadas, es decir, los resultados del
primer grupo no son independientes de los del segundo.

Por ejemplo, esto ocurre cuando se mide el nivel de un metabolito en cada uno de los
individuos de un grupo experimental antes y después de la administración de una
droga.

El objetivo es comprobar si la droga produce efectos en el nivel del metabolito

Los pares de observaciones (antes y después) obtenidas en cada individuo no son


independientes ya que el nivel posterior a la administración de la droga depende del
nivel inicial.

Ejemplo

ANTES DESPUES DIF


8,69 7,24 1,45
7,13 7,10 0,03
7,79 7,80 -0,01
7,93 7,95 -0,02
7,59 7,50 0,09
7,86 7,79 0,07
9,06 9,00 0,06
9,59 9,48 0,11

Formulación de Hipótesis

Prueba bilateral Prueba unilateral inferior Prueba unilateral superior


H 0 : md = 0 H 0 : md = 0 H 0 : md = 0
H1 : m d �0 H1 : m d  0 H1 : m d > 0

Fijar nivel de significancia


a = 0,05; 0,01 etc.

Estadístico de prueba

T =
( D-m ) d
~ t n -1
�S d2 �
� �
�n �

104
Probabilidad y Estadística

T =
( D-m ) d
=
0, 22 - 0
= 1.26
� S � 2 0, 50
d
� � 8
�n �
Regiones críticas

-- ZR-- /-------------ZA--------------/--ZR--
- ta / 2 t1-a / 2
-2,365 2,365

Fijando a = 0.05, la región de aceptación es el intervalo (t a/2= -2,365, t1- a/2 =


2,365), con 7 grados de libertad

Como T = 1,26 es menor que t1- a/2= 2,365, se ubica en la zona de aceptación, por lo
tanto se acepta H 0 : m d = 0

Se concluye que la droga no causo efectos significativos, es decir que no existe


diferencias observadas entre los niveles de metabolitos por uno u otro individuo en
forma significativa.

Prueba de hipótesis para la proporción (de éxitos) de una sola


población

Vamos a considerar que tenemos una población de modo que en cada una de ellas
estudiamos una v.a. dicotómica (Bernoulli) de parámetro respectivo p . De la
población vamos a extraer una muestra de tamaño n .
Entonces,
n
X = �xi � B ( n, p )
i =1

En este caso, interesa contrastar hipótesis para una proporción o un porcentaje


poblacional (por ejemplo, el porcentaje de personas con hipertensión, fumadoras,
etc.)

Si el tamaño muestral n es grande, el Teorema Central del Límite nos asegura


que:

� p (1 - p ) �
pˆ � N �p; �
� n �

105
Probabilidad y Estadística

O bien:

pˆ - p
z= � N (0,1)
ˆˆ
pq
n

Donde:

p es la proporción o el porcentaje de personas u objetos con la característica de


interés en la población (o sea, es el parámetro de interés) y p̂ es su estimador
puntual muestral.

Formulación de Hipótesis

Prueba Bilateral Prueba unilateral superior Prueba unilateral inferior


H 0 : p = p0 H 0 : p = p0 H 0 : p = p0
H1 : p �p0 H1 : p > p0 H1 : p  p0

Fijar nivel de significancia


a = 0,05; 0,01 etc.

Estadística de prueba

pˆ - p 0
Z = � Normal ( 0 , 1)
p 0q 0

Donde:
q0 = 1 - p0
p : Proporción muestral de éxitos

Regiones críticas

Contraste Bilateral Contraste unilateral superior Contraste unilateral inferior

-- ZR-- /-------------ZA--------------/--ZR-- ----------------ZA---------------/----ZR---- ----ZR-----/--------------ZA----------------

Decisión

Forma Tabular

106
Probabilidad y Estadística

Si el valor numérico del estadístico de prueba se ubica en la Zona de Aceptación (ZA)


se acepta la Hipótesis nula H 0 .
Si el valor numérico del estadístico de prueba se ubica en la Zona de Rechazo (ZR) se
rechaza la Hipótesis nula H 0 .

Forma Método “p”


Si el valor numérico de “p” es superior que el nivel de significancia fijado “ a ” se
acepta la Hipótesis nula H 0 .
Si el valor numérico de “p” es inferior que el nivel de significancia fijado “ a ” se
rechaza la Hipótesis nula H 0 .

Ejemplo 1. En una gran compañía, el 18% o más de los trabajadores están de


acuerdo con un proyecto de ley que modifica el código laboral Peruano. La gerencia de
la compañía selecciona una muestra aleatoria de 120 trabajadores, donde el 30% están
de acuerdo con dicho proyecto de ley. ¿Cual es la conclusión del gerente?
Solución:

Formulación de hipótesis
H 0 : p = 0,18
H1 : p > 0,18

Nivel de significancia
a = 1%

Estadístico de prueba

ˆ - p0
p 0,30 -0,18
Z = =
p 0q 0 0,18*0,82
n 120

Z = 3,43

Regiones críticas

------------------ZA--------------/----ZR-----
z1-a
2,33

Decisión
Fijando a = 0.01, la región de aceptación es el intervalo (- � ; z1-a = 2,33)

107
Probabilidad y Estadística

Como el estadístico de prueba Z = 3,43 es mayor que z1-a = 2,33, es decir se ubica en la
zona de rechazo, se rechaza H0
El gerente concluye que efectivamente el 18% o más de los trabajadores están de
acuerdo con un proyecto de ley que modifica el código laboral Peruano.

Ejercicios propuestos

Ejercicio 1. Se conoce por experiencia que el 14% de la producción de cierto artículo


resulta defectuosa. Se introducen algunos correctivos en el proceso y luego mediante
una muestra de 360 artículos escogidos aleatoriamente, se encuentra que el 13.33%
resultan defectuosos. Comprobar si los cambios mejoraron la calidad con un nivel de
significación del 5%.
Ejercicio 2. Un propietario de un gran taller de reparación de artículos
electrodomésticos, asegura que por lo menos en el 30% de las reparaciones se hacen
posteriores reclamos. Uno de sus empleados piensa que dicha proporción es mayor y
para probarlo toma una muestra aleatoria de 120 órdenes de reparación efectuadas
anteriormente y encuentra que el 39.17% de las mismas fueron objeto de reclamos.
¿Quién tiene la razón? Nivel de significación del 1%.
Ejercicio 3. Una compañía estima que tiene una participación en el mercado de un
80% para su producto estrella. Mediante una muestra aleatoria de 400 posibles
consumidores se encuentra que el 75% de los mismos consumen el referido producto.
¿Con un nivel de significación del 1%, puede concluirse a través de los resultados que
dicha proporción es menor?

Ejercicio 4. Se quiere comprar una maquina troqueladora y se adquirirá si la


proporción de piezas defectuosas producidas por la máquina es 10% o menos. Se
examina una muestra aleatoria de 40 piezas y se encuentra que 7.5% resultaron
defectuosas. ¿Con un nivel de significación del 5%, puede concluirse que la máquina
satisface los requerimientos?

Prueba de hipótesis para la diferencia entre las proporciones de dos


poblaciones

Vamos a considerar que tenemos dos poblaciones de modo que en cada una de
ellas estudiamos una v.a. dicotómica (Bernoulli) de parámetros respectivos p1 y
p2 . De cada población vamos a extraer muestras de tamaño n1 y n2 .
Entonces

n1
X 1 = �x1i � B ( n1 , p1 )
i =1

n2
X 2 = �x2i � B ( n2 , p2 )
i =1

108
Probabilidad y Estadística

Si las muestras son suficientemente grandes ocurre que una aproximación para la
prueba de hipótesis al nivel de significancia “ a ” para la diferencia de
proporciones de dos poblaciones es:

Formulación de Hipótesis

Prueba bilateral Prueba unilateral inferior Prueba unilateral superior


H 0 : p1 = p2 H 0 : p1 = p2 H 0 : p1 = p2
H1 : p1 �p2 H1 : p1  p2 H1 : p1 > p2

Fijar nivel de significación


a = 0,05; 0,01 etc.

Estadística de prueba

(pˆ 1 - pˆ 2 )-(p1-p 2 )
Z = � Normal ( 0 , 1)
�1 1 �
pq � + �

�n1 n2 �

ˆ 1 + n 2 pˆ 2
n1 p
p =
n1 + n 2

Regiones críticas

Contraste Bilateral Contraste unilateral superior Contraste unilateral inferior

-- ZR-- /-------------ZA--------------/--ZR-- ----------------ZA---------------/----ZR---- ----ZR-----/--------------ZA----------------

Decisión

Forma Tabular
Si el valor numérico del estadístico de prueba se ubica en la Zona de Aceptación (ZA)
se acepta la Hipótesis nula H 0 .
Si el valor numérico del estadístico de prueba se ubica en la Zona de Rechazo (ZR) se
rechaza la Hipótesis nula H 0 .

Forma Método “p”


Si el valor numérico de “p” es superior que el nivel de significancia fijado “ a ” se
acepta la Hipótesis nula H 0 .

109
Probabilidad y Estadística

Si el valor numérico de “p” es inferior que el nivel de significancia fijado “ a ” se


rechaza la Hipótesis nula H 0 .

Ejemplo 1. Una firma distribuye dos variedades de maíz. En una encuesta se


encuentra que 56 de 200 agricultores prefieren la variedad A y que 29 de 150
agricultores prefieren la variedad B. ¿Se puede concluir al nivel de significación del 5%
que la variedad A tiene mayor preferencia que la variedad B?
Solución:

Marca A Marca B
X 1 : Número de agricultores que X 2 : Número de agricultores que
prefieren la variedad A prefieren la variedad B
X 1 = 56 X 2 = 29
n1 = 200 n2 = 150
X 56 X 29
pˆ1 = 1 = pˆ 2 = 2 =
n1 200 n2 150
p̂1 = 0,28 � q̂1 = 0,72 p̂2 = 0,19 � q̂2 = 0,81

Formulación de hipótesis
H 0 : p1 = p2
H1 : p1 > p2

Nivel de significancia
a = 5%

Estadístico de prueba

ˆ1 - p
(p ˆ 2 )-(p1-p 2 ) (0,28-0,19) -0
Z = =
�1 1 � �1 1 �
pq �

+ � 0,24*0,76� + �
�n1 n2 �
� �200 150 �

Z = 1,96

Calculando
ˆ1 + n2p
n1 p ˆ2 200 * 0, 28 + 150 * 0,19
p = =
n1 + n 2 200 + 150

p = 0,24 q = 0,76

Regiones críticas

110
Probabilidad y Estadística

----------------ZA---------------/-----ZR----
z1-a
1,645
Decisión
Fijando a = 0.05, la región de aceptación es el intervalo (- � ; z1-a = 1,645)
Como el estadístico de prueba Z = 1,96 es mayor que z1-a = 1,645, es decir se ubica en
la zona de rechazo, se rechaza H0
Se concluye que efectivamente la variedad A tiene mayor preferencia que la variedad B
con un nivel de confianza del 95%.

Ejercicios propuestos

Ejercicio 1. Dos máquinas A y B, producen un mismo artículo. La máquina A produce


como término medio una proporción de 14% de artículos defectuosos, mientras que la
máquina B, produce en término medio una proporción de 20% de artículos defectuosos.
Si se obtiene una muestra aleatoria de 200 unidades del artículo que provengan de la
máquina A y una muestra aleatoria de 100 unidades provenientes de la máquina B.
Demostrar que la máquina B tenga una proporción de defectuosos 8% o más que A. Se
supone que la población es infinita.
Ejercicio 2. Se seleccionó una muestra aleatoria de 100 hombres y 100 mujeres de un
departamento de Colombia; se halló que de los hombres 60 estaban a favor de una ley
de divorcio y de las mujeres 55 estaban a favor de dicha ley. Con base en ésta
información, pruebe que la proporción de hombres que favorece ésta ley es mayor que
la proporción de mujeres. Asuma un nivel de confianza del 99 por ciento.
Ejercicio 3. La maqueta del nuevo automóvil propuesto se mostró a dos grupos de
150 personas cada uno. Un grupo constó de personas entre 18 y 25 años de edad, y el
otro de personas mayores de 50 años. El 80% de los integrantes del grupo más joven
aprobó el modelo, mientras que sólo el 50% del grupo mayor en edad lo aprueba.
Dentro de un 95% de confiabilidad, ¿puede decirse que ambos grupos tienen opiniones
diferentes?
Ejercicio 4. Un profesor de Estadística desea comparar el porcentaje de aprobados de
la sección “A” contra el porcentaje de aprobados de la sección “B”. En la sección “A”
se tomó una muestra de 26 estudiantes, de los cuales 16 habían aprobado, de la sección
“B” una muestra de 28 estudiantes reveló 25 aprobados. Utilice un 99% de confiabilidad
para comprobar si el porcentaje de aprobados de la sección “B” es superior al de la
sección “A”.

Prueba de hipótesis de independencia de criterios (comparación de


proporciones de k grupos)

111
Probabilidad y Estadística

PRUEBA JI CUADRADO DE PEARSON

Uno de los usos más frecuentes de la distribución ji-cuadrado es probar la hipótesis


nula de que dos criterios de clasificación, son independientes. Se dice que dos criterios
de clasificación son independientes si la distribución de uno no se ve afectada por la
distribución del otro.
Para realizar el análisis de los datos o frecuencias conjuntas (O ij) los datos deben
disponerse en una tabla de contingencia, de acuerdo a dos criterios.

Criterio 2 Criterio 1 ni.


1 2 ... c
1 O11 O12 ... O1c n1.
2 O21 O22 ... O2c n2.

r Or1 Or2 ... Orc nr.


n. j n.1 n. 2 ... n.c n

El procedimiento de la prueba es el siguiente:

Formulación de hipótesis
Ho: Ambos criterios de clasificación son independientes
H1: Ambos criterios de clasificación no son independientes

Nivel de significación
a = 0,05; 0,01 etc.

Estadístico de prueba o Función pivotal


  (Oij - E ij ) 2
c2 =
E ij

n i. x n. j
E ij =
n

Oij: Frecuencia observada


Eij: Frecuencia esperada

Valor de p ó valor c tab


2
= c (2r -1)( c -1) ; 1-a
Decisión

Forma Tabular
Rechazar Ho si c2 > c tab2

112
Probabilidad y Estadística

No rechazar Ho si c 2
 c 2
tab
Forma Método “p”

Rechazar Ho si (p < 0.05 ó p < 0.01)


No rechazar Ho si (p > 0.05)

Esto es:

Si p < 0.05, Existe relación estadísticamente significativa entre las variables


en estudio.

Si p < 0.01, Existe relación altamente significativa entre las variables en


estudio.
Si p > 0.05, No existe relación estadísticamente significativa entre las variables
en estudio.

Ejemplo 1: Se hizo en Perú un estudio hacia fines del año 2010 con una muestra
informantes dirigentes sociales, 17 hombres y 15 mujeres, a fin de conocer su
percepción de la situación económica del país. Los resultados son los siguientes, en
número de casos:
Sexo Percepción de la situación económica Total
Buena Aceptable Deficiente
Hombre 8 (9,03) 6 (5,31) 3 (2,66) 17
Mujer 9 (7,97) 4 (4,69) 2 (2,34) 15
Total 17 10 5 32

Con un nivel de significación del 10% realice un contraste de hipótesis para responder a
la afirmación de que la percepción de la situación económica está asociada al género del
encuestado.
Solución:

Formulación de hipótesis
H 0 : La percepción de la situación económica es independiente del sexo del encuestado
H1 : La percepción de la situación económica es dependiente del sexo del encuestado
Nivel de significancia
a = 10%

Estadístico de prueba
  (Oij - E ij ) 2
c2 =
E ij
Hallando la frecuencia esperada
n1. x n .1 17 *17
E11 = = = 9, 03
n 32

113
Probabilidad y Estadística

n1. * n.2 17 *10


E12 = = = 5, 31
n 32
.
.
.

n2. * n.3 17 *5
E23 = = = 2, 66
n 32

Reemplazando

(8 - 9, 03) 2 (6 - 5,31) 2 (2 - 2,34) 2


c = 2
+ + ... +
9, 03 5,31 2,34

c 2 = 0,535

Valor tabular

c12-a ;( F -1)( C -1) = c 0,90;(1)(2)


2
= c 0,90;2
2
= 4,605

Regiones críticas

-----------------ZA---------/----------ZR----------
4,605

Decisión
Fijando a = 0.10, la región de aceptación es el intervalo (0; c 0,90;2 = 4,605)
2

Como el estadístico de prueba c 2 = 0,535 es menor que c 0,90;2 = 4,605, es decir se ubica
2

en la zona de aceptación, se acepta H0.


Lo que nos permite concluir con una confianza del 90% que la percepción de la
situación económica no está asociado al género del encuestado.

Bibliografía

114
Probabilidad y Estadística

1. HARNNET MURPHY. Introducción al Análisis Estadístico. Addison. Wesley,


Iberoamericana, 1986.
2. HOEL, PAUL B. Estadística Elemental. CECSA, 1986.
3. KENNEDY, JOHN. NEVILLE ADAM. Estadística para Ciencias e Ingeniería.
Harla, México 1982.
4. MEYER L P. Probabilidad y Aplicaciones Estadísticas. Fondo Educativo
Interamericano 1986.
5. MILLER IRWIN, FREUND, JHON E. Probabilidad y Estadística para el Ingeniero.
Prentice Hall. Inc. México, 1986.
6. STEVENSON, WILLIAM. Estadística para Administración y Economía. Harla.
México, 1986.
7. WONNACOT THOMAS. Introducción a la Estadística. Limusa S.A. 1981.
8. HINES W. MONTGOMERY D. Probabilidad y Estadística para Ingeniería y
Administración, Compañía Editorial Continental. S.A. de C.V.
9. WALPOLE R. MYERS R. Probabilidad y Estadística. Edit. Mc. Graw Hill
Interamericana de México de C.V.1992.
10. SCHEAFFER Mc. Clave. Probabilidad y Estadística para Ingenieros, Edit. Grupo
Editorial Iberoamericana, 1993.
11. William Mendenhall/ Terry Sincich. Probabilidad y Estadística para Ingeniería y
Ciencias. Editorial Prentice Hall, 1997. Cuarta Edición.
12. Murray R. Spiegel. Estadística. Editorial McGrawHill. 1995.
13. Webster, Allen. Estadística Aplicada. Editorial McGrawHill. 2001.

115

Das könnte Ihnen auch gefallen