Estadistica y Probabilidades

Probabilidad y Estadística
UNIVERSIDAD NACIONAL DEL SANTA
FACULTA DE CIENCIAS
DEPARTAMENTO DE MATEMATICAS
Escuela Académica Profesional de Ingeniería en Energía
MANUAL
PROBABILIDAD Y ESTADÍSTICA
Autor
Ms. Luis Pajuelo Gonzáles
Primera Edición 2011
1
INDICE GENERAL
INTRODUCCIÓN A LA ESTADÍSTICA…………………………………………. 4
Importancia de la Estadística………………………………………………………… 5
Conceptos básicos en la estadística………………………………………………….. 6
Variables estadísticas………………………………………………………………… 7
Muestreo……………………………………………………………………………… 9
PRESENTACIÓN DE LOS DATOS………………………………………………. 17
Distribución de frecuencias…………………………………………………………… 17
Distribución de frecuencias por intervalos…………………………………………… 17
Distribución de frecuencias por clases……………………………………………….. 21
Distribución de frecuencias por categorías…………………………………………… 22
MEDIDAS ESTADÍSTICAS……………………………………………………….. 26
Medidas de centralización…………………………………………………………….. 26
Media Aritmética……………………………………………………………… 26
Mediana……………………………………………………………………….. 29
Moda………………………………………………………………………….. 32
Medidas de dispersión………………………………………………………………… 36
Varianza……………………………………………………………………….. 36
Desviación estándar…………………………………………………………… 37
Coeficiente de variación………………………………………………………. 37
Medidas de forma……………………………………………………………………... 40
Asimetría………………………………………………………………………. 40
Kurtosis…………………………………………………………………………42
PROBABILIDAD Y DISTRIBUCIONES DE PROBABILIDAD…………………43
Reseña histórica……………………………………………………………………….. 43
Conceptos básicos……………………………………………………………………... 44
Definición de probabilidad….………………………………………………………… 45
Enfoques de probabilidad…………………………………………………………….. 46
Propiedades de la probabilidad………………………………………………………. 47
Probabilidad condicional…………………………………………………………….. 47
Partición del espacio muestral……………………………………………………….. 49
Probabilidad total…………………………………………………………….. 49
Teorema de Bayes……………………………………………………………. 49
Variable Aleatoria……………………………………………………………………. 50
Variable aleatoria discreta……………………………………………………. 50
Variable aleatoria continúa…………………………………………………… 51
DISTRIBUCIONES PARA VARIABLES ALEATORIAS DISCRETAS……… 51
Distribución Binomial……………………………………………………… 52
Distribución de Poisson……………………………………………………… 55
DISTRIBUCIONES PARA VARIABLES ALEATORIAS CONTINUAS…….. 58
Distribución Normal…………………………………………………………. 58
Distribución t Student………………………………………………………... 62
Distribución Chi – cuadrado…………………………………………………. 64
Distribución F de Fisher……………………………………………………… 65
INTRODUCCIÓN A LA ESTADÍSTICA INFERENCIAL……………………... 67
Estimación de Parámetros…………………………………………………………. 68
Distribución de la media muestral…………………………………………… 68
Estimación por Intervalos de confianza para la media poblacional µ……….. 69
2
Tamaños de muestra para variables cuantitativas………………………………70

Intervalo de confianza para la varianza………………………………………...74
Distribución para la diferencia de medias muestrales…………………………75
Intervalo de confianza para la diferencia de medias ( m1 - m 2 )……………….75
Distribución para una proporción muestral…………………………………….80
Intervalo de confianza para una proporción……………………………………81
Tamaño de muestra para variables dicotomicas………………………………..82
Distribución para la diferencia de proporciones muestrales……………………83
Intervalo de confianza para la diferencia de proporciones……………………..83
Pruebas de hipótesis…………………………………………………………………. 86
Prueba de hipótesis para la media µ…………………………………………... 86
Prueba de hipótesis para la varianza………………………………………….. 91
Prueba de hipótesis para la diferencia de medias ( m1 - m 2 )……………… 93
Prueba de hipótesis para la proporción………………………………………..101
Prueba de hipótesis para la diferencia de proporciones……………………….104
Prueba de hipótesis de independencia de criterios…………………………….107
3
Capítulo 1
INTRODUCCIÓN A LA ESTADÍSTICA
A medida que aumenta la complejidad de nuestro mundo y nos internamos por los
senderos reales y virtuales del nuevo milenio, se hace más difícil tomar decisiones
informadas e inteligentes. Con frecuencia, estas decisiones han de tomarse con un
conocimiento imperfecto de la situación y un grado considerable de incertidumbre, sin
embargo, las soluciones pertinentes son esenciales para nuestro bienestar e incluso para
nuestra supervivencia. Estamos expuestos a la presión constante de problemas
económicos galopantes y angustiantes, en casi todos los países desarrollados,
subdesarrollados y tercermundistas, un sistema fiscal engorroso, coercitivo e injusto y
oscilaciones excesivas del ciclo económico.
Todo nuestro tejido socioeconómico esta amenazado por una contaminación ambiental
exponencialmente creciente, por una deuda pública opresiva y criminal, por un índice de
delincuencia que se incrementa sin cesar día a día como consecuencia de la perdida de
valores morales y por unos intereses impredecibles que coadyuvan a incrementar la ya
casi infinita brecha entre los países desarrollados y los países pobres de Asia,
Latinoamérica y África.
Nuestro periodo de éxito en este planeta, relativamente, breve no es ninguna garantía de
supervivencia futura. A menos que se encuentren soluciones viables a estos apremiantes
problemas. En razón de lo anteriormente expuesto, es necesario contar con herramientas
altamente confiables que nos permitan tomar decisiones acertadas y eficaces para poder
resolver los problemas prioritarios que podrían enmarcarse posiblemente de acuerdo al
criterio 80/20 (el 80% de todos los problemas se deben al 20% de las causas.) .De ahí
que sea fundamental que todos los futuros profesionales que pretendan dirigir
correctamente los destinos de la humanidad, aprendan y se sirvan de los métodos
estadísticos para minimizar la probabilidad de error en la toma de decisiones en esta era
llamada del conocimiento, que actualmente cuentan con todas las ayudas de última
generación que a través de excelentes software permiten agilizar todo el trabajo
estadístico. Es altamente recomendable que a la par con la formación humanística que
se imparte en nuestra universidad, se actualice las técnicas pedagógicas y se introduzcan
en los contenidos programáticos y curriculares de los diferentes programas, la
4
obligación que los docentes y estudiantes utilicen los diferentes software que se
consiguen en el mercado, que le permitan estar actualizados con las tecnologías de
puntas.
1.1. IMPORTANCIA DE LA ESTADÍSTICA

Todos los campos de la investigación científica seria, se pueden beneficiar del análisis
estadístico ya que las técnicas estadísticas se pueden utilizar en casi todos los aspectos
de la vida. Se diseñan encuestas para recopilar información previa al día de elecciones y
así predecir el resultado de las mismas. Se seleccionan al azar consumidores para
obtener información con el fin de predecir la preferencia con respecto a ciertos
productos y/o servicios.
Los responsables de la toma de decisiones sobre la política económica, asesores
presidenciales, ministeriales y de otros altos cargos públicos, tienen en la estadística una
herramienta muy valiosa. Los economistas consideran varios índices de la situación
económica durante cierto periodo y utilizan la información para predecir la situación
económica futura. Únicamente con la ayuda del análisis estadístico pueden tomarse
decisiones inteligentes en relación con los tipos tributarios, programas sociales, gastos
de defensas, políticas laborales, inversiones prioritarias.
Es fundamental para los empresarios, en su búsqueda incansable del beneficio, donde
las actividades de control total de calidad, minimización de costos, combinación de
productos - existencias y multitud de aspectos empresariales se pueden gestionar con
eficacia mediante procedimientos estadísticos contrastados. Los ingenieros muestrean
las características de calidad de un producto, juntos con otras variables controladas del
proceso para facilitar la identificación de las variables que están mas relacionadas con
dicha calidad.
En la investigación de mercados, la estadística representa una ayuda inestimable para
determinar si es probable que un nuevo producto y/o servicio tenga éxito. Su utilidad es
evidente también para los asesores financieros que han de evaluar las oportunidades de
inversión a través de las bolsas de valores. Contadores, directores de personal y
fabricantes se benefician igualmente del análisis estadístico.
Incluso los investigadores médicos, sicólogos, siquiatras y muchos profesionales del
sector de la salud y del comportamiento, que preocupados por la eficacia de nuevos
medicamentos, realizan experimentos para determinar su efecto bajo ciertas condiciones
5
ambientales controladas en los humanos y en los animales para la determinación del

método apropiado para curar ciertas enfermedades, encuentran en la estadística un
aliado imprescindible.
En término generales la estadística se puede utilizar para mejorar el rendimiento en el
trabajo y en muchos aspectos de la vida diaria ya que es una guía universal para lo
desconocido.
1.2. CONCEPTOS BÁSICOS EN LA ESTADÍSTICA
Estadística
Es una ciencia que requiere del conocimiento matemático y que nos permite recopilar,
organizar (clasificar, agrupar), presentar, describir y analizar datos a fin de realizar
generalizaciones validas o tomar eficientes decisiones.
Estadística Descriptiva
Presenta un conjunto de métodos que nos permite recolectar, presentar los datos en
tablas o cuadros y gráficos, describir y analizar mediante el caculo de las medidas de
resumen; sin intentar inferir nada que vaya más allá de los datos como tales.
Estadística Inferencial
Presenta un conjunto de métodos que nos permite realizar generalizaciones válidas en
una población con un nivel de confiabilidad sobre los resultados obtenidos en una
muestra.
Población
Es un conjunto de individuos, objetos o eventos que contienen una o más características
comunes observables de naturaleza cuantitativa o cualitativa. Su tamaño comúnmente se
denota por “N”.
Unidad de observación, unidad estadística o unidad de análisis, es el individuo,

objeto o evento de una población, de quien se obtiene información. La unidad debe ser
adecuada al tipo de investigación y debe poseer características claras y entendibles que
permitan mediciones y comparaciones.
6
Dato, valor observado o simplemente observación, es el resultado de medir una

característica de una unidad de análisis.
Parámetro, es un número o una medida de resumen que describe a una característica de
la población, tal como la media poblacional ( m ) o la varianza poblacional ( s ) .

2
Tamaño de la Población, por el número de elementos que la componen la población se

clasifica en finita o infinita.
La población es finita cuando tiene un número limitado de elementos y es infinita caso
contrario. En la práctica una población finita que tiene un gran número de elementos se
le considera una población infinita.
Muestra
Es un sub conjunto o parte de una población seleccionada de acuerdo a un plan de
muestreo, de tal manera que sea representativa. El tamaño de la muestra se suele denotar
por “n”.
Estadístico o estadígrafo, es un número o una medida de resumen que describe a una
característica de la muestra, tal como la media muestral ( X) o la varianza muestral
(s ).
2
1.3. VARIABLES ESTADÍSTICAS

Rasgo, característica o propiedades medibles, observables con variabilidad que poseen
los elementos de una población o de una muestra. Una variable puede ser cualitativa o
cuantitativa.
ESCALA DE MEDIDA. Es un patrón o conjunto de criterios claramente definidos que

permite asignar, sin ambigüedades, valor a una variable. El concepto de valor incluye,
además de números, letras, letras y números, palabras, etc.
VARIABLE CUALITATIVA: Es aquella que su medición se puede expresar

normalmente por medio de una palabra o palabras y no de números.
7
Por ejemplo, el estado civil, la nacionalidad, el sexo, la profesión, la raza, el color de la

piel de los profesores de la UNS.
Las variables cualitativas pueden ser binomiales o multinomiales. Se pueden hacer

observaciones solas en dos categorías sobre una variable cualitativa binomial, por
ejemplo, hombre o mujer, buenas o malas, rico o pobre, ausente o presente, empleado o
desempleado.
Sobre una variable cualitativa multinomial se pueden hacer observaciones en más de
dos categorías, por ejemplo, en puestos de trabajo, colores, idiomas, nacionalidades,
religiones, etc. Las variables cualitativas pueden ser nominales u ordinales.
NOMINAL. Sirven únicamente para identificar la diferencia o semejanza, así como el

criterio para asignar el número u el código, por ejemplo para saber el color del pelo de
una persona.
ORDINAL. Permite distinguir diferencia o semanaza y jerarquía, además asigna el

número a una variable que sirve sólo para ordenar, por ejemplo como el puesto que
ocupa un atleta en una carrera.
VARIABLE CUANTITATIVA: Es aquella que su medición se expresa

numéricamente. Por ejemplo, las exportaciones de café, las ventas de acero, el ingreso
per cápita, la producción de autos, el decomiso de cocaína, las hectáreas fumigadas, etc.
Las variables cuantitativas pueden ser discretas o continuas.
VARIABLE DISCRETA: Es aquella que solo puede tomar determinados valores por lo
general, números enteros, por ejemplo, el numero de hijos de una familia, numero de
empleados de una empresa, numero de vacas en una hacienda, numero de carros
fabricados, etc.
VARIABLE CONTINUA: Es aquella que toma cualquier valor dentro de un intervalo

dado. Por muy cerca que estén dos observaciones siempre es posible hacer otra
medición que caigan dentro de esas dos. Los valores de una variable continua provienen
de las mediciones y de los pesajes. Por ejemplo el peso del recién nacido, las
exportaciones en dólares del espárrago, etc.
8
DATO: Es cualquier observación individual de una característica (variable) especifica,

susceptible de ser comparada. Un conjunto de datos es univariado, bivariado o
multivariado si contiene una, dos, o mas de dos variables.
En el cuadro No 1 que aparece a continuación se muestra una base de datos donde se

pueden observar los diferentes componentes (unidad elemental, tipos de variables,
datos, muestra, etc.).
CUADRO No 1
BASE DE DATOS DE LOS EMPLEADOS DE LA EMPRESA
Metalconsulting Ingenieria Ltda.
1.4. MUESTREO
Los métodos estadísticos proponen diferentes tipos de muestreo, aunque en general

pueden dividirse en dos grandes grupos: métodos de muestreo probabilísticas y métodos
de muestreo no probabilísticas.
9
Métodos de muestreo probabilísticas
Los métodos de muestreo probabilística son aquellos que se basan en el principio de

equiprobabilidad. Es decir, aquellos en los que todos los individuos tienen la misma
probabilidad de ser elegidos para formar parte de una muestra y, consiguientemente,
todas las posibles muestras de tamaño “n” tienen la misma probabilidad de ser elegidas.
Solo estos métodos de muestreo probabilística aseguran la representatividad de la
muestra extraída y son, por tanto, los más recomendables. Dentro de los métodos de
muestreo probabilística se encuentran los siguientes tipos:
Muestreo aleatorio simple
El procedimiento empleado es el siguiente: 1) se asigna un número a cada individuo de

la población, y 2) a través de algún medio mecánico (bolas dentro de una bolsa, tablas
de números aleatorios, números aleatorios generados con una calculadora u ordenador,
etc.) se eligen tantos sujetos como sea necesario para completar el tamaño de muestra
requerido. Este procedimiento, atractivo por su simpleza, tiene poca o nula utilidad
practica cuando la población que se esta manejando es muy grande.
Muestreo aleatorio sistemático
Este procedimiento exige, como el anterior, numerar todos los elementos de la

población, pero en lugar de extraer “n” números aleatorios solo se extrae uno. Se parte
de ese numero aleatorio i, que es un numero elegido al azar, y los elementos que
integran la muestra son los que ocupan los lugares i, i+k, i+2k, i+3k,..., i+(n-1) k, es
decir se toman los individuos de k en k, siendo k el resultado de dividir el tamaño de la
población entre el tamaño de la muestra:
k=N/n. El numero i que se emplea como punto de partida será un número al azar entre 1
y k.
El riesgo se este tipo de muestreo esta en los casos en que se dan periodicidades en la
población ya que al elegir a los miembros de la muestra con una periodicidad constante
(k) se puede introducir una homogeneidad que no se da en la población. Supóngase que
se esta seleccionando una muestra sobre listas de 10 individuos en los que los 5
primeros son varones y los 5 últimos mujeres; si se emplea un muestreo aleatorio
sistemático con k=10 siempre serán seleccionados o solo hombres o solo mujeres; no
podría haber una representación de los dos sexos.
10
Muestreo aleatorio estratificado
Trata de obviar las dificultades que presentan los anteriores, ya que simplifica los
procesos y suele reducir el error muestral para un tamaño dado de la muestra. Consiste
en considerar categorías típicas diferentes entre si (estratos) que poseen gran
homogeneidad respecto a alguna característica (se puede estratificar, por ejemplo, según
la profesión, el municipio de residencia, el sexo, el estado civil, etc.). Lo que se
pretende con este tipo de muestreo es asegurarse de que todos los estratos de interés
estarán representados adecuadamente en la muestra. Cada estrato funciona
independientemente, pudiendo aplicarse dentro de ellos el muestreo aleatorio simple o
el estratificado para elegir los elementos concretos que formaran parte de la muestra. En
ocasiones, las dificultades que plantea son demasiado grandes, pues exige un
conocimiento detallado de la población (tamaño geográfico, sexos, edades...).
La distribución de la muestra en función de los diferentes estratos se denomina
afijación, y puede ser de diferentes tipos:
Afijación simple: a cada estrato le corresponde igual número de elementos muestrales.

Afijación proporcional: la distribución se hace de acuerdo con el peso (tamaño) de la
población en cada estrato.
Afijación óptima: se tiene en cuenta la previsible dispersión de los resultados, de modo
que se consideran la proporción y la desviación típica. Tiene poca aplicación ya que no
se suele conocer la desviación.
Por ejemplo, se esta interesado en estudiar el grado de aceptación que la implantación

de la reforma educativa ha tenido entre los padres de un municipio. A tal efecto se
selecciono una muestra de 600 padres de familia. Se conoce por los datos del Ministerio
de Educación que de los 10000 niños escolarizados en la básica, 7000 acuden a colegios
públicos y 3000 a colegios privados. Como el interés es que en la muestra estén
representados todos los tipos de colegio, se realiza un muestreo estratificado empleando
como variable de estratificación el tipo de colegio.
Si se emplea una afijación simple serian 300 niños de cada tipo de centro, pero en este
caso parece mas razonable utilizar una afijación proporcional pues hay bastante
11
diferencia en el tamaño de los estratos. Por consiguiente, se calcula la proporción para

cada uno de los estratos respecto de la población, para poder reflejarlo en la muestra.
Colegios públicos: 7000/10000 = 0.70
Colegios privados: 3000/10000 = 0.30
Para conocer el tamaño de cada estrato en la muestra se multiplica la proporción por el
tamaño muestral.
Colegios públicos: 0.70x600 = 420 padres de familia
Colegios privados: 0.30x600 = 180 padres de familia
Muestreo aleatorio por conglomerados
Los métodos presentados hasta ahora están pensados para seleccionar directamente los
elementos de la población, es decir, que las unidades muestrales son los elementos de la
población. En el muestreo por conglomerados la unidad muestral es un grupo de
elementos de la población que forman una unidad, a la que se denomina conglomerado.
Las unidades hospitalarias, los departamentos universitarios, una caja de determinado
producto, etc. son conglomerados naturales. En otras ocasiones, se pueden utilizar
conglomerados no naturales como, por ejemplo, las urnas electorales. Cuando los
conglomerados son áreas geográficas suele hablarse de "muestreo por áreas".
El muestreo por conglomerados consiste en seleccionar aleatoriamente un cierto numero
de conglomerados (el necesario para alcanzar el tamaño muestral establecido) y en
investigar después todos los elementos pertenecientes a los conglomerados elegidos.
Por ejemplo, en una investigación se trata de conocer el grado de satisfacción laboral
de los empleados de una cadena de almacenes; se toma una muestra de 700 empleados.
Ante la dificultad de acceder individualmente a estos empleados, se decide hacer una
muestra por conglomerados.
Sabiendo que el número de empleados por almacén es aproximadamente de 35, los
pasos a seguir serian:
 Recoger un listado de todos los almacenes.
 Asignar un número a cada uno de ellos.
 Elegir por muestreo aleatorio simple o sistemático los 20 almacenes (700/35 = 20)
que proporcionaran los 700 empleados que se necesitan.
Finalmente, ante lo compleja que puede llegar a ser la situación real de muestreo es muy
común emplear lo que se denomina muestreo polietápico. Este tipo de muestreo se
12
caracteriza por operar en sucesivas etapas, empleando en cada una de ellas el método de
muestreo probabilística mas adecuado.
Métodos de muestreo no probabilísticas
A veces, para estudios exploratorios, el muestreo probabilística resulta excesivamente

costoso y se acude a métodos no probabilísticas, aun siendo conscientes de que no
sirven para realizar generalizaciones, pues no se tiene certeza de que la muestra extraída
sea representativa, ya que no todos los sujetos de la población tienen la misma
probabilidad de ser elegidos. En general, se selecciona a los sujetos siguiendo
determinados criterios procurando que la muestra sea representativa.
Muestreo por cuotas
También denominado en ocasiones "accidental". Se asienta generalmente sobre la base

de un buen conocimiento de los estratos de la población y/o de los individuos más
"representativos" o "adecuados" para los fines de la investigación. Mantiene, por tanto,
semejanzas con el muestreo aleatorio estratificado, pero no tiene el carácter de
aleatoriedad de aquel. En este tipo de muestreo se fijan unas "cuotas" que consisten en
un número de individuos que reúnen determinadas condiciones, por ejemplo: 20
individuos de 25 a 40 anos, de sexo femenino y residentes en una misma ciudad. Una
vez determinada la cuota, se eligen los primeros que se encuentre que cumplan esas
características. Este método se utiliza mucho en las encuestas de opinión.
Por ejemplo, una universidad desea estudiar la incidencia de las drogas en la
adolescencia. Lo que debería hacer seria: conocer por los informes del Estado cuales
son los centros educativos mas afectados por el problema, fijar un numero de sujetos a
entrevistar, proporcional a cada uno de los estratos (cuotas) y, finalmente, dejar en
manos de los responsables del trabajo de campo a que sujetos concretos se deberá
entrevistar.
Muestreo opinático o intencional
Este tipo de muestreo se caracteriza por un esfuerzo deliberado de obtener muestras

"representativas" mediante la inclusión en la muestra de grupos supuestamente típicos.
Es muy frecuente su utilización en sondeos preelectorales de zonas que en anteriores
votaciones han marcado tendencias de voto.
13
Muestreo casual o incidental
Se trata de un proceso en el que el investigador selecciona directa e intencionadamente

los individuos de la población. El caso mas frecuente de este procedimiento es el utilizar
como muestra los individuos a los que se tiene fácil acceso (los profesores de
universidad emplean con mucha frecuencia a sus propios alumnos). Un caso particular
es el de los voluntarios.
Bola de nieve
Se localiza a algunos individuos, los cuales conducen a otros, y estos a otros, y así hasta
conseguir una muestra suficiente. Este tipo se emplea muy frecuentemente cuando se
hacen estudios con poblaciones "marginales", delincuentes, sectas, determinados tipos
de enfermos, egresados de una institución, etc.
Evaluación del valor de una encuesta
Cotidianamente se oye o se lee sobre resultados de encuestas en los diferentes medios

de comunicación. Es evidente que los avances tecnológicos en las comunicaciones han
provocado la proliferación de investigaciones por medio de encuestas; sin embargo, no
todas son aceptables, significativas o importantes.
Para evitar encuestas carentes de objetividad o credibilidad, debe evaluarse con sentido
crítico todo lo que se lee y escucha, además de examinarse el valor de la encuesta,
evaluando los siguientes aspectos:
 Propósito de la encuesta: por que y para quien se realiza. Un resultado de opinión o
una encuesta realizada para satisfacer la curiosidad pertenece a la esfera de la
diversión. Su resultado es un fin en si mismo, no un medio para lograr un fin. Debe
existir escepticismo ante tales encuestas porque el resultado no tiene una aplicación
posterior.
 Determinar si la encuesta esta basada en una muestra probabilística o no
probabilística: el único medio disponible para hacer inferencias estadísticas
correctas a partir de una muestra es el uso de un muestreo probabilística. Las
encuestas que emplean métodos de muestreo no probabilística están sujetas a errores
significativos, quizás no intencionales, que pueden generar resultados sin sentido.
14
Errores en las encuestas
Aun cuando en las encuestas se utilizan métodos de muestreo probabilística, están

sujetas a errores potenciales, los cuales se describen a continuación:
Error de cobertura o sesgo en la selección
La clave para una selección apropiada en la muestra es un marco de población adecuado

o una lista actualizada de todos los elementos que participaran en el muestreo. El error
de cobertura ocurre si se excluyen ciertos elementos de la lista de población, de manera
que no tienen oportunidad de ser seleccionados en la muestra. El error de cobertura
conduce a un sesgo de selección. Si el listado es inadecuado porque no se incluyeron
algunos elementos de la población, cualquier muestra probabilística aleatoria
proporcionara una estimación de las características del marco, no de la población real.
Error o sesgo de no respuesta
No todas las personas están dispuestas a contestar una encuesta. El error de no respuesta
surge del fracaso al recopilar datos de todos los sujetos de la muestra y el resultado es
un sesgo de no respuesta. Como en general no se puede suponer que las personas que no
responden son semejantes a aquellas que si responden, es importante realizar un
seguimiento a las no respuestas después de un periodo determinado. Deben hacerse
varios intentos, ya sea por correo o por teléfono, para convencerlos de que diligencien la
encuesta. Con base en estos resultados, las estimaciones obtenidas con las respuestas
iniciales se combinan con las estimaciones obtenidas con el seguimiento, de manera que
las inferencias hechas a partir de la encuesta sean validas.
Error de muestreo
El error de muestreo se presenta cuando se encuesta una muestra y no la población, es

decir, cuando no se aplica un censo. Aun cuando no se puede evitar este error, si se
puede controlar; una forma importante de controlarlo es seleccionar un método o un
diseño adecuado de muestreo. El error de muestreo muestra la heterogeneidad o las
“diferencias aleatorias” de una muestra a otra, según la probabilidad de que elementos
específicos sean seleccionados en unas muestras determinadas.
15
Error de medición
Se refiere a la falta de precisión en las respuestas registradas, debido a fallas en la

redacción del enunciado de las preguntas, la influencia del entrevistador en la persona
que responde, o por el esfuerzo que realiza la persona que responde.
Aspectos éticos del muestreo
En la actualidad se existe una tendencia a la proliferación de investigaciones que se

apoyan en encuestas; no todas son buenas, significativas o importantes, y no todas son
éticas. Debe intentarse distinguir entre un diseño de encuesta deficiente y un diseño
carente de ética.
Las consideraciones éticas surgen con relación a cuatro tipos de errores potenciales que
pueden ocurrir cuando se diseñan encuestas que utilizan muestras probabilísticas
aleatorias: error de cobertura o sesgo de selección, error o sesgo de no respuesta, error
de muestreo y error de medición. El error de cobertura o sesgo de selección se convierte
en un problema ético, solo si se excluyen a propósito grupos específicos de individuos
del marco de población, para obtener resultados sesgados, que indican una oposición
más favorable para los intereses del investigador.
De igual manera, el error o sesgo de no respuesta se convierte en un problema ético,
solo si es menos probable que grupos o individuos específicos respondan a una
encuesta, y si el investigador la diseña a propósito con el fin de excluir grupos o
elementos. El error de muestreo se convierte en un problema ético, solo cuando los
resultados se presentan, a propósito, sin referencia al tamaño de muestra o al margen de
error, de modo que el investigador puede promover un punto de vista que de otra
manera seria insignificante.
El error de medición se convierte en un problema ético en cualquiera de las siguientes
situaciones:
 Un investigador puede elegir preguntas orientadas que guían las respuestas hacia
una dirección específica.
 Un investigador, mediante actitudes y tono de voz, puede crear un efecto deliberado
de halo o puede guiar las respuestas en cierta dirección.
 Alguien que responde, pero no esta de acuerdo con la encuesta, puede proporcionar
información falsa a propósito.
16
1.5. PRESENTACION DE LOS DATOS
DISTRIBUCION DE FRECUENCIA
Una distribución de frecuencia es un método para organizar, clasificar y resumir datos.
También se conoce con el nombre de distribución de frecuencia a una tabulación de
datos en clases, intervalos de clase o categoría; con la frecuencia correspondiente a cada
una, a fin de realizar una especial descripción y análisis.
Para elaborar los cuadros o tablas de la distribución de los datos se debe, antes que todo
Identificar las características que se investigaron, ya que esto permite una mejor
clasificación de lo observado, estas características se refieren a las Cualitativas y
Cuantitativas.
Componentes de una Distribución de Frecuencias

Frecuencia absoluta simple, representa el número de veces que se repite la clase,
intervalo de clase o categoría. Se denota por f i .

Frecuencia absoluta acumulada, se obtiene sumando las frecuencias absolutas
simples, y siempre nos da un acumulado igual al tamaño de la muestra. Se denota por
Fi .
Frecuencia relativa simple, representa la proporción de unidades de análisis en la

clase, intervalo de clase o categoría y resulta de dividir cada una de las frecuencias
fi
absoluta simples por el tamaño de la muestra. Se denota por hi = .
n
Frecuencia relativa acumulada, resulta de la acumulación de las frecuencias relativas
simples, esta frecuencia siempre tiende a la unidad. Se denota por H i .

n : Tamaño de la muestra, es el número de observaciones.
xi : La variable, es cada uno de los diferentes valores que se han observando o
también puede ser la marca de clase.
DISTRIBUCIÓN DE FRECUENCIA POR INTERVALOS
Como se ha visto, un conjunto de observaciones normalmente cuantitativas continuas o

discretas con valores grandes, puede hacerse más comprensible y adquirir mayor
17
significado, lograrse una mayor síntesis, tabulando o agrupando los datos. Para agrupar
a un conjunto de observaciones, se selecciona un conjunto de intervalos, contiguos, que
no se traslapen, tales que cada valor en el conjunto de observación puede colocarse en
uno, de los intervalos de clase. Los pasos a seguir para la construcción de intervalos son
los siguientes:
Paso I: Hallar el Rango o Recorrido de los Datos (R)
La diferencia entre el dato mayor y el dato menor se llama RECORRIDO o RANGO
de los datos. Esto es:
R = Dato mayor – Dato menor
Paso II: Hallar el número de Intervalos (m)

La pregunta es ¿cuántos intervalos van a incluirse? Demasiado o poco no es
conveniente debido a que hay pérdida de información. Por otra parte, si se usan
demasiados intervalos, no se logra objetivo de la síntesis.
Una de las formas para obtener el número de intervalos es aplicando la regla de
STURGES, con la cual se obtiene una aproximación aceptable sobre el número de
intervalos necesarios para agruparlos. Esto es: m = 1 + 3,33log(n)
Donde n nos representa el tamaño de muestra o número de datos considerados, esta

regla de STURGES no se considera como final, sino sólo como una guía. El número de
intervalos especificado por medio de esta regla debe aumentarse o disminuirse según
convenga y el beneficio de una presentación clara.
Paso III: Hallar la Amplitud del Intervalo (A)

Aunque a veces es imposible, por lo general, los intervalos deben tener amplitudes
iguales. Puede determinarse esta amplitud (A) dividiendo el recorrido (R) entre el
número de intervalo (m). Esto es:
A=R/m
Como regla, este procedimiento proporciona una amplitud que no es conveniente usarla.
Una vez más, debe aplicarse el buen juicio y seleccionar una amplitud (por lo común,
próxima a la dada por la ecuación) que sea más conveniente.
Consideramos el siguiente Ejemplo 1:
18
Colectivo: 60 cilindros fabricados por una máquina en el taller el Milagro. Chimbote.

2011.
Variable X: longitud en centímetros
Valores observados:
239, 254, 255, 248, 246, 249, 242, 250, 249, 244, 253, 248
250, 258, 252, 251, 250, 253, 247, 243, 245, 251, 247, 250
248, 250, 260, 249, 249, 250, 251, 253, 241, 251, 249, 252
250, 247, 251, 259, 250, 246, 252, 238, 251, 238, 235, 259
249, 257, 249, 247, 251, 246, 245, 243, 250, 249, 242, 238
Solución:
a) Identificar la unidad de análisis, variable de estudio, clasificación de la variable, el

lugar y tiempo.
Unidad de análisis : El cilindro

Variable de estudio : Longitud
Clasificación de la variable : Cuantitativa continua
Lugar : Taller el Milagro - Chimbote
Tiempo : 2011
b) Construir la distribución de frecuencias y sus respectivos gráficos.
Rango : R = Dato máximo – Dato mínimo

R = 260 – 235 � R = 25
Número de Intervalos : m = 1 + 3,33log(n) � m=1 + 3,33log (60)

m = 1 + 3,33*1,778 � m = 6,92 @ 5, 6 ó 7
R 25
Amplitud del Intervalo : A= � A= =5
m 5
Construyendo la Tabla de frecuencias con datos agrupados en intervalos:
Tabla 01
Longitud en centímetros de los cilindros fabricados por una máquina en el taller el

Milagro, Chimbote – 2011.
Intervalos Marcas de Frecuencias Frecuencias Frecuencia

[ Li -1 - Li ) clase absolutas relativas porcentual
yi fi Fi hi Hi hi *100%
235 - 240 237,5 5 5 0,08 0,08 8%
240 - 245 242,5 8 13 0,13 0,22 13%
245 - 250 247,5 27 40 0,45 0,67 45%
250 - 255 252,5 15 55 0,25 0,92 25%
255 - 260 257,5 5 60 0,08 1,00 8%
19
Total n=60 1,00 100%

FUENTE: Taller el Milagro
Presentación gráfica: En distribución de frecuencias por intervalos de clase los
gráficos a presentar son: Histograma de frecuencias y Polígono de frecuencias
Gráfico 01

HISTOGRAMA
FUENTE: Tabla 01
Gráfico 02

POLIGONO
20
FUENTE: Tabla 01
DISTRIBUCIÓN DE FRECUENCIA POR CLASES
Un conjunto de observaciones normalmente cuantitativas discretas con valores

pequeños, puede hacerse más comprensible, adquirir mayor significado, lograrse una
mayor síntesis, tabulando o agrupando los datos. Para agrupar a un conjunto de
observaciones, se selecciona las clases o valores numéricos contiguos, tales que cada
valor en el conjunto de observación puede colocarse en uno, de las clases.
Ejemplo 2.
Unos grandes almacenes en la ciudad de Nuevo Chimbote disponen de un aparcamiento
para sus clientes. Los siguientes datos que se refieren al número de horas que
permanecen en el aparcamiento una serie de coches se registro en Diciembre del 2011,
los cuales se muestran a continuación:
4 4 2 4 5 3 6 3 5 3 2 1 3 7 3 1 5 1 7 2 5 2 4 7 3 6 2 2 4 1 6 4 3 3 4
5 4 3 2 4 3 2 4 4 3 6 6 4 5 5 4 5 5 1 7 4 4 3 6 5
Se pide:
A. Obtener la tabla de frecuencias para ese conjunto de datos. Interpretar la tabla.
B. Elaborar la gráfica.
Solución
Unidad de análisis : El coche
Variable de estudio : Número de horas que permanecen en el aparcamiento
Clasificación de la variable : Cuantitativa discreta
Lugar : Almacenes – Nuevo Chimbote
Tiempo : Diciembre, 2011
A) Obtener la tabla de frecuencias para ese conjunto de datos. Interpretar la tabla.
21
Tabla 02
Número de horas que permanecen en el aparcamiento una serie de coches en
grandes almacenes de Nuevo Chimbote – Diciembre, 2011.
Nº de Frecuencias Frecuencias Frecuencia

Horas… absolutas relativas porcentual
yi fi Fi hi Hi hi *100%
1 5 5 0,08 0,08 8%
2 8 13 0,13 0,21 13%
3 12 25 0,20 0,41 20%
4 15 40 0,25 0,66 25%
5 10 50 0,17 0,83 17%
6 6 56 0,10 0,93 10%
7 4 60 0,07 1,00 7%
Total n=60 1,00 100%
FUENTE: Municipalidad Nuevo Chimbote
B. Elaborar la gráfica.
Presentación gráfica: En distribución de frecuencias por clases el gráfico a presentar se

denomina Bastones
Gráfico 03
Número de horas que permanecen en el aparcamiento una serie de coches en

grandes almacenes de Nuevo Chimbote – Diciembre, 2011.
FUENTE: Tabla 02
DISTRIBUCIÓN DE FRECUENCIA POR CATEGORIAS
Un conjunto de observaciones normalmente cualitativas con categorías nominales u

ordinales, puede hacerse más comprensible, adquirir mayor significado, lograrse una
mayor síntesis, tabulando o agrupando los datos. Para agrupar a un conjunto de
22
observaciones, se selecciona las categorías contiguas, tales que cada valor en el

conjunto de observación puede colocarse en uno, de las categorías.
Ejemplo 3.
Se efectúa una encuesta sobre el nivel de estudios de personas que reciben planes jefes y
jefas de hogar de la Ciudad de Nvo. Chimbote, marzo 2012. Las observaciones
obtenidas son las siguientes:
Nº NIV. EST
1 Estudios Primarios
3 Sin Estudios
6 Sin Estudios
7 Estudios Secundarios
10 Sin Estudios
12 Sin Estudios
16 Estudios Universitarios
17 Sin Estudios
26 Sin Estudios
Se pide:
A. Obtener la tabla de frecuencias para ese conjunto de datos. Interpretar la tabla.
B. Elaborar las gráficas.
Solución
Unidad de análisis : Jefe o Jefa del hogar
Variable de estudio : Nivel de estudios
Clasificación de la variable : Cualitativa ordinal
Lugar : Nuevo Chimbote
23
Tiempo : Marzo, 2012
B) Obtener la tabla de frecuencias para ese conjunto de datos. Interpretar la tabla.
Tabla 03
Nivel de estudios del jefe o jefa de hogar en la ciudad de Nvo. Chimbote – Marzo, 2012.
Frecuencias Frecuencias Frecuencia

Nivel de absolutas relativas porcentual
Estudios
fi hi hi *100%
Sin estudios 6 0,20 20%
Primaria 13 0,43 43%
Secundaria 8 0,27 27%
Universitarios 3 0,10 10%
Total n=30 1,00 100%
FUENTE: Encuesta aplicada
B. Elaborar las gráficas.
Presentación gráfica: En distribución de frecuencias por categorías los gráficos a

presentar se denominan Barras y Sector circular.
Gráfico 04
Nivel de estudios del jefe o jefa de hogar en la ciudad de Nvo. Chimbote – Marzo, 2012.
BARRAS
FUENTE: Tabla 03
Gráfico 05
Nivel de estudios del jefe o jefa de hogar en la ciudad de Nvo. Chimbote – Marzo,
2012.
SECTOR CIRCULAR
24
FUENTE: Tabla 03
Ejercicios propuestos
1. Determine qué tipo son las siguientes variables. Si son variables cualitativas (nominal
u ordinal) o cuantitativas (discretas o continuas).
a) Marca de automóvil.
b) Duración de un compacto (segundos).
c) Número de temas de un compacto.
d) Nivel educacional (básica, media, universitaria).
e) Temperatura al mediodía en Talara (grados Celcius).
f) Estado civil (soltero, casado, divorciado, viudo).
g) Cantidad de lluvia en un año en Iquitos (mm3).
h) Peso de los coches.
i) Número de coches vendidos de las diferentes marcas
2. Tenemos las resistencias de la tensión de 60 muestras de aleación Aluminio-Litio.

Elaborar la Tabla de Distribución de Frecuencias. Dibujar el Histograma y Polígono
de Frecuencia. Aplicar los estadísticos de: posición, variación, simetría. Aplicar los
estadísticos de apuntamiento. ¿Que concluye Ud. después de todo eso?
105 221 186 121 181 180 97 154 153 174 120 168 167 141 228
199 181 158 176 110 131 154 208 158 133 207 180 190 193 133
123 134 178 76 167 184 135 146 218 101 171 165 158 169 199
151 163 145 171 148 158 160 175 149 87 160 237 150 196 201
3. Un fabricante de neumáticos ha recabado, de los diferentes concesionarios,

información sobre la cantidad de miles de kilómetros recorridos por un modelo
concreto de esos neumáticos hasta que se ha producido un pinchazo o un reventón
del neumático. Los concesionarios la han proporcionado los siguientes datos:
25
52 50 38 52 74 61 36 57 49 66 76 37 76 69 61 66 62 4 42 62 51 83
34 38 51 75 59 48 67 42 61 58 74 61 56 86 91 54 76 69 84 41 50 61
86 45 56 56 47 67
Se pide:
a) Construir una taba de frecuencias para esos datos tomando como número de
intervalos el que proporciona la fórmula de Sturgess. Interpretas la tabla.
b) Dibujar el histograma y polígono de frecuencias porcentuales.
4. En una Universidad se ha realizado una encuesta a 200 alumnos de la Escuela de

Ingeniería. El 32% afirma que esta muy contento con la universidad, el 40% esta
contento, el 23% no esta contento, y el resto muy descontento.
a) Forma la tabla de frecuencias absolutas, relativas, y explique si crees que la
universidad lo esta haciendo bien.
b) Elabore sus gráficos.
5. Ejercicios
a) Dé cuatro ejemplos de variables cualitativas.
b) Proponer dos ejemplos de cada una de los dos tipos de variables cuantitativas.
c) Menciones variables que permitan estimar el efecto de la crisis económica
mundial sobre la economía del Perú.
d) Se desea comparar la calidad de vida de varias ciudades del Perú. Proponer seis
variables que podrían utilizarse para el estudio. ¿Qué tipo de variable es cada
una de ellas?
6. Tomar cuarenta observaciones de una variable cualitativa
a) Calcular las frecuencias absolutas.
b) Hallar las frecuencias relativas.
c) Dibujar el diagrama de barra.
d) Cuál es la clase o (clases) modal.
e) ¿Qué conclusiones pueden extraerse de este estudio?
1.6. MEDIDAS ESTADÍSTICAS
MEDIDAS DE TENDENCIA CENTRAL

Las medidas de tendencia central son valores de resumen que determinan
aproximadamente el centro de un conjunto de datos de una muestra o población. Estas
medidas son: Media Aritmética, Mediana y Moda.
A) Media Aritmética
Definición 1: (Datos no agrupados o no tabulados)
Es la suma de todos los valores observados de una variable cuantitativa, dividido por el
número de datos.
Media aritmética poblacional ( m ) Media aritmética muestral ( x )
26
m= x i
x=
x i
N n
Donde:
xi : Valores observados en una población o muestra.
N: Tamaño de la población.
n : Tamaño de la muestra.
Definición 2: (Datos agrupados o tabulados)

Es la suma de todos los productos entre la marca de clase o valor numérico y la
frecuencia absoluta simple, dividida por el número de datos.
Media aritmética poblacional ( m ) Media aritmética muestral ( x )
m= �y i fi
Y =
�y i fi
N n
Donde:
yi : Marca de clase de cada intervalo o valor numérico de cada clase.
Uso de la media aritmética

La media aritmética es recomendable utilizar en datos cuantitativos que tienen
tendencia aritmética, es decir en datos cuya variabilidad es pequeña.
Desventaja de la media aritmética

 La media aritmética se afecta por valores extremos, en casos de datos no agrupados.
 La media aritmética se afecta por intervalos que no tienen definidos sus límites
inferior o superior, en caso de datos agrupados por intervalos.
Ejemplo 1: La utilidad neta por la muestra de pedidos distribuidos por la empresa

Quemalapata fueron los siguientes:
a) 19.75, 20.5, 15.0, 31.2, 25.1, 28.0, 17.3, 32.5
b) 95.5, 10.6, 14.0, 27.7, 22.8, 20.1, 15.9, 9.0
Calcular e interpretar la media aritmética.
27
SOLUCIÓN:
a) x = �x i
=
19, 75 + 20, 5 + 15, 0 + ... + 32, 5 �
X = 23, 67
n 8
Interpretación: La utilidad neta promedio por pedido es aproximadamente 23,67
nuevos soles.
b) x = �x i
=
95, 5 + 10, 6 + 14, 0 + ... + 9, 0 �
X = 26,95
n 8
Interpretación: La utilidad neta promedio por pedido es aproximadamente 26,95
nuevos soles.
Ejemplo 2: La utilidad neta de una muestra de 50 pedidos distribuidos por la empresa

Quemalapata se presenta en la siguiente tabla:
Calcular e interpretar la media aritmética.

[Utilidad neta) fi
05 – 10 3
10 – 15 10 SOLUCIÓN:
15 – 20 7 Paso 1: Hallar las marcas de clase de cada intervalo
20 – 25 15
25 – 30 5 Paso 2: Multiplicar cada marca de clase por su respectiva
30 – 35 8 frecuencia absoluta simple
35 - 40 2
Paso 3: Sumar los productos
Paso 4: Reemplazar en la formula
yi fi yi f i
[Utilidad neta)
05 – 10 7,5 3 22,5
10 – 15 12,5 10 125
15 – 20 17,5 7 122,5
20 – 25 22,5 15 337,5
25 – 30 27,5 5 137,5
30 – 35 32,5 8 260
35 - 40 37,5 2 75
Y=
�y f i i
=
7,5 x3 + 12,5 x10 + ... + 37,5 x2 1080
= � Y = 21, 6
n 50 50
Interpretación: La utilidad neta promedio por pedido es aproximadamente 21,6 nuevos
soles.
28
Ejemplo 3: El número de paquetes del pedido registrado en una muestra de 60,

distribuidos por la empresa Quemalapata se presenta en la siguiente tabla:
Nº de paquetes Calcular e interpretar la media aritmética.
yi fi
1 6
2 9
3 20
4 15
5 5
6 3
7 2
SOLUCIÓN:
Paso 1: Multiplicar cada clase por su respectiva frecuencia absoluta simple
Paso 2: Sumar los productos
Paso 3: Reemplazar en la formula
Nº de paquetes
yi fi yi f i
1 6 6
2 9 18
3 20 60
4 15 60
5 5 25
6 3 18
7 2 14
Y=
�y f i i
=
1x6 + 2 x9 + ... + 7 x 2 201 �
= Y = 3,35 �3
n 60 60
Interpretación: El número promedio de paquetes por pedido es aproximadamente 3.
B) Mediana
Es un valor generalmente denotado por Me, que divide a un conjunto de datos
recopilados de una variable cuantitativa o cualitativa ordinal en dos partes iguales,
previamente ordenados en forma creciente o decreciente.
Calculo de la mediana
Datos no agrupados o no tabulados
Para obtener el valor de la mediana en datos no agrupados se debe cumplir por lo menos
los siguientes pasos:
Paso I: Ordenar en forma creciente o decreciente los datos.
29
Paso II: Observar si el número de datos es par o impar.

Paso III: Reemplazar en las formulas
 X  n+1  , si" n"impar

  2 

Me =  X + X
n n
 2 2 +1
 2 , si" n" par
Datos agrupados o tabulados (solamente en intervalos)
Se debe cumplir también por lo menos los siguientes pasos:
Paso I: Ordenar en forma creciente o decreciente los intervalos.
n
Paso II: Hallar que indica la posición de la mediana.
2
n
Paso III: Determinar la primera frecuencia absoluta acumulada ( Fi ) que supera a
2
fin de determinar el intervalo que contiene la mediana.
Paso IV: Identificar todos los componentes de la formula en el intervalo que contiene la
mediana y reemplazar.
n 
 2 - Fa 
Me = LI +  * A
 fi 
 
Donde:
LI : Límite inferior del intervalo que contiene la mediana.
n
: Mitad de la muestra
2
Fa : Frecuencia absoluta acumulada anterior a la frecuencia absoluta acumulada
( Fi ) del intervalo que contiene la mediana.

f i : Frecuencia absoluta simple del intervalo que contiene la mediana.
A : Amplitud del intervalo que contiene la mediana.
Ventajas de la mediana
 La mediana a diferencia de la media aritmética no depende de los valores, sino del
número de datos, en consecuencia no se afecta por valores extremos.
30
 La mediana a diferencia de la media aritmética no depende de todos los intervalos,

sino de un intervalo que contiene la mediana, en consecuencia generalmente no se
afecta por intervalos que no tienen límite inferior o superior definido.

a) 19.75, 20.5, 15.0, 31.2, 25.1, 28.0, 17.3, 32.5
b) 95.5, 10.6, 14.0, 27.7, 22.8, 20.1, 15.9,
Calcular e interpretar la mediana.
Solución (a):
Paso I: Ordenar en forma creciente los datos.
15,0 17,3 19,75 20,5 25,1 28,0 31,2 32,5
Paso II: Observar si el número de datos es par o impar.
n = 8 par
Paso III: Reemplazar en las formulas
xn / 2 + xn / 2 +1 x4 + x5 20, 5 + 25,1
Me = = =
2 2 2
Me = 22,8
Interpretación: El 50% de los pedidos tienen una utilidad neta de a lo más 22,8 nuevos
soles y el 50% restante superior a este.
Solucionar la parte (b) estimado alumno.

Calcular e interpretar la mediana.
[Utilidad neta) fi Fi
05 – 10 3 3
10 – 15 10 13 Solución:
15 – 20 7 20
Paso I: Ordenar en forma creciente los
20 – 25 15 35
25 – 30 5 40 intervalos.
30 – 35 8 48
35 - 40 2 50 n 50
Paso II: Hallar = = 25 que indica la
2 2
posición de la mediana.
31
n
Paso III: Determinar la primera frecuencia absoluta acumulada ( Fi ) que supera ,
2
n
entonces la primera frecuencia absoluta acumulada que supera a es F4 = 35 al cual
2
le corresponde el intervalo [20 – 25), donde se ubica el valor de la mediana.
Paso IV: Identificar todos los componentes de la formula en el intervalo que contiene la
mediana y reemplazar.
�n �
� - F �
a 25 - 20
Me = LI + �2 �* A = 20 + *5
f
� i � 15
� �
Me = 21,67
Interpretación: El 50% de los pedidos tienen una utilidad neta de a lo más 21,67
nuevos soles y el 50% restante superior a este.

Nº de paquetes Calcular e interpretar la mediana.
xi fi Fi
1 6 6
2 9 15
3 20 35
4 15 50
5 5 55
6 3 58
7 2 60
Solución:
Paso I: Ordenar en forma creciente las clases.
n 60
Paso II: Hallar = = 30 que indica la posición de la mediana.
2 2
n
Paso III: Determinar la primera frecuencia absoluta acumulada ( Fi ) que supera ,
2
n
entonces la primera frecuencia absoluta acumulada que supera a es F3 = 35 al cual
2
le corresponde la clase numérica 3; siendo este el valor de la mediana, es decir:
Me = 3
32
Interpretación: El 50% de los pedidos tienen a lo más 3 paquetes y el 50% restante

superior a este.
C) Moda
Es un valor que generalmente se denota por, Mo, y que define como:
El valor cuantitativo o cualitativo nominal que más veces se repite.
El valor cuantitativo o cualitativo nominal más frecuente.
El valor cuantitativo o cualitativo nominal más común.
La moda a veces no existe y si existe a veces es única o múltiple.
Calculo de la moda
Datos no agrupados o no tabulados
No existe formula alguna, se obtiene por simple observación, teniendo en cuenta la
definición de moda.
Datos agrupados o tabulados (solamente en intervalos)

Se debe identificar por lo menos los siguientes pasos:
Paso I: Hallar la mayor frecuencia absoluta simple, el cual se denotará como
frecuencia absoluta simple modal ( f Mo )
Paso II: Determinar el intervalo que contiene la moda.
Paso III: Identificar todos los componentes de la formula en el intervalo que contiene la
moda y reemplazar.
 d 
Mo = LI +  1  * A
 d1 + d 2 
d1 = f Mo - f a
d 2 = f Mo - f p
Donde:
LI : Límite inferior del intervalo que contiene la moda.
d1 : Primer incremento.
d 2 : Segundo incremento.
f Mo : Frecuencia absoluta simple modal del intervalo que contiene la moda.
f a : Frecuencia absoluta simple anterior a la frecuencia absoluta simple modal.
33
fp : Frecuencia absoluta simple posterior a la frecuencia absoluta simple

modal.
A : Amplitud del intervalo que contiene la moda.

a) 19.75, 20.5, 15.0, 31.2, 25.1, 28.0, 17.3, 32.5
b) 95.5, 10.6, 14.0, 10.6, 22.8, 20.1, 22.8, 22,8
Calcular e interpretar la moda.
Solución (a):
No existe moda, dado que ninguno se repite más que otro.

Calcular e interpretar la moda.
[Utilidad neta) fi
Solución:
05 – 10 3
10 – 15 10 Paso I: Hallar la mayor frecuencia absoluta simple,
15 – 20 7
20 – 25 15 f Mo = 15
25 – 30 5
30 – 35 8 Paso II: El intervalo que contiene la moda es: [20 – 25).
35 - 40 2
Paso III: Identificar todos los componentes de la formula
en el intervalo que contiene la moda y reemplazar.
� d � 8
Mo = LI + � 1 � * A = 20 + *5
d
�1 + d 2 � 8 + 10
Mo = 22,22
d1 = f Mo - f a = 15 - 7 = 8
d 2 = f Mo - f p = 15 - 5 = 10
Interpretación: La utilidad neta más frecuente de entre todos los pedidos registrados es
aproximadamente 22,22 nuevos soles.

34
Nº de paquetes Calcular e interpretar la moda.

xi fi
1 6
2 9
3 20
4 15
5 5
6 3
7 2
Solución:
Por simple observación y aplicando el concepto de moda se tiene: Mo = 3
Interpretación: El número de paquetes más frecuente de entre todos los pedidos
registrados es aproximadamente 3.
1. Para lanzar un nuevo producto al mercado, una empresa estudia el tiempo de
publicidad, en segundos, empleando en los medios audiovisuales por otra empresa
que produce un producto similar.
Duración Nº de Anuncios
0 - 20 3
20 - 25 17
25 – 30 13
30 – 40 9
40 - 60 8
a) ¿Cuál es la duración media aproximada de los anuncios? ¿Es representativa?
b) ¿Cuál es la duración más frecuente?
c) ¿A partir de que valor un anuncio es de los veinte más largos?
d) Estudiad la forma de la distribución.
e) Si cada segundo cuesta mil cuatrocientas pesetas, ¿cuál es el gasto aproximado
que realiza la otra empresa en la publicidad de ese producto?
2. La distribución del importe de las facturas por reparación de carrocería (en miles de
ptas.) de una muestra de 80 vehículos en un taller, viene dad por la siguiente tabla:
Importe Nº de vehículos
0 - 60 10
60 - 80 20
80 - 120 40
120 - 180 10
a) Calcular el importe medio. Estudiar la representatividad en esta medida.
b) Calcular la mediana y estudiar su representatividad.
c) ¿Cuál es el importe más habitual?
d) ¿Qué interpretación tiene en este caso los deciles? Calcular el tercer decil.
35
e) ¿Cuál es el importe mínimo pagado por las 75 reparaciones más baratas.

f) Estudiar la concentración del importe de las facturas.
1.7. MEDIDAS DE DISPERSIÓN
DEFINICIÓN
Las medidas de dispersión son valores de resumen que determinan aproximadamente la
variabilidad o el grado de separación de los datos respecto de su medida central, que
generalmente es la media aritmética. Estas medidas son: Varianza, Desviación estándar
y Coeficiente de variación.
A) Varianza
Definición 1: (Datos no agrupados o no tabulados)
Es la suma de las separaciones o distancias al cuadrado de todos los valores
numéricos observados respecto de su media, dividido por el número de datos menos
uno.
Varianza muestral ( S 2 )
( x - x)
2
i
S 2
=
n -1
Donde:
xi : Valores numéricos observados en una muestra.
x : Media aritmética
N : Tamaño de la población.
n : Tamaño de la muestra.
Definición 2: (Datos agrupados o tabulados)

Es la suma de las separaciones o distancias al cuadrado de todos los valores numéricos
observados respecto de su media, multiplicado por su frecuencia absoluta simple y
dividido por el número de datos menos uno.
Varianza muestral ( S 2 )
�( y - Y )
2
i * fi
S2 =
n -1
Donde:
36
yi : Marca de clase de cada intervalo o valor numérico de cada clase.

Propiedades de la varianza
 La varianza es un número no negativo y viene expresado en unidades cuadráticas.
 La varianza puede calcularse también en distribuciones de frecuencias de intervalos
de amplitud diferente, siempre que puedan determinarse las marcas de clase.
 La varianza se afecta por valores extremos, ya que depende de todos los datos.
B) Desviación estándar
Definición: Es la raíz cuadrada positiva de la varianza y nos indica “cuanto” es la
variabilidad. Se denota por “S”. Esto es:
S= S2
Propiedades de la desviación estándar

 La desviación estándar es un número no negativo y viene expresada en las mismas
unidades en las que vienen expresados los datos.
 La desviación estándar puede calcularse también en distribuciones de frecuencias de
intervalos de amplitud diferente, siempre que puedan determinarse las marcas de
clase.
 La desviación estándar se afecta por valores extremos, ya que depende de todos los
datos.
C) Coeficiente de Variación
Definición: Es una medida de dispersión relativa (libre de unidades de medida), que
se define como la desviación estándar dividido por la media aritmética.
Comúnmente se denota por “CV”. Esto es:
S
CV = *100
X
 El coeficiente de variación es una medida útil para comparar la variabilidad de
dos o más series de datos que tengan igual o distintas unidades de medida, con
igual o distinta media aritmética.
 El coeficiente de variación permite también indicar la alta (heterogénea) o baja
dispersión (homogénea) de una serie de datos bajo el siguiente criterio:
Si CV < 15%, la serie de datos presenta baja dispersión (o es homogénea)
Si CV  15%, la serie de datos presenta alta dispersión ( o es heterogénea)
37
Ejemplo 1
La siguiente tabla presenta los resultados observados del número de plántulas de
malezas por m2 en una muestra de tamaño n=20.
La siguiente tabla muestra la distribución de frecuencias de la variable salarios

mensuales (en pesos), obtenida en un muestreo aleatorio de 65 empleados de una
firma agropecuaria:

a) 19.75, 20.5, 15.0, 31.2, 25.1, 28.0, 17.3, 32.5
b) 95.5, 10.6, 14.0, 27.7, 22.8, 20.1, 15.9, 9.0
Calcular e interpretar la varianza, desviación estándar y coeficiente de variación.
Solución (a):
Varianza
Para hallar la varianza se necesita primero calcular la media aritmética muestral, esto es:
x=
�x i
=
19, 75 + 20, 5 + 15, 0 + ... + 32, 5
n 8
X = 23,67
�( x - x)
2
(19, 75 - 23, 67) 2 + (20,5 - 23, 67) 2 + ... + (32,5 - 23, 67) 2
S 2
= i
=
n -1 8 -1
S 2 = 42,37 soles 2
38
Desviación estándar
S = S2 = 42,37
S = 6,51 soles
Interpretación: La variabilidad o grado de separación de cada utilidad del pedido
respecto de su promedio es aproximadamente 6,51 soles.
Coeficiente de variación
S 6, 51
CV = *100 = *100
X 23, 67
CV = 27,50
Interpretación: La variabilidad relativa indica que las utilidades de los pedidos son
altamente dispersos, toda vez que el CV = 27,50% > 15%.
Solución (b)
Para el estudiante o lector, resuélvalo y reflexione lo fácil que es.

Calcular e interpretar la varianza, desviación estándar y
[Utilidad neta) fi coeficiente de variación.
05 – 10 3 Solución:
10 – 15 10
15 – 20 7
20 – 25 15 Varianza
25 – 30 5
30 – 35 8 Hallando primero la media aritmética
35 - 40 2
Y=
�y f i i
=
7, 5 x3 + 12,5 x10 + ... + 37,5 x 2 1080
=
n 50 50
Y = 21,6
�( y - Y ) * fi
2
i (7, 5 - 21, 6) 2 x3 + (12, 5 - 21, 6) 2 x10 + ... + (37, 5 - 21, 6) 2 x 2
S 2
= =
n -1 50 - 1
3184,5
S2 = � S 2 = 64,99
49
39
S = S 2 = 64,99 � S = 8, 06
Interpretación: La variabilidad o grado de separación de cada utilidad del pedido

respecto de su promedio es aproximadamente 8,06 soles.
S 8, 06
CV = *100 = *100
X 21, 6
CV = 37,31%
Interpretación: La variabilidad relativa indica que las utilidades de los pedidos son
altamente dispersos, toda vez que el CV = 37,31% > 15%.

Nº de paquetes Calcular e interpretar la media aritmética.

xi fi
1 6
2 9
3 20
4 15
5 5
6 3
7 2
Solución:
Varianza
Y=
�y f i i
=
1x6 + 2 x9 + ... + 7 x 2 201
= � Y = 3,35 �3
n 60 60
�( y - Y ) * fi
2
i (1 - 3, 35) 2 x6 + (2 - 3, 35) 2 x9 + ... + (7 - 3, 35) 2 x 2
S 2
= =
n -1 60 - 1
119, 65
S2 = � S 2 = 2, 03
59
S = S 2 = 2, 03 � S = 1,42
40
Interpretación: La variabilidad o grado de separación del número de paquetes en cada

pedido respecto de su promedio es aproximadamente 1,42.
S 1, 42
CV = *100 = *100
X 3, 35
CV = 42,39%
Interpretación: La variabilidad relativa indica que el número de paquetes por pedido
son altamente dispersos, toda vez que el CV = 42,39% > 15%.
D) Medidas de Forma
Asimetría
Definición: Es una medida que estudia la deformación horizontal de los valores de
la variable respecto al valor central de la media. Las medidas de forma pretenden
estudiar la concentración de la variable hacia uno de sus extremos.
De la relación entre la media aritmética, mediana y moda se puede obtener la

asimetría de un conjunto de datos. Esto es:
Si X = Me = Mo , los datos se distribuyen simétricamente.
Si X  Me  Mo , los datos tienen asimetría negativa.
Si Mo  Me  X , los datos tienen asimetría positiva.
Coeficiente Asimetría de Pearson

Definición: Se define como el cociente de 3 veces de la diferencia entre la media y
la mediana sobre la desviación estándar. Esto es:
3 * ( X - Me)
As =
S
Interpretación:
Si As = 0 los datos se distribuyen simétricamente
Si As > 0 los datos se distribuyen asimétricamente o sesgado positivamente
Si As < 0 los datos se distribuyen asimétricamente o sesgado negativamente
Ejemplo 12: Calcular e interpretar el coeficiente de asimetría de la utilidad neta de una

muestra de 50 pedidos distribuidos por la empresa Quemalapata y presentado en la tabla
por intervalos.
41
Solución:
3* ( Y - Me )
As =
S
Por resultados anteriores se tiene:
Y = 21,6
S = 8, 06
Me = 21,67
Reemplazando en la formula:
3 x(21, 6 - 21, 67)
As = � As = - 0,026
8, 06
Interpretación: La utilidad neta de los pedidos distribuidos muestra un ligerísimo
sesgo o asimetría hacia la izquierda o negativa.
Ejemplo 2: Obtenga los coeficientes de asimetría de los restantes ejemplos anteriores

¿es sencillo?
Kurtosis
Definición: La kurtosis mide el grado de agudeza o achatamiento de una distribución

con relación a la distribución normal, es decir, mide cuán puntiaguda es una
distribución.
Tipos de kurtosis
La kurtosis determina el grado de concentración que presentan los valores en la región

central de la distribución. Así puede ser:
Leptocúrtica.- Existe una gran concentración.
Mesocúrtica.- Existe una concentración normal.
Platicúrtica.- Existe una baja concentración.
Coeficiente de kurtosis
42
�( y
i =1
i - Y ) 4 xf i
K = n -3
(S 2 )2
Interpretación:
Si K = 0 los datos tienen distribución mesocurtica o normal
Si K > 0 los datos tienen distribución leptocúrtica o son más apuntada que la Normal
Si K < 0 los datos tienen distribución platicúrtica o son menos apuntada que la
Normal
Capítulo 2
PROBABILIDAD Y DISTRIBUCIONES DE
PROBABILIDAD
Reseña Histórica
Una disputa entre jugadores en 1654 llevó a dos famosos matemáticos franceses, Blaise
Pascal y Pierre de Fermat, a la creación del cálculo de Probabilidades. Antoine
Gombaud, caballero de Meré, noble francés interesado en cuestiones de juegos y
apuestas, llamó la atención a Pascal respecto a una aparente contradicción en un popular
juego de dados. Este y otros problemas planteados por de Meré motivaron un
intercambio de cartas entre Pascal y Fermat en las que por primera vez se formularon
los principios fundamentales de las probabilidades. Si bien unos pocos problemas sobre
juegos de azar habían sido resueltos por matemáticos italianos en los siglos XV y XVI,
no existía una teoría general antes de esa famosa correspondencia.
43
El científico holandés Christian Huygens, enterado de esa correspondencia publicó

rápidamente en 1657 el primer libro de probabilidades; fue un tratado de problemas
relacionado con los juegos. El cálculo de probabilidades llego a ser pronto popular por
sus alusiones a los juegos de azar, y se desarrollo rápidamente a lo largo del siglo XVIII.
Quienes más contribuyeron a su desarrollo fueron James Bernoulli y Abraham de
Moivre.
En 1812, Pierre de Laplace introdujo gran cantidad de ideas nuevas y técnicas

matemáticas en su libro, Teoría Analítica de Probabilidades. Antes de Laplace, las
probabilidades prácticamente consistían en un análisis matemático de los juegos del
azar. Laplace demostró que esa teoría podía ser aplicada a multitud de problemas
científicos y prácticos. Ejemplo de tales aplicaciones son la teoría de errores, la
matemática actuarial y la mecánica estadística que se desarrollaron en el siglo XIX. Una
de las dificultades que se presentaron al desarrollar una teoría matemática ha sido
alcanzar una definición de probabilidad lo bastante precisa para su utilización
matemática.
La búsqueda de una definición completamente aceptable duro cerca de 3 siglos y fue

caracterizada por un gran número de controversias. El asunto fue definitivamente
resuelto en el siglo XX al tratar la teoría de la probabilidad en forma axiomática
establecida por el matemático ruso Andrei Kolmogorov, quien consideró la relación
entre la frecuencia relativa de un suceso y su probabilidad cuando el número de veces
que se realiza el experimento es muy grande.
Conceptos Básicos
Experimento Aleatorio: Conjunto de pruebas realizadas bajo las mismas condiciones y

cuyos resultados son impredecibles. Los rasgos que distinguen a los experimentos
aleatorios son:
i. Todos los resultados del experimento son conocidos con anterioridad a su realización.
ii. No se puede predecir el resultado del experimento.
iii. El experimento puede repetirse en condiciones idénticas.
44
Espacio Muestral: Es el conjunto de todos los resultados posibles de un experimento

aleatorio.
Se denota generalmente por W y se clasifica en:
i. Cardinalidad: Finito, Infinito numerable, Infinito no numerable.
ii. Discreto: Aquel cuyo resultado puede ponerse en una correspondencia uno a uno,
con el conjunto de los números naturales.
iii. Continuo: Aquel cuyos resultados consisten del intervalo de los números reales.
Suceso o evento aleatorio: Es cualquier subconjunto del espacio muestral. Conjunto de

posibles resultados de un experimento aleatorio.
a) Suceso o evento seguro: Es un evento que siempre ocurre.
b) Suceso o evento imposible: Es aquel que indefectiblemente no ocurrirá, se
denomina conjunto vacío f
c) Eventos igualmente probables: Todos tienen la misma probabilidad de ocurrir
(equiprobables).
d) Eventos dependientes: Aquellos en que la ocurrencia de uno afecta la probabilidad
de ocurrencia de los demás.
e) Eventos independientes: La ocurrencia de uno no afecta la probabilidad de
ocurrencia o no de los demás.
Álgebra de sucesos de probabilidad

Algunos conceptos de teoría de conjuntos extendidos a sucesos de probabilidad se
deben recordar
La unión de dos sucesos A y B en un espacio muestral W se define como:
A �B = {x/x �A ó x �B} , el conjunto correspondiente A � B significa que
ocurre A, ocurre B u ocurren A y B.

La intersección de dos sucesos A y B en un espacio muestral W se define como:
A � B = AB = { x / x �A y x �B} , A � B significa que ocurren A y B conjunta o
simultáneamente.
El complemento del suceso A en el espacio muestral W se define como la diferencia
entre el conjunto W y el conjunto A:
W - A = Ac = A’ = A = { x / x �W y x �A} y significa que no ocurre A.
45
( A �B ) ( A �B )
c c
Leyes de De Morgan = Ac �B c y = Ac �B c .
Definición de Probabilidad
Definición axiomática debida a Andrei Kolmogorov, 1903 a 1987, probabilista ruso.
Sea W el espacio muestral asociado a un experimento aleatorio y sean Ai �W para i
=1, 2,..., n eventos. A cada suceso Ai le asignaremos un número real P ( Ai ) ,
denominada probabilidad de Ai , que satisface las propiedades siguientes:
1) 0 �P ( Ai ) �1 2) P ( W ) = 1
3) Si A1 excluye a A2 entonces P ( A1 �A2 ) = P ( A1 ) + P ( A2 )
4) Si los Ai son mutuamente excluyentes, es decir Ai �Aj = f para todo i �j =1, 2,.., n
�n � n
entonces P �U Ai �= �P ( Ai )
�i =1 � i =1
Observe que estas propiedades no dependen de cómo se calculen las probabilidades
P ( Ai )
Enfoques de Probabilidad
Definición Clásica o “a priori”: Dice que si hay x posibles resultados favorables a la
ocurrencia de un evento A y z posibles resultados a la ocurrencia del experimento
aleatorio, y todos los resultados son igualmente posibles y mutuamente excluyente (no
pueden ocurrir los dos al mismo tiempo), entonces la probabilidad de que ocurra A es:
n( x ) n( x )
P ( A) = =
n ( z ) n (W )
El enfoque clásico de la probabilidad se basa en la suposición de que cada resultado sea
igualmente probable.
Este enfoque es llamado enfoque a priori porque permite, (en caso de que pueda
aplicarse) calcular el valor de probabilidad antes de observar cualquier evento de
muestra.
Ejemplo:
Si tenemos en una caja 15 piedras verdes y 9 piedras rojas. La probabilidad de sacar una
piedra roja en un intento es:
46
9
P ( A) = = 0,375 ó 37,5%
24
Definición Frecuencial o “a posteriori”: También llamado Enfoque Empírico,
determina la probabilidad sobre la base de la proporción de veces que ocurre un evento
favorable en un número de observaciones. En este enfoque no ese utiliza la suposición
previa de aleatoriedad, porque la determinación de los valores de probabilidad se basa
en la observación y recopilación de datos.
Ejemplo:
Se ha observado que 9 de cada 50 vehículos que pasan por una esquina no tienen
cinturón de seguridad. Si un vigilante de transito se para en esa misma esquina un día
cualquiera ¿Cuál será la probabilidad de que detenga un vehículo sin cinturón de
seguridad?
Tanto el enfoque clásico como el enfoque empírico conducen a valores objetivos de

probabilidad, en el sentido de que los valores de probabilidad indican al largo plazo la
tasa relativa de ocurrencia del evento.
El enfoque subjetivo
Dice que la probabilidad de ocurrencia de un evento es el grado de creencia por parte de
un individuo de que un evento ocurra, basado en toda la evidencia a su disposición.
Bajo esta premisa se puede decir que este enfoque es adecuado cuando solo hay una
oportunidad de ocurrencia del evento. Es decir, que el evento ocurrirá o no ocurrirá esa
sola vez. El valor de probabilidad bajo este enfoque es un juicio personal.
Propiedades de la probabilidad
Proposición 1. La probabilidad de un suceso imposible f es cero.
Proposición 2. P ( A ) = 1 - P ( A )
c
Proposición 3. Si A y B son sucesos no necesariamente excluyentes entonces

P (A � B) = P (A) + P (B) - P (A � B)
Proposición 4.
P (A �B �C)=P(A)+ P(B) +P(C) - P(A �B) - P(A �C) - P(B � C) + P(A �B �C)
Proposición 5. P (A-B) = P(A) – P(A �B)
47
Probabilidad Condicional
Sean A y B dos sucesos de un espacio muestral W . La expresión P (A / B) indica la
probabilidad de que ocurra el evento A dado que ya ha ocurrido el evento B. Puede
determinarse de la siguiente manera:
P (A / B) = P (A � B) / P (B)
P (A �B) se interpreta como la probabilidad de que los sucesos A y B ocurran
conjuntamente.
Ejercicio: Para obtener licencia para conducir, es necesario aprobar tanto el examen
teórico como el práctico. Se sabe que la probabilidad que un alumno apruebe la parte
teórica es 0,68, la de que apruebe la parte práctica es 0,72 y la de que haya aprobado
alguna de las dos partes es 0,82. Si se elige un alumno al azar, ¿cuál es la probabilidad
de que apruebe el examen para obtener licencia?
Eventos Independientes
Dos o más eventos son independientes cuando la ocurrencia o no-ocurrencia de un

evento o suceso no tiene efecto sobre la probabilidad de ocurrencia del otro
evento (o eventos). Un caso típico de eventos independiente es el muestreo con
reposición, es decir, una vez tomada la muestra se regresa de nuevo a la
población donde se obtuvo.
Ejemplo:
Lanzar al aire dos veces una moneda son eventos independientes por que el resultado
del primer evento no afecta sobre las probabilidades efectivas de que ocurra cara o sello,
en el segundo lanzamiento.
Eventos dependientes
Dos o más eventos serán dependientes cuando la ocurrencia o no-ocurrencia de uno de
ellos afecta la probabilidad de ocurrencia del otro (o otros). Cuando tenemos este caso,
empleamos entonces, el concepto de probabilidad condicional para denominar la
probabilidad del evento relacionado. La expresión P (A|B) indica la probabilidad de
ocurrencia del evento A sí el evento B ya ocurrió.
Se debe tener claro que A|B no es una fracción.
48
P (A / B) = P(A � B) / P (B) o P (B /A) = P(A � B) / P(A)
Proposición 5: Regla de la multiplicación de probabilidades
Eventos dependientes:
P (A �B) = P (B) P (A/ B) ó P (A �B) = P (A) P (B / A)
Sucesos independientes:
Consideremos dos eventos A y B no vacíos en W . Las siguientes proposiciones son
equivalentes
A es independiente de B � P (A �B) = P (A) P (B)
� P (A/ B) = P(A)
� P (B/A) = P (B)
Ejercicio: En una tómbola hay dos bolitas blancas y tres bolitas negras, ¿cuál es la
probabilidad de sacar una blanca y después una negra?
a) Si hay reposición, esto es, después de sacar la primera bolita, ésta se devuelve a la
tómbola
b) Si no hay reposición, esto es, después de sacar la primera bolita, ésta no se devuelve a
la tómbola
Partición del espacio muestral W
Decimos que los sucesos B1 , B2 ,..., Bk , representan una partición de W si:

k
a) Bi �B j = f para i �j, b) UB i =W c) 0 �P ( Bi ) �1 , "Bi

i =1
Esto significa que W es cubierto por todas las partes Bi que son mutuamente
excluyentes, es decir que el experimento aleatorio asociado a W ocurre cuando sucede
alguno de los Bi .
Probabilidad total
Sea A un suceso y B1 , B2 ,..., Bk una partición de W . Entonces:

k
P ( A ) = �P ( Bi ) P ( A / Bi )
i =1
Teorema de Bayes
49
Debida a Thomas Bayes, 1702 a 1761, matemático inglés que estableció el primer
método de inferencia estadística.
Regla de Bayes
Para medir la probabilidad de que un Bi sea la causa de un evento observado en A.
P ( Bi �A ) P ( Bi ) P ( A / Bi )
P ( Bi / A ) = = k
“fácil” P ( A) para i = 1, 2,3,..., k
�P ( Bi ) P ( A / Bi )
i =1
Proposición 8. Independencia de sucesos complementarios

Si A y B son sucesos independientes en un espacio muestral W entonces Ac y B c
también lo son.
Ejercicio
El inspector de calidad de una gran empresa tiene un plan de muestreo de forma que
cuando el pedido es de buena calidad lo acepta el 98% de las veces. Por otra parte, el
inspector acepta el 94% de los pedidos y sabe que el 5% de los pedidos son de mala
calidad. Calcule la probabilidad que un pedido:
a) De buena calidad se acepte
b) Malo se acepte
c) Se rechace dado que es de mala calidad
Variable Aleatoria
Se llama variable aleatoria a toda función que asocia a cada elemento del espacio
muestral E un número real.
Se utilizan letras mayúsculas X, Y,... para designar variables aleatorias, y las respectivas
minúsculas (x, y,...) para designar valores concretos de las mismas.
Variable aleatoria discreta
Una variable aleatori a dis creta es aquella que s ólo puede tomar valores
enteros .
Ejemplos
El número de hijos de una familia, la puntuación obtenida al lanzar un dado.
Función de Probabilidad
Sea X la variable aleatoria discreta, entonces su función de probabilidad
f ( x ) = P ( x ) = P ( X = x ) debe satisfacer lo siguiente:
50
i) 0 �f ( x ) �1 ii) �f ( x ) = 1
Función de Probabilidad Acumulada

Sea X la variable aleatoria discreta, con función de probabilidad, f ( x ) , entonces su
x
función de probabilidad acumulada es: F ( x ) = P ( X �x ) = �f ( x )
X =0
Características
n
Media Aritmética m = �xf ( x )
X =0
Varianza
n
s = �x 2 f ( x ) - m 2
2
X =0
Mediana
Me = F ( X �Me ) = 0,5
Variable aleatoria continúa
Una variable aleatori a continua es aquella que puede tomar todos los
valores pos ibles dentro de un cierto intervalo de la recta real.
Ejemplos
La altura de los alumnos de una clase, las horas de duración de una pila.
Función de Densidad de Probabilidad

Sea X la variable aleatoria continúa, entonces su función de probabilidad
f ( x ) = P ( x ) = P ( X = x ) debe satisfacer lo siguiente:

� b
i) f ( x ) �0 "x �R ii) �f ( x ) dx = 1 iii) P ( A ) = P ( a �X �b ) = �

f ( x ) dx
-� a
Función de Probabilidad Acumulada

Sea X la variable aleatoria continua, con función de probabilidad, f ( x ) , entonces su
función de probabilidad acumulada es: F ( x ) = P ( X �x ) = �f ( x ) dx

-�
Características
51
+�
Media Aritmética m= xf ( x ) dx
�
-�
Varianza
+�
s =
2
x f ( x ) dx - m
�
2 2
-�
Mediana
Me
Me = F ( X �Me ) = �f ( x ) dx =0,5
-�
DISTRIBUCIONES PARA VARIABLES ALEATORIAS DISCRETAS
Las distribuciones Binomial y Poisson, se derivan de experimentos aleatorios en las

cuales nos interesa el número de éxito en las “n” repeticiones, en los periodos y
regiones, aún más están relacionadas con la teoría del muestreo pequeño n< 30.
Son muy importantes pues son la base de metodologías inferenciales, tales como
Intervalos de Confianza y Pruebas de Hipótesis.
DISTRIBUCIÓN BINOMIAL
Estudiaremos en este tema una de las distribuciones de probabilidad más importantes y

que son imprescindibles a la hora de adentrarnos en el estudio de la inferencia
estadística. La distribución binomial es uno de los primeros ejemplos de las llamadas
distribuciones discretas (que sólo pueden tomar un número finito, o infinito numerable,
de valores). Fue estudiada por Jakob Bernoulli (Suiza, 1654-1705), quién escribió el
primer tratado importante sobre probabilidad, “Arsconjectandi” (El arte de pronosticar).
Los Bernoulli formaron una de las sagas de matemáticos más importantes de la historia.
La distribución Binomial o de Bernoulli
La distribución binomial está asociada a experimentos del siguiente tipo:

 Realizamos “n” veces cierto experimento en el que consideramos sólo la posibilidad
de éxito o fracaso.
 La obtención de éxito o fracaso en cada ocasión es independiente de la obtención de
éxito o fracaso en las demás ocasiones.
52
 La probabilidad de obtener éxito o fracaso siempre es la misma en cada ocasión

(invariante).
Veamos con un ejemplo

Tiramos un dado 7 veces y contamos el número de cincos que obtenemos. ¿Cuál es la
probabilidad de obtener tres cincos?
Este es un típico ejemplo de distribución binomial, pues estamos repitiendo 7 veces el
experimento de lanzar un dado. .
¿Cuál es nuestro éxito?
Evidentemente, sacar un 5, que es en lo que nos fijamos.
El fracaso, por tanto, sería no sacar 5, sino sacar cualquier otro número.
Por tanto, ´Éxito = E = “sacar un 5” = P (E) = 1/6
Fracaso = F = “no sacar un 5” = P (F) = 5/6
Para calcular la probabilidad que nos piden, fijémonos en que nos dicen que sacamos 3
cincos y por lo tanto tenemos 3 éxitos y 4 fracasos, ¿de cuántas maneras pueden darse
estas posibilidades?
Podríamos sacar 3 cincos en las 3 primeras tiradas y luego 4 tiradas sin sacar cinco, es
decir: EEEFFFF
Pero también podríamos sacar EFEFFFE, es decir que en realidad estamos calculando
de cuántas maneras se pueden ordenar 4 fracasos y 3 éxitos. Recordando las técnicas
combinatorias, este problema se reduce a calcular las permutaciones con elementos
repetidos:
Definición de distribución Binomial:

Si realizamos “n” veces un experimento en el que podemos obtener éxito, E, con
probabilidad “p” y fracaso, F, con probabilidad “q” (q = 1 − p), diremos que estamos
ante una distribución binomial de parámetros “n y p”, y lo representaremos por B (n;
p). En este caso la función de probabilidad de obtener k éxitos viene dada por:
P ( k ) = P ( X = k ) = Ckn p k q n - k
Nota:
Observar que las probabilidades de éxito y fracaso son complementarias, es decir, q = 1-
p y p =1-q, por lo que basta saber una de ellas para calcular la otra.
53
Ejemplo:
Supongamos que la probabilidad de que una pareja tenga un hijo o una hija es igual.
Calcular la Probabilidad de que una familia con 6 descendientes tenga 2 hijos.
En este caso Éxito = E = “tener hijo” y P (E) = 0,5.
Fracaso = F = “tener hija” y P (F) = 0,5.
Estamos por tanto ante una binomial B (6; 0,5) y nos piden P (X=2).
Si aplicamos la fórmula es:
P ( X = 2) = C26 0, 52 * 0, 54 = 0, 2344
Nota:
La elección de éxito o fracaso es subjetiva y queda a elección de la persona que resuelve
el problema, pero teniendo cuidado de plantear correctamente lo que se pide.
El uso de las tablas de la distribución Binomial
La distribución binomial se encuentra tabulada por lo que es fácil calcular
probabilidades sin necesidad de hacer demasiadas cuentas. Para usar las tablas de la
distribución binomial es necesario conocer:
 El número de veces que se realiza el experimento (n).
 La probabilidad de éxito (p).
 El número de éxitos (k).
La probabilidad “p” se busca en la primera fila (valores desde 0,01 hasta 0,5).
El número de veces que se realiza el experimento, en la primera columna (valores desde
2 a 10) y el número de éxitos a su lado.
Por ejemplo en el caso anterior, B (6; 0,5), P(X=2), la columna p = 0,5 es la última, y
cuando n = 6 y k = 2 encontramos 0,2344, el valor que habríamos calculado.
Nota importante: El caso en que p >0,5, no se encuentra tabulado.

La razón es bien sencilla. Si p >0,5, entonces q <0,5 y basta intercambiar los papeles de
éxito y fracaso para que podamos utilizar la tabla.
Probabilidades acumuladas
Es posible que nos pidan no sólo la probabilidad de que ocurran un cierto número de
éxitos en concreto, sino que ocurran como mucho “k” éxitos o por lo menos k éxitos o
preguntas similares. Podrían pedirnos:
54
a) ¿Cuál es la probabilidad de que aprueben como mucho 2 alumnos?

Si éxito = aprobar y fracaso = desaprobar, p = 0,7 y q = 0,3, entonces nos piden P(X
≤ 2). En este caso, basta pensar en que para que aprueben 2 alumnos como mucho,
puede que aprueben 2, 1 o ninguno, es decir:
P(X ≤ 2) = P(X = 0)+P(X = 1)+P(X = 2) = 0,0001 + 0,0012 + 0,01 = 0,1013
b) ¿Cuál es la probabilidad de que aprueben entre 3 y 6 alumnos (inclusive)?.

Del mismo modo:
p (3 ≤ X ≤ 6) = p(X = 3)+p(X = 4)+p(X = 5)+p(X = 6) = 0,0467 + 0,1361 + 0,2541 +
0,2965 = 0,7334
Hemos de tener en cuenta que para la distribución binomial, en las tablas sólo se
admiten valores hasta n =25 (25 repeticiones del experimento). Para valores de n >25,
inevitablemente hemos de utilizar la fórmula.
Media y Desviación típica en una distribución Binomial
El número esperado de éxitos o media, viene dado por µ = n p

La desviación típica, σ, que es una medida de dispersión y mide lo alejados que están
los datos de la media, viene dada por σ = npq
Ejemplos
En un vivero la probabilidad que una planta de vid tenga virus es de 0,04. Un viticultor
Necesita comprar 10 parras al vivero.
a) ¿Cuántas plantas con virus se espera que adquiera el viticultor?
b) ¿Cuál es la probabilidad de que el viticultor adquiera:
1) Ninguna planta con virus?
2) Al menos una planta con virus?
3) Entre 5 y 10 plantas con virus, ambos valores incluidos?
4) Exactamente 4 plantas con virus?
1. Supongamos que la probabilidad de tener una unidad defectuosa en una línea de

ensamblaje es de 0.05. Si el conjunto de unidades terminadas constituye un conjunto
de ensayos independientes:
1. ¿cuál es la probabilidad de que entre diez unidades dos se encuentren
defectuosas?
2. ¿y de que a lo sumo dos se encuentren defectuosas?
3. ¿cuál es la probabilidad de que por lo menos una se encuentre defectuosa?
55
2. Cada muestra de aire tiene 10% de posibilidades de contener una molécula rara
particular. Suponga que las muestras son independientes con respecto a la presencia
de la molécula rara. Encuentre la probabilidad de que en las siguientes 18 muestras,
a) exactamente 2 contengan la molécula rara.
b) Por lo menos 5 contengan la molécula rara.
DISTRIBUCIÓN DE POISSON
Dato Histórico
La distribución de Poisson se llama así en honor a su creador, el francés Simeón Dennis
Poisson (1781 – 1840). Esta distribución de probabilidad fue uno de los múltiples
trabajos que Dennis completo en su productiva trayectoria.
La distribución de Poisson es una distribución de probabilidad discreta que expresa, a

partir de una frecuencia de ocurrencia media, la probabilidad que ocurra un determinado
número de eventos durante cierto periodo de tiempo.
Características:
En este tipo de experimentos los éxitos buscados son expresados por unidad de área,
tiempo, pieza, etc, etc,: Por ejemplo:
- # de defectos de una tela por m2
- # de aviones que aterrizan en un aeropuerto por día, hora, minuto, etc, etc.
- # de bacterias por cm2 de cultivo
- # de llamadas telefónicas a un conmutador por hora, minuto, etc, etc.
- # de llegadas de embarcaciones a un puerto por día, mes, etc, etc.
Para determinar la probabilidad de que ocurran x éxitos por unidad de tiempo, área, o
producto, la fórmula a utilizar sería:
l xe - l
P ( x, l ) =
x!
Donde:
p(x,l) = probabilidad de que ocurran x éxitos, cuando el número promedio de
ocurrencia de ellos es l
l = media o promedio de éxitos por unidad de tiempo, área o producto
56
e = 2.718
x = variable aleatoria que nos denota el número de éxitos que se desea que ocurra
Hay que hacer notar que en esta distribución el número de éxitos que ocurren por
unidad de tiempo, área o producto es totalmente al azar y que cada intervalo de tiempo
es independiente de otro intervalo dado, así como cada área es independiente de otra
área dada y cada producto es independiente de otro producto dado.
Propiedades del modelo de Poisson
1) Esperanza matemática: E(X) = λ.
2) Varianza: V(X) = λ.
En esta distribución la esperanza y la varianza coinciden.
3) La suma de dos variables aleatorias independientes con distribución de Poisson

resulta en una nueva variable aleatoria, también con distribución de Poisson, de
parámetro igual a la suma de parámetros:
X1 ~ P (λ = λ1) y X2 ~ P (λ = λ2)
y definimos Z = X1 + X2, entonces,
Z ~ P (λ = λ1 + λ2)
Este resultado se extiende inmediatamente al caso de n variables aleatorias

independientes con distribución de Poisson. En este caso, la variable suma de todas ellas
sigue una distribución de Poisson de parámetro igual a la suma de los parámetros.
Ejemplos
a) En una cierta localidad se estima que el número promedio de madrigueras de
conejos que existen por hectárea es 2 y sea X el número de madrigueras por ha.
Calcular las probabilidades de que en un cultivo de:
1) una hectárea no haya madriguera
2) una hectárea haya exactamente 2 madrigueras
3) una hectárea se encuentren menos de 3 madrigueras
4) una hectárea haya más de 5 madrigueras
57
Ejemplos:
1. Si un banco recibe en promedio 6 cheques sin fondo por día, ¿cuáles son las
probabilidades de que reciba,
a) cuatro cheques sin fondo en un día dado,
b) 10 cheques sin fondos en cualquiera de dos días consecutivos?
2. En la inspección de hojalata producida por un proceso electrolítico continuo, se

identifican 0.2 imperfecciones en promedio por minuto. Determine las
probabilidades de identificar:
a) una imperfección en 3 minutos,
b) al menos dos imperfecciones en 5 minutos,
c) cuando más una imperfección en 15 minutos.
3. Una compañía telefónica recibe llamadas a razón de 5 por minuto. Si la distribución

del número de llamadas es de Poisson, calcular la probabilidad de recibir menos de
cuatro llamadas en un determinado minuto.
4. El dueño de un criadero de árboles está especializado en la producción de abetos de

Navidad. Estos crecen en filas de 300. Se sabe que por término medio 6 árboles no
son aptos para su venta. Asume que la cantidad de árboles aptos para la venta por
fila plantada sigue una distribución de Poisson.
a) Calcula la probabilidad de encontrar 2 árboles no vendibles en una fila de
árboles.
b) Calcula la probabilidad de encontrar 2 árboles no vendibles en media fila de
árboles.
DISTRIBUCIONES PARA VARIABLES ALEATORIAS

CONTINUAS
Distribución Normal o de Gauss
Introducción
Una de las distribuciones teóricas mejor estudiadas en los textos de estadística y más
utilizada en la práctica es la distribución normal, también llamada distribución
gaussiana. Su importancia se debe fundamentalmente a la frecuencia con la que
58
distintas variables asociadas a fenómenos naturales y cotidianos siguen,

aproximadamente, esta distribución. Caracteres morfológicos (como la talla o el peso),
o psicológicos (como el cociente intelectual) son ejemplos de variables de las que
frecuentemente se asume que siguen una distribución normal.
El uso extendido de la distribución normal en las aplicaciones estadísticas puede
explicarse, además, por otras razones. Muchos de los procedimientos estadísticos
habitualmente utilizados asumen la normalidad de los datos observados. Aunque
muchas de estas técnicas no son demasiado sensibles a desviaciones de la normal y, en
general, esta hipótesis puede obviarse cuando se dispone de un número suficiente de
datos, resulta recomendable contrastar siempre si se puede asumir o no una distribución
normal. La simple exploración visual de los datos puede sugerir la forma de su
distribución. No obstante, existen otras medidas, gráficos de normalidad y contrastes de
hipótesis que pueden ayudarnos a decidir, de un modo más riguroso, si la muestra de la
que se dispone procede o no de una distribución normal. Cuando los datos no sean
normales, podremos o bien transformarlos o emplear otros métodos estadísticos que no
exijan este tipo de restricciones (los llamados métodos no paramétricos).
A continuación se describirá la distribución normal, su ecuación matemática y sus
propiedades más relevantes, proporcionando algún ejemplo sobre sus aplicaciones a la
inferencia estadística.
Dato Histórico
La distribución normal fue reconocida por primera vez por el francés Abraham de
Moivre (1667-1754). Posteriormente, Carl Friedrich Gauss (1777-1855) elaboró
desarrollos más profundos y formuló la ecuación de la curva; de ahí que también se la
conozca, más comúnmente, como la "campana de Gauss".
Definición
Se dice que la v.a continua X es una v.a. normal con parámetros m y s 2 si su función
de densidad es:
2
-1�x-m �
1 �
2 �s
�
f ( x) = e �
, -� x  �......(1)
s 2p
Se denota X~ N (µ, σ²) y se dice X se distribuye normal con
parámetros µ y σ²
59
Gráfica de la Distribución Normal
Propiedades de la distribución normal
La distribución normal posee ciertas propiedades importantes que conviene destacar:

a). La función siempre es positiva, f(x) > 0 para toda x.
b). Tiene una única moda, que coincide con su media y su mediana, cuyo valor es
1
.
s 2p
c). La curva normal es asintótica al eje de abscisas. Por ello, cualquier valor entre -� y
+� es teóricamente posible.
d). El área total bajo la curva es, igual a 1.
e). Es simétrica con respecto a su media. Según esto, para este tipo de variables existe
una probabilidad de un 50% de observar un dato mayor que la media, y un 50% de
observar un dato menor.
f). La distancia entre la línea trazada en la media y el punto de inflexión (µ-σ y µ+σ)
de la curva es igual a una desviación típica ( s ). Cuanto mayor sea s , más
aplanada será la curva de la densidad.
f). El área bajo la curva comprendido entre los valores situados aproximadamente a dos
desviaciones estándar de la media es igual a 0.95. En concreto, existe un 95% de
posibilidades de observar un valor comprendido en el intervalo.
g). La forma de la campana de Gauss depende de los parámetros m y s . La media
indica la posición de la campana, de modo que para diferentes valores de la gráfica
es desplazada a lo largo del eje horizontal. Por otra parte, la desviación estándar
determina el grado de apuntamiento de la curva. Cuanto mayor sea el valor de s ,
más se dispersarán los datos en torno a la media y la curva será más plana. Un valor
60
pequeño de este parámetro indica, por tanto, una gran probabilidad de obtener datos
cercanos al valor medio de la distribución.
Distribución Normal Estándar
Deduciendo de la última propiedad, no existe una única distribución normal, sino una
familia de distribuciones con una forma común, diferenciadas por los valores de su
media y su varianza. De entre todas ellas, la más utilizada es la distribución normal
estándar, que corresponde a una distribución de media 0 y varianza 1. Así, la expresión
que define su densidad se puede obtener de la Ecuación 1, resultando:
-1 2
1 z
f ( z) = e 2 , -� z  �......(2)
2p
Es importante conocer que, a partir de cualquier variable X � N ( m , s ) , se puede

obtener otra característica Z con una distribución normal estándar, sin más que efectuar
x-m
la transformación: z= , donde z � N (0,1) .
s
Gráfica de la Distribución Normal Estándar
(-) 0 (+) Z
Ejercicios
1. Dada una distribución normal estándar, encuentre el área bajo la curva que está
a) a la izquierda de z = 1.43
b) a la derecha de z = -0.89
c) entre z = -2.16 y z = -0.65
d) a la izquierda de z = -1.39
e) a la derecha de z = 1.96
61
f) entre z = -0.48 y z = 1.74

2. Una fábrica de alimentos empaca productos cuyos pesos están normalmente
distribuidos con media de 450 gramos y desviación estándar de 20 gramos.
Encuentre la probabilidad de que un paquete escogido al azar pese entre 425 y 486
gramos.
3. Se regula una máquina despachadora de refresco para que sirva un promedio de 200
mililitro por vaso. Si la cantidad de bebida se distribuye normalmente con una
desviación estándar igual a 15 mililitros,
a) ¿qué fracción de los vasos contendrán más de 224 mililitros?
b) ¿cuál es la probabilidad de que un vaso contenga entre 191 y 209 mililitros?
c) ¿cuántos vasos probablemente se derramarán si se utilizan vasos de 230 mililitros
para las siguientes 1000 bebidas?
d) ¿por debajo de qué valor obtendremos 25% de las bebidas más pequeñas?
3. La vida promedio de cierto tipo de motor pequeño es 10 años con una desviación
estándar de dos años. El fabricante reemplaza gratis todos los motores que fallen
dentro del tiempo de garantía. Si está dispuesto a reemplazar sólo 3% de los motores
que fallan, ¿de qué duración debe ser la garantía que ofrezca? Suponga que la
duración de un motor sigue una distribución normal.
4. La resistencia a la tracción de cierto componente de metal se distribuye normalmente

con una media de 10000 kilogramos por centímetro cuadrado y una desviación
estándar de 100 kilogramos por centímetro cuadrado. Las mediciones se registran a
los 50 kilogramos por centímetro cuadrado más cercanos.
a) ¿Qué proporción de estos componentes excede 10150 kilogramos por centímetro
cuadrado de resistencia a la tracción?
b) Si las especificaciones requieren de todos los componentes tengan resistencia a la
tracción entre 9800 y 10200 kilogramos por centímetro cuadrado inclusive, ¿qué
proporción de piezas esperaría que se descartará?
Importante
Las distribuciones “t” de Student, Chi cuadrado ( c 2 ) y F, se derivan de la distribución

Normal y están relacionadas con la teoría del muestreo pequeño n < 30.
62
Son muy importantes pues son la base de metodologías inferenciales, tales como
Intervalos de Confianza y Pruebas de Hipótesis.
Las variables “t”, c 2 y F surgen de transformaciones de variables aleatorias en las que

están involucrados estadísticos muestrales, tales como la media y la varianza. En la
práctica, por lo tanto, no podemos decir por Ejemplo que el peso, la altura, etc., se
distribuyen según t”, c 2 y F
DISTRIBUCIÓN DE STUDENT O DISTRIBUCIÓN “t”
¿Quién era Student? Pues en realidad Student no era el nombre o el apellido del
responsable de esta distribución de probabilidad, sino que era un seudónimo. El
verdadero nombre del creador de la t de Student es William Sealy Gosset, (1876 –
1937); era un matemático y químico inglés.
En muchos casos se seleccionan de una población normal, muestras de tamaño pequeño

n < 30 y s desconocido.
DEFINICIÓN
Una variable con distribución t de Student se define como el cociente entre una
variable normal estandarizada y la raíz cuadrada positiva de una variable c 2 dividida

por sus grados de libertad.
La función de densidad de probabilidad de la variable aleatoria “t” está dada por:
[ g (v + 1) / 2] �
- ( v +1) / 2
t2 �
h(t ) = 1+
� � , -� t  +�
g (v / 2) p v � v �
Esta se conoce como la distribución t con grados de libertad.
CARACTERISTICAS
 La distribución se denomina distribución de Student o distribución “t”.
63
 Cada curva “t” tiene forma de campana con centro en 0.

v
Es simétrica, con media 0, y variancia mayor que 1. Es decir: s = ,v > 2
2

v-2
 Es más achatada que la normal y adopta diferentes formas, según el número de
grados de libertad.
 La variable t se extiende desde - � a + �.

 A medida que aumenta los (v = n -1, es decir v � �) grados de libertad la
distribución “t” se aproxima en su forma a una distribución normal estándar. Por lo
que la curva “z” recibe a veces el nombre de curva “t” con gl = grande “ �”.
 El parámetro de la distribución es (v = n-1) grados de libertad, originando una

distribución diferente para cada tamaño de muestra.
¿Cómo se deduce una distribución de “t”?
 Extraigo K muestras de tamaño n < 30.

 Calculo para cada muestra el valor de “t”.
 Grafique la distribución para cada tamaño muestral
Distribución “t” para diferentes grados de libertad (n-1)
Ejemplo:
a) Encuentre la probabilidad de –t0.025 < t < t0.05.
64
b) Encuentre k tal que P (k < t < -1.761) = 0.045, para una muestra aleatoria de tamaño
15 que se selecciona de una distribución normal.
c) Un ingeniero químico afirma que el rendimiento medio de la población de cierto

proceso en lotes es 500 gramos por milímetro de materia prima. Para verificar esta
afirmación toma una muestra de 25 lotes cada mes. Si el valor de t calculado cae
entre –t0.05 y t0.05, queda satisfecho con su afirmación. ¿Qué conclusión extraería de
una muestra que tiene una media de 518 gramos por milímetro y una desviación
estándar de 40 gramos? Suponga que la distribución de rendimientos es
aproximadamente normal.
d) Calcular el percentil t0,95 y t0,25 en cada uno de los siguientes casos:

1. En una distribución t-Student con 3 grados de libertad.
DISTRIBUCIÓN CHI - CUADRADO
Para muestras extraídas de una población normal con variancia s 2 , con tamaño n < 30,
siendo s 2 la varianza de la muestra.
DEFINICIÓN
Una variable Chi cuadrado se define como la suma de n variables normales

estandarizadas elevadas al cuadrado.
CARACTERISTICAS
Por definición, una variable c adopta valores positivos: c �0.

2 2

 La distribución es asimétrica positiva.
 A medida que aumenta el tamaño de la muestra la curva es menos asimétrica,
aproximándose a una curva normal.
Para cada tamaño muestral, se tendrá una distribución c diferente.
2

El parámetro que caracteriza a una distribución c son sus grados de libertad (v =

2

n-1), originado una distribución para cada grado de libertad,
¿Cómo se deduce una distribución c 2 ?
65
Extraer K muestras de tamaño n < 30
Para cada muestra, por ejemplo n = 5, transformamos cada valor de x: x1, x2, x3, x4 y
x5 en Z: z1, z2, z3, z4 y z5,
Distribución de ji-cuadrado para algunos valores de grados de libertad.
Ejercicio1: Calcular el percentil c n ,0,95 y c n ,0,25 en cada uno de los siguientes casos:
2 2
1. n=5
2. n=30.
DISTRIBUCIÓN F DE FISHER
Considerando dos muestras aleatorias independientes, de tamaño n1 y n2, extraídas de

una población normal, el estadístico F será
DEFINICIÓN
Una variable F se define como el cociente entre dos variables ji-cuadrado divididas por
sus correspondientes grados de libertad.
Características
 Una variable con distribución F es siempre positiva por lo tanto su campo de

variación es “0 a ∞"
 La distribución de la variable es asimétrica, pero su asimetría disminuye cuando
aumentan los grados de libertad del numerador y denominador.
 Hay una distribución F por cada par de grados de libertad.
 Parámetros: Grados de libertad asociados al numerador y denominador
¿Cómo se deduce una distribución F?
66
 Extraiga k pares de muestras aleatorias independientes de tamaño n < 30.

 Calcule para cada par el cociente de variancias que proporciona un valor de F.
 Graficar los valores de F de los k pares de muestras.
Distribución F para diferentes grados de libertad
Capitulo 3
67
INTRODUCCIÓN
A LA
INFERENCIA ESTADÍSTICA
El proceso de Inferencia Estadística permite extraer conclusiones

científicamente válidas acerca de la población a partir de los resultados
muéstrales (obtenidos a través de la estadística descriptiva).
El propósito de la inferencia estadística es realizar:
- Estimación de Parámetros
- Contraste de Hipótesis
Estimación de Parámetros
El método de estimación de un parámetro puede ser puntual o por intervalo.
68
Estimación puntual de µ
En base al resultado de la muestra particular de tamaño n, una estimación puntual de µ

sería el valor numérico que toma X en dicha muestra.
En nuestro ejemplo, a partir de una muestra de n=50 planchas de acero. Daríamos como
estimación del peso medio poblacional o teórico, X = 215 Kg.
Inconveniente(s):
 La estimación puntual depende de la muestra particular que se obtenga.

 Existe una incertidumbre total, acerca de la proximidad (lejanía) del valor puntual a
la media poblacional o teórica.
Sin embargo
Conocemos la distribución de la medias muéstrales bajo ciertas condiciones sobre la

población de partida.
DISTRIBUCIÓN DE LA MEDIA MUESTRAL
a) Si asumimos que X → N (µ, σ), σ → conocida
Las (infinitas) medias muéstrales obtenidas con muestras de tamaño n se distribuyen

según una distribución normal (campana de Gauss):
X -m
X � N (m ,s X ) � Z = � N (0,1)
sX
Donde: s X es el error típico o desviación estándar de la media muestral.
b) Si asumimos que X → N (µ, σ), σ desconocida
Las (infinitas) medias muéstrales obtenidas con muestras de tamaño n se

distribuyen según una distribución t-student con n-1 grados de libertad (gl)
69
X -m
X � N (m , sX ) � T = � t n -1
sX
Donde: S X es el error típico o desviación estándar de la media muestral.
Nota: (Error estándar o Error típico de la media)
s  s conocida
sx =  Tamaño de población (N) demasiado grande o
n infinita.
s N -n  s conocida
sx =  Tamaño de población (N) conocido o finita.
n N -1
S  s desconocida, entonces s @ S
Sx =  Tamaño de población (N) demasiado grande o
n
infinita.
S N -n  s desconocida, entonces s @ S
Sx =  Tamaño de población (N) conocida o finita.
n N -1
Estimación por Intervalo de confianza para µ
Supongamos que de una población normal con media desconocida m y varianza

conocida o desconocida s 2 se extrae una muestra de tamaño n, entonces de la
distribución de la media muestral X se obtiene que, lleva asociado un error típico de
dicho estadístico de lo que ha de tenerse en cuenta para valorar la precisión de una
estimación puntual.
Idea
Construir intervalos de confianza, basado X , que contenga “con alta probabilidad” el

parámetro µ.
Caso I: X → N (µ, σ), σ conocida
El Intervalo de confianza para µ es:
70
X - Z1-a / 2 * s X �m �X + Z1-a / 2 *s X
Con un nivel de confianza del 1 - a .
Caso II: X → N (µ, σ), σ desconocida
El intervalo de confianza para µ es:
X - t1-a / 2;n -1 * S X �m �X + t1-a / 2; n -1 * S X
Tamaño de muestra
Se puede determinar que tan grande debe ser el tamaño de la muestra, n, de manera que
si m se estima por x , el error de estimación no sea mayor que un valor dado e. En
efecto:
 Tamaño de población (N) demasiado grande

o infinita.
Z 2
a *s 2
s
1-  Si la desviación estándar ( ) es
n= 2
desconocida, se estima por la desviación
e2 estándar muestral (S) hallado a partir de una
muestra piloto.
Z 2 a *s 2 * N  Tamaño de población (N) conocida o finita

1-  Si la desviación estándar ( ) ess
n= 2
desconocida, se estima por la desviación
Z 2 a * s 2 + e 2 ( N - 1) estándar muestral (S) hallado a partir de
1-
2
una muestra piloto.
Ejercicio
Considerar la variable rendimiento de maíz, cuya distribución es normal con media μ y
desviación estándar σ. Para estimar el rendimiento promedio del maíz bajo el efecto de un
herbicida, se toma una muestra de tamaño 40 y se obtiene un promedio de 60 qq/ha. Se sabe por
experiencias anteriores que la varianza poblacional σ2 es 25 (qq/ha)2.
a) Construir los intervalos de confianza del 95% y 99% para μ.
b) ¿Cómo cambia el intervalo anterior (95%) si el tamaño de la muestra fuese 100 y se obtiene
el mismo promedio?
c) ¿Cómo se modifica el intervalo del 95% calculado en a) si la desviación estándar fuese de 7
qq/ha.?
Ejercicio
Se desea establecer el contenido vitamínico de un alimento balanceado para pollos. Se toma una
muestra de 49 bolsas y se encuentra que el contenido promedio de vitaminas por cada 100 grs.
71
es de 12 mg. y que la desviación estándar es de 2 mg. Encontrar el intervalo de confianza del

95% para el verdadero promedio del contenido de vitaminas.
Ejercicio
Para estimar el rendimiento promedio del trigo en un departamento del sur cordobés se
relevan los campos de distintos productores mediante un esquema de muestreo aleatorio
simple. Se conoce por experiencias anteriores que s es igual a 0.7 qq/ha y que el
promedio histórico es 26 qq/ha.
1) ¿Qué número de campos se deben evaluar para estimar la media de rendimiento con
una confianza del 95% si la amplitud del intervalo no debe ser mayor que el 2.5% del
promedio histórico?
2) Si la varianza de la distribución aumenta (proponga s=1.4), ¿aumenta o disminuye el
tamaño muestral necesario para mantener la misma amplitud? Justificar la respuesta.
Ejemplo 1: Una encuesta realizada a 25 empleados de un sector dio como resultados

que el tiempo medio de empleo era de 5,3 años con una desviación típica de 1,2 años.
a) Estimar, al 90% de confianza, el tiempo medio de empleo para el sector, suponiendo
Normalidad.
b) Si el margen de error hubiera sido de 1 año ¿qué grado de confianzase tendría?
c) ¿Qué tamaño muestral es necesario si se quisiera el margen de error del apartado
primero y el grado de confianza del apartado segundo?
Solución: a)
Estimar, al 90% de confianza, el tiempo medio de empleo para el sector, suponiendo

Normalidad.
Datos:
X: Tiempo de empleo supuestamente Normal
Tamaño de muestra : n = 25 empleados
Tiempo medio de empleo : X = 5,3 años
Desviación típica muestral : S = 1,2 años ( s desconocido)
Confianza : 1 - a = 0,90 � a = 0,10
En base a los datos corresponde al CASO II, donde su intervalo es:
X - t1-a / 2;n -1 * S X �m �X + t1-a / 2;n-1 * S X
Entonces:
S 1, 2
X = 5,3 t1-a / 2,n -1 = t0,95;24 = 1, 711 (Buscar tabla) SX = = = 0, 24
n 25
Reemplazando en la fórmula:
5,3 – 1,711*0,24 �m �5,3 + 1,711*0,24
72
5,3 – 0,411 �m �5,3 + 0,411

4,889 �m �5,711
Interpretación: El tiempo medio de empleo de todos los empleados del sector se

estima en 4,9 a 5,7 años, con una confianza del 90%.
Solución:b)
Si el margen de error hubiera sido de 1 año ¿qué grado de confianza se tendría?
Error de estimación: e = z1-a / 2 * S X

s 1, 2
1 = z1-a / 2 * � 1 = z1-a / 2 *
n 25
z1-a / 2 = 4,17 (Buscando en la tabla estadística)
a
1- = 0,99999 � a = 0, 00002
2
Por lo tanto el grado de confianza es: 1 - a = 0,99998
Solución: c)
¿Qué tamaño muestral es necesario si se quisiera el margen de error del apartado

primero y el grado de confianza del apartado segundo?
Tamaño de muestra con margen de error de 0,411 y

Grado de confianza 0,99998
N=Tamaño de población de empleados desconocido de la entidad
Entonces la formula que le corresponde es:
Z2 a *S2
1- 4, 092 *1, 2 2
n= 2
=
e2 0, 4112
n = 142, 6 �143
Ejemplo 2: El número de horas diarias que los empleados de cierta entidad bancaria de
ámbito nacional trabajan delante del ordenador es una variable aleatoria normal con
varianza 1,5. Se toma una muestra al azar de 10 empleados y se anota el número de
horas que cierto día trabajaron con el ordenador:
6 3,4 5,6 6,3 6,4 5,3 5,4 5 5,2 5,5
a) Determina el intervalo de confianza al 95% para el número medio de horas diarias
que se trabaja en el ordenador en esa entidad. Explica claramente el resultado
comentando que significa el 95% de confianza.
73
b) ¿Qué tamaño muestral es necesario si se quisiera el margen de error del apartado

primero y el grado de confianza de 90%?
Solución:a)
Datos:
X: Número de horas diarias variable Normal
Varianza poblacion : s 2 = 1,5 conocido � Desviación estándar s = 1,225
Tamaño de muestra : n = 10 empleados
Número promedio de horas diarias se halla a partir de los valores numéricos registrados
10
de los 10 empleados : �x i
6 + 3, 4 + 5, 6 + ... + 5,5 = 5,41 horas
X= 1=1
=
n 10
Confianza : 1 - a = 0,95 � a = 0,05
En base a los datos corresponde al CASO I, cuyo intervalo es:
X - Z1-a / 2 * s X �m �X + Z1-a / 2 * s X
s 1, 225
X = 5,41 Z1-a / 2 = Z 0,975 = 1,960 (Buscar tabla) sX = = = 0,387
n 10
5,41 – 1,96*0,387 �m �5,41 + 1,96*0,387
5,41 – 0,759 �m �5,41 + 0,759
4,651 �m �6,169
Interpretación: El número medio de horas diarias que trabajan delante del ordenador
todos los empleados de cierta entidad bancaria se estima en 4,6 a 6,2horas, con una
confianza del 95%; el cual significa que de 100 muestras de empleados seleccionados
de toda la entidad bancaria, 95 de ellas estiman dicho parámetro.
Solución:b)
Datos:
Margen de error : e = 0,759
Varianza poblacional : s 2 = 1,5
Confianza : 1 - a = 0,90 � a = 0,10
Tamaño de la población : N desconocido
En base a los datos corresponde utilizar la formula:
Z 2 a *s 2 2
1- Z 0,95 *1, 5 1, 6452 *1, 5
n= 2
= =
e2 0, 759 2 0, 759 2
n = 7, 05 �7
Ejercicios Propuestos
74
Ejercicio 1: La duración aleatoria de las unidades producidas de un artículo, se

distribuye según la ley normal, con desviación típica igual a seis minutos.
Elegidas al azar cien unidades, resulto ser la duración media de 14,35 minutos.
Elaborar el intervalo de confianza del 99% para la duración media de las
unidades producidas.
Ejercicio 2: Se analizan 9 zumos de fruta y se ha obtenido un contenido medio

de fruta de 22 mg por 100 cc de zumo. La varianza poblacional es desconocida,
por lo que se ha calculado la cuasi desviación típica de la muestra que ha
resultado ser 6,3 mg de fruta por cada 100 cc de zumo. Suponiendo que el
contenido de fruta del zumo es normal, estimar el contenido medio de fruta de los
zumos tanto puntualmente como por intervalos al 95% de confianza.
Ejercicio 3: Se desea estimar el número medio de libros que los estudiantes de

cierta titulación adquieren en el último curso de sus estudios. Suponiendo
conocida la dispersión (varianza igual a 36) y siendo Normal el comportamiento
de la variable,
a) ¿qué tamaño muestral hace falta para alcanzar un grado de confianza del 95%
y un margen de error no superior a 2 unidades?
b) ¿Cuál sería el tamaño muestral si queremos reducir el intervalo a la mitad sin
perder fiabilidad?
Ejercicio 4: Queremos ajustar una máquina de refrescos de modo que el

promedio del líquido dispensado quede dentro de cierto rango. La cantidad de
líquido vertido por la máquina sigue una distribución normal con desviación
estándar 0.15 decilitros. Deseamos que el valor estimado que se vaya a obtener
comparado con el verdadero no sea superior a 0.2 decilitros con una confianza
del 95%. ¿De qué tamaño debemos escoger la muestra?
Ejercicio 5: Es necesario estimar entre 10000 establos, el número de vacas lecheras
por establo con un error de estimación de 4 y un nivel de confianza del 95%.Sabemos
que la varianza es 1000. ¿Cuántos establos deben visitarse para satisfacer estos
requerimientos?
Intervalo de Confianza para la varianza
La varianza como medida de dispersión es importante dado que nos

ofrece una mejor visión de dispersión de datos. Nuevamente
consideramos que la población sigue una distribución de probabilidad
normal.
Otro campo del conocimiento donde la varianza se ocupa en gran

medida es en control de calidad; cuando un producto se elabora el
área de control de calidad busca que los productos esté dentro de
ciertos límites de tolerancia, pero también que la variabilidad de un
producto sea lo menor posible.
75
El Intervalo de confianza para la varianza poblacional ( s 2 ) es:
( n - 1) s 2 (n - 1) s 2
�s 2 � 2
c12-a / 2; n -1 ca / 2; n -1
Ejercicio
Un productor decide probar el funcionamiento de su máquina y para ello, luego de
cosechar una parcela, cuenta en 10 unidades de 1 m2 la cantidad de semillas que quedan
en el suelo. Las normas técnicas indican que la desviación estándar del número de
semillas caídas por m2 no debería ser superior a 5. Los resultados, en semillas/m2,
fueron:
77 73 82 82 79 81 78 76 76 75
a) Construir un intervalo de confianza para s2 con una confianza del 97,5%.
b) Concluir sobre el funcionamiento de la máquina.
Ejercicio: Se han recogido muestras de aire para estudiar su contaminación,

obteniéndose las siguientes cantidades de impurezas en Kg/m3
2.2; 1.8; 3.1; 2.0; 2.4; 2.0; 2.1; 1.2
Construir un intervalo de confianza al 98% para la desviación estándar de impurezas
contenidas en el aire.
Solución:
Datos:
Calculando la cantidad media de impurezas a partir de los valores numéricos
10
registrados en las 8 muestras de aire : �x i

2, 2 + 1,8 + 3,1 + ... + 1, 2
X= 1=1
= = 2,1
n 8
Calculando la varianza muestral obtenido de los valore numéricos :

n
�( X i - X )2
( 2, 2 - 2,1)
2
+ ( 1,8 - 2,1) + ... + ( 1, 2 - 2,1)
2 2
S =
2 i =1
=
n -1 8 -1
S 2 = 0,288
Confianza : 1 - a = 0,98 � a = 0,02

Entonces el intervalo es:
(n - 1) s 2
�s 2 (n - 1) s 2
� 2 =
( 8 - 1) * 0, 288 �s 2 �( 8 - 1) * 0, 288
c12-a / 2;n-1 ca / 2;n -1 2
c 0,99;7 2
c 0,01;7
76
2, 016 2, 016
�s 2 � � 0,109 �s 2 �1,627
18, 475 1, 239
Por lo tanto: 0, 330 �s �1, 275
Interpretación: La variabilidad de impurezas con respecto a su media que contiene el

aire se estima en 0,109 a 1,627 Kg./ m3 , con una confianza del 98%.
Ejercicio 1: Se sabe por experiencia que el tiempo que tarda el servicio de caja
de una empresa prestadora del servicio de agua de una región para atender a los
clientes que llegan a efectuar el pago mensual del servicio se distribuye
normalmente. Se pide estimar el intervalo de confianza para la desviación
estándar poblacional del tiempo requerido para atender los pagos que efectúan
los clientes, con un nivel de confianza del 95%, si para el efecto se tomó una
muestra aleatoria de 25 clientes que arrojó una desviación estándar de 1.8
minutos.
Ejercicio 2: El tiempo que transcurre para los obreros de una gran compañía
entre el momento del ingreso a la planta y el momento en que están listos para
recibir las orientaciones de su jefe inmediato, se distribuye normalmente. Una
muestra de 20 obreros arroja una desviación estándar de 3.5 minutos. Se pide
calcular el intervalo de confianza del 99% para la desviación estándar del tiempo
transcurrido para todos los obreros de la compañía.
Intervalo de Confianza para la diferencia de medias ( m1 - m2 )
Supongamos que se tiene dos poblaciones distribuidas normalmente con medias

desconocidas m1 y m 2 , respectivamente. Se puede aplicar una prueba z o t de Student
para comparar las medias de dichas poblaciones basándonos en dos muestras
independientes tomadas de ellas. La primera muestra es de tamaño n1 , con media X 1 y
la segunda muestra es de tamaño n2 , tiene media X 2 . Donde las varianzas
poblacionales pueden ser conocidas ( s 12 y s 22 ) o desconocidas ( s 12 s12 y s 22 s22 ).
≈ ≈
Caso I: Muestras independientes, Varianzas poblacionales conocidas

( s 12 y s 22 )
El intervalo de confianza es:
(X 1 - X 2 ) - Z1-a / 2 * s X1 - X 2 �m1 - m2 �( X 1 - X 2 ) + Z1-a / 2 * s X1 - X 2
77
s 12 s 22
Donde: s X1 - X 2 = +
n1 n2
Caso IIA: Normal-Muestras independientes, Varianzas poblacionales

desconocidas pero iguales ( s 12 = s 22 )
(X 1 - X 2 ) - t1-a / 2;v * S X1 - X 2 �m1 - m2 �( X1 - X 2 ) + t1-a / 2;v * S X1 - X 2
Donde: v = n1 + n2 - 2 es el grado de libertad.
S X1 - X 2 =
( n1 - 1) * s12 + ( n2 - 1) * s22 �1 1 �
� + �
n1 + n2 - 2 �n1 n2 �
Caso IIB: Normal-Muestras independientes, Varianzas poblacionales

desconocidas y diferentes ( s 12 �s 22 )
(X 1 - X 2 ) - t1-a / 2;v * S X1 - X 2 �m1 - m2 �( X 1 - X 2 ) + t1-a / 2;v * S X1 - X 2
Donde:
2
�S12 S 22 �
� n +
� 1 n2 �
� -2
n= 2
�S1 � �S2 �
2 2 2
Es el grado de libertad, que toma un valor
� n� � n �
� 1 �+ � 2 �
n1 + 1 n2 + 1
numérico redondeado entero.
s12 s22
S X1 - X 2 = +
n1 n2
78
Ejercicio
Un grupo de conejos fue sometido a una serie de situaciones de tensión que producían
una respuesta de temor. Después de un período de tiempo bajo estas condiciones, los
conejos fueron comparados con los de un grupo control, que no había sido sometido a
tensión. La variable de respuesta fue el peso (en mg) de la glándula suprarrenal. Los
resultados fueron:
Grupo Experimental: 3.8 6.8 8.0 3.6 3.9 5.9 6.0 5.7 5.6 4.5 3.9 4.5
Grupo Control: 4.2 4.8 4.8 2.3 6.5 4.9 3.6 2.4 3.2 4.9
a) Comparar el peso de la glándula suprarrenal entre el grupo control y el experimental
con un nivel de confianza del 99%.
Ejemplo 1: En el departamento de control de calidad de una empresa, se quiere

determinar si ha habido un descenso significativo de la calidad de su producto
entre las producciones de dos semanas consecutivas a consecuencia de un
incidente ocurrido durante el fin de semana. Deciden tomar una muestra de la
producción de cada semana, si la calidad de cada artículo se mide en una escala
de 100, obtienen los resultados siguientes:
Semana 1: 93 86 90 90 94 91 92 96
Semana 2: 93 87 97 90 88 87 84 93
Construye un intervalo de confianza para la diferencia de medias al nivel de
95%.Interpreta los resultados obtenidos.
Solución:
Suponiendo normalidad las producciones de las dos semanas
Cada semana son muestras independientes
Varianzas poblacionales desconocidas ( s 12 , s 22 )
Ahora
¿Cómo saber si las varianzas son iguales o diferentes?
Se realiza la prueba de homogeneidad de varianzas, que consiste en lo siguiente:
Formular las hipótesis

: H 0 : s1 = s 2
2 2
Hipótesis nula
: H1 : s 1 �s 2
2 2
Hipótesis alterna
Fijar nivel de significancia
a = 0, 05
Estadístico de prueba
79
máx ( s12 , s22 )

F =
mín( s12 , s22 )
Semana 1:
Calculo de la media
10
�x i
93 + 86 + 90 + ... + 96 � X 1 = 91,50
X1 = 1=1
= = 91,50
n 8
Calculo de la varianza
n
�( X i - X )2
( 93 - 91, 50 )
2
+ ( 86 - 91, 50 ) + ... + ( 96 - 91, 50 )
2 2
� S12 = 9,143
S =
1
2 i =1
=
n -1 8 -1
Semana 2:
Calculo de la media
10
�x i
93 + 87 + 97 + ... + 93 � X 2 = 89,88
X2 = 1=1
= = 89,88
n 8
Calculo de la varianza
n
�( X i - X )2
( 93 - 89,88 )
2
+ ( 87 - 89,88 ) + ... + ( 93 - 89,88 )
2 2
� S2 2 = 17,839
S2 2 = i =1
=
n -1 8 -1
Reemplazando en el estadístico de prueba
s22 17, 839

Fc = 2
= = 1, 951
s1 9,143
Regiones críticas
80
0,200 4,99
ZR/-------------------Zona------------------/--------Zona---------
Aceptación Rechazo
La zona de aceptación para un nivel de significación del 5% está delimitada por 0,200 y
4,990, correspondientes a las probabilidades a/2 y (1 - a/2) respectivamente.
Decisión
Como Fc = 1,951 se ubica en la zona de aceptación cuyo intervalo es (0,200; 4,99) se
2 2
acepta H 0 : s1 = s2
Luego se concluye que no hay diferencias entre las varianzas poblacionales, lo que
indica el cumplimiento del supuesto de homogeneidad de varianzas
Entonces el intervalo de confianza para la diferencia de medias es el CASO

IIA:
(X 1 - X 2 ) - t1-a / 2;v * S X1 - X 2 �m1 - m2 �( X1 - X 2 ) + t1-a / 2;v * S X1 - X 2
Diferencia de medias muestrales : X 1 - X 2 = 91,50 – 89,88 = 1,62

Coeficiente de confianza : 1 - a = 0,95 � a = 0,05
Grados de libertad : v = n1 + n2 - 2 = 8 + 8 – 2 = 14
t1-a / 2;n1 + n2 -2 = t0,975;14 = 2,145
S X1 - X 2 =
( 8 - 1) *9,143 + ( 8 - 1) *17,839 �1 + 1 �
� �
8+8-2 �8 8�
S X1 - X 2 = 1,8365
Reemplazando en la formula del intervalo se tiene:
1,62 – 2,145*1,8365 �m1 - m2 �1,62 + 2,145*1,8365

-2,319 �m1 - m2 �5,559
81
Interpretación: La diferencia promedio de producciones de artículos en las dos

semanas se estima entre -2,319 a 5,559, con una confianza del 95%. Esto significa que
la producción promedio de artículos entre las dos semanas es igual.
Ejercicio 1: Un profesor de estadística realiza un idéntico cuestionario a dos

grupos de estudiantes de dos universidades diferentes de la misma ciudad. En una
muestra aleatoria de 9 estudiantes de la universidad A, el promedio de notas fue
de 7.5 y desviación estándar de 0.4. En otra muestra aleatoria de 9 estudiantes de
la universidad B la media de las notas fue de 6.7 y desviación estándar de 0.6.
Calcular los límites de confianza del 95% para la diferencia de medias de las
notas entre las dos universidades. Se sabe que la escala de calificación es de 0 a
10.
Ejercicio 2: Se quiere estimar la diferencia de los promedios de los salarios entre

la industria metalmecánica y la industria de los muebles en una ciudad. Para tal
fin se toma una muestra aleatoria de 200 operarios en la primera industria la cual
arroja un salario promedio de $535000 mensuales y desviación estándar de
$128000, mientras que una muestra de 120 operarios en la segunda industria
arroja un salario promedio de $492000 y desviación estándar de $75000. Se pide
estimar el intervalo de confianza para la diferencia de salarios entre las dos
industrias con un nivel de confianza del 90%.
Ejercicio 3: En una compañía se quiere estimar la diferencia de los promedios de

los rendimientos para producir cierta pieza por parte de los obreros en dos turnos
diferentes. Para tal fin el Jefe de producción de la empresa toma muestras de 32
obreros para el turno 1 y encuentra que la media en la misma es de 20 minutos
mientras que la desviación estándar es de 2.8 minutos. Por otra parte tomó una
muestra de 35 obreros del turno 2 y encuentra que la media de la misma es de 22
minutos mientras que la desviación estándar es de 1.9 minutos. Se pide calcular
el intervalo de confianza de la diferencia de las medias de los rendimientos en los
dos turnos con un nivel de confianza del 98%.
Ejercicio 4: Para comparar el contenido promedio de aceites de las semillas de

dos variedades de maní, se diseña un ensayo en el que para cada variedad se
obtienen los contenidos de aceite de 10 bolsas de 1 kg de semillas de maní,
extraídas aleatoriamente de distintos productores de semillas.
Los resultados del ensayo son los siguientes:
Variedad n X s2
1 10 160,4 65,3
2 10 165,6 67,9
Distribución de la proporción muestral
82
Vamos a considerar que tenemos una población de modo que en cada una de
ellas estudiamos una v.a. dicotómica (Bernoulli) de parámetro respectivo p . De la
población vamos a extraer una muestra de tamaño n .
Entonces,
n
X = �xi � B ( n, p )
i =1
x
y la proporción de éxito en la muestra es pˆ =
n
Luego se cumple:
a) m pˆ = E ( pˆ ) = p
p (1 - p)
b) s pˆ = V ( pˆ ) =
2
c) Si el tamaño muestral n es grande, el Teorema Central del Límite nos asegura que:
pˆ - p
z= � N (0,1)
pq
n
Nota: (Error estándar o Error típico de la proporción muestral)
pq p y q conocidos
s p̂ = Tamaño de población (N) demasiado grande o
n infinita.
pq �N - n � p y q conocidos
s pˆ = � � Tamaño de población (N) conocido o finita.
n �N - 1 �
ˆˆ
pq p y q desconocidos, entonces p �pˆ y q �qˆ
S pˆ = Tamaño de población (N) demasiado grande o
n infinita.
ˆ ˆ �N - n � p y q desconocidos, entonces p @ pˆ y q @ qˆ
pq
S pˆ = � � Tamaño de población (N) conocida o finita.
n �N - 1 �
83
Intervalo de Confianza para una Proporción

En este caso, interesa construir un intervalo de confianza para una proporción o un
porcentaje poblacional (por ejemplo, el porcentaje de personas con hipertensión,
fumadoras, etc.)
Donde, p es el porcentaje de personas u objetos con la característica de interés en la

población (o sea, es el parámetro de interés) y p̂ es su estimador puntual muestral.
Luego, procediendo en forma análoga al caso de la media, podemos construir un

intervalo de confianza para la proporción poblacional p, con una confianza de 1 - a .
ˆ - Z1-a / 2 * s pˆ �p �p
p ˆ + Z1-a / 2 *s pˆ
Donde:
x
pˆ =
n
qˆ = 1 - pˆ
Ejemplo 1: Una compañía que fabrica pastelillo desea estimar la proporción de

consumidores que prefieran su marca. Los agentes de la compañía observan a 450
compradores, del número total observado 300 compraron los pastelillos. Calcule un
intervalo de confianza del 95% para la venta de la proporción de compradores que
prefieren la marca de esta compañía.
Solución:
x: Número de consumidores que prefieren los pastelillos.
n = 450 tamaño de muestra grande
x = 300 son los que prefieren los pastelillos en la muestra
84
x 300
pˆ = = = 0, 67 Es la proporción puntual muestral que prefieren los pastelillos
n 450
qˆ = 1 - pˆ = 1 - 0, 67 = 0,33 Es la proporción puntual muestral de los que no prefieren los
pastelillos.
Coeficiente de confianza 1 - a = 0,95 � a = 0,05
Z1-a / 2 = Z 0,975 = 1,96
ˆˆ
pq 0,67 *0,33
s pˆ = = = 0, 022
n 450
Reemplazando en el intervalo de confianza se tiene:

ˆ - Z1-a / 2 * s pˆ �p �p
p ˆ + Z1-a / 2 * s pˆ
0,67 – 1,96 * 0,022 �p �0,67 + 1,96 * 0,022

0,63 �p �0,71
Interpretación: La proporción de consumidores que prefieren la marca de la

compañía por parte de los consumidores se estima entre 0,63 a 0,71, con una confianza
del 95%.
Tamaño de muestra
Se puede determinar que tan grande debe ser el tamaño de la muestra, n, de manera que
si p se estima por p̂ , el error de estimación no sea mayor que un valor dado e. En
efecto:
 Tamaño de población (N) demasiado

grande o infinita.
 Si p y q son desconocidas, se estima por p̂
Z12-a / 2 * pq
n= y q̂ hallados a partir de una muestra piloto.
e2  En últimos de los casos si no se tiene
ninguna información de p y q se asume el
máximo riesgo de p = 0,5 y q = 0,5.
 Tamaño de población (N) conocida o
finita
Z12-a / 2 * pq * N
n= 2  Si p y q son desconocidas, se estima por p̂
Z1-a / 2 * pq + e 2 ( N - 1) y q̂ hallados a partir de una muestra piloto.
 En últimos de los casos si no se tiene
ninguna información de p y q se asume el
máximo riesgo de p = 0,5 y q = 0,5.
85
Ejercicio 1: Una compañía quiere conocer la proporción de consumidores que

adquieren su producto. Encarga a una empresa un estudio de mercado para
obtener un intervalo de confianza al 99% de su proporción de clientes a partir de
una muestra de tamaño 1000. Los resultados muestral es arrojaron que 740 de los
entrevistados eran clientes de su producto.
Ejercicio 2: En un experimento para determinar la toxicidad de una sustancia se
administra una dosis de esta a cada uno de 300 conejos, y se registra el número
de muertos, que resulta ser de 192.
a) Calcule el estimador de p.
b) la probabilidad de que un conejo elegido al azar muera a causa de una dosis
de la sustancia.
c) Calcule la desviación estándar.
d) Construya un intervalo de confianza al 98%.
Distribución de la diferencia de proporciones muestrales
Vamos a considerar que tenemos dos poblaciones de modo que en cada una de ellas
estudiamos una v.a. dicotómica (Bernoulli) de parámetros respectivos p1 y p2 . De cada
población vamos a extraer muestras de tamaño n1 y n2 .
Entonces
n1
x
X 1 = �x1i � B ( n1 , p1 ) pˆ1 = 1
i =1
n1
n2
x2
X 2 = �x2i � B ( n2 , p2 ) pˆ 2 =
i =1
n2
Luego se cumple:
a) m pˆ1 - pˆ 2 = E ( pˆ1 - pˆ 2 ) = p1 - p2
p1q1 p2 q2
b) s pˆ ¨1 - pˆ¨ 2 = V ( pˆ1 - pˆ 2 ) = +
2
n1 n2
c) Si el tamaño muestral n es grande, el Teorema Central del Límite nos asegura que:
86
( pˆ1 - pˆ 2 ) - ( p1 - p2 )
Z= � N (0,1)
s pˆ1 - pˆ 2
Los hombres y mujeres adultos radicados en una ciudad grande del norte
difieren en sus opiniones sobre la promulgación de la pena de muerte para
personas culpables de asesinato. Se cree que el 12% de los hombres adultos
están a favor de la pena de muerte, mientras que sólo 10% de las mujeres
adultas lo están. Si se pregunta a dos muestras aleatorias de 100 hombres y
100 mujeres su opinión sobre la promulgación de la pena de muerte, determine
la probabilidad de que el porcentaje de hombres a favor sea al menos 3%
mayor que el de las mujeres.
Una encuesta del Boston College constó de 320 trabajadores de Michigan que
fueron despedidos entre 1979 y 1984, encontró que 20% habían estado sin
trabajo durante por lo menos dos años. Supóngase que tuviera que seleccionar
otra muestra aleatoria de 320 trabajadores de entre todos los empleados
despedidos entre 1979 y 1984. ¿Cuál sería la probabilidad de que su
porcentaje muestral de trabajadores sin empleo durante por lo menos dos
años, difiera del porcentaje obtenido en la encuesta de Boston College, en 5%
o más?
Intervalo de Confianza para la diferencia de dos proporciones
Si las muestras son suficientemente grandes ocurre que una aproximación para un
intervalo de confianza al nivel 1 - a para la diferencia de proporciones de dos
poblaciones es:
p1 - p2 �( p ˆ 2 ) �Z1-a / 2 * s pˆ1 - pˆ 2
ˆ1 - p
ˆ1qˆ1
p pˆ q
Dónde: s pˆ - pˆ = + 2 2
1 2
n1 n2
Ejemplo 1: En un estudio sobre las relaciones prematrimoniales se encontró en la zona

A que, de 200 personas, 124 estaban a favor y en la zona B, de 266 personas, 133
también lo estaban. Estimar la diferencia de proporciones de ambas zonas al 90% de
confianza comentando el resultado.
Solución:
Zona A
x1 : Número de personas que están a favor de las relaciones prematrimoniales
87
x1 = 124
n1 = 200
x 124
pˆ1 = 1 = � p̂1 = 0,62 qˆ1 = 1 - pˆ1 = 0,38
n1 200
Zona B
x2 : Número de personas que están a favor de las relaciones prematrimoniales
x2 = 133
n2 = 266
x 133
pˆ 2 = 2 = � p̂2 = 0,50 qˆ2 = 1 - pˆ 2 = 0,50
n2 266
1 - a = 0,90 � a = 0,10
Z1-a / 2 = Z 0,95 = 1,645
ˆ1qˆ1
p pˆ q 0, 62 * 0, 38 0, 50 * 0, 50
s pˆ - pˆ = + 2 2 = +
1 2
n1 n2 200 266
s pˆ1 - pˆ 2 = 0, 046
Reemplazando en la formula se tiene:
p1 - p2 �( p ˆ 2 ) �Z1-a / 2 * s pˆ1 - pˆ 2
ˆ1 - p
(0,62 – 0,50) – 1,645 * 0,046 �p1 - p2 �(0,62 – 0,50) + 1,645 * 0,046
0,044 �p1 - p2 �0,196
Interpretación: La diferencia de proporciones de personas que están a favor de las

relaciones prematrimoniales en las dos zonas se estima entre 0,044 a 0,196, con una
confianza del 90%. Esto significa que la proporción de personas de la zona A son las
que están mayormente a favor de las relaciones prematrimoniales respecto a la zona B.
Ejercicio 1: Se está considerando cambiar el procedimiento de manufactura de

partes. Se toman muestras del procedimiento actual así como del nuevo para
determinar si este último resulta mejor. Si 75 de 1000 artículos del procedimiento
actual presentaron defectos y lo mismo sucedió con 80 de 2500 partes del nuevo,
determine un intervalo de confianza del 90 % para la verdadera diferencia de
proporciones de partes defectuosas.
Ejercicio 2: Un productor decide cultivar dos variedades de tomate, valencia y
perita. De la variedad valencia planta 230 semillas y de la variedad perita planta
358. Luego de tres semanas de cultivadas ambas variedades el productor recorre
88
el campo y registra que cantidad de semillas emergieron para cada variedad. Los
resultados son los siguientes:
Variedad Cultivadas Emergieron
Valenciano 230 126
Perita 358 293
a). Que modelo teórico de probabilidad considera apropiado si la variable
aleatoria es "numero de plantas que emergieron de una variedad en el total
que se cultivo de la misma"? ¿Cuales son los parámetros para cada una de las
variedades?
b). Estime para cada variable la proporción de emergencia.
c). Construya un intervalo de confianza al 95 % para la probabilidad de
emergencia de las plantas de cada variedad e interprete en términos del
problema
d). Que supuesto fue necesario para que el intervalo anterior sea valido?
e). Si comparamos ambas variedades con el tomate americano que tiene una
probabilidad de emergencia de 0.65, .que puede decir viendo los intervalos de
confianza?
f). Si el productor quiere saber si el tomate valenciano tiene la misma
probabilidad de emergencia que el tomate americano. ¿Cual es el
procedimiento a seguir? Explíquelo y concluya con el mismo.
Inferencia basada en pruebas de hipótesis para una y

dos muestras
Hipótesis Estadística es una afirmación, conjetura que se hace acerca de un parámetro

poblacional.
Tipos de Hipótesis
Hipótesis nula, es la afirmación que está establecida y que se espera sea rechazada
después de aplicar una prueba estadística y se representa por Ho.
Hipótesis alterna, es la afirmación que se espera sea aceptada después de aplicar una
prueba estadística y se representa por H1 .
Nivel de significación, representada por a , es la probabilidad de cometer error tipo I, y

por lo general se asume que tiene un valor de 0,05 ó 0,01.
Prueba estadística o Estadístico de prueba, es una fórmula, basada en la distribución

del estimador puntual del parámetro que aparece en la hipótesis y que va a permitir
tomar una decisión acerca de aceptar o rechazar una hipótesis nula.
89
Contraste de Hipótesis para la media “µ”
Formas de contraste de las hipótesis:
Depende del planteamiento de la hipótesis alterna
Prueba bilateral Prueba unilateral superior Prueba unilateral inferior

H 0 : m = m0 H 0 : m = m0 H 0 : m = m0
H1 : m �m0 H1 : m > m0 H1 : m > m 0
Fijar nivel de significancia: a = 0,05; 0,01 etc.
Seleccionar el estadístico de prueba:
Caso I: X→ N (µ, σ), σ conocida
El estadístico de prueba es:
X -m
Z = � N (0,1)
sX
Prueba Z- Normal estándar para una muestra.
Usualmente la varianza es desconocida
Caso II: X→ N (µ, σ), σ desconocida
X -m
T = � tn -1
sX
Prueba T- Student para una muestra con n - 1 grados de libertad (gl.)
Regiones Críticas:
Depende de las formas de contraste de las hipótesis.
Contraste Bilateral Contraste unilateral superior Contraste unilateral inferior
90
-- ZR-- /-------------ZA--------------/--ZR-- ----------------ZA---------------/----ZR---- ----ZR-----/-------------ZA----------------

Decisión:
Forma Tabular
Si el valor numérico del estadístico de prueba se ubica en la Zona de Aceptación (ZA)
se acepta la Hipótesis nula H 0 .
Si el valor numérico del estadístico de prueba se ubica en la Zona de Rechazo (ZR) se
rechaza la Hipótesis nula H 0 .
Forma Método “p”

Si el valor numérico de “p” es superior que el nivel de significancia fijado “ a ” se
acepta la Hipótesis nula H 0 .
Si el valor numérico de “p” es inferior que el nivel de significancia fijado “ a ” se
Ejemplo 1. Un fabricante de lámparas eléctricas está ensayando un nuevo método de

producción que se considerará aceptable si las lámparas obtenidas por este método dan
lugar a una población normal de duración media 2400 horas, con una desviación típica
igual a 300. Se toma una muestra de 100 lámparas producidas por este método y esta
muestra tiene una duración media de 2320 horas. ¿Se puede aceptar la hipótesis de
validez del nuevo proceso de fabricación con un riesgo igual o menor al 5%?
Solución:
Formulación de Hipótesis
H o : m = 2400
H1 : m �2400
Nivel de significancia
a = 0, 05
Estadístico de Prueba
Caso I: X → N (µ, σ), σ = 300 conocida
X -m X -m
Z= =
sX s
n
91
La población N de la producción de lámparas es desconocida, así que puede ser que sea
demasiado grande.
X -m 2320 - 2400
Z = =
s 300
n 100
Z = -2, 67
Regiones críticas
-- ZR-- /----------------ZA---------------/---ZR--
- Z 0,975 Z 0,975
-1,96 1,96
Decisión
En vista que el valor del estadístico de prueba (Z = -2,67) es inferior que el valor tabular
( Z t = -1,96) ubicándose en la zona de rechazo, entonces se rechaza la hipótesis nula H 0 .
Esto significa que el nuevo proceso de fabricación no es aceptable.
Ejemplo 2. Un fabricante de aparatos de TV afirma que se necesita a lo sumo 250

microamperes de corriente para alcanzar cierto grado de brillantez con un tipo de
televisor en particular. Una muestra de 20 aparatos de TV produce un promedio
muestral de corriente de 257,3 microemperes. Denotemos por m el verdadero promedio
de corriente necesaria para alcanzar la brillantez deseada con aparatos de este tipo, y
supongamos que m es la media de una población con s = 15. Pruebe al nivel de
significación del 2,5% la hipótesis nula de que m es a lo sumo 250 microamperes.
Solución:
H 0 : m �250
H1 : m > 250
a = 0, 025
Estadístico de Prueba
Caso II: X → N (µ, σ), s �s = 15 desconocida
X -m X -m
T = =
sX s
n
92
257,3 - 250
T=
15
20
T = 2,176
Regiones críticas
----------------ZA---------------/-----ZR-----
t0,975;19
2,093
Decisión
Dado que el valor del estadístico de prueba ( T = 2,176 ) es superior que el valor tabular
(t = 2,093) , entonces se ubica en la zona de rechazo, rechazando la hipótesis nula H 0 .
Esto demuestra que no se necesita a lo sumo 250 micro amperes, en forma significativa.
Ejercicio 1: La tasa actual para producir fusibles de 5 amp en Neary Electric Co. Es
250 por hora. Se compró e instaló una máquina nueva que, según el proveedor,
aumentará la tasa de producción. Una muestra de 20 horas seleccionadas al azar el mes
pasado indica que la producción media por hora en la nueva máquina es 256, con
desviación estándar de 6 por hora. Con a = 0, 05 de nivel de significancia, ¿Puede
Neary Electric concluir que la nueva máquina es más rápida?
Ejercicio 2: Un fabricante de lámparas eléctricas sostiene que la duración media de
las mismas (horas) es en promedio superior a 1300 h. Se toma una muestra de 17
lámparas siendo el resultado de la inspección el siguiente:
980 1 350 1 020 1 140 1 520 1 390 1 205 1 180 970 1 420 1 850 1 300
1 305 1 040 1 050 1 520 1 320
Verificar el Ho del fabricante con un coeficiente de riesgo del 5% (suponiendo la
distribución normal).
Ejercicio 3: Una empresa desea concursar para ganar un contrato con el gobierno
como proveedor de concreto; uno de los requisitos es la resistencia a la compresión del
concreto a los 28 días de haberse preparado la mezcla. La empresa ganadora dice que
mantiene excelentes controles de calidad en su concreto y como tal hay una varianza
2
muy baja en resistencias a la compresión, del orden de 16 Kg f / cm 4 ; pero al hacerle en
2
la UNAM unas pruebas de resistencia se detecta una varianza mas elevada de 25 Kg f /
cm 4
93
a) ¿hay evidencia estadística suficiente para considerar que el proveedor está mintiendo
2
y en realidad la desviación estándar es DIFERENTE a 16 Kg f / cm 4 ?
b) Redacción de la prueba de hipótesis, indicando si debe ser prueba de una o dos colas
para responder la pregunta.
Ejercicio 4: Un vendedor de neumáticos dice que la vida media de sus neumáticos es
de 28000 Km. Admitiendo para la desviación típica el valor 1348 Km. diseñar un test de
hipótesis al 99% de confianza, basado en muestras de 40 elementos que permita
contrastar la hipótesis nula de ser μ = 28000Km usando como hipótesis alternativa μ <
28000Km
Ejercicio 5: Se pretende diseñar una prueba de hipótesis con una muestra de 74
automóviles para comprobar su capacidad de frenado. Para ello se medirá en todos ellos
la distancia de frenado si el automóvil parte de una velocidad inicial de 100 Km/h. Se
quiere saber si, tras un frenazo brusco, la distancia media recorrida antes de pararse es
de 110 metros. Se supone que la distancia de frenado sigue una distribución normal con
desviación típica conocida σ = 3 m. Supongamos ahora que hemos realizado
efectivamente la prueba a los 74 automóviles y hemos obtenido las siguientes distancias
de frenado.
Distancias 98 102 105 113 123 126
Num. de autos 15 10 12 8 16 13 Total 74
¿Se acepta la hipótesis de que la distancia media de frenado es de 110 m, con un nivel
de significación α = 0.05?
Ejercicio 6: Un fabricante asegura que sus fusibles, con una sobrecarga del 20%, se
fundirán por promedio al cabo de 12.40 min. Una muestra de 20 fusibles se sobrecarga
un 20%, obteniéndose una media de 10.63 y una cuasi desviación de 2.48 min.
¿Confirma la muestra la afirmación del fabricante para el promedio?
Prueba de hipótesis para la varianza
La varianza como medida de dispersión es importante dado que nos

ofrece una mejor visión de dispersión de datos. Nuevamente
consideramos que la población sigue una distribución de probabilidad
normal.
Formulación de las hipótesis
Prueba bilateral Prueba unilateral derecho Prueba unilateral inferior

H0 :s = s
2 2
0 H0 : s = s
2 2
0 H 0 : s 2 = s 02
H1 : s 2 �s 02 H1 : s 2 > s 02 H1 : s 2  s 02
Fijar nivel de significancia: a = 0,05; 0,01 etc.
94
Estadístico de prueba:
Si X → N (µ, σ), σ conocida
( n - 1) s 2
c = 2
s2
Prueba Chi cuadrado ( c 2 ) para una muestra con n-1 grados de libertad (gl.)
Regiones críticas
Depende de las formas de contraste de las hipótesis.
Contraste Bilateral Contraste unilateral inferior Contraste unilateral superior
---ZR--/----------ZA---------/--------ZR---------- ----ZR--/-------------------ZA---------------------- ------------------ZA---------/----------ZR----------
Decisión:
Forma Tabular
Ejemplo
Una firma agroindustrial desea incorporar un nuevo mecanismo en las
máquinas enfardadoras que fabrica. El ingeniero a cargo del proyecto
sospecha que esta innovación puede producir un aumento de la varianza del
peso de los fardos. La desviación estándar que se obtiene con la maquinaria
sin modificar es de 1.5 kg. Para evaluar el nuevo mecanismo, se realizó un
ensayo tomando 10 fardos al azar de un lote de alfalfa. Los pesos de dichos
fardos fueron: 28.3; 27.8; 29.3; 30.1; 32.5; 27.2; 25.3; 32.2; 33.6; 30.7, con
varianza muestral = 6.87.
95
Ejemplo 1: Un negocio debe pagar horas extra dada la demanda

incierta de su producto, por lo cual en promedio se pagan 50 horas
extra a la semana; el gerente de recursos humanos considera que
siempre se ha tenido una varianza de 25 en las horas extras
demandadas. Si se toma una muestra de 16 semanas se obtiene una
varianza muestral de 28,1. Determine con alfa = 0,10 si la varianza
poblacional de las horas extras demandadas a la semana puede
considerarse igual a 25.
Solución:
Formulación de hipótesis
H 0 : s 2 = 25
H1 : s 2 �25
a = 0,10
( n - 1) s 2 (16 - 1) * 28,1
c =2
=
0
s 2
25
c 02 = 16,86
Regiones críticas
----ZR----/---------------ZA------------/-------------ZR-------------
c 0,05;15
2
c 0,95;15
2
7,261 24,996
Decisión
Como que el valor del estadístico de prueba se ubica entre los valores tabulares (7,261
�c 02 = 16,86 �24,996), es decir dentro de la zona de aceptación, entonces se acepta la
hipótesis nula H 0 . Efectivamente se puede concluir con una confianza del 90% que la
varianza poblacional de las horas extras demandadas a la semana es
igual a 25.
96
Ejercicio 1: Un supervisor de control de calidad en una enlatadora sabe que la

cantidad exacta en cada lata varía, pues hay ciertos factores imposibles de controlar que
afectan a la cantidad de llenado. El llenado medio por lata es importante, pero
igualmente importante es la variación s 2 de la cantidad de llenado. Si s 2 es grande,
algunas latas contendrán muy poco, y otras, demasiado. A fin de estimar la variación del
llenado en la enlatadora, el supervisor escoge al azar 10 latas y pesa el contenido de
cada una, obteniendo el siguiente pesaje (en onzas):
7,96 7,90 7,98 8,01 7,97 7,96 8,03 8,02 8,04 8,02
Suponga que las agencias reguladoras especifican que la desviación estándar de la
cantidad de llenado debe ser menor que 0,1 onzas. ¿Esta información proporciona
pruebas suficientes de que la desviación estándar de las mediciones de llenado es menor
que 0,1 onzas si el nivel de significación queda fijado en un 5%?
Ejercicio 2: Se supone que los diámetros de cierta marca de válvulas están

distribuidos normalmente con una varianza poblacional de 0,2 pu lg adas 2 , pero se cree
que últimamente ha aumentado. Se toma una muestra aleatoria de válvulas a las que se
les mide su diámetro, obteniéndose los siguientes resultados en pulgadas: 5,5 5,4 5,4
5,6 5,8 5,4 5,5 5,4 5,6 5,7
Con ésta información pruebe si lo que se cree es cierto.
Prueba de Hipótesis para la diferencia de medias ( m1 - m2 )
Supongamos que se tiene dos poblaciones distribuidas normalmente con medias

desconocidas m1 y m 2 , respectivamente. Se puede aplicar una prueba z o t de Student
para comparar las medias de dichas poblaciones basándonos en dos muestras
independientes tomadas de ellas. La primera muestra es de tamaño n1 , con media X 1 y
la segunda muestra es de tamaño n2 , tiene media X 2 . Donde las varianzas
poblacionales pueden ser conocidas ( s 1 y s 2 ) o desconocidas ( s1 y s2 ).
2 2 2 2
Formulación de las hipótesis para muestras independientes
Prueba bilateral Prueba unilateral superior Prueba unilateral inferior

H 0 : m1 = m2 H 0 : m1 = m 2 H 0 : m1 = m 2
H1 : m1 �m 2 H1 : m1 > m 2 H1 : m1  m 2
Fijar el nivel de significancia: a = 0,05; 0,01 etc.
97
Caso I: Muestras independientes, Varianzas poblacionales conocidas ( s 12 y s 22 )
( X 1 - X 2 ) - ( m1 - m2 )
Z= � N (0,1)
s X1 - X 2
s 12 s 22
Donde: s X 1-X2
= +
n1 n2
Caso IIA: Normal-Muestras independientes, Varianzas poblacionales iguales (

s 12 = s 22 ) y desconocidas
( X 1 - X 2 ) - ( m1 - m2 )
T= � tn1 + n2 - 2
S X1 - X 2
Donde: v = n1 + n2 - 2 es el grado de libertad.
S X1 - X 2 =
( n1 - 1) * s12 + ( n2 - 1) * s22 �1 1 �
� + �
n1 + n2 - 2 �n1 n2 �
Caso IIB: Normal-Muestras independientes, Varianzas poblacionales diferentes (

s 12 �s 22 ) y desconocidas
( X 1 - X 2 ) - ( m1 - m2 )
T= � tv
S X1 - X 2
Donde:
s12 s22
S X1 - X 2 = +
n1 n2
2
� S12 S22 �
� n +
n2 �
n= � 2 � -2
1
�S1 � �
2
S2 �
2 2
Es el grado de libertad, que toma un valor numérico
� n � � n �
� 1 �+ � 2 �
n1 + 1 n2 + 1
redondeado entero.
98
Usualmente las varianzas son desconocidas
Regiones críticas
-- ZR-- /-------------ZA--------------/--ZR-- ----------------ZA---------------/----ZR---- ----ZR-----/-------------ZA----------------
Decisión:
Forma Tabular

Ejemplo 1: Para comparar el contenido promedio de aceites de las semillas de dos

variedades de maní, se plantean las hipótesis H0: m1= m2 vs. H1: m1 ¹ m2
Se diseña un ensayo en el que para cada variedad se obtienen los contenidos de aceite de
10 bolsas de 1 kg de semillas de maní, extraídas aleatoriamente de distintos productores
de semillas. Usar a = 0,05.
Los resultados del ensayo son los siguientes:
Variedad n X s2
1 10 160,4 65,3
2 10 165,6 67,9
Solución:
Según los datos corresponden al CASO II: Muestras independientes, varianzas
poblacionales desconocidas ( s 1 , s 2 ). Ahora el problema es;
2 2
¿Cómo saber si las varianzas son iguales o diferentes?
Suponiendo normalidad para las observaciones de las muestras, se realiza la prueba de

homogeneidad de varianzas, que consiste en lo siguiente:
99
H 0 : s 12 = s 22 vs. H1 : s 12 �s 22
a = 0,05.
s12 65, 3
F = 2
=
s2 67, 9
65, 3
F = = 0, 96
67, 9
Regiones críticas
Distribución F de Snedecor
0.0 0.248 1.5 3.0 4.03 4.5 6.0
-ZR-/--------------------------ZA-------------------------/-----------ZR--------------
Decisión:
La región de aceptación para un nivel de significación del 5% está delimitada por 0,248
y 4,03, correspondientes a las probabilidades a/2 y (1 - a/2) respectivamente.
Como F = 0,96 está en el intervalo (0,248; 4,03), es decir en la zona de aceptación, se

2 2
acepta H 0 : s1 = s2 , lo cual significa el cumplimiento del supuesto de homogeneidad
de varianzas.
Entonces aplicaremos CASO IIA: Prueba T para la diferencia de medias con

varianzas poblacionales ( s 1 = s 2 ) y desconocidas
2 2
H0: m1= m2 vs. H1: m1 ¹ m2
a = 0,05.
100
T =
(X 1 - X 2 ) - ( m1 - m2 )
( n1 - 1) S12 + ( n2 - 1) S 22
�1 1 � S p2 =
S p2 � + � n1 + n2 - 2
�n1 n2 �
s 2p =
( 10 - 1) *65,3 + ( 10 - 1) *67,9 = 66,6
10 + 10 - 2
T =
( 160, 4 - 165, 6 ) - ( 0 ) = -1, 42
�1 1 �
66, 6 � + �
�10 10 �
Regiones críticas
Distribución T de Student
-4.0 -2.7 -1.3 0.0 1.3 2.7 4.0

-2.101 2.101
---------ZR-------/---------------------ZA-------------------/--------ZR---------
Decisión
La región de aceptación para un nivel de significación del 5% está delimitada por -2,101
y 2,101, correspondientes a los probabilidades a/2 y (1 - a/2) respectivamente y 18
grados de libertad
Como T = -1,42 está en el intervalo (-2,101; 2,101), es decir en la zona de aceptación,

se acepta H0: m1= m2
Entonces se concluye que no hay diferencias entre el contenido promedio de aceites de
las semillas de dos variedades de maní.
Ejemplo 2. Un constructor está considerando dos lugares alternativos para construir

un centro comercial. Como los ingresos de los hogares de la comunidad son una
consideración importante en ésta selección, desea probar que el ingreso promedio de la
primera comunidad excede al promedio de la segunda comunidad en cuando menos
$1,5 diarios. Con la información de un censo realizado el año anterior sabe que la
desviación estándar del ingreso diario de la primera comunidad es de $1,8 y la de la
segunda es de $2,4
101
Para una muestra aleatoria de 30 hogares de la primera comunidad, encuentra que el

ingreso diario promedio es de $35,5 y con una muestra de 40 hogares de la segunda
comunidad el ingreso promedio diario es de $34,6. Pruebe la hipótesis con un nivel de
confianza del 95 por ciento.
Solución:
Datos
Primera comunidad Segunda comunidad
s 1 = $ 1,8 s 2 = $ 2,4
n1 = 30 n2 = 40
X 1 = $ 35,5 X 2 = $ 34,6
H 0 :m1 - m2 �1,5
H1 : m1 - m2  1,5
a = 0,05
Según los datos corresponden al CASO I: Muestras independientes con varianzas
poblacionales conocidas. Entonces:
( X 1 - X 2 ) - ( m1 - m2 ) ( X 1 - X 2 ) - ( m1 - m2 )
Z= =
s X1 - X 2 s 12 s 22
+
n1 n2
(35,5 - 34, 6) - 1,5

Z=
1,82 2, 42
+
30 40
Z = - 1,195
Regiones críticas
----ZR-----/-------------ZA-----------------
- z1-a
-1,645
Decisión
La región de aceptación para un nivel de significación del 5% está delimitada por -1,645
y + �, correspondientes a la probabilidad (1 - a).
102
Como Z = -1,195 está en el intervalo (- �;-1,645), es decir en la zona de echazo, se

rechaza H0
Entonces se concluye que el ingreso promedio de la primera comunidad no excede al
promedio de la segunda comunidad en cuando menos $1,5 diarios, con un nivel de
confianza del 95%.
Ejercicios 1. Un investigador desea averiguar si una industria está contaminando el

agua de un arroyo al cual evacua sus efluentes. A tal fin toma muestras de agua en dos
sitios: 1) aguas arriba del establecimiento y 2) aguas abajo del mismo. Los siguientes
son valores de concentración de uno de los metales pesados encontrados en cada sitio.
Aguas arriba
8 10 6 9 4 7 5 12 8 7 8 7 12 5 6 9
6 4 5 9 8 11 8 6 12 9 8 10 6 9 4 7
8 7 12 5 6 9 7 10 6 8 6 4 5 9 8 11
8 6 12 9 5 12 8 7 7 10 6 8
Aguas abajo
9 12 8 15 12 10 7 12 10 14 12 13 10 12 9 12
9 14 10 10 13 12 12 15 11 9 9 12 8 15 12 10
12 13 10 12 9 12 7 13 15 10 9 14 10 10 13 12
12 15 11 9 7 12 10 14 7 13 15 10
¿Cree Ud. que existen diferencias en la concentración de este metal pesado entre uno y
otro sitio? Evalúe su respuesta para un α = 0,02
Ejercicio 2. Un fabricante que usa dos líneas de producción 1 y 2 hizo un ligero ajuste
a la línea 2 con la esperanza de reducir tanto la variabilidad como la cantidad promedio
de impurezas en la sustancia química. Muestras aleatorias en cada línea arrojaron las
siguientes mediciones:
Línea n Promedio Varianza
1 16 3,2 1,04
2 16 3,0 0,51
¿Los datos aportan suficiente evidencia para concluir que la cantidad promedio de
impurezas de la línea 1 es menor que la línea 2?
Ejercicio 3. Una muestra de 80 alambres de acero producidos por la fábrica A
presenta una resistencia promedio a la ruptura de 1.230 lbs. con una desviación estándar
de 120 lbs Una muestra de 100 alambres de acero producidos por la fábrica B presenta
una resistencia promedio a la ruptura de 1.110 lbs . con una desviación estándar de 90
lbs .. Con base en ésta información pruebe si la resistencia promedio a la rotura de los
alambres de acero de la marca A es significativamente mayor que la de los alambres de
acero de la marca B. Asuma un nivel de confianza del 99 por ciento.
Ejercicio 4. El jefe de personal de una gran empresa afirma que la diferencia de los
promedios de antigüedad entre los obreras y obreros de la compañía es de 3.5 años. El
presidente de la compañía considera que ésta diferencia es superior. Para comprobar
dicha situación, se toma una muestra aleatoria de 40 obreras cuyo promedio de
antigüedad es de 12.4 años con desviación estándar de 1.5 años y de un grupo de 45
103
obreros cuyo promedio de antigüedad es de 8.3 años con desviación estándar de 1.7
años. Comprobar la hipótesis con un nivel de significación del 5%.
Caso III: Normal- Muestras dependientes
Los datos se obtienen de muestras que están relacionadas, es decir, los resultados del
primer grupo no son independientes de los del segundo.
Por ejemplo, esto ocurre cuando se mide el nivel de un metabolito en cada uno de los
individuos de un grupo experimental antes y después de la administración de una
droga.
El objetivo es comprobar si la droga produce efectos en el nivel del metabolito
Los pares de observaciones (antes y después) obtenidas en cada individuo no son

independientes ya que el nivel posterior a la administración de la droga depende del
nivel inicial.
Ejemplo
ANTES DESPUES DIF

8,69 7,24 1,45
7,13 7,10 0,03
7,79 7,80 -0,01
7,93 7,95 -0,02
7,59 7,50 0,09
7,86 7,79 0,07
9,06 9,00 0,06
9,59 9,48 0,11
Prueba bilateral Prueba unilateral inferior Prueba unilateral superior

H 0 : md = 0 H 0 : md = 0 H 0 : md = 0
H1 : m d �0 H1 : m d  0 H1 : m d > 0

a = 0,05; 0,01 etc.
T =
( D-m ) d
~ t n -1
�S d2 �
� �
�n �
104
T =
( D-m ) d
=
0, 22 - 0
= 1.26
� S � 2 0, 50
d
� � 8
�n �
Regiones críticas
-- ZR-- /-------------ZA--------------/--ZR--
- ta / 2 t1-a / 2
-2,365 2,365
Fijando a = 0.05, la región de aceptación es el intervalo (t a/2= -2,365, t1- a/2 =

2,365), con 7 grados de libertad
Como T = 1,26 es menor que t1- a/2= 2,365, se ubica en la zona de aceptación, por lo
tanto se acepta H 0 : m d = 0
Se concluye que la droga no causo efectos significativos, es decir que no existe

diferencias observadas entre los niveles de metabolitos por uno u otro individuo en
forma significativa.
Prueba de hipótesis para la proporción (de éxitos) de una sola

población
Vamos a considerar que tenemos una población de modo que en cada una de ellas
estudiamos una v.a. dicotómica (Bernoulli) de parámetro respectivo p . De la
población vamos a extraer una muestra de tamaño n .
Entonces,
n
X = �xi � B ( n, p )
i =1
En este caso, interesa contrastar hipótesis para una proporción o un porcentaje

poblacional (por ejemplo, el porcentaje de personas con hipertensión, fumadoras,
etc.)
Si el tamaño muestral n es grande, el Teorema Central del Límite nos asegura

que:
� p (1 - p ) �
pˆ � N �p; �
� n �
105
O bien:
pˆ - p
z= � N (0,1)
ˆˆ
pq
n
Donde:
p es la proporción o el porcentaje de personas u objetos con la característica de

interés en la población (o sea, es el parámetro de interés) y p̂ es su estimador
puntual muestral.
Prueba Bilateral Prueba unilateral superior Prueba unilateral inferior

H 0 : p = p0 H 0 : p = p0 H 0 : p = p0
H1 : p �p0 H1 : p > p0 H1 : p  p0

a = 0,05; 0,01 etc.
Estadística de prueba
pˆ - p 0
Z = � Normal ( 0 , 1)
p 0q 0
Donde:
q0 = 1 - p0
p : Proporción muestral de éxitos
Regiones críticas
-- ZR-- /-------------ZA--------------/--ZR-- ----------------ZA---------------/----ZR---- ----ZR-----/--------------ZA----------------
Decisión
Forma Tabular
106


Ejemplo 1. En una gran compañía, el 18% o más de los trabajadores están de

acuerdo con un proyecto de ley que modifica el código laboral Peruano. La gerencia de
la compañía selecciona una muestra aleatoria de 120 trabajadores, donde el 30% están
de acuerdo con dicho proyecto de ley. ¿Cual es la conclusión del gerente?
Solución:
H 0 : p = 0,18
H1 : p > 0,18
a = 1%
ˆ - p0
p 0,30 -0,18
Z = =
p 0q 0 0,18*0,82
n 120
Z = 3,43
Regiones críticas
------------------ZA--------------/----ZR-----
z1-a
2,33
Decisión
Fijando a = 0.01, la región de aceptación es el intervalo (- � ; z1-a = 2,33)
107
Como el estadístico de prueba Z = 3,43 es mayor que z1-a = 2,33, es decir se ubica en la
zona de rechazo, se rechaza H0
El gerente concluye que efectivamente el 18% o más de los trabajadores están de
acuerdo con un proyecto de ley que modifica el código laboral Peruano.
Ejercicio 1. Se conoce por experiencia que el 14% de la producción de cierto artículo

resulta defectuosa. Se introducen algunos correctivos en el proceso y luego mediante
una muestra de 360 artículos escogidos aleatoriamente, se encuentra que el 13.33%
resultan defectuosos. Comprobar si los cambios mejoraron la calidad con un nivel de
significación del 5%.
Ejercicio 2. Un propietario de un gran taller de reparación de artículos
electrodomésticos, asegura que por lo menos en el 30% de las reparaciones se hacen
posteriores reclamos. Uno de sus empleados piensa que dicha proporción es mayor y
para probarlo toma una muestra aleatoria de 120 órdenes de reparación efectuadas
anteriormente y encuentra que el 39.17% de las mismas fueron objeto de reclamos.
¿Quién tiene la razón? Nivel de significación del 1%.
Ejercicio 3. Una compañía estima que tiene una participación en el mercado de un
80% para su producto estrella. Mediante una muestra aleatoria de 400 posibles
consumidores se encuentra que el 75% de los mismos consumen el referido producto.
¿Con un nivel de significación del 1%, puede concluirse a través de los resultados que
dicha proporción es menor?
Ejercicio 4. Se quiere comprar una maquina troqueladora y se adquirirá si la

proporción de piezas defectuosas producidas por la máquina es 10% o menos. Se
examina una muestra aleatoria de 40 piezas y se encuentra que 7.5% resultaron
defectuosas. ¿Con un nivel de significación del 5%, puede concluirse que la máquina
satisface los requerimientos?
Prueba de hipótesis para la diferencia entre las proporciones de dos

poblaciones
Vamos a considerar que tenemos dos poblaciones de modo que en cada una de
ellas estudiamos una v.a. dicotómica (Bernoulli) de parámetros respectivos p1 y
p2 . De cada población vamos a extraer muestras de tamaño n1 y n2 .
Entonces
n1
X 1 = �x1i � B ( n1 , p1 )
i =1
n2
X 2 = �x2i � B ( n2 , p2 )
i =1
108
Si las muestras son suficientemente grandes ocurre que una aproximación para la
prueba de hipótesis al nivel de significancia “ a ” para la diferencia de
proporciones de dos poblaciones es:
Prueba bilateral Prueba unilateral inferior Prueba unilateral superior

H 0 : p1 = p2 H 0 : p1 = p2 H 0 : p1 = p2
H1 : p1 �p2 H1 : p1  p2 H1 : p1 > p2
Fijar nivel de significación

a = 0,05; 0,01 etc.
Estadística de prueba
(pˆ 1 - pˆ 2 )-(p1-p 2 )
Z = � Normal ( 0 , 1)
�1 1 �
pq � + �
�
�n1 n2 �
�
ˆ 1 + n 2 pˆ 2
n1 p
p =
n1 + n 2
Regiones críticas
-- ZR-- /-------------ZA--------------/--ZR-- ----------------ZA---------------/----ZR---- ----ZR-----/--------------ZA----------------
Decisión
Forma Tabular

109

Ejemplo 1. Una firma distribuye dos variedades de maíz. En una encuesta se

encuentra que 56 de 200 agricultores prefieren la variedad A y que 29 de 150
agricultores prefieren la variedad B. ¿Se puede concluir al nivel de significación del 5%
que la variedad A tiene mayor preferencia que la variedad B?
Solución:
Marca A Marca B
X 1 : Número de agricultores que X 2 : Número de agricultores que
prefieren la variedad A prefieren la variedad B
X 1 = 56 X 2 = 29
n1 = 200 n2 = 150
X 56 X 29
pˆ1 = 1 = pˆ 2 = 2 =
n1 200 n2 150
p̂1 = 0,28 � q̂1 = 0,72 p̂2 = 0,19 � q̂2 = 0,81
H 0 : p1 = p2
H1 : p1 > p2
a = 5%
ˆ1 - p
(p ˆ 2 )-(p1-p 2 ) (0,28-0,19) -0
Z = =
�1 1 � �1 1 �
pq �
�
+ � 0,24*0,76� + �
�n1 n2 �
� �200 150 �
Z = 1,96
Calculando
ˆ1 + n2p
n1 p ˆ2 200 * 0, 28 + 150 * 0,19
p = =
n1 + n 2 200 + 150
p = 0,24 q = 0,76
Regiones críticas
110
----------------ZA---------------/-----ZR----
z1-a
1,645
Decisión
Fijando a = 0.05, la región de aceptación es el intervalo (- � ; z1-a = 1,645)
Como el estadístico de prueba Z = 1,96 es mayor que z1-a = 1,645, es decir se ubica en
la zona de rechazo, se rechaza H0
Se concluye que efectivamente la variedad A tiene mayor preferencia que la variedad B
con un nivel de confianza del 95%.
Ejercicio 1. Dos máquinas A y B, producen un mismo artículo. La máquina A produce

como término medio una proporción de 14% de artículos defectuosos, mientras que la
máquina B, produce en término medio una proporción de 20% de artículos defectuosos.
Si se obtiene una muestra aleatoria de 200 unidades del artículo que provengan de la
máquina A y una muestra aleatoria de 100 unidades provenientes de la máquina B.
Demostrar que la máquina B tenga una proporción de defectuosos 8% o más que A. Se
supone que la población es infinita.
Ejercicio 2. Se seleccionó una muestra aleatoria de 100 hombres y 100 mujeres de un
departamento de Colombia; se halló que de los hombres 60 estaban a favor de una ley
de divorcio y de las mujeres 55 estaban a favor de dicha ley. Con base en ésta
información, pruebe que la proporción de hombres que favorece ésta ley es mayor que
la proporción de mujeres. Asuma un nivel de confianza del 99 por ciento.
Ejercicio 3. La maqueta del nuevo automóvil propuesto se mostró a dos grupos de
150 personas cada uno. Un grupo constó de personas entre 18 y 25 años de edad, y el
otro de personas mayores de 50 años. El 80% de los integrantes del grupo más joven
aprobó el modelo, mientras que sólo el 50% del grupo mayor en edad lo aprueba.
Dentro de un 95% de confiabilidad, ¿puede decirse que ambos grupos tienen opiniones
diferentes?
Ejercicio 4. Un profesor de Estadística desea comparar el porcentaje de aprobados de
la sección “A” contra el porcentaje de aprobados de la sección “B”. En la sección “A”
se tomó una muestra de 26 estudiantes, de los cuales 16 habían aprobado, de la sección
“B” una muestra de 28 estudiantes reveló 25 aprobados. Utilice un 99% de confiabilidad
para comprobar si el porcentaje de aprobados de la sección “B” es superior al de la
sección “A”.
Prueba de hipótesis de independencia de criterios (comparación de

proporciones de k grupos)
111
PRUEBA JI CUADRADO DE PEARSON
Uno de los usos más frecuentes de la distribución ji-cuadrado es probar la hipótesis

nula de que dos criterios de clasificación, son independientes. Se dice que dos criterios
de clasificación son independientes si la distribución de uno no se ve afectada por la
distribución del otro.
Para realizar el análisis de los datos o frecuencias conjuntas (O ij) los datos deben
disponerse en una tabla de contingencia, de acuerdo a dos criterios.
Criterio 2 Criterio 1 ni.

1 2 ... c
1 O11 O12 ... O1c n1.
2 O21 O22 ... O2c n2.
r Or1 Or2 ... Orc nr.

n. j n.1 n. 2 ... n.c n
El procedimiento de la prueba es el siguiente:
Ho: Ambos criterios de clasificación son independientes
H1: Ambos criterios de clasificación no son independientes
Nivel de significación
a = 0,05; 0,01 etc.
Estadístico de prueba o Función pivotal

  (Oij - E ij ) 2
c2 =
E ij
n i. x n. j
E ij =
n
Oij: Frecuencia observada

Eij: Frecuencia esperada
Valor de p ó valor c tab

2
= c (2r -1)( c -1) ; 1-a
Decisión
Forma Tabular
Rechazar Ho si c2 > c tab2
112
No rechazar Ho si c 2
 c 2
tab
Rechazar Ho si (p < 0.05 ó p < 0.01)

No rechazar Ho si (p > 0.05)
Esto es:
Si p < 0.05, Existe relación estadísticamente significativa entre las variables

en estudio.
Si p < 0.01, Existe relación altamente significativa entre las variables en

estudio.
Si p > 0.05, No existe relación estadísticamente significativa entre las variables
en estudio.
Ejemplo 1: Se hizo en Perú un estudio hacia fines del año 2010 con una muestra
informantes dirigentes sociales, 17 hombres y 15 mujeres, a fin de conocer su
percepción de la situación económica del país. Los resultados son los siguientes, en
número de casos:
Sexo Percepción de la situación económica Total
Buena Aceptable Deficiente
Hombre 8 (9,03) 6 (5,31) 3 (2,66) 17
Mujer 9 (7,97) 4 (4,69) 2 (2,34) 15
Total 17 10 5 32
Con un nivel de significación del 10% realice un contraste de hipótesis para responder a
la afirmación de que la percepción de la situación económica está asociada al género del
encuestado.
Solución:
H 0 : La percepción de la situación económica es independiente del sexo del encuestado
H1 : La percepción de la situación económica es dependiente del sexo del encuestado
a = 10%
  (Oij - E ij ) 2
c2 =
E ij
Hallando la frecuencia esperada
n1. x n .1 17 *17
E11 = = = 9, 03
n 32
113
n1. * n.2 17 *10

E12 = = = 5, 31
n 32
.
.
.
n2. * n.3 17 *5
E23 = = = 2, 66
n 32
Reemplazando
(8 - 9, 03) 2 (6 - 5,31) 2 (2 - 2,34) 2

c = 2
+ + ... +
9, 03 5,31 2,34
c 2 = 0,535
Valor tabular
c12-a ;( F -1)( C -1) = c 0,90;(1)(2)

2
= c 0,90;2
2
= 4,605
Regiones críticas
-----------------ZA---------/----------ZR----------
4,605
Decisión
Fijando a = 0.10, la región de aceptación es el intervalo (0; c 0,90;2 = 4,605)
2
Como el estadístico de prueba c 2 = 0,535 es menor que c 0,90;2 = 4,605, es decir se ubica
2
en la zona de aceptación, se acepta H0.

Lo que nos permite concluir con una confianza del 90% que la percepción de la
situación económica no está asociado al género del encuestado.
Bibliografía
114
1. HARNNET MURPHY. Introducción al Análisis Estadístico. Addison. Wesley,

Iberoamericana, 1986.
2. HOEL, PAUL B. Estadística Elemental. CECSA, 1986.
3. KENNEDY, JOHN. NEVILLE ADAM. Estadística para Ciencias e Ingeniería.
Harla, México 1982.
4. MEYER L P. Probabilidad y Aplicaciones Estadísticas. Fondo Educativo
Interamericano 1986.
5. MILLER IRWIN, FREUND, JHON E. Probabilidad y Estadística para el Ingeniero.
Prentice Hall. Inc. México, 1986.
6. STEVENSON, WILLIAM. Estadística para Administración y Economía. Harla.
México, 1986.
7. WONNACOT THOMAS. Introducción a la Estadística. Limusa S.A. 1981.
8. HINES W. MONTGOMERY D. Probabilidad y Estadística para Ingeniería y
Administración, Compañía Editorial Continental. S.A. de C.V.
9. WALPOLE R. MYERS R. Probabilidad y Estadística. Edit. Mc. Graw Hill
Interamericana de México de C.V.1992.
10. SCHEAFFER Mc. Clave. Probabilidad y Estadística para Ingenieros, Edit. Grupo
Editorial Iberoamericana, 1993.
11. William Mendenhall/ Terry Sincich. Probabilidad y Estadística para Ingeniería y
Ciencias. Editorial Prentice Hall, 1997. Cuarta Edición.
12. Murray R. Spiegel. Estadística. Editorial McGrawHill. 1995.
13. Webster, Allen. Estadística Aplicada. Editorial McGrawHill. 2001.
115

Estadistica y Probabilidades

Hochgeladen von

Dokumentinformationen

Originaltitel

Copyright

Verfügbare Formate

Dieses Dokument teilen

Dokument teilen oder einbetten

Freigabeoptionen

Stufen Sie dieses Dokument als nützlich ein?

Sind diese Inhalte unangemessen?

Copyright:

Verfügbare Formate

Estadistica y Probabilidades

Hochgeladen von

Copyright:

Verfügbare Formate

Probabilidad y Estadística

UNIVERSIDAD NACIONAL DEL SANTA

Escuela Académica Profesional de Ingeniería en Energía

Ms. Luis Pajuelo Gonzáles

Primera Edición 2011

Tamaños de muestra para variables cuantitativas………………………………70

1.1. IMPORTANCIA DE LA ESTADÍSTICA

ambientales controladas en los humanos y en los animales para la determinación del

1.2. CONCEPTOS BÁSICOS EN LA ESTADÍSTICA

Unidad de observación, unidad estadística o unidad de análisis, es el individuo,

Dato, valor observado o simplemente observación, es el resultado de medir una

Parámetro, es un número o una medida de resumen que describe a una característica de

la población, tal como la media poblacional ( m ) o la varianza poblacional ( s ) .

Tamaño de la Población, por el número de elementos que la componen la población se

Estadístico o estadígrafo, es un número o una medida de resumen que describe a una

característica de la muestra, tal como la media muestral ( X) o la varianza muestral

1.3. VARIABLES ESTADÍSTICAS

ESCALA DE MEDIDA. Es un patrón o conjunto de criterios claramente definidos que

VARIABLE CUALITATIVA: Es aquella que su medición se puede expresar

Por ejemplo, el estado civil, la nacionalidad, el sexo, la profesión, la raza, el color de la

Las variables cualitativas pueden ser binomiales o multinomiales. Se pueden hacer

NOMINAL. Sirven únicamente para identificar la diferencia o semejanza, así como el

ORDINAL. Permite distinguir diferencia o semanaza y jerarquía, además asigna el

VARIABLE CUANTITATIVA: Es aquella que su medición se expresa

VARIABLE CONTINUA: Es aquella que toma cualquier valor dentro de un intervalo

DATO: Es cualquier observación individual de una característica (variable) especifica,

En el cuadro No 1 que aparece a continuación se muestra una base de datos donde se

Los métodos estadísticos proponen diferentes tipos de muestreo, aunque en general

Métodos de muestreo probabilísticas

Los métodos de muestreo probabilística son aquellos que se basan en el principio de

Muestreo aleatorio simple

El procedimiento empleado es el siguiente: 1) se asigna un número a cada individuo de

Muestreo aleatorio sistemático

Este procedimiento exige, como el anterior, numerar todos los elementos de la

Muestreo aleatorio estratificado

Afijación simple: a cada estrato le corresponde igual número de elementos muestrales.

Por ejemplo, se esta interesado en estudiar el grado de aceptación que la implantación

diferencia en el tamaño de los estratos. Por consiguiente, se calcula la proporción para

Muestreo aleatorio por conglomerados

Métodos de muestreo no probabilísticas

A veces, para estudios exploratorios, el muestreo probabilística resulta excesivamente

También denominado en ocasiones "accidental". Se asienta generalmente sobre la base

Muestreo opinático o intencional

Este tipo de muestreo se caracteriza por un esfuerzo deliberado de obtener muestras

Muestreo casual o incidental

Se trata de un proceso en el que el investigador selecciona directa e intencionadamente

Evaluación del valor de una encuesta

Cotidianamente se oye o se lee sobre resultados de encuestas en los diferentes medios

Errores en las encuestas

Aun cuando en las encuestas se utilizan métodos de muestreo probabilística, están

Error de cobertura o sesgo en la selección

La clave para una selección apropiada en la muestra es un marco de población adecuado

Error o sesgo de no respuesta

El error de muestreo se presenta cuando se encuesta una muestra y no la población, es

Se refiere a la falta de precisión en las respuestas registradas, debido a fallas en la

Aspectos éticos del muestreo

En la actualidad se existe una tendencia a la proliferación de investigaciones que se

1.5. PRESENTACION DE LOS DATOS

Componentes de una Distribución de Frecuencias

intervalo de clase o categoría. Se denota por f i .

Frecuencia relativa simple, representa la proporción de unidades de análisis en la

simples, esta frecuencia siempre tiende a la unidad. Se denota por H i .

xi : La variable, es cada uno de los diferentes valores que se han observando o