Estadística 1 Unificado

Estadística Descriptiva
Estadística 1 3
Índice
1. PRESENTACIÓN DEL AUTOR .................................................................. 5

2. INTRODUCCIÓN ..................................................................................... 7
3. ANALISIS DE LOS DATOS ..................................................................... 22
4. DATOS BIDIMENSIONALES. AJUSTE DE CURVAS................................. 44
5. TÉCNICAS DE CONTEO ......................................................................... 57
6. PROBABILIDAD.................................................................................... 81
7. VARIABLES ALEATORIAS ................................................................... 105
8. DISTRIBUCIONES DE PROBABILIDAD DISCRETA.............................. 144
9. DISTRIBUCIONES DE PROBABILIDAD CONTINUA............................. 166
10. INFERENCIA ESTADÍSTICA .......................................................... 188
11. INTERVALOS DE CONFIANZA PARA UNA ÚNICA POBLACIÓN...... 212
12. CONTRASTE DE HIPÓTESIS.......................................................... 225
13. INFERENCIA ESTADÍSTICA DE DOS POBLACIONES ..................... 245
14. ANALISIS DE VARIANZA .............................................................. 259
Estadística 1 5
1. PRESENTACIÓN DEL AUTOR
El Dr. Jesús Manuel Bergues Cabrales posee una experiencia docente y

metodológica avalada por treinta y dos años en la eneseñanza de asignaturas
relacionadas con las Físicas Teóricas, Matemáticas y Física General. Además, ha
desarrollado actividades de investigación en el campo de la materia condensada en
temáticas vinculadas a las nanoestructuras semiconductoras y materiales
semimagnéticos. Actualemente desarrolla su actividad investigadora en sistemas
complejos trabajando modelos teóricos para el estudio de propiedades térmicas y
mecánicas del ADN. Por otra parte estudia la distribución de corriente y electrodos
en tumores sólidos.
Estadística 1 7
2. INTRODUCCIÓN
La Estadística es la ciencia matemática que se utiliza para describir, analizar e

interpretar ciertas características de un conjunto de “individuos” llamado población.
La Estadística enseña a razonar de manera lógica y a tomar decisiones informadas

en presencia de incertidumbre y variación.
Estadística
Estadística descriptiva Inferencia estadística
(colecciona, describe, visualiza y resume datos (genera modelos, infiere y hace predicciones
originados a partir de los fenómenos en asociadas a los fenómenos en cuestión)
estudio)
Los modelos que refiere la inferencia estadística son probabilísticos y permiten

asignar probabilidades a los fenómenos estudiados (relacionan la probabilidad y la
estadística). La probabilidad aporta los modelos teóricos y con la estadística se
trata de adaptarlos a sucesos reales.
DEFINICIONES
Población: Conjunto de seres u objetos de los que se va a obtener información.
su tamaño se indica con N .
Muestra: Un subconjunto de la población.
representará bien a todos sus elementos.
su tamaño se indica con n .
ha de ser representativa de toda la población. En general n << N .
La teoría del muestreo se ocupa de que las muestras sean extraídas con
cierta garantía.
la permite formular y responder preguntas
Si se conoce la
probabilidad de la
Población Muestra
la
Permite sacar conclusiones de la Inferencia estadística Si se conoce sus

características
GUÍA DOCENTE
Documento que norma todo el sistema de competencias, contenidos, evaluaciones y

sistemas de procedimiento de la asignatura. Importa ver su relación con el
diagrama anterior1. En otras palabras, están las directrices de nuestro sistema de
enseñanza-aprendizaje. Se encuentra en la PDU.
Variable estadística. Clasificación
El trabajo estadístico se realiza recogiendo la información en variables. Éstas se

ordenan y se almacenan en ficheros. Posteriormente, se puede operar con ellas y
aplicarles funciones para hacer transformaciones y análisis estadísticos.
1
El diagrama puede verse en dos partes, no es un ciclo cerrado
Estadística 1 9
Nominales
(directamente por su contenido –

sexo: V y M, etc.)
Cualitativas
(no cuantificables
numéricamente). Describen las
categorías
Ordinales
(por el orden que ocupan –

“satisfacción en el trabajo”: baja,
Variable estadística media, alta; etc.)
Variable
estadística
(cada una de las
características que se Discretas
(cada una de las Discretas
estudia en una muestra)
características que se
(cantidad finita o numerable de
(cantidad finita o numerable de
valores aislados -Nº de hijos, etc.)
valores aislados -Nº de hijos,
etc.)
Cuantitativas
(datos numéricos: se pueden

medir, ordenar, operar)
Continuas
(infinidad no numerables de
valores, i.e. toman cualquier
valor real -estatura, peso, etc.)
Variables ratio Variables por
intervalos
(toman
(tomanvalores puntuales)
valores
(toman valores por
intervalos)
sussus valores
valores se
se
representan
x1 , x2 ..., xN ; xi (i = 1, 2, ⋅ ⋅⋅, N ) : valor de la variable para el elemento i-
ésimo de la población
xx1 ,, xx2 ,..., xn ; xi : valor de la variable para el elemento i-ésimo de la

1 2 ,..., xn ; xi : valor de la variable para el elemento i-ésimo de la
muestra
muestra
Después de recoger los datos se ordenan para facilitar su análisis.
ORGANIZACIÓN DE LOS DATOS: TABLAS DE FRECUENCIAS
Estamos interesados en conocer un patrón de variabilidad de los datos porque

inicialmente están dispersos. Con este fin utilizamos las distribuciones de
frecuencias (conjunto de valores que ha tomado una variable junto con sus
frecuencias y nos da la forma en que están distribuidos los datos inherentes a su
variabilidad), los histogramas (una representación visual de los datos) y análisis
exploratorios de datos.
Una vez seleccionada la muestra y tomados los valores de la variable estadística, se

organizan los datos.
Datos desagrupados
(se consideran todos los valores de la variable, cada uno con el
valor que tenga)
Organización
Datos agrupados
(Normalmente se agrupan los datos de variables continuas, y por
lo general cuando la variable aleatoria toma valores diferentes
en todos los elementos de la muestra)
Datos desagrupados.
Ejemplo 1.1.
En una universidad en la que hay un total de 1000 alumnos ( N = 1000 ), se quiere

hacer un estudio sobre las edades de los alumnos. Para ello se toma una muestra
de 20 personas (n=20) obteniéndose los siguientes valores:
19, 18, 20, 18, 20, 23, 18, 20, 22, 19, 19, 23, 21, 22, 24, 27, 23, 19, 20, 22
Observa que x1 = 19, x2 = 18, x3 = 20...., x20 = 22
Muestra ordenada:
18, 18, 18, 19, 19, 19, 19, 20, 20, 20, 20, 21, 22, 22, 22, 23, 23, 23, 24, 27
x1 = 18, x2 = 18, x3 = 18,..., x20 = 27.
Rango: diferencia entre el mayor y el menor valor que toma la variable.
En el ejemplo: rango = 27-18 = 9

Estadística 1 11
Análisis tabular de los datos
frec. frec.
frec. frec. absolutas relativas Porcentajes
absolutas relativas acumuladas acumulada Porcentajes acumulados
i
n Ni
xi ni fi = i Ni = ∑ n j Fi = pi = f i ·100 Pi = Fi ·100
n j =1 n
18 3 3/20 3 3/20 15% 15%
19 4 4/20 7 7/20 20% 35%
20 4 4/20 11 11/20 20% 55%
21 1 1/20 12 12/20 5% 60%
22 3 3/20 15 15/20 15% 75%
23 3 3/20 18 18/20 15% 90%
24 1 1/20 19 19/20 5% 95%
27 1 1/20 20 20/20 5% 100%
n = 20 100%
Datos agrupados
Procedimiento:
1. dividir el rango que tome la muestra en intervalos: intervalos de clase.
2. tomar un elemento representativo por cada intervalo.
3. considerar todos los valores de la variable que caigan dentro del intervalo
como si fueran ese elemento representativo
Existen varios criterios para determinar el número de clases, sin embargo ninguno
de ellos es exacto. Algunos autores recomiendan de cinco a quince clases,
dependiendo de como estén los datos y cuántos sean. Un criterio usado
frecuentemente es que el número de clases debe ser aproximadamente la
raíz cuadrada del número de datos, por ejemplo, la raíz cuadrada de 30 es
mayor que cinco, por lo que se seleccionan seis clases.
OBSERVACIONES (intervalos de clase)
1. La amplitud es la longitud o diferencia entre el

mayor y menor valor que pertenezca al intervalo.
Se suelen tomar todos con igual amplitud.
2. Es importante que estos intervalos se solapen y

que su intersección sea vacía.
Ejemplo 1.2. [1, 2 ) [ 2,3) [3, 4 ) [ 4,5) [5, 6] : intervalos de clase de
amplitud 1 que dividen el intervalo [1, 6] .
Para utilizar estos intervalos como si se trataran de un solo elemento se ha de

tomar un elemento representativo de cada uno de ellos. A este elemento
representativo se le denomina marca de clase.
La marca de clase es el punto medio de cada uno de los intervalos de clase. Hay
tantas marcas de clase como intervalos de clase.
x
La marca de clase se denota con i , porque al trabajar con datos agrupados, se
utilizará como el valor de la variable estadística cuando los datos nos son
agrupados.
La frecuencia absoluta de cada xi será el número de elementos de la muestra

que estén dentro del intervalo representado por la marca de clase xi .
El resto de tabulaciones se efectuarán siguiendo el mismo criterio que en el caso

anterior pero considerando la marca de clase como valor.
Estadística 1 13
Ejemplo 1.3. Tenemos los datos de las alturas de 16 personas en

centímetros y queremos tabularlas: 160, 172’4, 168, 167, 175, 179, 180, 198, 164,
166, 174, 177, 182’5, 185, 191, 173’5
i
ni Ni
Intervalos xi ni fi = Ni = ∑ n j Fi = pi = f i ·100 Pi = Fi ·100
n j =1 n
[160,170 ) 165 5 5/16 5 5/16 500/16 % 500/16 %
[170,180 ) 175 6 6/16 11 11/16 600/16 %

1100/16
%
[180,190 ) 185 3 3/16 14 14/16 300/16 %

1400/16
%
[190, 200 ) 195 2 2/16 16 16/16 200/16 %

1600/16
%
n=16
Nota. Para definir una distribución de frecuencia se necesita conocer todos los
valores de la variable y una de las frecuencias que hemos visto en las tablas
anteriores pues el paso de una a otra es inmediato. Observe además que es posible
distinguir dos tipos: agrupadas y desagrupadas.
REPRESENTACIONES GRÁFICAS DE LAS DISTRIBUCIONES DE

FRECUENCIAS
Una representación gráfica nos permite de una simple mirada tener una idea rápida
de las propiedades principales. Como veremos, podemos tener idea si es simétrica o
se aproxima a la normalidad u otras propiedades que se pueden analizar
formalmente utilizando contrastes, etcétera.
Hay que considerar:
Histogramas de frecuencia
Datos
agrupados Polígonos de frecuencia
Polígonos de frecuencia
acumuladas
Cuantitativas
Diagrama de barras
Diagrama escalonado
Datos sin
agrupar
Variables Polígonos de frecuencias
Polígonos de frecuencias
acumuladas
Diagramas de sectores
Cualitativas Diagramas de rectángulos
Pictogramas
Un histograma no es más que un diagrama de barras, en el que la base de cada

barra es un intervalo de clase, por tanto, para construirlos debemos de agrupar los
datos.
Construcción de un histograma y un polígono de frecuencias:
1. Determinar el rango de los datos.
2. Obtener en número de clases, tantas como número de barras.
3. Establecer la longitud de clase: es igual al rango entre el número de clases.
4. Construir los intervalos de clases: Los intervalos resultan de dividir el rango

de los datos en relación al resultado del PASO 2 en intervalos iguales.
5. Graficar el histograma: se hace un gráfico de barras, las bases de las

barras son los intervalos de clases y altura son la frecuencia de las clases.
Estadística 1 15
Este sería el histograma de frecuencias para el Ejemplo 1.3:
Si se unen los puntos medios de la base superior de los rectángulos se obtiene el

polígono de frecuencias. Intente hacerlo, compruebe con el que aparece en la
página siguiente.
El polígono de frecuencias se puede hacer para datos no agrupados sin pasar por la
agrupación previa de ellos.
En el Ejemplo 1.1, el polígono de frecuencias tomaría la siguiente forma:

Poligono de frecuencias relativas
0,25
Frecuencias relativas
0,2
0,15
0,1
0,05
0
18 19 20 21 22 23 24 27
Valores de la variable estadística
Ejemplo 1.4.
A una fábrica de envases de vidrio, un cliente le está exigiendo que la capacidad de

cierto tipo de botella sea de 13 ml, con una tolerancia de más menos 1 ml. La
fábrica establece un programa de mejora de calidad para que las botellas que se
fabriquen cumplan con los requisitos del cliente. Se realiza un muestreo y se
obtienen los siguientes valores:
11, 12, 13, 12, 13, 14, 14, 15, 11, 12, 13, 12, 14, 15, 11, 12, 16, 14, 13, 14, 14, 13,
15, 15, 15
PASOS:
1. El rango es 16-11=5
2. Tenemos 25 datos, como 25 = 5 , tomaremos 5 clases.
3. Rango/(nº de clases) = 5/5 = 1. La longitud de las clases será 1.
4. [11, 12) [12, 13) [13, 14) [14, 15) [15, 16]
Estadística 1 17
5. Los datos tabulados serán:
Clase Intervalo Frecuencia Frecuencia

relativa
1 [11, 12) 3 3/25=0,12
2 [12, 13) 5 5/25=0,2
3 [13, 14) 5 5/25=0,2
4 [14, 15) 6 6/25=0,24
5 [15, 16] 6 6/25=0,24
25 1,00
Haga el histograma de frecuencias y el polígono de frecuencias relativa.
¿Qué ventajas nos proporciona la distribución de frecuencias?
1. Permite la visibilidad de la distribución de la variable que se estudia y la

forma de la misma.
2. Permite analizar, controlar y mostrar las capacidades de los procesos de los

que derivan sus datos desde el punto de vista cuantitativo y cualitativo.
3. Ayuda en la determinación del promedio, de la desviación estándar, de los

coeficientes de asimetría y curtosis y las características restantes de una
distribución.
4. Probar a qué distribución matemática se acopla mejor estadísticamente una

distribución empírica de datos a la variable que se estudia.
Es importante interpretar las distribuciones de frecuencia y
para ello:
1. El promedio de la distribución, ¿está en una posición adecuada?
2. La dispersión de la distribución, ¿cómo es respecto al promedio?
3. El valor medio, la desviación estándar, el rango y otros… ¿cómo se

relacionan?
4. ¿Hay valores que faltan o suben o bajan repentinamente?
5. ¿Son aceptables los valores máximos y mínimos de la distribución?
6. ¿Es simétrica o asimétrica la distribución?
7. La parte derecha o izquierda de la distribución, ¿tiene forma de acantilado?
8. ¿Tiene más de un pico la distribución?
9. El pico de la distribución, ¿es demasiado chato o agudo?
Estos puntos nos servirán para analizarlos con las medidas que daremos más
adelante.
Variables cualitativas
Mayormente vamos a ver datos numéricos. En el caso de variables cualitativas:
Frecuencia
absoluta
Los diagramas de rectángulo se asignan a cada
modalidad de la variable cualitativa un rectángulo
con igual (o proporcional) a su frecuencia absoluta
ni y con base constante

turismo
comercio
pesca
industria
Los diagramas de sectores se construyen con un

industria
turismo
círculo cuya área es proporcional a la frecuencia
absoluta. El ángulo central αi es:

pesca
comercio
ni
αi = 360 = f i ⋅ 360
N
Estadística 1 19
Los pictogramas se representan de manera pictórica con la modalidad de la variable

cualitativa (se pueden expresar de diferentes formas)
Existen otras formas gráficas de representar las variables que no hemos explicitado,
¿cómo serán?
Bibliografía
S.Lipschutz y J. Schiller, “Introducción a la probabilidad y estadística”. Ed. Mc Graw

Hill, 2000.
Jay L. Devore, Probabilidad y estadística (para ingeniería y ciencias), sexta edición.

Ed. Thomson. 2005.
César Pérez López, “Estadística” (problemas resueltos y aplicaciones). Ed. Pearson

Prentice Hall, 2003.
RECOMENDACIONES AL ESTUDIO INDEPENDIENTE
1. Revisar las notas de clases del profesor.
2. Revisar ejemplos 1.1, 1.2 y 1.3 del S.Lipschutz Cap.1.
3. Revisar problemas resueltos 1.1 - 1.6 del S.Lipschutz Cap.1.
4. Lea además, el Devore Pág. 1 a la 28.
5. Leer la guía docente. Ver el sistema de clases y evaluación.
6. ¿Tiene ud. idea de cómo son los otros gráficos que hemos señalado en
clases? Analícelos.
7. Averigüe que es un diagrama de:
a. Puntos y qué información nos brindan.
b. tallo y hoja y qué información nos brindan.
c. caja y bigote y qué información nos brindan.
8. Vea el Devore, pág. 11 a la 14. Puede buscar también en Internet o fijarse

de los ejemplos citados arriba.
9. Alternativamente puede consultar el manual complementario de
bioestadística para ver ejemplos de los conceptos principales.
EJERCICIOS PROPUESTOS
1. En un grupo de estudiantes se ha registrado las calificaciones que han

obtenido en la asignatura de Estadística. Una vez organizado los datos, se
obtuvo el siguiente resultado:
Calificaciones 0 1 2 3 4 5 6 7 8 9 10
Número de Estudiantes 4 2 6 15 5 16 20 6 4 2 2
a. Determine la distribución de frecuencias adecuadas para las puntuaciones.
b. Halle el porcentaje de alumnos que aprobó la asignatura (los que sacaron

5).
c. Halle el porcentaje de alumnos que sacaron notas superiores a 7.
d. Si hubiera que otorgar 8 becas erasmus, ¿en cuánto hay que subir el
aprobado?
e. Haga las representaciones gráficas de las distribuciones adecuadas de este

problema.
2. Los valores relativos al número de estudiantes y facultades de

ingeniería en un determinado país son:
Estudiantes 0- 100- 200- 300- 400- 500- 600- 700- 800-

100 200 300 400 500 600 700 800 900
No de 18 37 11 19 20 12 5 3 2
Facultades
a. Construir la tabla de frecuencias adecuadas a los datos.
b. Hallar el número de facultades con más de 400 estudiantes.

Estadística 1 21
c. Hallar el porcentaje de facultades con más de 200 estudiantes y menos de

500.
3. Después de la selectividad, un grupo de estudiantes de un instituto han

elegido las siguientes carreras en la USJ:
Carrera Arquitectura Farmacia Informática Enfermería Fisioterapia
Estudiantes 50 64 20 120 100
a. Construir la distribución de frecuencias adecuada para la variable carrera

elegidas por los alumnos y hacer los gráficos correspondientes.
b. Determine el diagrama de sectores.
4. Los pesos de hombres y mujeres de una clase son:
122 (W) 117 (W) 117 (W) 167 (M) 114 (W)
195 (M) 145 (M) 158 (M) 158 (M) 190 (M)
110 (W) 134 (W) 165 (M) 104 (W) 132 (W)
107 (W) 105 (W) 181 (M) 142 (W) 123 (W)
155 (M) 155 (M) 172 (M) 149 (M) 120 (W)
140 (W) 163 (M) 125 (W) 130 (W) 150 (M)
187 (M) 147 (M) 118 (W) 159 (M) 160 (M)
115 (W) 175 (M) 125 (W) 177 (M) 121 (W)
a. Construir un cuadro de tallos y hojas con los datos, tomando las decenas
como tallos y las unidades como hojas.
b. Construir un cuadro de tallos y hojas con los datos como el apartado a, pero
poniendo las hojas de los pesos de los hombres a la derecha del tallo y las
de las mujeres a la izquierda.
3. ANALISIS DE LOS DATOS
Estudiamos las distribuciones de frecuencia de una variable. Nos interesa resumir

dichas distribuciones mediante las medidas de posición o tendencia central,
dispersión y forma. El histograma daba esta información. Se trata ahora de
cuantificarlos. A estas operaciones se les denomina análisis de los datos2.
Análisis de datos
Medidas de Medidas de Medidas de Medidas de

tendencia central dispersión posición forma
Cuartiles
Media Rango Asimetría
Mediana Varianza Deciles Aplastamiento

o Curtosis
Moda Desviación Percentil

típica
Momentos
potenciales
Unidades
tipificadas
Coeficiente
de variación
MEDIDAS DE TENDENCIA CENTRAL
Grupo de estadísticos que permiten ver lo dominante, típico o la tendencia de una

distribución de datos. Con otras palabras, son valores representativos o centrales
alrededor de los cuales se distribuyen los valores de las variables.
2
Nosotros por conveniencia vamos a considerar las medidas de tendencia central y de posición en grupos
separados. En algunos textos ambas se consideran como medidas de posición.
Estadística 1 23
La representatividad de una distribución se considera operativa si intervienen en su

determinación todos los valores de una distribución. Ésta se considera única para
cada distribución, calculable y de fácil obtención.
Medias
Sea la distribución de frecuencias ( xi , ni ) :
Media aritmética
n
xi k
xi ⋅ ni k
Media muestral: x = ∑
i =1 n
= ∑
i =1 n
= ∑
i =1
xi ⋅ f i
k N
xi ·ni x
Media poblacional: µ = ∑
i =1 N
=∑ i
i =1 N
Ambas definiciones coinciden. Se simbolizan diferentes porque habrá que

distinguirlas en las medidas de dispersión.
ni y f i son la frecuencia absoluta y relativa respectivamente.
La media aritmética es muy sensible a los valores extremos de la variable pues una
observación extrema, hará que la media se desplace en esa dirección. Por tanto, no
es recomendable su uso en distribuciones muy asimétricas. Por otro lado, con
variables discretas puede ocurrir que su valor no se corresponda con el conjunto de
valores al que pertenece la variable (ejemplo: la media de las placas base de
ordenadores elaborados en cuatro días es x = 158,2 placas base).
En ocasiones interesa: Media ponderada:

n
x ·w + x ·w + ... + xn ·wn ∑xw i i

Xw = 1 1 2 2 = i =1
;
w1 + w2 + ... + wn n
∑w
i =1
i
x1 , x2 ,...xn son los datos; w1 , w2 ,...wn , sus respectivos ‘pesos’.
log x1 + log x2 + ⋅ ⋅ ⋅ + log xn n

log xi
Media geométrica: log x g = =∑ .
n i =1 n
Así, xg = n x1 x2 ⋅ ⋅ ⋅ xn .
Con los datos agrupados en una tabla: xg = n x1n1 x2n2 ⋅ ⋅ ⋅ xk k .

n
La media geométrica es útil en los casos en que las variables presentan variaciones
acumulativas (para promediar variables tales como porcentajes, tasas, números
índices, etcétera). Se debe tener cuidado con la presencia de la raíz.
n
Media armónica: xa = n
1
∑x
i =1 i
n
Para valores que se repiten: xa = k
.
1
∑
i =1 xi
ni
No es aconsejable su uso con valores pequeños de la variable. Con ella se puede

promediar variables tales como productividades, velocidades, tiempos,
rendimientos, tipos de cambio, etcétera.
x12 + x22 + ⋅ ⋅ ⋅ + xn2

Media cuadrática: xc =
n
n1 x12 + n2 x22 + ⋅ ⋅ ⋅ + nk xk2

Para valores que se repiten: xc =
n
Mediana
Estadística 1 25
Considerando x1 , x2 ,..., xn (los datos de la muestra ordenados en orden creciente),

la mediana es el valor de la distribución que deja el mismo número de datos antes y
después de él.
El conjunto de datos menores o iguales que la mediana representan el 50% de los

datos, y los que son mayores que la mediana representan el otro 50% del total de
datos de la muestra.
Para datos desagrupados
 x n +1 n, impar
~  2
x =  xn + xn
+1
 2 2
n, par
 2
Para datos agrupados
n Sí, entonces ~
x coincidirá con la abscisa correspondiente.
¿Coincide con el valor de
2
una frecuencia absoluta
acumulada? No, entonces ~
x se determina a través de semejanza de
triángulos en el histograma o polígono de frecuencias
Para la variable continua calculamos la media como indicamos a continuación:
Según el teorema de Tales:

100% n
CB DE
C =
Ni
n
AB AE
50% D
2
A
N i − N i −1 n 2 − N i −1
N i −1 E B
= ~
li − li −1 x − li −1
0%
li −1 ~
x li
Cálculo geométrico de la mediana. Sección de gráfica N i y N i −1 (frecuencias absolutas acumuladas)
n 2 − N i −1
La mediana se puede expresar como ~
x = li −1 + (li − li −1 ) . Si denominamos
N i − N i −1
ai = li − li −1 (amplitud del intervalo); entonces, la expresión anterior queda:
~ n 2 − N i −1
x = li −1 + ai
Ni
La mediana se calcula rápidamente, posee una interpretación sencilla y su valor no

está afectado por las observaciones extremas pues no depende de los valores que
toma la variable, sino del orden de las mismas. Por ello es adecuado su uso en
distribuciones asimétricas. A diferencia de la media, el valor de una variable discreta
toma siempre esos valores.
Moda
{ }
Valor de la variable que más se repite: Md = xi , Si ni = max f j , j ∈ {1, 2,..., k}
Si la distribución de datos tiene dos moda se llama bimodal; tres modas, trimodal.
Si todas las variables tienen la misma frecuencia diremos que no hay moda.
Al tratar con datos agrupados, se define el intervalo modal (mayor frecuencia

absoluta) antes de definir la moda.
En intervalos con la misma amplitud se puede tomar el valor de la moda en el

extremo inferior del intervalo, Md = li −1 ; o en el extremo superior, Md = li ; o
tomar la marca de clase del intervalo modal, Md = xi . Si todos los valores del
intervalo modal están distribuidos uniformemente dentro de él, la moda estará más
cerca de aquel intervalo contiguo de frecuencia mayor, siendo las distancias de la
moda, Md , a los intervalos contiguos inversamente proporcionales a las
frecuencias de dichos intervalos:
ni +1
Md = li −1 + ai
ni −1 + ni +1
Si los intervalos tienen amplitud diferente:
d i +1
Md = li −1 + ai
d i −1 + d i +1
ni
siendo d i = (densidad de frecuencia).
ai
Estadística 1 27
La moda es la medida más representativa en caso de distribuciones de variables

nominales. Su justificación se debe a que éstas no presentan datos que se puedan
ordenar de modo que no son posibles operaciones elementales con sus
observaciones. La moda se emplea principalmente cuando los valores de la variable
presentan una gran concentración hacia un valor determinado. Únicamente se
emplea en distribuciones de gran frecuencia total.
Relación entre las media, mediana y moda
Cuando las distribuciones son unimodales, la mediana está con frecuencia

comprendida entre la media y la moda e incluso más cerca de la media.
Las distribuciones que presentan cierta inclinación, se recomienda el uso de la

mediana. No obstante, en los estudios relacionados con propósitos estadísticos y de
inferencia estadística suele ser más apta la media.
MEDIDAS DE POSICIÓN
Los estadísticos de posición van a ser valores de la variable caracterizados por

superar a cierto porcentaje de observaciones en la población (o muestra). Son
medidas de posición no central que permiten conocer otros puntos
característicos de la distribución y los denominamos cuantiles de orden k , que
son aquellos valores de la variable, que ordenados de menor a mayor, dividen a la
distribución en k partes, de forma tal que cada una de ellas contiene el mismo
número de frecuencias.
Existirán r = k − 1 cuantiles de orden k . El primero dejará a su izquierda la

fracción 1k de frecuencia de las observaciones; el segundo, 2 k ; el
r − ésimo cuantil, r k . Éste último deja a su derecha 1 − r k frecuencia de
observaciones. Al r − ésimo cuantil lo designamos por Qr ,k .
Si tenemos la distribución agrupada el r − ésimo cuantil, toma el valor:
rN
− N i −1
Qr , k = li −1 + k ai
ni
< N i y [li −1 , li ] es el intervalo siguiente que contiene a
rN rN
siendo N i −1 < y cuya
k k
amplitud es ai .
Dentro de los cuantiles de orden k , estudiaremos los cuartiles ( k = 4 y r = 1,2,3 ; es

decir, 3 cuartiles), deciles ( k = 10 y r = 1,2,⋅ ⋅ ⋅,9 ; es decir 9 deciles) y percentiles
(k = 100 y r = 1,2,⋅ ⋅ ⋅,99 ; es decir 99 percentiles).
Cuartiles
Cuartiles Q1 , Q2 , Q3 o Qc = Qc , 4 ( c = 1,2,⋅3 ), ordenados los datos en orden

creciente, x1 , x2 ,..., xn , son tres números que dividen la distribución de los datos
en cuatro partes iguales. El segundo cuartil coincide con la mediana.
Q1 = xi , siendo i el valor que más se aproxime a n / 4 superiormente, i ≥ n / 4
Q2 = ~
x
Q3 = x j , siendo j el valor que más se aproxime a 3n / 4 superiormente, j ≥ 3n / 4 .
Datos agrupados. Se calculan con el diagrama de frecuencias absolutas

acumuladas. Aquí, Q1 es el dato cuya ordenada es n / 4 y deja el 25% de datos
menores o iguales que él a su izquierda y el 75% de los datos, mayores que él, a su
derecha.
Análogamente, Q3 es el número cuya ordenada en el diagrama de frecuencias

absolutas acumuladas coincide con 3n / 4 y deja el 75% del los datos, menores que
él, a su izquierda y el 25% de datos, mayores que él a su derecha.
La misma construcción es válida para calcular los deciles y los percentiles
Deciles
Deciles D1 , D2 , D3 , D4 , D5 , D6 , D7 , D8 y D9 o Dd = Qd ,10 ( d = 1,2,⋅ ⋅ ⋅,9 ).
Ordenados los datos en orden creciente, x1 , x2 ,..., xn , los deciles son los valores
que dividen a la distribución en diez partes iguales.
Estadística 1 29
El cálculo es análogo al de la mediana y los cuartiles:
Dd = xi , siendo i el valor que más se aproxime a d ·n /10 superiormente,

i ≥ d ·n /10 ∀d ,1 ≤ d ≤ 9 .
En el diagrama de frecuencias absolutas acumuladas Dd es el número cuya

ordenada coincide con el valor d ·n /10 ∀d ,1 ≤ d ≤ 9 .
Percentiles
Percentiles P1 , P2 ,..., P99
Ordenados los datos en orden creciente, x1 , x2 ,..., xn , los noventa y nueve

números que dividen la distribución de los datos en cien partes iguales serán los
percentiles.
El cálculo es análogo a los anteriores:
Pc = xi , siendo i el valor que más se aproxime a c·n /100 superiormente,

i ≥ c·n /100 ∀c, 1 ≤ c ≤ 99 .
En el diagrama de frecuencias absolutas acumuladas Pc es el número cuya

ordenada coincide con el valor c·n /100 ∀c, 1 ≤ c ≤ 99 .
A veces es útil indicar los valores máximos ( H ) y mínimos ( L ) que toma la variable
estadística en una muestra o población.
Otra medida de posición que caracteriza la distribución de frecuencias son los

momentos potenciales.
k
1
Momento de orden r respecto del origen se define como: a r =
N
∑x n
i =1
r
i i
∑ (x − x ) ni .
k
1
Momento de orden r respecto de la media se define como: mr = j
N i =1
Ambos momentos se relacionan mediante la fórmula:
r r
mr = a r −  a r −1a1 +  a r − 2 a12 − ⋅ ⋅ ⋅ + (− 1) a1r
r
1  2
Observación: El momento de orden 1 respecto del origen coincide con la media

aritmética; el momento de orden 2 respecto a la media, con la varianza de la
distribución (la veremos más adelante).
Relación entre promedios y Fórmula de Foster
Puede demostrarse que para la misma distribución de frecuencias ( xi , ni ) se cumple

la siguiente relación: xa ≤ x g ≤ x ≤ xc .
La relación de los diferentes promedios se hace con la fórmula de Foster, en la cual

la media de orden m viene dada por la expresión:
n1 x1m + n2 x2m + ⋅ ⋅ ⋅ + nk xkm

M (m ) = m ,
N
con lo cual
M (−1) = xa , M (0 ) = x g , M (1) = x y M ( 2 ) = xc .
MEDIDAS DE DISPERSIÓN
Los estadísticos de tendencia central o posición sólo nos indican donde se sitúa un
grupo de puntuaciones. Sin embargo, las medidas de dispersión muestran la
variabilidad de una distribución, indicando por medio de un número o estadístico, si
las diferentes puntuaciones de una variable están o no muy alejadas de la media.
Cuanto mayores son los valores de esos estadísticos más variabilidad habrá. Cuanto
menores son, más homogéneas son las puntuaciones respecto a la media. De este
modo se puede saber si todos los casos son parecidos o hay grandes diferencias
entre ellos.
Dentro de las medidas de dispersión tenemos medidas absolutas y relativas (son

adimensionales). Posteriormente, la clasificación de las medidas absolutas y
relativas se hace atendiendo a si están o no referidas a promedios.
Estadística 1 31
Medidas de dispersión absolutas no referidas a promedios
{ } {
Rango o recorrido R = max xi , i ∈ {1, 2,..., k } − min xi , i ∈ {1, 2,..., k} }
Esencialmente, el cálculo de esta magnitud es sencillo, las unidades se
corresponden con el de la variable estadística, intervienen dos valores en su
determinación, es sensible a valores extremos y aumenta o permanece igual con el
incremento del número de observaciones.
Recorrido intercuartílico RI = Q3 − Q1
Medidas de dispersión relativas no referidas a promedios
mayor valor
Coeficientes de apertura CA = de la distribución.
menor valor
recorrido
Recorrido relativo Rr = .
media
RI
Recorrido semintercuartílico Rs = .
Q1 + Q3
Medidas de dispersión absolutas referidas a promedios

k
∑ (x − P )n
1
Desviación respecto al promedio: D = i i
N i =1
Tiene el inconveniente que al efectuar el promedio se produce la compensación de

términos positivos y negativos siendo la medida pequeña con una dispersión
grande. La solución a esta dificultad se resuelve introduciendo los módulos o
elevando al cuadrado.
k
1
Desviación media con respecto a la media aritmética: Dm =
N
∑x
i =1
j − x ni .
k
1
Desviación media con respecto a la mediana: D~x =
N
∑x
i =1
j −~
x ni .
Sin embargo, las medidas de dispersión más utilizadas son:
Varianza
La varianza de una variable mide la dispersión de sus valores respecto al valor

central x o µ . La podemos definir además como la media aritmética de las
desviaciones cuadráticas de n o N puntos respecto a su media aritmética.
1 n 1 n 2
Varianza muestral: s 2 = ∑ ( x − x )2
= ∑ xi −
n 2
x (demuéstrelo)
n − 1 i =1 n − 1 i =1 n −1
i
N N
∑ (xi − µ )
1 1
Varianza poblacional: σ 2 = = ∑x − µ 2 (demuéstrelo)
2 2
i
N i =1 N i =1
Esta medida es siempre una cantidad no negativa y muy útil en la inferencia

estadística. La varianza tiene una dimensionalidad que no coincide con la variable
estadística. Para resolver este problema se define otra medida de dispersión, la
desviación típica.
Desviación típica
1 n
Desviación típica muestral: s = ∑ (xi − x )2
n − 1 i =1 ¿A qué se debe la diferencia
entre ambas expresiones?
N
∑ (x − µ)
1
Desviación típica poblacional: σ =
2
i
N i =1
Observación. Tanto la varianza como la desviación típica son sensibles a la

variación de cada una de las puntuaciones (ver definición), en el intervalo
( x − 2 s, x + 2 s ) se encuentra al menos el 75% de las observaciones (en caso de
distribución normal el 95% -se definirá más adelante) y no se recomienda usarlas
cuando tampoco sea recomendable el de la media aritmética como medida de
tendencia central.
Estadística 1 33
s
Error estándar e = .
n
Observación. Es posible definir desviación media respecto a la moda y desviación

cuadrática respecto a la mediana y a la moda en las medidas de dispersión
absolutas referidas a promedios.
Medidas de comparación: unidades tipificadas y el coeficiente de

variación
Las medidas de centralización y dispersión nos dan información sobre una muestra.
Sin embargo, si queremos comparar dos magnitudes de una misma población (la
resistencia eléctrica y la diferencia de potencial de un elemento ohmico), comparar
una desviación respecto a la media no tiene sentido. El mismo problema se plantea
si medimos cierta cantidad de dos poblaciones con distintas unidades (la masa del
ADN y la de un sólido cristalino –unidades en uma y en kg puede resultar que la
dispersión en uma sea despreciable).
Para comparar datos procedentes de diferentes muestras o poblaciones se

emplean las unidades tipificadas y/o el coeficiente de variación pues elimina
la dimensionalidad de las variables y tiene en cuenta la proporción existente entre
medias y desviación típica.
Z-scores o valores tipificados
Sea xi un valor procedente de una muestra o población con media x o µ y

desviación típica s o σ .
xi − x
zi = , es el valor tipificado o z-score de la muestra. La nueva variable
s
tiene z i = 0 y s zi = 1 .
xi − µ
zi = , es el valor tipificado o z-score de la población. La nueva variable
σ
tiene z i = 0 y σ zi = 1 .
Las unidades tipificadas muestran el número de desviaciones típicas que en un valor

dado se sitúa por encima o por debajo de la media de su muestra o población. Éstas
permite hacer comparables dos medidas estadísticas que en un principio no lo son
(comparación de la masa del ADN y el sólido cristalino). También es aplicable al
caso en que se quieran comparar individuos semejantes de poblaciones diferentes
(conductividades eléctricas del sólido cristalino de un material conductor y
semiconductor).
Coeficiente de variación
Para resolver los inconvenientes que presenta la desviación típica se define una
medida adimensional de la variabilidad: coeficiente de variación. Nos sirve para
comparar tablas en las que se utilicen unidades diferentes de medida.
s
Coeficiente de variación muestral: CV =
x
σ
Coeficiente de variación poblacional: CV =
µ
A veces este cociente se expresa en tanto por ciento y nos dará un porcentaje de
variabilidad de los datos respecto a la media. El coeficiente no es invariante ante
cambios de origen pero si es invariante a cambios de escala. Como en su cálculo
intervienen todos los miembros de la muestra o población (ver quiénes lo forman)
nos da mucha garantía ante otros coeficientes. El único inconveniente se presenta
cuando x = 0 .
Observación. El coeficiente de variación sirve para

comparar las variabilidades de dos conjuntos de valores
(muestras o poblaciones), mientras que si deseamos
comparar a dos individuos de cada uno de esos conjuntos,
es necesario usar los valores tipificados.
D~
Índice de dispersión respecto a la mediana V~x = ~x
x
Sirve para comparar medianas de varias distribuciones que puedan estar en

unidades diferentes.
MEDIDAS DE FORMA
Estadística 1 35
Ahora nos interesa si los datos se distribuyen de forma simétrica con respecto a un
valor central, o si bien la gráfica que representa la distribución de frecuencias es de
una forma diferente del lado derecho que del lado izquierdo. Si la simetría ha sido
determinada, podemos preguntarnos si la curva es más o menos apuntada.
Las medidas de forma tratan de comparar las distribuciones de los datos con los de
una población normal en la que la moda y la media coinciden y su distribución de
frecuencias relativas es simétrica respecto de la media. Esta medida de comparación
es muy útil con variables discretas. Sólo se utilizarán estas medidas para
distribuciones de datos unimodales. Cuando las distribuciones son continuas se
recomienda la mediana por cuanto ésta divide al histograma de frecuencias en dos
partes de áreas iguales.
Simetría
Distribución normal
Distribución unimodal es simétrica cuando todos los valores de la distribución sean

simétricos respecto a la moda y valores simétricos tengan frecuencias relativas
iguales.
Asimetría
Asimétrica a la derecha o
asimétrica positiva si las Asimétrica a la izquierda o
frecuencias más altas se asimétrica negativa si la cola
encuentran en el lado izquierdo de está a la izquierda Md > x
la media, mientras que en
derecho hay frecuencias más
pequeñas (cola)
Md < x
Asimétrica a la derecha: Se verifica Asimétrica a la izquierda: Se

que Md < X verifica que Md > X
Para medir la asimetría de una distribución se pueden utilizar los siguientes
coeficientes:
Coeficiente de asimetría de Pearson:
> 0 asimétrica a derecha

x − Md 
Ap = ⇒ = 0 simétrica
s < 0 asimétrica a izquierda

Coeficiente de asimetría de Fisher:
m3
1 k
∑
N i =1
(x j − x ) ni
3
> 0 asimétrica positiva

g1 = 3 = ⇒ = 0 simétrica
σ 3
< 0 asimétrica negativa
 ∑ (x j − x ) ni 
1 k 2 2 
 i =1
N 
Coeficiente de asimetría de Fisher estandarizado: Para N > 150, el

g1
coeficiente es asintóticamente normal con media cero y varianza 6/N, g s = .
6
N
Coeficiente de asimetría de Bowley:
> 0 asimétrica positiva

Q3 + Q1 − 2 ~
x 
Ab = ⇒ = 0 simétrica
Q3 + Q1 < 0 asimétrica negativa

Coeficiente absoluto de asimetría:
Q3 + Q1 − 2Q2 > 0 asimétrica positiva

A=
s 
⇒ = 0 simétrica
Q3 + Q1 − 2 ~
x
= < 0 asimétrica negativa
s 
Curtosis o aplastamiento
La Curtosis o aplastamiento o apuntamiento analiza el grado de concentración

que presentan los valores alrededor de la zona central de la distribución, i.e., da
idea si la distribución es más o menos apuntada que una normal).
Estadística 1 37
Según el grado de curtosis, una distribución puede ser:
1.
2.
3.
4.
5.
Presenta
6. un grado de Presenta un elevado grado de Presenta un reducido grado
concentración medio alrededor de concentración alrededor de los de concentración alrededor
los valores centrales de la variable
7. valores centrales de la variable de los valores centrales de
Medidas de curtosis más comunes
Coeficiente de curtosis o coeficiente de aplastamiento de Fisher:

k
∑ (x − x ) ni
1 4
 g 2 > 0 Leptocúrtica

i
m4 N
g2 = −3 = i =1
⇒  g 2 = 0 Mesocúrtica
σ4 1 k

2
 g < 0 Platicúrtica
∑ (x − x)
2
 i ni   2
N i =1 
Coeficiente de curtosis estandarizado: Si N > 150, g 2 es asintóticamente

normal de media cero y varianza 24/N. Por tanto,
g2
g ks = . El coeficiente es asintóticamente normal (0, 1).
6
N
Es importante después del análisis de datos presentar el siguiente teorema, la cual

será muy útil al analizar las variables aleatorias X .
DESIGUALDAD DE CHEVYSHOV
Teorema (Desigualdad de Chevyshov) Sea una distribución de datos cualquiera

xi , un número K ≥ 0 . Si la frecuencia relativa de los datos está comprendida en el
intervalo  X − K ·S , X + K ·S  ( X es la media de los datos y S la desviación típica),
se verifica que:
{ }
frecuencia relativa xi ; X − xi ≤ K ·S ≥ 1 −
1
K2
.
Observación. La tesis se puede escribir también como:
{x ;
i X − xi ≤ K ·S } ≥ 1− 1
.
n K2
1 1 3
Ejemplo: Sea K = 2 , 1 − 2
= 1 − = = 0, 75 , lo que indica que más del 75% de
K 4 4
los datos, cualquiera que sea la distribución, se encuentran en un intervalo de la
forma  X − K ·S , X + K ·S  .
ANÁLISIS EXPLORATORIO DE DATOS
La media y la desviación típica son convenientes cuando la distribución de datos es

aproximadamente normal o, al menos simétrica o unimodal. Sin embargo, en el
estudio de control de la calidad, por ejemplo, las variables no cumplen siempre
estos requisitos. Entonces hay que hacer un análisis de la estructura de datos.
Hoy en día se usan novedosas técnicas del análisis exploratorio de datos y se

pueden analizar los datos y detectar posibles anomalías que presenten las
observaciones. Para este objetivo, se recomienda hacer los siguientes pasos:
1. Iniciar el análisis con datos que permitan visualizar su estructura. Para datos
cuantitativos se debe empezar por gráficos de tallos y hojas o como se
denominan también histogramas digitales.
2. Examinar los posibles valores atípicos (outliers) en el conjunto de datos

mediante los gráficos de caja y bigote. Debemos tener presente que el
gráfico de caja siempre debe ir junto con los histogramas digitales (o
gráficos de tallos y hojas), porque los primeros no detectan si las
distribuciones son multimodales.
Si los datos no se ajustan a la distribución normal se deben usar estadísticos

resistentes o robustos. Éstos se ven pocos afectados por valores atípicos pues
suelen basarse en la mediana y los cuartiles que pueden calcularse fácilmente.
Estadística 1 39
Se pueden complementar nuestro análisis con los diagramas de simetría y

gráfico normal de probabilidad.
Los gráficos de simetría permiten analizar la simetría de una variable. En el eje

de las ordenadas se representan las distancias de los valores de la variable a la
mediana que quedan por encima de ella; en el eje de las abscisas, los que quedan
por debajo. La simetría perfecta implicaría estar sobre los valores de la diagonal
principal que se forma.
Pasos:
1. Calcular la mediana.
2. Se ordenan los valores de la variable en orden descendente.
3. Se calculan las distancias d i (i = 1,2,⋅ ⋅ ⋅, n ) entre los valores ordenados y la

mediana.
4. Se toman los d i > 0 ordenados en orden creciente y los denominamos pi

(valores sobre la mediana).
5. Se toman los d i < 0 (con signos cambiados) ordenados en orden creciente y

los denominamos ni (valores bajo la mediana).
6. Se grafican (− ni , pi ) .
Los gráficos normales de probabilidad determinan si un conjunto de datos se

ajusta a una distribución normal. Este gráfico presenta en el eje de las abscisas los
valores de la variable; en el eje de las ordenadas, los valores de las frecuencias
relativas acumuladas. La normalidad perfecta corresponde a los puntos (xi , Fi )
situados una línea recta ubicada en la diagonal del primer cuadrante.
Bibliografía
1. Lipschutz y J. Schiller, “Introducción a la probabilidad y estadística”. Ed. Mc Graw

Hill, 2000.
2. Jay L. Devore, Probabilidad y estadística (para ingeniería y ciencias), sexta

edición. Ed. Thomson. 2005.
3. Apuntes del profesor J M Bergues, 2009.
4. Material complementario de bioestadística.

Orientaciones al estudio individual
1. Estudiar las notas de clases.
2. Ejemplos del texto (1) recomendado Pág. 8 a la

20.
3. Ver el concepto de Gran media. Vea el texto

citado.
4. Estudiar los problemas resueltos del mismo libro

(1). Pág. 33 a la 38.
5. Alternativamente vea ejemplos resueltos en el

material complementario de bioestadística.
6. Puede consultar la Wikipedia o las páginas Web de

la asignatura para buscar ejemplos de los
diferentes tópicos explicados.
7. Este estudio es preliminar, después de la clase de

refuerzo se pondrán ejercicios a realizar por los
estudiantes y luego viene un proceso de
consolidación.
1. Durante un mes diez vendedores de un concesionario de coches vendieron 13,

17, 10, 18, 17, 9, 17, 13, 15, 14 coches respectivamente. Hallar:
a. la media
b. la mediana
c. la moda
d. el medio rango
e. la varianza
f. la desviación típica
Estadística 1 41
2. La distribución de los salarios en una universidad se presenta como sigue:
Salarios No de trabajadores
0 - 10000 2000
Calcular:
10000 - 20000 1500
a. el salario medio por trabajador.
20000 - 30000 900 b. el salario más frecuente.
c. el salario tal que la mitad de los restantes sea
30000 - 40000 1000
inferior a él.
40000 - 50000 2500 d. El primer cuartil salarial y el percentil 60.
50000 - 60000 600
60000 - 70000 300
70000 - 80000 10
3. Los rendimientos de cuatro inversiones realizadas por una empresa y las

cantidades invertidas inicialmente en la unidad monetaria son las que se relacionan
a continuación:
Cantidad inicial Rendimientos

Calcular el rendimiento medio por unidad monetaria
invertida para el total de inversiones de la empresa
300000 1500
mediante:
500000 2000
a. el concepto que mejor se ajuste a la situación
200000 900 descrita.

b. Otros procedimientos. Compárelos entre sí.
400000 1300
4. La tabla muestra los consumos de un determinado producto por habitantes en
una ciudad de una navidad a otra.
Meses Dic Ene Feb Mar Abr May Jun Jul Ago Sep Oct Nov Dic
. . . . . . . . . . . . .
consum 17 15 10 9,3 9,4 9,2 8,5 9 9 6,5 8,2 10 18

o 5
A partir de los incrementos unitarios de consumo de cada mes, calcule el

incremento unitario anual medio acumulativo.
5. En un experimento controlado una partícula recorre una distancia 100 Km. a una
velocidad de 150 km/h y 60 Km. a una velocidad de 120 km/h Determine ¿cuál es la
velocidad media de la partícula en todo el recorrido?
6. La tabla muestra los salarios de grupos de profesores de dos universidades con

un número de total de trabajadores similares.
Universidad 1 Universidad 2
Salarios No Profesores Salarios No Profesores
10000 - 20000 240 5000 - 15000 190
20000 - 30000 360 15000 - 25000 430
30000 - 40000 220 25000 - 35000 180
40000 - 50000 560 35000 - 45000 130
a. Calcular el salario medio en cada universidad y el salario medio del conjunto

de las dos universidades.
Estadística 1 43
b. ¿Cuál de los dos salarios es más representativo?
c. ¿Se puede diferenciar si en una universidad se gana más que en la otra?
d. ¿Cuál es el salario medio percibido por el mayor número de profesores en la

primera universidad?
e. En la segunda universidad clasificamos a un profesor en el grupo en el que

se encuentra el 50% de los que menos salarios tiene, ¿cuál es el tope del
salario que puede percibir?
7. En una práctica de laboratorio se realiza la medición de la resistencia eléctrica de

50 elementos ohmicos. 7 elementos ohmicos tienen una resistencia entre 10 y 20
Ω ; 11, entre 20 y 30 Ω ; 15, entre 30 y 40 Ω ; 10, entre 40 y 50 Ω ; 5, entre 50 y
60 Ω ; y 2, entre 60 y 70 Ω . Se quiere:
a. La media, la mediana, la moda, la desviación media respecto a la media,

tercer cuartil, sexto decil, trigésimo percentil, recorrido intercuartílico y
recorrido semiintercuartílico de los ohmios de las resistencias.
b. Calcular el coeficiente de asimetría de Bowley y realizar el gráfico adecuado

para el estudio de la asimetría de la distribución de las resistencias de los
elementos ohmicos.
c. Deducir el grado de normalidad de la distribución mediante el gráfico de

normalidad.
d. Construir el diagrama de tallo y hojas realizando una comparación con el

histograma de frecuencias y deduciendo de él la simetría y la normalidad de
la distribución de la resistencia eléctrica de los elementos ohmicos.
e. Analice la distribución mediante un gráfico exploratorio de cajas y bigotes.
8. En el laboratorio se ha medido una magnitud física de tal manera que para varios
valores de la misma se han realizados varias mediciones según se reporta en la
siguiente tabla:
xi 1 3 4 6 10
ni 5 12 20 8 5
a. Estudie analítica y gráficamente la simetría de esta distribución.
b. Cuantifique el grado de apuntamiento de esta distribución.
c. Estudie la normalidad de esta distribución
4. DATOS BIDIMENSIONALES. AJUSTE DE CURVAS
INTRODUCCIÓN
En mediciones de magnitudes que se realizan en un laboratorio o algún otro tipo

de valor que se obtienen al realizar un estudio determinado, se obtienen datos del
tipo:
(x1, y1), (x2, y2),…, (xn, yn).
Interesa buscar la relación que se establece entre las variables (correlación):

gráfica o analíticamente ¿Por qué?
Las gráficas muestran un entendimiento rápido del objeto de estudio; las

expresiones analíticas, expresan directamente la relación que se establece entre las
variables.
Estadística 1 45
¿Cómo se satisfacen estos requerimientos a partir de un conjunto de datos? Idea:

representar los datos en un plano y según la forma en que se distribuyen, trazar la
curva que mejor se ajuste a esa nube de puntos.
Datos bidimensionales
Recta de regresión
Esta recta se traza después

Parece que representan de haber culminado todo el
una recta proceso de regresión
En cualquier situación la información procede de datos cuya naturaleza es

estadística. Por tanto, ¿qué debemos considerar para que la información de interés
resulte confiable?
La respuesta a estas consideraciones la veremos a continuación. Tratamos los datos

bidimensionales y para éstos hay que definir estadísticos conjuntos, los cuales
pueden ser vistos también de forma individual. La necesidad de considerar los
estadísticos conjuntos o individuales es importante porque lo que vamos hacer es
obtener curvas de regresión y los denominados coeficientes de regresión se calculan
a partir de éstos parámetros.
DATOS BIDIMENSIONALES
Se necesitan precisar algunas definiciones:
Datos bidimensionales: aquellos que tienen la forma (x1, y1), (x2, y2),…, (xn, yn).
Se pueden considerar las frecuencias absolutas de los datos bidimensionales o las

frecuencias absolutas de las variables individuales (frecuencia marginal):
Ejemplo 1. Tabla de doble entrada. Frecuencia absoluta marginal (de

las variables peso
y altura) y frecuencia conjunta de las variables.

Frecuen
Peso \ 166- 171- 176-180 181- 186- cia
altura 170 cm 175 cm cm 185 cm 190 cm marginal
(Altura)
61-70 kg 1 1 2
71-80 kg 2 4 6
81-90 kg 2 1 3
90-100kg 1 1
Frecuencia
marginal 1 3 6 1 1 12
(Peso)
Diagramas de dispersión: representación de los pares de valores obtenidos en

un plano cartesiano.
Ajuste de curvas: Aquella curva y = f (x) que mejor represente a la nube de

puntos. Algunas curvas típicas son de tendencia:
1. Lineal
y = mx + p
2. Polinómica
y = a0 + a1 x + a1 x 2 + ... + a1 x n
Linealización
3. Hiperbólica y = 1 (a + bx ) 1 y = a + bx
log y = log a + x log b

4. Exponencial y = ab x
y = ax b log y = log a + b log x

Estadística 1 47
5. Geométrica
METODOLÓGICAMENTE estudiaremos primero el caso lineal.
CASO LINEAL
Observar si los puntos se acercan a

una recta (correlación lineal). En
ese caso la recta se llama recta de
regresión.
La recta de regresión es creciente

(decreciente) cuando la correlación
es positiva o directa (negativa o
inversa).
Para no hacer valoraciones cualitativas acerca de si la correlación lineal puede ser

fuerte o no, introducimos:
Coeficiente de correlación
La covarianza mide la relación lineal entre dos variables y se expresa:
1 n
s xy = ∑ (xi − x )( yi − y )
n − 1 i =1
Propiedades
− ∞ ≤ s xy ≤ ∞
> 0 Correlación directa. Re cta de regresión creciente


s xy ⇒ = 0 No hay correlación
< 0 Correlación inversa. Re cta de regresión decreciente

La covarianza depende de los valores de las variables y por tanto de sus unidades.
Para tener una medida adimensional se utiliza el coeficiente de correlación de
Pearson ( rxy ):
Alternativamente
n n
1  n  n 
sxy ∑(x − x)( y − y)
i i ∑
i=1
xi yi − ∑xi ∑yi 
n  i=1  i=1 
rxy = = i=1
=
sxsy n n
n 2 = 1 n    n 2 1  n 2 
∑(xi − x) ∑( yi − y)
2
2 2
∑xi − ∑xi   ∑yi − ∑yi  
i=1 i=1 n  i=1   n  i=1  
 i=1  i=1
s x es la desviación típica (marginal) de la variable x y s y es la desviación típica

(marginal) de la variable y .
La alternativa es útil después de hacer una tabla. Demuestre que la expresión es

equivalente a la anterior.
Propiedades:
−1 ≤ rxy ≤ 1
Es un coeficiente adimensional. Por ello sirve de valor de comparación

aunque las variables vengan expresadas en unidades diferentes.
Si rxy = 1 o rxy = −1 , la relación es funcional, es decir podemos expresar una
de las variables en función de la otra ( ∃f , y = f ( x ) ).
Interpretación:
Si rxy está próximo a 1 ó -1 la correlación es fuerte (por encima de ±0.8).
Si rxy está próximo a 0, la correlación es débil.
Si rxy >0 la correlación es directa. Hay relación lineal positiva.

Estadística 1 49
Si rxy <0 la correlación es inversa. Hay relación lineal negativa.
Si sxy = 0 y por tanto rxy = 0 la correlación es nula. La relación lineal es

nula.
Interpretación gráfica:
Si rxy = 1 los puntos (x, y) forman una recta creciente.
Si rxy = -1 los puntos (x, y) forman una recta decreciente.
Si rxy > 0 los puntos (x, y) forman una nube ascendente más cercana a una
recta cuanto más cercano sea este valor a 1.
Si rxy < 0 los puntos (x, y) forman una nube descendente más cercana a una
recta cuanto más cercano sea este valor a -1.
Si rxy = 0 la nube de puntos sigue una distribución totalmente aleatoria

(circular).
Recta de regresión. Mínimos cuadrados. Ajuste de curvas
Hemos visto que los datos bidimensionales pueden estar correlacionados y esa
relación puede ser lineal. Entonces el diagrama de puntos se aproximaría a una
recta de la forma y = mx + p . Tanto m y p se deben determinar.
La determinación de la recta de regresión de y sobre x3, se hace con el método

de mínimos cuadrados: consiste en encontrar los valores de m y de p que
minimicen la distancia vertical que hay entre la recta y los puntos de la forma
( xi , yi ) , i ∈ {1, 2,..., n} que forman el diagrama de puntos.
El punto de la recta que corresponde al punto de abscisa xi será de la forma
( xi , mxi + p ) , i.e., el i-ésimo valor de nuestra variable estadística bidimensional,
( xi , yi ) .
Llamemos d i = [(mxi + p ) − yi ]2 , a la distancia vertical que hay entre la recta
y = mx + p y el punto ( xi , yi ) .
3
Se puede determinar también la recta de regresión de x sobre y
Para considerar todas las distancias (la de todos los puntos ( xi , yi ) con
i ∈ {1, 2,..., n} ), consideramos la suma de todos los d i . Para no trabajar con raíces
tomaremos la suma de las distancias verticales al cuadrado
n
∑d
i =1
i
2
= d12 + d 22 + ... + d n2 (error cuadrático entre la recta de regresión de y sobre
x y los puntos ( xi , yi ) con i ∈ {1, 2,..., n} ).
n n
∑ di2 = ∑ [(mxi + p ) − yi ] : derivamos

2
Por tanto, el problema se reduce a minimizar
i i
parcialmente esta expresión respecto de p y respecto de m e igualamos a cero

ambas derivadas: con lo que obtendríamos el siguiente sistema de ecuaciones:
 n n
 n p + m ∑
i =1
xi = ∑
i =1
yi


 n n n
 ∑ i + ∑ = ∑
2
p x m x i xi yi
 i=1 i =1 i =1 ,
donde n es el número de puntos ( xi , yi ) , i.e., datos de nuestro problema.
 p = y − mx
 r s
Resolviendo este sistema obtendríamos que 
m = xy y
 sx
Por tanto, la recta de regresión de y sobre x tomará la forma:

rxy s y  r s 
y= x +  y − xy y x 
sx  sx 
Observaciones:
1. El punto ( x, y ) pertenece a la recta de regresión.

Demuéstrelo.
Estadística 1 51
(
2. El punto de la forma x + s x , y + rxy s y ) pertenece a
la recta de regresión. Demuéstrelo.
¿CÓMO SE PROCEDE PARA REPRESENTAR LA

CURVA DE REGRESIÓN LINEAL?
Con lo visto hasta ahora podemos indicar un procedimiento de trabajo para hallar la
recta de regresión. Para este fin podemos seguir los siguientes pasos:
1. Representamos el diagrama de dispersión4. Éste nos dará una idea si la nube

de puntos sigue una distribución lineal o no5.
2. Calculamos el coeficiente de correlación de Pearson (nos confirmará si hay

correlación lineal o no).
3. Si hay correlación lineal, entonces determinamos estadísticamente los

valores de la pendiente y el intercepto con el eje de las ordenadas de la
recta de regresión (ver arriba). Aquí tenemos dos alternativas equivalentes
entre sí:
a. Resolvemos el sistema de ecuaciones que se obtiene directamente al

aplicar el método de los mínimos cuadrados y determinamos m y p .
b. Utilizamos directamente las fórmulas de m y p .
4. Trazamos la recta de regresión lineal.
Ejemplo 2. En el laboratorio se termina la dependencia de dos

magnitudes físicas y se obtiene la siguiente relación:
4
No es correcto representar la recta en el diagrama de dispersión pues usted no sabe aún cuál es la verdadera
recta o la que más se le aproxime.
5
Es evidente que si la nube de puntos me muestra que no hay correlación lineal, entonces no hace falta seguir el
procedimiento.
x 4 2 10 5 8 ¿Puede ajustarse esta distribución de puntos con una recta?
y 8 12 4 10 5
Paso 1. Diagrama de dispersión
Parece que es una recta
Paso 2. Coeficiente de correlación de Pearson

x y x2 y2 xy
n
1  n  n 
∑
i =1
xi yi −  ∑ xi  ∑ yi 
n  i =1  i =1 
rxy = 4 8 16 64 32
 n 2 1  n 2   n 2 1  n 2 
∑ xi −  ∑ xi   ∑ yi −  ∑ yi  
 i =1 n  i =1    i =1 n  i =1  
2 12 4 144 24
1
162 − 29 36 10 4 100 16 40
rxy = 5 = −0,8833
1 2 1 2
209 − 29 328 − 36 5 10 25 100 50
5 5
8 2 64 4 16
total 29 36 209 328 162
Se puede ajustar con una recta.
Paso 3. Determinar m y p
1 n 2 1  n  
2
1 1 
sx = ∑ xi −  ∑ xi   =  209 − 292  = 3,1937
n  i =1 n  i =1   4 5 
Estadística 1 53
1 n 2 1  n  
2
1 1 
sy = ∑ yi −  ∑ yi   = 328 − 36 2  = 4,1473
n  i =1 n  i =1   4 5 
rxy s y − 0,8833 4,1473

m= = = −1,1470
sx 3,1937
− (− 1,1470) = 13,8526
36 29
p = y − mx =
5 5
Paso 4. Recta de regresión
Hacen falta dos puntos. Escojamos: (x , y ) =  29 , 36  = (5,8, 7,2) y el punto

 5 5 
p = 13,9 (También pudiéramos tomar también el punto (x + s x , y + rxy s y ) ).
Como usted puede ver la recta de regresión no

es la que se obtiene uniendo los puntos del
diagrama de dispersión. Este tipo de error es
muy frecuente cometerlo. Se recomienda que
se acostumbre a este último paso efectuarlo
separado.
AJUSTES DE CURVAS. CASO NO LINEAL
Algunas veces no existe una relación lineal entre las variables estadísticas
consideradas, pero eso no indica que no haya relación matemática o funcional entre
ellas. Para determinar numéricamente la relación existente entre las variables
estadísticas a tratar, podemos utilizar los siguientes argumentos (vea pág. 2):
Si entre y y x2 observamos una relación lineal, entonces usaremos la

curva parabólica
1
Si entre y x hay una relación lineal utilizaremos una curva hiperbólica.
y
Si entre x y ln ( y ) observamos una relación lineal, entonces usaremos la

curva exponencial.
Si entre ln ( x ) y ln ( y ) observamos una relación lineal, entonces usaremos

la curva geométrica.
Si entre y y ln ( x ) hay una relación lineal, entonces usaremos la curva

logarítmica.
¿QUÉ SIGNIFICA ESTO?
Si no podemos linealizar, hacemos el procedimiento de ajuste de la curva de

mínimos cuadrado. La técnica es similar a la vista antes. Tendríamos ajuste por
mínimos cuadrado parabólico, hiperbólico, etcétera.
¿CÓMO PROCEDEMOS AL HACER UN AJUSTE DE CURVA CUALQUIERA?
1. Representamos el diagrama de dispersión:
a. Si hay linealidad hacemos el procedimiento de la regresión lineal

anterior.
b. En caso contrario, vea el punto 2.
2. Si no existe linealidad, podemos analizar alguna transformación de las

variables viejas con el fin de obtener una linealización entre las nuevas
variables que resultan de la transformación. A estas nuevas variables hay
que verificarles si existe tal linealidad:
a. Hallamos el coeficiente de Pearson, para ver si existe la linealidad de

las nuevas variables o para comprobar cuan bueno es el ajuste.
b. Si no se verifica la linealidad de las nuevas variables, ver punto 3.
3. Si no existe aplicamos el método de mínimos cuadrados en correspondencia

con el tipo de curva.
Estadística 1 55
Problema. Halle la curva que ajusta los siguientes datos:
x 1 2 3 4 5 6
y 6 12 24 50 95 190
Nota: Recuerde que a partir de ahora usted debe emplear

un método general que permita obtener cualquier tipo de
curva de regresión. Auxíliese de los que el profesor ha
esbozado.
Bibliografía
Lipschutz y J. Schiller, “Introducción a la probabilidad y estadística”. Ed. Mc Graw

Hill, 2000.
ORIENTACIONES AL ESTUDIO INDEPENDIENTE
1. Estudiar las notas de clase.
2. Estudiar la deducción de las expresiones que

permiten obtener la recta de regresión. Hacer lo
mismo con la regresión parabólica, polinómica,
hiperbólica, potencial y exponencial.
3. Ver ejemplo 1.23 y problemas resueltos (pág. 38-

45) del texto indicado.
4. Puede ver ejemplos resueltos en cualquier otro

texto que considere oportuno.
5. Realice los ejercicios propuestos del mismo texto.

1. Los ahorros A y los ingresos I mensuales en cientos de euros de 10 grupos de un

departamento universitario se reportan en la siguiente tabla:
A 1,9 1,8 2,0 2,1 1,9 2,0 2,2 2,3 2,7 3,0
I 20,5 20,8 21,2 21,7 22,1 22,3 22,2 22,6 23,1 23,5
a. ajuste los datos a un modelo lineal que explique los ahorros de los grupos en
función de los ingresos para el departamento universitario.
b. ajuste los datos a un modelo parabólico que explique los ahorros de los
grupos en función de los ingresos para el departamento universitario.
c. ¿Cuál de los ajuste es mejor?
d. ¿Qué ajuste se puede prever para un grupo en el departamento que ingrese

2500 euros mensuales?
2. Para describir la distribución de la renta de personas físicas suele utilizarse la ley

b
x 
de Pareto que viene definida por la ecuación y = 1 −  0  ; donde y es el
 x
porcentaje de personas con una renta igual o inferior a x siendo x0 la renta mínima y
b un parámetro estructural. Se pide ajustar una ley de Pareto a los datos
siguientes:
ln x 0,7 1,2 1,5 1,8 2,2 2,7 3,2 3,5 4,0
y 0,033 0,107 0,22 0,373 0,55 0,753 0,88 0,96 1
3. La inversión K y el producto interior bruto y se relacionan mediante la expresión

y = aK c (función de Cobb-Douglas). Ajuste la función a los datos:
Estadística 1 57
yi 2,6 2,9 3,4 4,1 5,1 6,0 7,2 9,2 11,2 13,1 15,2 17,3 19,9
Ki 0,6 0,6 0,8 1,0 1,3 1,4 1,6 1,9 2,2 2,5 2,9 3,5 3,9
4. Determine las expresiones que permiten realizar la regresión:
a. parabólica
b. polinómica
5. TÉCNICAS DE CONTEO
INTRODUCCIÓN
En la vida, interesan los fenómenos aleatorios –no tienen una relación de causa-
efecto.
¿Cómo los llamamos? Sucesos. En probabilidades representan los posibles

resultados de un experimento aleatorio.
¿Qué información previa se necesita para determinar el número de posibilidades

de que ocurra un suceso? EL CONTEO
¿Por qué es necesario aprender técnicas de conteo? Los elementos de un conjunto

no son siempre fáciles de contar.
¿Qué técnicas son esas? Leyes de la combinatoria, diagramas de árbol,

comparación de conjuntos a partir de funciones inyectivas, biyectivas o
sobreyectivas, etcétera. Nos ocuparemos de la combinatoria y los diagramas de
árbol.
¿Qué relación tiene la teoría de conjuntos y la técnica de conteo?
• Un suceso será como un conjunto
• El suceso ocurrirá cuando aparezca alguno de sus elementos.
• el número de posibilidades de que ocurra no es más que encontrar su

cardinal.
PRINCIPIO DEL CÁLCULO
El análisis de la combinatoria (permutaciones y combinaciones) está relacionado con

la determinación del número de posibilidades lógicas de que ocurra un suceso.
¿Cuáles son los principios del cálculo?
• Principio de la regla de suma
• Principio de la regla del producto
Principio de la regla de suma.
Supongamos que un suceso E ocurre de m maneras y un segundo suceso F ocurre

de n maneras y que ambos no ocurren simultáneamente. Entonces, E o F
pueden ocurrir de m+n maneras.
• ¿En términos de conjuntos? n( A ∪ B ) = n( A) + n(B ) ; A ∩ B = φ ;
Principio de la regla del producto
Supongamos que un suceso E ocurre de m maneras e independientemente un

segundo suceso F ocurre de n maneras. Entonces, las combinaciones de E y de F
pueden ocurrir de mn maneras.
• ¿En términos de conjuntos? n( A × B ) = n( A) ⋅ n(B ) ; (A y B conjuntos finitos)
Ejemplo 1. Una universidad tiene tres cursos diferentes de informática,

cuatro diferentes de idiomas y dos diferentes de ciencias naturales (sin más
requisitos).
a) ¿Cuántas opciones hay de escoger uno de los cursos?

Estadística 1 59
b) ¿Cuántas opciones hay de escoger un curso de cada?
Solución.
a) Hay n = 3 + 4 + 2 = 9 opciones.
b) Hay n = 3 (4) (2) = 24 opciones.
En los tópicos que se tratan más adelante se utilizan conceptos tales como factorial
de un número y coeficientes binomiales. A continuación se tratan estos conceptos.
Factorial
Factorial6 de un número natural n: n!= 1 ⋅ 2 ⋅ 3 ⋅ ... ⋅ (n − 1) ⋅ n (1)
Nota: n!= n ⋅ (n − 1)! y 1! = 1
Se define 0! = 1
Ejemplo 2. Calcule:
a) 5! Solución 5!= 5 ⋅ 4 ⋅ 3 ⋅ 2 ⋅ 1 = 120
7! 7! 7 ⋅ 6 ⋅ 5 ⋅ 4 ⋅ 3!
b) Solución = = 840
3! 3! 3!
Ejemplo 3. Demuestre que:
a) n (n − 1)(n − 2 ) ⋅ ⋅ ⋅ (n − r + 1) =
n!
.
(n − r )!
n (n − 1)(n − 2 ) ⋅ ⋅ ⋅ (n − r − 1) n!
b) =
1 ⋅ 2 ⋅ 3 ⋅ ... ⋅ (r − 1) r r!(n − r )!
Solución.
n(n − 1) ⋅ ⋅ ⋅ (n − r + 1) (n − r )(n − r − 1) ⋅ ⋅ ⋅ 3 ⋅ 2 ⋅ 1
a) n(n − 1) ⋅ ⋅ ⋅ (n − r + 1) =
n!
=
1 (n − r )(n − r − 1) ⋅ ⋅ ⋅ 3 ⋅ 2 ⋅ 1 (n − r )!
n(n − 1) ⋅ ⋅ ⋅ (n − r + 1)
= n(n − 1) ⋅ ⋅ ⋅ (n − r + 1) =
1 n!
b) . Observe el apartado a).
1 ⋅ 2 ⋅ 3 ⋅ ... ⋅ (r − 1)r r! r!(n − r ) !
6
Evidentemente, el factorial puede definirse en orden inverso al mostrado.
Estos resultados serán empleados después en la combinatoria.
Aproximación de Stirling a n!
Cuando los números son muy grandes para el cálculo del factorial se emplea la
fórmula de Stirling:
n!≈ 2πn n ne − n (2)
Coeficientes binomiales
n
El símbolo  , donde n y r son números enteros positivos ( r ≤ n ), se denomina
r
coeficiente binomial y se define como:
 n  n (n − 1)(n − 2 ) ⋅ ⋅ ⋅ (n − r + 1)
  = . (3)
r 1 ⋅ 2 ⋅ 3 ⋅ ... ⋅ (r − 1) r
Del ejemplo 3 b) y (3), se puede plantear:
n n!
  = (4)
 r  r!(n − r ) !
Sabiendo que n – (n - r) = r, se plantea la relación siguiente:
n n! n! n!  n 
  = = = =   ;
 
r r!(n − r ) ! (n − (n − r )) !(n − r ) ! (n − r ) !(n − (n − r )) !  n − r 
n  n 
Por tanto, se cumple la siguiente propiedad:   =  ; (5)
r  n − r
Ejemplo 4. Calcule:
7 10 
a) a)   , b)   .
 4 3
Solución
7 7 ⋅ 6 ⋅ 5 ⋅ 4!
a) Aplicando (4), se tiene:   = = 35
 4 4!⋅3!
Estadística 1 61
10  10  10 ⋅ 9 ⋅ 8 ⋅ 7!
b) Aplicando (5), se tiene7:   =   = = 120
  7
3 7!⋅3!
Los coeficientes binomiales son útiles para calcular el desarrollo de un binomio8

elevado a una potencia entera positiva.
Teorema 1. Sea un binomio elevado a una potencia entera positiva n. Entonces, el

desarrollo del binomio es posible hacerlo en términos de coeficientes binomiales
según la expresión:
(x + y )n = ∑ 
n n  n−k k
x y (6)
k =0  k 
Ejemplo 5. Efectúa el desarrollo de ( x + 2 y )

3
Solución. Según (6):
(x + 2 y )3 = ∑ 
3 3  3−k
x (2 y ) =
k
k =0  
k
 3  3  3  3
=   x 3−0 (2 y ) +   x 3−1 (2 y ) +   x 3−2 (2 y ) +   x 3−3 (2 y )
0 1 2 3
0 1  2  3
Cálculo de los coeficientes binomiales:
 3 3! 3!  3  3 3! 3! 3 ⋅ 2!  3
  = = = 1 =  ;   = = = = 3 =  ;
 0  0!(3 − 0 )! 1 ⋅ 3!  3  1  1!(3 − 1)! 1 ⋅ 2! 1 ⋅ 2!  2
sustituyendo los coeficientes en la expresión anterior:
(x + 2 y )3 = x3 + 3x 2 (2 y ) + 3x(2 y )2 + (2 y )3 = x3 + 6 x 2 y + 12 xy 2 + 8 y 3
7
Si aplica la fórmula (2.4) calcula más. Esto indica la ventaja de conocer esta propiedad.
8
De ahí el nombre de coeficientes binomiales.
1
Si se hace una comparación con el triángulo de
1 1
Pascal vemos que los coeficientes binomiales 2
(x+y)
corresponden con los números que aparecen en el
1 2 1
triángulo de Pascal (ver figura 1). 1 3 3 1
(x+y)4
1 4 6 4 1
1 5 10 10 5 1
Figura 1
PERMUTACIONES
Cualquier colocación de un conjunto de n objetos9 en un orden dado se llama

permutación de los objetos (todos tomados a la vez). Cualquier colocación de r
≤ n objetos en un orden dado se llama se llama r-permutación de los n objetos
tomados de r en r.
Ejemplo 6. Sea un conjunto de cuatro letras: a, b, c, d. Determine:
a) Las permutaciones de las cuatro letras tomadas todas a la vez;
b) Las permutaciones de las cuatro letras tomadas de tres en tres;
c) Las permutaciones de las cuatro letras tomadas de dos en dos.
Solución.
a) bdca, dcba, y acdb;
b) bad, adb, cbd, y bca;
c) ad, cb, da, y bd.
Representaciones del número de permutaciones: P (n, r ), Pn ,r , n Pr , Prn , o (n )r .
En el curso se emplean la primera y/o la segunda por comodidad. No obstante, es

aconsejable emplear una sola.
9
La terminología objeto o elementos se usan indistintamente.
Estadística 1 63
Se puede dar una idea de cómo se busca una expresión que permita calcular el
número de permutaciones de n elementos tomados de r en r (r ≤ n). En el ejemplo
6 se plantearon diferentes alternativas, pero no se indicó cómo se podía hacer.
Obsérvese el siguiente ejemplo:
Ejemplo 7. Hallar el número de permutaciones de cuatro letras: a, b, c,

d, tomadas de tres en tres.
Solución. Por ahora interesa buscar el número de palabras de tres letras usando
las cuatros letras sin repetirlas. Pasos a seguir:
1. La primera letra se elige de entre cuatro posibilidades distintas; la

segunda, entre tres opciones diferentes; la tercera, entre dos
posibilidades distintas.
2. Por el teorema fundamental del cálculo, existen 4 ⋅ 3 ⋅ 2 = 24 palabras

posibles de tres letras sin repetición de las mismas.
3. Hay 24 permutaciones. Con el paso anterior y la simbología señalada,

éstas corresponden a: 4 ⋅ 3 ⋅ 2 = 24 = 4 ⋅ 3 ⋅ 2 ⋅1 = P (4,3) .
Si el resultado se generaliza a una permutación de n objetos tomados de r en r, se

puede escribir para el caso en que no hay repeticiones de objetos:
P(n, r ) = n(n − 1)(n − 2 ) ⋅ ⋅ ⋅ (n − r + 1) =

n!
(n − r )!
Teorema 2. Sea un conjunto formado por n elementos distintos. Si se ordenan n
elementos tomados de r en r (r ≤ n) sin repetición; entonces, el número de
ordenaciones distintas que se pueden formar se determina por la siguiente
expresión:
P(n, r ) = n(n − 1)(n − 2 ) ⋅ ⋅ ⋅ (n − r + 1) =

n!
(7)
(n − r )!
Observación. Si n = r, P (n, n ) = Pn = n! (8)
Ejemplo 8. En el ejemplo 6 a), calcule el número de permutaciones.
Solución. En este caso n = r, entonces, P (4,4 ) = P4 = 4!= 4 ⋅ 3 ⋅ 2 ⋅1 = 24 .
Si hay repeticiones ¿cómo se determinan las permutaciones?
Teorema 3. Sea un conjunto formado por n elementos. Si se ordenan n elementos,

con repetición nr de sus elementos; entonces, el número de ordenaciones distintas
que se pueden formar se determina por la siguiente expresión:
P(n; n1 , n2 ,..., nr ) =
n!
, (9)
n1!n2!...nr !
donde n = n1 + n2 + ... + nr
Ejemplo 9. Hallar el número de palabras distintas que se pueden

formar con las palabras siguientes:
a) JESUS
b) STATEMENT
Solución.
a) Con JESUS, hay 5! = 120 permutaciones posibles de las letras. La S se repite dos
veces y da lugar a 2!= 2 formas distintas de colocar la letra S produciendo la misma
JES2US1. Así; P (5;2 ) =

5!
palabra aunque la S cambie de posición: JES1US2,
2!
9! 9 ⋅ 8 ⋅ 7 ⋅ 6 ⋅ 5 ⋅ 4 ⋅ 3!
b) P (9;3,2 ) = = = 30240
3! 2! 3! 2!
Nota. Es evidente que los elementos que se repiten una vez, su factorial es uno y
por tal motivo no se expresan en la fórmula.
Estadística 1 65
Muestras ordenadas
Múltiples problemas en el análisis combinatorio, probabilidades y estadística están

vinculados a la elección de un elemento de un conjunto S que posee n
elementos. La elección de un elemento después de otro r veces, en el conjunto
S, da lugar a la denominada muestra ordenada de tamaño r.
La muestra ordenada de tamaño r se puede conformar en dos casos:
1. Muestreo con reemplazamiento. El elemento escogido se devuelve al

conjunto antes de hacer otra selección. El principio del producto nos
indica que hay diferentes muestras de tamaño r dada por:
⋅ n2
n14 ⋅ n43n = n
... r
(10)
r veces
2. Muestreo sin reemplazamiento. El elemento no se vuelve a introducir en el

conjunto antes de escoger al siguiente elemento10.
P(n, r ) = n(n − 1)(n − 2 ) ⋅ ⋅ ⋅ (n − r + 1) =

n!
(n − r )!
Ejemplo 10
Una bolsa contiene tres bolas de diferentes colores: una blanca (b), una negra (n) y
una azul (a) ¿Cuántas extracciones de tres bolas podemos hacer?
a) si sacamos una bola y no la volvemos a meter en la bolsa.
b) si sacamos una bola y la volvemos a meter en la bolsa.
Solución
a) P(3,3) = P3 = 3!= 3 ⋅ 2 ⋅ 1 = 6
Diagrama de árbol: enumera todas las posibles apariciones posibles de una

secuencia de sucesos o experimentos donde cada suceso puede ocurrir de un
número infinito de maneras.
10
Observe la equivalencia que tiene con (2.7)
1a Extracción 2a Extracción 3a Extracción
n a ( b, n, a )
b a n ( b, a, n )
b a ( n, b, a )
n
a b ( n, a, b )
b n ( a, b, n )
a
n b ( a, n, b )
3 . 2 . 1 = 6
b) Hay 3 ⋅ 3 ⋅ 3 = 33 = 27 posibilidades. ¿Cómo será el diagrama de árbol en este

caso? La 1a extracción será como la 1a indicada en el diagrama anterior. Escojamos
una de las bolas, (n), para ejemplificar lo que pasa en las extracciones segunda y
tercera. De forma semejante ocurre con las otras dos bolas y la semejanza se
representa en el diagrama de árbol con los puntos suspensivos.
3a Extracción
1a Extracción 2a Extracción
( n, b, a )
a
n ( n, b, n )
b
b ( n, b, b )
( n, n, n )
n
n n a ( n, n, a )
b ( n, n, b )
a ( n, a, a )
( n, a, b )
a b
n ( n, a, n )
. . . . .
. . . . .
. . . . .
3 . 3 . 3 = 27
Estadística 1 67
Primera conclusión parcial11
Las permutaciones se pueden entender como las diferentes ordenaciones que

se pueden hacer con todos los elementos de un conjunto. Por tanto, decimos
que:
1. Son muestras ordenadas que pueden efectuarse:
Sin repeticiones.
Con repeticiones.
2. Interviene toda la muestra en el ordenamiento.
3. Dos grupos son diferentes si están ordenados de diferentes maneras.
VARIACIONES
Son muy parecidas a las permutaciones pero no intervienen todos los

elementos del conjunto.
Variaciones sin repetición de n elementos tomados de r en r: número de

agrupaciones que podemos hacer con n elementos distintos, tomándolos de r en
r sin repetir elementos. La representación viene dada por Vn , r o V (n, r ) y el cálculo
se efectúa según la siguiente expresión:
V (n, r ) = Vn ,r = n(n − 1)(n − 2 ) ⋅ ⋅ ⋅ (n − r + 1) =

n!
(11)
(n − r )!
Ejemplo 11
Una bolsa contiene 4 bolas de diferentes colores: una blanca (b), una negra (n),
una azul (a) y una roja (r) ¿Cuántas extracciones diferentes de tres bolas se pueden
hacer si cuando se saca una bola no se vuelve a meter en la bolsa?
Solución
Aplicando la fórmula de la definición: V (4,3) = V4 ,3 =

4!
(4 − 3)!
11
El contenido restante lleva el mismo estilo aunque se presente de manera más concisa.
Diagrama de árbol:
1a Extracción 2a Extracción 3a Extracción ( b, n, a )

a
n
( b, n, r )
r
a ( b, r, a )
r
b
n ( b, r, n )
n ( b, a, n )
r ( b, a, r )
a ( n, b, a )
( n, b, r )
r
a
( n, r, a )
n r
b
( n, r, b )
b ( n, a, b )
r ( n, a, r )
“El diagrama de árbol continúa en la página siguiente”

Estadística 1 69
( a, b, n )
n
b
( a, b, r )
r
( a, n, b )
b
a n
r ( a, n, r )
b ( a, r, b )
n
( a, r, n )
n ( r, b, n )
a ( r, b, a )
b
( r, n, b )
r n
a ( r, n, a )
b ( r, a, b )
a
n ( r, a, n )
4 . 3 . 2 =4 24
Variaciones con repetición de n elementos tomados de r en r: número de

agrupaciones que se pueden hacer con n elementos distintos, tomándolos de r
en r con la opción de repetirlos, es decir, tomar el mismo elemento varias veces
en un mismo grupo. Se representan por VRn , r o VR(n, r ) y el cálculo se efectúa
según la siguiente expresión:
VR(n, r ) = VRn, r = n r (12)
Ejemplo 12
Una bolsa contiene 3 bolas de distintos colores: una blanca (b), una negra (n) y
una azul (a) ¿Cuántas extracciones diferentes de dos bolas se pueden hacer si se
saca una bola y se vuelve a meter en la bolsa antes de la próxima extracción?
Solución
VR3, 2 = 32 = 9
Diagrama de árbol
1a Extracción 2a Extracción
b ( b, b )
b n ( b, n )
a ( b, a )
b ( n, b )
n n ( n, n )
a ( n, a )
b ( a, b )
a n ( a, n )
a ( a, a )
3 . 3 = 9
¿Qué diferencias existen entre las permutaciones y las variaciones? En las

permutaciones el término repetición se refiere a si hay o no elementos repetidos
en el conjunto de donde se toman éstos (se toman todos) y; en las variaciones, a
los elementos que se repiten en el grupo que se forma.
Estadística 1 71
Segunda conclusión parcial
Las variaciones se pueden entender como las diferentes ordenaciones que se

pueden hacer con algunos elementos de un conjunto. Por tanto, se dice que:
1. Son muestras ordenadas que pueden efectuarse:
Sin repeticiones.
Con repeticiones.
2. No interviene toda la muestra en el ordenamiento.
3. dos grupos son diferentes si:
Sus elementos son distintos, o;
Están ordenados de forma diferente.
COMBINACIONES
Sea un conjunto S de n elementos. Una combinación de los n elementos tomados

de r en r es cualquier selección r de los elementos donde no importa el orden;
es decir, una combinación r de un conjunto de n elementos es cualquier
subconjunto de r elementos.
Ejemplo 13. Las combinaciones de las letras a, b, c, d tomadas de tres

en tres son:
{a, b, c}, {a, b, d}, {a, c, d}, {b, c, d}, o también se escribe: abc, abd, acd, bcd
Las siguientes combinaciones son iguales: abc, acb, bac, bca, cab, cba. Cada
una representa al mismo conjunto {a, b, c}.
Lo mismo puede ser observado con las restantes:

Combinaciones Permutaciones
abc abc, acb, bac, bca, cab, cba
abd abd, adb, bad, bda, dab, dba
acd acd, adc, cad, cda, dac, dca

Tabla 1
bcd bcd, bdc, cbd, cdb, dbc, dcb
Las combinaciones se representan por C (n, r ) = Cn , r . Se pueden relacionar con las

permutaciones.
Ejemplo 14. Halla el número de combinaciones de cuatro letras a, b, c,

d, tomados de tres en tres.
Solución. Cada combinación compuesta por tres letras determina 3!= 6

permutaciones de las letras de la combinación como se observa en la tabla 1. La
combinación multiplicada por 3! es igual al número de permutaciones:
P(4,3) 4 ⋅ 3!
C (4,3) ⋅ 3!= P(4,3) ⇒ C (4,3) = = =4
3! 3!
Generalización del resultado. Dado que cualquier combinación de n objetos

tomados de r en r determina la existencia de r! permutaciones de los objetos de la
combinación: P (n, r ) = r!C (n, r ) .
Combinaciones sin repetición de n elementos tomados de r en r: es el

número de agrupaciones que se pueden hacer con n elementos diferentes
tomándolos de r en r sin que importe su orden y sin repetir los elementos.
Estadística 1 73
Teorema 4. Si S es un conjunto de n elementos y C (n, r ) una combinación sin

repetición de n elementos tomados de r en r; entonces, la combinación se calcula
según la expresión:
P(n, r )
C (n, r ) =
n!
= (13)
r! r!(n − r ) !
Observaciones
n! n
Al número = Cn, r =   se le llama número combinatorio12.
r!(n − r )! r
n! V
Cn , r = = n,r (14)
r!(n − r ) ! Pr
Ejemplo 15
una azul (a) y una roja (r) ¿Cuántas extracciones diferentes de tres bolas podemos
hacer si al sacar una bola no se vuelve a meter en la bolsa y no importa el orden en
que salen?
Solución. Aplicando la fórmula de la combinación sin repetición:

 4 4!
C 4,3 =   = =4
 3  3!(4 − 3) !
Diagrama de árbol:
1a bola 2a bola 3a bola

( b, n, a )
a
n
r
( b, n, r )
b
a r ( b, a, r )
n a r
( n, a, r )
12
Lo empleamos anteriormente para el desarrollo del binomio
Combinaciones con repetición de n elementos tomados de r en r: son el
número de agrupaciones que se pueden hacer con n elementos tomados de r en r
sin que importe su orden y pudiendo repetir los elementos. Se representan
por CR (n, r ) = CRn , r .
Teorema 5. Si S es un conjunto de n elementos y CR(n, r ) es una combinación

con repetición de n elementos tomados de r en r; entonces, la combinación se
calcula según la expresión:
 n + r − 1 (n + r − 1) !
CR(n, r ) = CRn , r =   = (15)
 r  r!(n − 1) !
Ejemplo 16
una azul (a) y una roja (r) ¿Cuántas extracciones diferentes de tres bolas se pueden
hacer si al sacar una bola se vuelve a meter en la bolsa y no importa el orden en el
que salgan las bolas?
Solución. Aplicando la fórmula (15):
 4 + 3 − 1  6  6! 6 ⋅ 5 ⋅ 4 ⋅ 3!
CR4,3 =   =   = = = 20
 3   3  3! 3! 3! 3!
Diagrama de árbol:
Estadística 1 75
bola 1 bola 2 bola 3
b b b (b, b, b) 1
n (b, b, n) 2
a (b, b, a) 3
r (b, b, r) 4
n n (b, n, n) 5
a (b, n, a) 6
r (b, n, r) 7
a a (b, a, a) 8
r (b, a, r) 9
r r (b, r, r) 10
n n (n, n, n) 11
n
a (n, n, a) 12
r (n, n, r) 13
a a (n, a, a) 14
r (n, a, r) 15
r r (n, r, r) 16
a
a a (a, a, a) 17
r (a, a, r) 18
r r (a, r, r) 19
r r r (r, r, r) 20
Tercera conclusión parcial
Las combinaciones se pueden entender como cualquier selección que se

pueden hacer con algunos elementos de la muestra, en la que se dice que:
1. Son muestras no ordenadas que pueden efectuarse:
Sin repeticiones.
Con repeticiones.
2. No interviene toda la muestra en el agrupamiento.
3. Dos agrupaciones son diferentes si sus elementos son distintos.
CONCLUSIÓN
Muestra
Ordenada No ordenada
Sin repetición Con repetición Sin repetición Con repetición
No Variaciones de n Variaciones de Combinaciones de n Combinaciones de n objetos

objetos n objetos objetos tomados de r en
tomados de r en r:
tomados de r r:
tomados de r en
interviene
r:
en r:
n n!  n + r − 1 n + r
CRn, r =   =
( − 1)!
Cn, r =   =
VRn , r = n ( )  r!(n − 1)!
r
n!  
r r! n − r !  r
Vn , r =
toda la (n − r )!
muestra
Interviene Permutaciones Permutaciones

de n objetos de n objetos
tomados de r en tomados de r
toda la r: en r:
n! Pn; n1 , n2 ,...,nk =
Pn , r =
(n − r )! = n!
muestra
n1!n2!...nk !
Si n=r:
Pn = n!
Bibliografía
Estadística 1 77
Seymour Lipschutz, John Schiller, Introducción a la probabilidad y estadística, ed.

Mc Graw Hill, 2001.
Apuntes del profesor Jesús Bergues

Ed. Thomson. 2005.
Orientaciones al estudio independiente
1. Revisar el capítulo 2 del Lipschutz

(incluye los ejemplos y problemas
resueltos… sirve de preparación para la
clase práctica) aunque haya aspectos no
visto en clases (ejemplo, aparecen
elementos de la teoría de conjuntos que
el estudiante debe controlar).
2. El estudiante debe construir un

resumen.
3. Los problemas que estudie deben ser

analizados desde la perspectiva del
resumen elaborado y en ellos se debe
entrenar la manera que tiene de
distinguir cualquiera de los casos.
4. La técnica de conteo y las

probabilidades (las ideas se exponen en
el siguiente documento) deben ser
revisadas en el Devore (con un enfoque
unificado) una vez estudiados este
documento y el siguiente. Si el
estudiante conoce estos tópicos puede
leer directamente el Devore sin
necesidad de hacer lecturas extensas.
PROBLEMAS PROPUESTOS
1. Hallar:
a) 6!, 7!
b) 100!
12!
c)
15!
2. Hallar:
8
a)  
 
6
100 
b)  
 2 
 n + 1  n   n 
3. Demostrar que:   =   +  
 r   r − 1  r 
4. Una clase de informática tiene 9 alumnos y 8 alumnas. Hallar el número n de

formas en que la clase puede elegir13:
a) un delegado
b) dos delegados, uno hombre y otro mujer
c) un presidente y un vicepresidente
5. Hallar el número n de las distintas permutaciones que se pueden formar con

todas las letras de las palabras:
a) PADRE
b) UNUSUAL
c) SOCIOLOGICAL
13
Principio de cálculo
Estadística 1 79
6. Una clase se compone de ocho alumnos. Hallar el número de muestras

ordenadas de tamaño 3:
a) con reemplazamiento
b) sin reemplazamiento
7. Hallar n si: 2P(n, 2)+50 = P(2n, 2)
8. Una empresa tiene 20 trabajadores, de los que: 12 son hombres y 8 mujeres.

Hallar el número de posibilidades de que:
a) se pueda elegir entre los trabajadores un comité de cuatro miembros
b) se pueda elegir un comité de 4 miembros, de los cuales 2 son hombres y 2

mujeres.
c) Se pueda elegir un presidente, vicepresidente, tesorero y secretario.
9. Una caja contiene catorce lápices azules y diez verdes. Hallar el número de
posibilidades de que dos lápices se puedan sacar de la caja si:
a) Son de cualquier color
b) Si tienen el mismo color
 4  4  4  4  4
10. Demostrar:   +   +   +   +   =16
 0 1  2  3  4
Solución.
1.
a. 720, b. 5040, c. 1/2730
2.
a. 28, b. 4950
4.
a. 17, b. 72, c. 272
5.
a. 120 b. 840 c. 12!/(3! 2! 2! 2!)
6.
a. 512, b. 336
7.
n=5
8.
a. 4845, b. 1848, c. 11880
9.
a. 276, b. 136
Estadística 1 81
6. PROBABILIDAD
Los fenómenos que ocurren en la naturaleza pueden ser deterministas y

aleatorios (no tienen una relación de causa-efecto).
Nos interesan los fenómenos aleatorios los cuales se caracterizan por:
1. Con las mismas condiciones iniciales los resultados finales pueden ser
diferentes.
2. Los resultados posibles son conocidos de antemano.
3. No se puede predecir el resultado en cada experiencia particular.
4. En general, el experimento14 se puede repetir indefinidamente bajo idénticas

condiciones.
5. Si el experimento se repite un gran número de veces en las mismas

condiciones iniciales, entonces aparece algún modelo de regularidad estadística
en los resultados obtenidos.
Las probabilidades estudian los posibles resultados de un experimento aleatorio

(sucesos). Por tanto, la teoría de la Probabilidad es el modelo matemático del
fenómeno de la aleatoriedad y sus regularidades.
Históricamente, la teoría de la Probabilidad, para obtener el resultado de un

experimento, se ha apoyado en las definiciones siguientes:
1. Definición clásica (o a priori): si un suceso puede ocurrir de s maneras de

un total de n posibilidades iguales. Entonces la probabilidad p=s/n.
2. Definición frecuentista (o a posteriori): después de n repeticiones (n

grande) un suceso ocurre s veces. Entonces la probabilidad p=s/n.
Ambas teorías tienen defectos:
1. La teoría clásica es circular ya que “igual posibilidad” no ha sido definido.
2. La frecuentista no ha sido definido el término “grande”.
14
Cualquier situación u operación en la cual se pueden presentar uno o varios resultados de un conjunto bien
definido de posibles resultados.
El enfoque moderno de la teoría de la Probabilidad es axiomático15 –usa la
teoría de conjuntos.
ESPACIO MUESTRAL Y SUCESOS
En un experimento aleatorio se pueden obtener diferentes resultados.
Al conjunto de los posibles resultados distintos de un experimento aleatorio

se le llama espacio muestral, S.
Cada uno de los elementos del espacio muestral se llama suceso

elemental.
Cada subconjunto de S se llama suceso.

o Si un suceso está formado por más de un elemento se le llama
suceso compuesto.
Los sucesos, atendiendo a su ocurrencia, se clasifican como:
Seguro: pasa siempre. Lo integran todos los elementos del espacio

muestral.
Imposible: nunca ocurre. Se representa por ∅.
Probable: pasa con cierta probabilidad.
Como un suceso es un conjunto, se pueden combinar para formar otros nuevos

usando las operaciones de conjuntos:
1. A U B es el suceso que ocurre si A ocurre u ocurre B (o ambos).
2. A I B es el suceso que ocurre si A ocurre y ocurre B.
3. Ac, el complementario de A. Si A, él no ocurre.
4. etcétera.
Los sucesos A y B son mutuamente excluyentes si son incompatibles, i.e., no

pueden ocurrir simultáneamente: A I B = ∅. Dos o más sucesos son mutuamente
excluyentes si cada dos de ellos son mutuamente excluyentes.
15
Asigna arbitrariamente probabilidades a los sucesos.
Estadística 1 83
Ejemplo 1
Experimento: lanzamiento de un dado y observar qué número sale
Espacio muestral: S = {1, 2, 3, 4, 5, 6}.
Suceso elemental: salida del 4.
Suceso: Salida de número pares, A = {2, 4, 6}. También, suceso compuesto.
Sea B = {1, 3, 5} y C = {2, 3, 5}. Entonces,
A U C= {2, 3, 4, 5, 6}, suceso de que un número par o uno primo ocurran.
B I C = {3, 5}, suceso de que un número impar y uno primo ocurran.
Cc = {1, 4, 6}, suceso de que un número primo no ocurra.
A y B son mutuamente excluyentes: A I B = ∅. Un número par y otro impar nunca

pueden ocurrir.
AXIOMAS DE PROBABILIDAD
Sea S el espacio muestral; ℘ , la clase de todos los sucesos; P, una función con
valores reales definida en ℘ . Entonces, P es la función de probabilidad (P(A) es la
probabilidad del suceso A) si se satisface los siguientes axiomas:
P1. ∀A, P( A) ≥ 0 .
P2. Para el suceso seguro S, P (S ) = 1 .
P3. Sean A y B dos sucesos incompatibles cualquiera, entonces se cumple que:

P ( A U B ) = P ( A) + P ( B ) .
P3’. ∀ sucesión {An }n∈N ⊂ A / Ai I A j = ∅, ∀i ≠ j
∞  ∞
P U Ai  = ∑ P( Ai )
 i =1  i =1
Cuando P cumple los axiomas anteriores, S, se llama espacio probabilístico, (S, A,
P).
Teoremas de espacios probabilísticos16
Teorema 1. La probabilidad del suceso imposible es nula ( P (∅ ) = 0 ).
Teorema 2. ∀A se cumple que P Ac = 1 − P ( A) ( )

Teorema 3. ∀A se cumple que 0 ≤ P( A) ≤ 1
Teorema 4. Si A ⊆ B entonces P ( A) ≤ P(B ).
Teorema 5. ∀A y B , se verifica que P ( A / B ) = P( A) − P( A I B )
Teorema 6. ∀A y B , se verifica que P ( A U B ) = P( A) + P (B ) − P ( A I B ) .
Aplicando el teorema anterior dos veces:
Corolario 7. ∀A , B y C se verifica que

P ( A U B U C ) = P ( A) + P (B ) + P (C ) − P( A I B ) − P ( A I C ) − P (B I C ) + P( A I B I C ).
ESPACIOS PROBABILÍSTICOS FINITOS
Espacios finitos equiprobables
Sea S un espacio muestral finito con n elementos y supongamos que a varios

resultados le asignamos iguales probabilidades. Entonces, S se convierte en un
espacio probabilístico (espacio finito equiprobable) si a cada punto P se le asigna
una probabilidad 1/n y si a cada suceso A que contiene r puntos se le asigna la
probabilidad r/n, i.e.,
n( A )
P ( A) =
n(S )
La fórmula anterior es válida en espacios equiprobables.
16
No presentamos los teoremas con el rigor que habitualmente lo hace la matemática, nos hemos limitado a ver
qué nos proporcionan.
Estadística 1 85
Teorema 8. Sea S espacio muestral finito y ∀A ⊂ S sea P(A) = n(A)/n(S).

Entonces, P cumple los axiomas P1, P2 y P3.
La expresión aleatorio se usa solamente con relación a un espacio equiprobable.
Ejemplo 2.
Se eligen aleatoriamente a un estudiante de entre 80. Treinta de ellos estudian

matemáticas, veinte; química, y diez; ambas asignaturas. Hallar la probabilidad que
el estudiante esté estudiando matemáticas o química.
Solución. Como el espacio es equiprobable: P(M)=30/80=3/8, P(Q)=20/80=¼,
P(M I Q ) = 10 80 = P(M U Q ) = P(M ) + P(Q ) − P(M I Q ) =

3 1 1 1
1
8 . Así; + − = .
8 4 8 2
Espacios probabilísticos finitos
Sea S={a1, a2,…,an}. Un espacio probabilístico finito se obtiene asignado a cada

punto ai de S un número real pi, llamado probabilidad de ai, que cumple con las
propiedades siguientes:
1. Cada pi ≥ 0 .
n
2. ∑p
i =1
i =1.
La probabilidad P(A) de un suceso A se define como la suma de las probabilidades

de los puntos de A. Por conveniencia escribiremos P(ai) en lugar de P{ai}.
En ocasiones los puntos de un espacio muestral finito S y sus probabilidades

asignadas se dan en forma de tabla, la cual recibe el nombre de distribución de
probabilidad.
Resultado a1 a2 … an
Probabilidad p1 p2 … pn
Teorema 9. La función anterior cumple los axiomas P1, P2, P3.
Ejemplo 3.
Experimento: lanzar tres monedas y observar el número de veces que sale cara.
Espacio muestral: S = {0, 1, 2, 3}.
Las asignaciones de los elementos de S definen el espacio probabilístico:
Resultado 0 1 2 3
Probabilidad 1/8 3/8 3/8 1/8
A = {1, 2, 3}, suceso que aparezca cara al menos una vez
B = {0, 3} suceso que aparezcan o todas caras o todas cruces.
Por definición
P(A) = P(1) + P(2) + P(3) = 3/8 +3/8 + 1/8 = 7/8
P(B) = P(0) + P(3) = 1/8 + 1/8 = 1/4
ESPACIOS MUESTRALES INFINITOS
Espacios muestrales contables e infinitos
Supongamos que S = {a1, a2, a3,…} es un espacio muestral contable e infinito.
Si se asigna a cada ai Є S un número real pi, llamado su probabilidad, se obtiene un

espacio probabilístico, en que los pi son tales que:
1. pi ≥ 0 .
∞
2. ∑p
i =1
i =1
Estadística 1 87
La probabilidad P(A) de un suceso A es la suma de las probabilidades de sus

puntos.
Ejemplo 4.
Considere S = {a1, a2, a3,…,∞} del experimento de tirar una moneda hasta que
salga cara; aquí, n indica el número de veces que se tira la moneda. El espacio
probabilístico se obtiene:
p(1)=1/2, p(2)=1/22, p(3)=1/23, …, p(n)=1/2n, …, p(∞)=0.
Considere: A = {n es como mucho 3} y B = {n es par}
Entonces,
P(A) = P(1, 2, 3) = ½ + ¼ + 1/8 = 7/8
P(B) = P(2, 4, 6, 8, …) = ¼ + ¼2 + ¼3 + …
P(B) es una serie geométrica con a = ¼ y r = ¼ ,
P (B ) =
a 1 1
= 4
=
1− r 3
4 3
Espacios incontables
La probabilidad de un suceso A, i.e., que el punto seleccionado pertenezca a A, es la

razón:
m ( A)
P ( A) =
m(S )
A17 puede representar una longitud, área, etcétera. El espacio probabilístico se dice
que es uniforme.
17
Se consideran los espacios que pueden ser medidos geométricamente.
PROBABILIDAD CONDICIONADA E INDEPENDENCIA
La probabilidad se ha presentado con un enfoque axiomático. Los conceptos

utilizados en el conteo y la teoría de conjuntos están presentes en todo lo
estudiado.
El modelo matemático asociado a espacios muestrales finitos en los cuales los

sucesos elementales son equiprobables se denomina modelo uniforme y aquí se
utilizó la regla de Laplace.
Ahora se analiza cómo puede cambiar el espacio de probabilidad de un suceso

cuando se tiene en cuenta el resultado de otro experimento en la misma población.
Ejemplo 5
Un delegado de una escuela se elige al azar entre N estudiantes. Si todas las

elecciones son equiprobables (modelo uniforme) la probabilidad se determina por
P=1/N; ∀A ∈ S siendo S la población de los N estudiantes.
Sean A={estudiante de primer año} y B={mujer} partes de S:
• Se conoce que el estudiante elegido es de primer año; es decir, el suceso A

se ha realizado.
• B puede haberse realizado o no.
• Para que el estudiante además de primer año sea mujer, la selección tiene
que pertenecer a A y B (A∩B).
• Para que no sea mujer, el estudiante se ha escogido de A∩Bc.
• Como A es un suceso seguro, B no tendrá lugar a menos que se realice

A ∩ B N P( A ∩ B )
A∩B. Por tanto, la probabilidad que se realice B es = .
A N P ( A)
Estadística 1 89
PROBABILIDAD CONDICIONADA
Definición. Sea E un suceso en un espacio muestral S con P (E)>0. La probabilidad

de que un suceso A ocurra una vez que ha ocurrido E, o específicamente, la
probabilidad condicionada de A dado E, escrito P(A|E) se define como:
P( A ∩ E )
P( A | E ) = .
P (E )
Si S es equiprobable y n es el número de elementos de un suceso:
n( A ∩ E ) n( E )
P( A ∩ E ) = , P (E ) = , de modo que:
n (S ) n (S )
P ( A ∩ E ) n( A ∩ E )
P( A | E ) = = .
P(E ) n(E )
Formalmente,
Teorema 10. Sea S un espacio equiprobable y A y E dos sucesos. Entonces,
P ( A ∩ E ) n( A ∩ E )
P( A | E ) = = .
P(E ) n(E )
Ejemplo 6
Se tira un par de dados. Hallar:
a. la probabilidad de que salga un dos en uno de los dados, si la suma ha salido

seis.
b. P(A)
a. E = {la suma es 6} y A = {salga 2 en al menos uno de los dados}
De E dos pares pertenecen a A: A∩E = {(2, 4), (4, 2)}. Así, P (A|E) = 2/5.
b. A tiene 11 elementos: P(A) = 11/36.
Teorema de multiplicación para la probabilidad condicionada

Supongan que A y B son sucesos en el espacio muestral S con P(A)>0. Por
definición:
P( A ∩ B )
P (B | A) = , si multiplicamos por P(A), se obtiene un resultado útil:
P ( A)
Teorema 11. P(A∩B) = P(A) P(B|A)
Es útil porque por lo común se desea P(A∩B) ya que P(A) y P(B|A) se pueden
concretar a partir de la especificación del problema.
Colorario 11. P(A∩B∩C) = P(A) P(B|A) P(C|A∩B).
Ejemplo 7. Se tienen 15 bolas en una bolsa, de las cuales 6 son

blancas y las restantes negras. Se sacan al azar 3 bolas una detrás de la otra. Hallar
la probabilidad de que las tres no sean blancas.
• La probabilidad de que la primera no sea blanca es p = 9/15.
• Si la primera bola no es blanca, la probabilidad de que la segunda no lo sea

es p = 8/14.
• Si las dos primeras bolas no son blancas, la probabilidad de que la tercera

no lo sea es p = 7/13.
Así,
P = (9/15) (8/14) (7/13) = 12/65 ≈ 0,18
PROCESOS ESTOCÁSTICOS FINITOS Y DIAGRAMA DE ÁRBOL
Proceso estocástico: sucesión finitas de experimentos donde cada experimento

tiene un número finito de resultados con unas probabilidades dadas. Estos procesos
se describen por medio de un diagrama de árbol.
Estadística 1 91
Ejemplo 8
Suponga tres cajas X, Y, y Z de manera que:
• X tiene 10 bombillas y cuatro son defectuosas.
• Y tiene 6 de las que sólo una es defectuosa.
• Z tiene 8 de las que 3 son defectuosas.
Se escoge una caja al azar y, luego de ella, una bombilla al azar. Hallar la
probabilidad de que la bombilla no sea defectuosa.
Hay una sucesión de dos experimentos:

2
1. elegir una de las cajas. D
5
X
1 3
2. elegir una bombilla defectuosa (D) o no (N). 3
N
5
1 1
Con el diagrama de árbol y el teorema de multiplicación D
3 6
Y
determinamos la probabilidad. 5 N
1 6
3 D
Hay tres caminos que llevan a una bombilla no defectuosa, 3 8
Z
5
la suma de estos caminos da la probabilidad requerida: 8
N
P(N) = 1/3 x 3/5 + 1/3 x 5/6 + 1/3 x 5/8
PROBABILIDAD TOTAL Y FÓRMULA DE BAYES
Si S es la unión de conjuntos mutuamente disjuntos Ai (i = 1, 2, 3,…, n) y E es

cualquier subconjunto de S. Entonces, E = E ∩ S = E ∩ (A1 U A2 U… U An) = (E ∩
A1) U (E ∩ A2) U (E ∩ A3) U… (E ∩ An).
Los n subconjuntos de la parte derecha son mutuamente independientes.
Suponga que S es un espacio muestral y que los Ai son sucesos. Como E ∩ Ak es

disjunto:
P(E) = P (E ∩ A1) + P (E ∩ A2) +...+ P (E ∩ An)

Con el teorema de multiplicación para la probabilidad condicionada también
obtenemos que
P (E ∩ Ak) = P (Ak ∩ E) = P (Ak) P(E|Ak)
Teorema 12. (Probabilidad total) Sea E un suceso del espacio muestral S y Ai (i

= 1, 2, 3,…, n) sucesos mutuamente disjuntos cuya unión es S. Entonces,
P(E) = P(A1) P(E|A1) + P(A2) P(E|A2) +… + P(An) P(E|An)
Las A forman una partición de S (unión de conjuntos disjuntos)
Ejemplo 9
Tres empresas X, Y, Z producen equipos eléctricos, tales que:
X produce el 60% y el 4% son defectuosos;
Y produce el 25% y el 2% son defectuosos;
Z produce el 15% y el 3% son defectuosos;
Hallar la probabilidad de que un equipo escogido al azar sea defectuoso.
Por la ley de la probabilidad total:
P (D) = P(X) P (D|X) + P (Y) P (D|Y) + P (Z) P (D|Z)
= 0,60 x 0,04 + 0,25 x 0,02 + 0,15 x 0,03 = 0,0335
Teoremas 13. (Fórmula de Bayes). Sea E un suceso de un espacio muestral y Ai

(i = 1, 2, 3,…, n) sucesos disjuntos cuya unión es S. Entonces, para k = 1, 2, 3,…,
n,
P( Ak )P(E | Ak )
P( Ak | E ) = n
∑ P( A )P(E | A )
k =1
k k
Estadística 1 93
Ejemplo 10
Del ejemplo 4 suponga que encuentra un equipo defectuoso. Hallar la probabilidad

que el equipo haya sido fabricado por cada una de las empresas.
Por la fórmula de Bayes: P (D) = P(X) P (D|X) + P (Y) P (D|Y) + P (Z) P (D|Z)
P( X )P(D | X ) (0,60)(0,04 ) 240

P( X | D ) = = = = 0,7164
P (D ) 0,0335 335
P(Y )P(D | Y ) (0,25)(0,02 ) 50

P(Y | D ) = = = = 0,1493
P(D ) 0,0335 335
P(Z )P(D | Z ) (0,15)(0,03) 45

P (Z | D ) = = = = 0,1343
P (D ) 0,0335 335
Los problemas que se tratan con probabilidad total y fórmula de Bayes, se

pueden interpretar con procesos estocásticos en dos etapas.
P (E A1 )
A1 E
P ( A1 )
El primer paso del árbol corresponde a los sucesos
Ai (i = 1, 2, 3) con su partición S, y el segundo P ( A2 ) P (E A2 )

A2
E
corresponde al suceso arbitrario E.
P ( A3 ) P (E A3 )
A3 E
Con el diagrama de árbol se halla P (E):
P (E) = P (A1) P (E|A1) + P (A2) P (E|A2) + P (A3) P (E|A3)

P( Ak I E ) P( Ak )P(E | Ak ) P( Ak )P(E | Ak )
P( Ak | E ) = = = 3
P(E ) P(E )
∑ P( Ak )P(E | Ak )
k =1
SUCESOS INDEPENDIENTES
Definición. Los sucesos A y B son independientes si P (A∩B) = P(A) P (B); de

cualquier otra forma son dependientes.
La independencia es una relación simétrica. Particularmente
P (A∩B) = P(A) P (B) => P (B|A) = P (B) y P (A|B) = P(A)
Si A∩B = Ø y A y B son independientes. Entonces
P(A) P (B) = P (A∩B) = 0 así, P(A) = 0 o P (B) = 0
Ejemplo 11
La probabilidad de A de acertar a un blanco es ½ y la de B es 2/5. Ambos disparan

al objetivo. Hallar la probabilidad de que al menos uno de ellos de en el blanco.
Asumimos que A y B son independientes: P (A∩B) = P(A) P (B) = ¼ x 2/5 = 1/10.
Por la regla de la adición:
P(A U B) = P(A) + P (B) - P (A∩B) = ¼ + 2/5 – 1/10 = 11/20
Tres sucesos A, B y C son independientes si18:
1. P (A∩B) = P(A) P (B), P (A∩C) = P(A) P(C), P (B∩C) = P (B) P(C)
2. P (A∩B∩C) = P(A) P (B) P(C).
18
Ser independiente dos a dos no implica independencia, es decir, (1) no implica (2) y (2) no implica (1)
Estadística 1 95
La independencia se puede generalizar a más sucesos.
EXPERIMENTOS INDEPENDIENTES REPETIDOS
Definición. Sea S un espacio probabilístico finito. El espacio de n experimentos

repetidos e independientes, es el espacio probabilístico Sn de todas las n-ordenadas
de elementos de S, con las probabilidades de todas las n definidas como:
P (s1, s2,…, sn) = P (s1) P (s2)… P (sn)
Ejemplo 12
Cada vez que tres caballos a, b, c corren juntos sus probabilidades de ganar son
1/2, 1/3 y 1/6. Si los caballos corren dos veces: S2 = {aa, ab, ac, ba, bb, bc, ca, cb,
cc}.
P (aa) = P(a) P(a) = ¼
P (ab) = P(a) P (b) = 1/6
P (ac) = P(a) P(c) = 1/12
P (ba) = 1/6
P (bb) = 1/9
P (bc) = 1/18
P (ca) = 1/12
P (cb) = 1/18
P (cc) = 1/36
La probabilidad de que c gane la primera y la segunda carrera es P (ca) = 1/12
Experimentos repetidos como un proceso estocástico
Un proceso de experimentos repetidos se puede ver como un proceso estocástico

cuyo diagrama de árbol tiene las siguientes propiedades:
1. Cada punto en la rama tiene los mismos resultados.
2. todas las ramas con el mismo resultado tienen la misma probabilidad.
Bibliografía

Mc Graw Hill, 2001.

Ed. Thomson. 2005.
Recomendaciones al estudio independiente
Estudiar los ejemplos y problemas resueltos del texto

recomendado.
Estudie el Devore después de las lecturas indicadas. Si

controla el tema desde antes puede hacerlo directamente.
Ejercicio 1. Hallar la probabilidad de sacar una suma de 8 puntos al lanzar dos

dados.
5
R/ p =
36
Ejercicio 2. Hallar la probabilidad de sacar por suma o bien 4, o bien 11 al lanzar

dos dados.
5
R/ p =
36
Estadística 1 97
Ejercicio 3. Se escriben al azar las cinco vocales ¿Cuál es la probabilidad de que la

“e” aparezca la primera y la “o” la última?
6 1
R/ p = =
120 20
Ejercicio 4. Una urna contiene 15 bolas blancas y 12 negras. Se extraen dos bolas
sin reintegrarlas ¿Cuál es la probabilidad de sacar dos bolas negras?
66 22
R/ p = =
351 117
Ejercicio 5. Una urna contiene 12 bolas blancas y 8 negras. Si se sacan dos bolas
al azar. ¿Cuál es la probabilidad de que sean del mismo color?
47
R/
95
Ejercicio 6. Una urna contiene 12 bolas blancas y 8 negras. ¿Cuál es la

probabilidad de sacar dos bolas negras reintegrando la bola extraída?
4
R/
25
Ejercicio 7. De una baraja española de 40 cartas ¿Cuál es la probabilidad de sacar

un caballo seguido de un tres, reintegrando la primera carta? ¿Y sin reintegrarla?
1 2
R/ Con reintegro . Sin reintegro
100 195
Ejercicio 8. Si la probabilidad de que ocurra un suceso cualquiera es 1/3 ¿Cuál es

la probabilidad de que se realice el suceso si se efectúan 4 pruebas?
65
R/
81
Ejercicio 9. De un juego de baraja de 40 cartas, se sacan dos de ellas.
a. ¿Cuál es la probabilidad de que las cartas escogidas sean un caballo y un

tres si se hace con reintegro?
b. ¿Cuál es la probabilidad de que las cartas escogidas sean un caballo y un

tres si se hace sin reintegro?
1 4
R/ a. b.
50 195
Ejercicio 10. Una urna contiene 8 bolas blancas, 5 negras y 2 rojas. Se extraen
tres bolas al azar y se desea saber:
a. La probabilidad de que las tres bolas sean blancas.
b. La probabilidad de que dos sean blancas y una negra.
56 8 140 28 4
R/ a. p = = b. p= = =
455 65 455 91 13
Ejercicio 11. Se extraen 3 cartas de una baraja de 40. Calcule la probabilidad de

que
a. las tres sean sotas.
b. sean un as, un dos y un tres
c. salga un rey, seguido de un cinco y éste de un siete
1 8 4
R/ a. b. c.
2470 1235 3705
Ejercicio 12. Una urna contiene dos bolas blancas y tres negras; otra, seis blancas
y cuatro negras. Extraemos una bola de cada urna ¿Cuál es la probabilidad de que
sean las dos negras?
6
R/
25
Ejercicio 13. Al lanzar dos veces un dado ¿Cuál es la probabilidad de que la suma
de puntos sea divisible por tres?
12 1
R/ p = =
36 3
Ejercicio 14. Con las cifras 1, 2, 3, 4 y 5 se escriben todos los números posibles de
tres cifras, sin repetir cifras en cada número. Si se señala un número al azar:
a. ¿Cuál es la probabilidad de que sea múltiplo de 4?
b. ¿Y de que sea múltiplo de 3?
1 2
R/ a. b.
5 5
Ejercicio 15. Una caja contiene 8 bolas rojas, 4 azules y 6 verdes. Se extraen 3
bolas al azar y se desea saber:
a. La probabilidad de que las tres sean rojas.

Estadística 1 99
b. La probabilidad de que dos sean rojas y una verde.
c. La probabilidad de que dos sean azules y la otra de otro color.
d. La probabilidad de que todas sean de distinto color.
e. La probabilidad de que todas sean del mismo color.
7 7 7 4 5
R/ a. b. c. d. e.
102 34 68 17 51
Ejercicio 16. Se lanza un dado 6 veces ¿Cuál es la probabilidad de que salga algún
1 en los 6 lanzamientos?
31031
R/
46656
Ejercicio 17. Una caja contiene 2 bolas blancas, 3 negras y 4 rojas. Otra contiene
3 blancas, 5 negras y 4 rojas. Se toma una bola al azar de cada caja ¿Qué
probabilidad hay de que sean del mismo color?
37
R/
108
Ejercicio 18. En una urna hay 50 bolas, aparentemente iguales, numeradas del 1
al 50 ¿Qué probabilidad hay de sacar, una a una, las 50 bolas en el orden natural?
1
R/
50!
Ejercicio 19. La probabilidad de acertar en un blanco de un disparo se estima en

0,2. La probabilidad de acertar en dos disparos será p1=0,04; p2=0,36; p3=0,12.
Determinar qué respuesta el la correcta.
R/ 0,36
Ejercicio 20. ¿Cuál es la probabilidad de torpedear un barco, si sólo se pueden

lanzar tres torpedos y la probabilidad de impacto de cada uno se estima en un 30
%?
R/ 0,657
Ejercicio 21. Se considera el experimento aleatorio “lanzar dos veces un dado”

¿Cuál es la probabilidad de obtener número par en el segundo lanzamiento
condicionado a obtener impar en el primero? ¿Son dependientes o independientes
estos sucesos? ¿Por qué?
R/ 1/2
Ejercicio 22. A un congreso asisten 80 congresistas. De ellos 70 hablan inglés y 50
francés. Se eligen dos congresistas al azar y se desea saber:
a. ¿Cuál la probabilidad de que se entiendan sin intérprete?
b. ¿Cuál es la probabilidad de que se entiendan sólo en francés?
c. ¿Cuál es la probabilidad de que se entiendan en un solo idioma?
d. Cuál es la probabilidad de que se entiendan en los dos idiomas?
143 89 52 39
R/ a. b. c. d.
158 632 79 158
Ejercicio 23. En una bolsa hay 8 bolas rojas, 10 negras y 6 blancas. Tres niños
sacan, sucesivamente, dos bolas cada uno, sin reintegrar ninguna. Hallar la
probabilidad de que el primero saque las dos rojas, el segundo las dos negras y el
tercero las dos blancas.
7 15 3 15
R/ , , ,
69 77 88 9614
Ejercicio 24. Se lanza un dado “n” veces ¿Cuál es la probabilidad de sacar al

menos un 6 en los “n” lanzamientos?
n
5
R/ 1 −  
6
Ejercicio 25. Se realiza el experimento aleatorio de lanzar sucesivamente cuatro

monedas al aire y se pide:
a. La probabilidad de obtener a lo sumo tres cruces.
b. La probabilidad de obtener dos caras.
R/ a. 15/16 b. 3/8
Ejercicio 26. Una pieza de artillería dispone de 7 obuses para alcanzar un objetivo.
En cada disparo la probabilidad de alcanzarlo es 1/7 ¿Cuál es la probabilidad de
alcanzar el objetivo en los 7 disparos?
7
6
R/ 1 −  
7
Ejercicio 27. La probabilidad de que un hombre viva más de 25 años es de 3/5, la

de una mujer es de 2/3. Se pide:
Estadística 1 101
a. La probabilidad de que ambos vivan más de 25 años.
b. La probabilidad de que sólo viva más de 25 años el hombre.
c. La probabilidad de que sólo viva más de 25 años la mujer.
d. La probabilidad de que viva más de 25 años, al menos, uno de

los dos.
R/ a. 2/5 b. 1/5 c. 4/15 d. 13/15
Ejercicio 28. Si de una baraja de 40 cartas se eligen 4 al azar, determinar:
a. La probabilidad de elegir dos reyes.
b. La probabilidad de que tres de las cartas sean del mismo palo.
c. La probabilidad de que todos los números sean menores de siete.
 4   36  10   30   24 
  ⋅     ⋅    
R/ a.     b. 4 ⋅     c.  
2 2 3 1 4
 40   40   40 
     
4 4 4
Ejercicio 29. Se lanzan tres monedas sucesivamente y se consideran los siguientes

sucesos:
A= ”obtener cruz en el primer lanzamiento”.
B= “obtener alguna cara”.
C= “obtener dos cruces”.
Se desea saber:
a. Si A y B son incompatibles.
b. Si A y B son independientes.
c. Si A y C son incompatibles.
d. Si A y C son independientes
R/ a. no son incompatibles. b. no son independientes. c. no son incompatibles. d. no son

independientes.
Ejercicio 30. De las 100 personas que asisten a un congreso 40 hablan francés, 40
inglés, 51 castellano, 11 francés e inglés, 12 francés y castellano y 13 inglés y
castellano. Se eligen al azar dos asistentes y se desea saber:
a. ¿Cuál es la probabilidad de que ninguno hable francés?
b. ¿Cuál es la probabilidad de que hablen castellano?
c. ¿Cuál es la probabilidad de que sen entiendan sólo en castellano?
d. ¿Cuál es la probabilidad de que sólo hablen un idioma?
e. ¿Cuál es la probabilidad de que hablen los tres idiomas?
 60   51  31  31  8   31  7   31  5   74 

      +   ⋅   +   ⋅   +   ⋅    
R/ a.   b.   c.               d.  
2 2 2 1 1 1 1 1 1 2
100  100  100  100 
       
 2   2   2   2 
 5
 
e.  
2
100 
 
 2 
Ejercicio 31. Un dado está “cargado” de modo que al lanzarlo, la probabilidad de

obtener un número es proporcional a dicho número. Hallar la probabilidad de que,
al lanzar el dado, se obtenga un número par.
R/ 12/21
Ejercicio 32. En una encuesta realizada entre 24 alumnos resulta que 18 fuman
ducados, 12 celtas y 8 de las dos clases. Se eligen tres alumnos al azar y se desea
saber:
a. ¿Cuál es la probabilidad de que los tres fumen?
b. ¿Cuál es la probabilidad de que dos, exactamente dos, fumen

ducados?
R/ a. 35/46 b. 459/1012
Ejercicio 33. Si de 800 piezas fabricadas por una máquina salieron 25 defectuosas
y se eligen 5 de aquéllas al azar ¿Cuál es la probabilidad de que haya alguna
defectuosa entre las cinco elegidas?
Estadística 1 103
 775 
 
 5 
R/ 1 −
 800 
 
 5 
Ejercicio 34. Se tiene tres urnas de igual aspecto. En la primera hay 3 bolas
blancas y 4 negras; en la segunda hay 5 negras y en la tercera hay 2 blancas y 3
negras. Se desea saber:
a. Si se extrae una bola de una urna, elegida al azar, ¿cuál es la

probabilidad de que la bola extraída sea negra?
b. Se ha extraído una bola negra de una de las urnas ¿Cuál es la

probabilidad de que haya sido extraída de la 2ª urna?
R/ a. 76/105 b. 35/76
Ejercicio 35. En un hospital especializado en enfermedades de tórax ingresan un

50 % de enfermos de bronquitis, un 30 % de neumonía y un 20 % con gripe. La
probabilidad de curación completa en cada una de dichas enfermedades es,
respectivamente, 0,7; 0,8 y 0,9. Un enfermo internado en el hospital ha sido dado
de alta completamente curado. Hallar la probabilidad de que el enfermo dado de
alta hubiera ingresado con bronquitis.
R/ 0,455
Ejercicio 36. Hay una epidemia de cólera. Un síntoma muy importante es la

diarrea, pero ese síntoma también se presenta en personas con intoxicación, y, aún,
en personas que no tienen nada serio. La probabilidad de tener diarrea teniendo
cólera, intoxicación y no teniendo nada serio es de 0,99; 0,5 y 0,004
respectivamente. Por otra parte, se sabe que el 2% de la población tiene cólera, el
0,5 % intoxicación y el resto (97,5 %), nada serio. Se desea saber:
a. Elegido un individuo de la población ¿Qué probabilidad hay de que

tenga diarrea?
b. Se sabe que determinado individuo tiene diarrea ¿Cuál es la

probabilidad de tenga cólera?
R/ a. 0,0262 b. 0,0756
Ejercicio 37. La probabilidad de que un artículo provenga de una fábrica A1 es 0,7,
y la probabilidad de que provenga de otra A2 es 0,3. Se sabe que la fábrica A1
produce un 4 por mil de artículos defectuosos y la A2 un 8 por mil.
a. Se observa un artículo y se ve que está defectuoso ¿Cuál es la

probabilidad de que provenga de la fábrica A2?
b. Se pide un artículo a una de las dos fábricas, elegida al azar ¿Cuál es

la probabilidad de que esté defectuoso?
c. Se piden 5 artículos a la fábrica A1 ¿Cuál es la probabilidad de que

haya alguno defectuoso?
R/ a. 0,462 b. 0,0052 c. 0,99999
Ejercicio 38. En una población animal hay epidemia. El 10 % de los machos y el

18 % de las hembras están enfermos. Se sabe además que hay doble número de
hembras que de machos y se pide:
a. Elegido al azar un individuo de esa población ¿Cuál es la probabilidad

de que esté enfermo?
b. Un individuo de esa población se sabe que está enfermo ¿Qué

probabilidad hay de que el citado individuo sea macho?
R/ a. 0,153 b. 0,218
Ejercicio 39. En una clase mixta hay 30 alumnas, 15 estudiantes que repiten
curso, de los que 10 son alumnos, y hay 15 alumnos que no repiten curso. Se pide:
a. ¿Cuántos estudiantes hay en la clase?
b. Elegido al azar un estudiante ¿Cuál es la probabilidad de que sea

alumno?
c. Elegido al azar un estudiante ¿Cuál es la probabilidad de que sea

alumna y repita el curso?
d. Elegidos al azar dos estudiantes ¿Cuál es la probabilidad de que

ninguno repita curso?
R/ a. 55 b. 5/11 c. 1/11 d. 52/99

Estadística 1 105
Ejercicio 40. La probabilidad de que un alumno apruebe Matemáticas es 0,6, la de

que apruebe Lengua es 0,5 y la de que apruebe las dos es 0,2. Hallar:
a. La probabilidad de que apruebe al menos una de las dos asignaturas.
b. La probabilidad de que no apruebe ninguna.
c. La probabilidad de que se apruebe Matemáticas y no Lengua.
R/ a. 0,9 b. 0,1 c. 0,4
7. VARIABLES ALEATORIAS
CONCEPTO DE VARIABLE ALEATORIA
La estadística hace inferencia acerca de poblaciones y sus características. La

realización de experimentos (experimentos estadísticos) conduce a resultados
sujetos al azar. Al resultado, con mucha frecuencia, se les asigna una descripción
numérica -vea el ejemplo 1, el cual está relacionado con una definición importante
en estadística y probabilidad.
Definición 1. Una variable aleatoria (v.a) X de un espacio muestral S

es una función de S en el conjunto de los números reales19:
X: S → R
Ejemplo 1. Se tira una moneda tres veces y se observa la sucesión de

20
cara y cruz :
S = {HHH, HHT, HTH, HTT, THH, THT, TTH, TTT}
19
Se asigna un valor numérico a cada resultado de S.
20
H es cara y T es cruz.
Sea X la asignación a cada punto de S del mayor número de caras sucesivas que
van saliendo:
X (TTT) = 0, X (HTH) = X (HTT) = X (THT) = X (TTH) = 1
X (HHT) = X (THH) = 2, X (HHH) = 3
La X es una variable aleatoria con rango Rx = {0, 1, 2, 3}, es decir, su espacio de

valores.
En el ejemplo anterior, el espacio muestral contiene un número finito de elementos.

Existen situaciones en las que el espacio muestral tiene una secuencia interminable
de elementos, pero numerable. Suponga el lanzamiento de un dado hasta que
aparezca el número cuatro: S = {F , NF , NNF , NNNF , ...}; F y N están
relacionadas con la aparición o no del cuatro.
Definición 2. Si un espacio contiene un número finito de posibilidades

o un conjunto infinitos de elementos numerables, se llama espacio muestral
discreto.
Los resultados de algunos experimentos estadísticos no pueden ser ni finitos ni

contables. Podemos ejemplificar el registro del tiempo requerido para que se lleve a
cabo una reacción química, en el cual los posibles valores de tiempo que forman el
espacio muestral son infinitos en número e incontables.
Definición 3. Si un espacio contiene un número infinito de

posibilidades igual al número de puntos en un segmento de línea, se llama espacio
muestral continuo.
La suma y producto de variables aleatorias satisface las siguientes propiedades:

Estadística 1 107
(X + Y)(s) = X(s) + Y(s), (kX) (s) = k X(s),
(X + k)(s) = X(s) + k, XY(s) = X(s) Y(s)
DISTRIBUCIÓN ALEATORIA DE UNA VARIABLE ALEATORIA FINITA
Una v.a X discreta toma cada uno de sus valores con cierta probabilidad. Con
frecuencia conviene representar todas las probabilidades de la v.a mediante una
fórmula. Necesariamente, la fórmula es una función.
Sea X v.a del espacio muestral S tal que:
Rx = {x1, x2,…, xn}
Entonces, X nos conduce a una función f que asigna probabilidades a los puntos de
Rx por21
f (xk) = P(X = xk)
Rx con la asignación de probabilidades es un espacio probabilístico.
Definición 4. El conjunto de pares ordenados (x, f (x )) se le llama

función de probabilidad, función masa de probabilidad o distribución de
probabilidad de la v.a X y satisface:
a. f (xk) ≥ 0
b. ∑k f (xk) = 1
c. f (xk) = P(X = xk)
21
Se puede representar en una tabla
Teorema1. Sea S un espacio equiprobable finito y f la distribución de una v.a X con
Rx = {x1, x2,…, xn}. Entonces:
f ( xk ) =
número de puntos de S con imagen xk
número de puntos de S
Ejemplo 2. Se tira una moneda tres veces y se observa la sucesión de

cara y cruz:
S = {HHH, HHT, HTH, HTT, THH, THT, TTH, TTT}
Sea X la v.a que asigna a cada punto de S el mayor valor de la sucesión de caras. El
espacio de valores es Rx = {x1, x2,…, xn}. Existirán:
a. un punto TTT, donde X = 0
b. cuatro puntos HTH, HTT, THT, TTH, donde X = 1
c. dos puntos HHT, THH, donde X = 2
d. un punto HHH, donde X = 3
Determine la distribución de probabilidades de la v.a X cuando:
a) La moneda no está trucada.
b) El peso de la moneda es tal que: P(H) = 2/3 y P(X) = 1/3.
Solución.
a) Si la moneda no está trucada, entonces S es equiprobable de 8 elementos. Por

el teorema 1:
x 0 1 2 3
f(x) 1/8 4/8 2/8 1/8
El gráfico de probabilidades se puede hacer con un diagrama de barra o un

histograma. Represéntelos usted mismo.
Estadística 1 109
b) Si el peso de la moneda es tal que: P(H) = 2/3 y P(X) = 1/3, entonces S no es

equiprobable. Las probabilidades de los puntos de S son:
P (HHH) = 2/3 x 2/3 x 2/3 = 8/27 P (THH) = 1/3 x 2/3 x 2/3 = 4/27
P (HHT) = 2/3 x 2/3 x 1/3 = 4/27 P (THT) = 1/3 x 2/3 x 1/3 = 2/27
P (HTH) = 2/3 x 1/3 x 2/3 = 4/27 P (THT) = 1/3 x 1/3 x 2/3 = 2/27
P (HTT) = 2/3 x 1/3 x 1/3 = 2/27 P (TTT) = 1/3 x 1/3 x 1/3 = 1/27
Al no ser S equiprobable no se puede utilizar el teorema 1 para calcular la

distribución f de X. f se calcula directamente:
f (0) = P (TTT) = 1/27
f (1) = P ({HTH, HTT, THT, TTH}) = 4/27 + 2/27 + 2/27 + 2/27 = 10/27
f (2) = P ({HHT, THH}) = 4/27 + 4/27 = 8/27
f (3) = P (HHH) = 8/27
Así, la distribución f de X
x 0 1 2 3
f(x) 1/27 10/27 8/27 8/27
Ejemplo 3. En una fábrica se han construido 9 pizarras digitales, de las

cuales 3 son defectuosas. Una facultad universitaria compra al azar 2 pizarras. Halle
la distribución de probabilidad para el número de defectuosas.
Solución. Sea X la v.a cuyos valores x son los números posibles de pizarras
digitales defectuosas que pueda comprar la facultad ( x = 0, 1, 2 ). Por tanto,
 3  6
   
f (0) = P( X = 0 ) =     =
0 2 30
9 72
 
 2
 3  6 
   
f (1) = P( X = 1) =     =
1 1 36
9 72
 
 2
 3  6
   
f (2 ) = P( X = 2 ) =     =
2 0 6
9 72
 
 2
La distribución de probabilidad de X es
x 0 1 2
f (x ) 30 72 36 72 6 72
Existen problemas donde se desea determinar la probabilidad de que el valor

observado de una v.a X sea menor o igual que cierto número real x . Cuando se
escribe F ( x ) = P( X ≤ x ) para cualquier número real x , se define a F ( x ) como la
distribución acumulada de la v.a X.
Definición 5. La distribución acumulada F ( x ) de una v.a discreta X

con distribución de probabilidad f ( x ) es
F ( x ) = P( X ≤ x ) = ∑ f (t ) para − ∞ < x < ∞ .

t≤x
Estadística 1 111
Ejemplo 4. Sea X una v.a discreta con la siguiente distribución de

probabilidad f:
x -2 1 2 4
f(x) 1/4 1/8 1/2 1/8
Halle la:
a) probabilidad de que el valor observado de una v.a X sea menor o igual que 1,5.
b) función de distribución acumulada.
Solución.
a) F (1,5) = P ( X ≤ 1,5) = f (− 2 ) + f (1) =

1 1 3
+ =
4 8 8
b) Para determinar la función de distribución acumulada de X determinemos:
F (− 2 ) = f (− 2 ) =
1 2
=
4 8
F (1) = f (− 2 ) + f (1) =
2 1 3
+ =
8 8 8
F (2 ) = f (− 2 ) + f (1) + f (2 ) =
3 1 3 4 7
+ = + =
8 2 8 8 8
F (4 ) = f (− 2 ) + f (1) + f (2 ) + f (4 ) =
7 1
+ =1
8 8
Por tanto,
 0 para x < −2
2 8 para - 2 ≤ x < 1

F ( x ) = 3 8 para 1 ≤ x < 2
7 8 para 1 ≤ x < 2

 1 para x ≥ 4
La función acumulada F de X se muestra a continuación. Observe que X tiene
escalón en xi con altura f(xi)
F(x)
1/2
Figura 1
x
-2 1 2 4
VARIABLES ALEATORIAS CONTINUAS
Una v.a continua tiene una probabilidad cero de tomar exactamente cualquiera de
sus valores. Por tanto, su distribución de probabilidad no se puede dar en forma
tabular (tiene más sentido hablar del valor en un intervalo que dar un valor
puntual). Sin embargo, podemos dar una fórmula para la distribución de
probabilidad de la v.a. La fórmula será función de los valores numéricos de la
variable continua X. Se representa por f(x) y se llama
Definición 6. Sea f: R → R una función continua a intervalos, tal que

b
P(a ≤ X ≤ b ) = ∫ f ( x )dx,
a
entonces se dice que X es una v.a continua. f(x) se llama función de densidad de
probabilidad o función de densidad de X.
Observación. Cuando X es continua, no importa si incluimos o no un extremo del

intervalo. Sin embargo, cuando X es discreta, no es cierto hacer esta afirmación.
Propiedades de f
a. f (x ) ≥ 0
Estadística 1 113
∞
b. ∫ f (x )dx ≡ ∫ f (x )dx = 1
−∞ R
Ejemplo 5. Sea X una v.a continua con la siguiente función de densidad

de probabilidad
 12 x si 0 ≤ x ≤ 2

f (x ) = 
0 cualquier otra parte

a. Verifique la propiedad 2
b. Encuentre P (1≤X≤1,5)
Solución.
∞ 0 ∞ 2 2
∫− ∞ f (x )dx = −∫∞0dx + + ∫2 0dx = 2 ∫0 xdx = 4 x = 1 − 0 = 1

1 1 2
a.
0
1, 5 1, 5
b. P (1 ≤ X ≤ 1,5) = ∫ xdx = x
1 1 2 225 100 125 5
= − = =
1
2 4 1 400 400 400 16
Definición 7. La distribución acumulada F ( x ) de una v.a continua

X con función de densidad f ( x ) es
x
F ( x ) = P( X ≤ x ) = ∫ f (t )dt para −∞ < x < ∞.
−∞
De la definición anterior, se pueden escribir dos resultados:
P(a < X < b ) = F (b ) − F (a )

dF ( x )
f (x ) = , si existe la derivada.
dx
Ejemplo 6. Para la función de densidad del ejemplo anterior, encuentre

F ( x ) y úsela para evaluar P(1 ≤ X ≤ 1,5) .
Solución.
x x x
t2 x2
F ( x ) = P ( X ≤ x ) = ∫ f (t )dt = ∫ dt =
t
=
−∞ −∞
2 40 4
Así,
 0, x≤0
 x 2
F (x ) =  , 0 ≤ x ≤ 2
4
 1, x≥2
Dibuje la gráfica x vs. F ( x ) .
P(1 ≤ X ≤ 1,5) = F (1,5) − F (1) =

225 100 125 5
− = =
400 400 400 16
Observe que coincide con el ejemplo anterior.
DISTRIBUCIÓN CONJUNTA DE VARIABLES ALEATORIAS
Si es deseable obtener los resultados simultáneos de diversas v.a, utilizamos la

distribución de probabilidad conjunta de las mismas.
Estadística 1 115
Definición 8. La función f ( x, y ) es una distribución de

probabilidad conjunta o función de masa de probabilidad de las v.a
discretas X y Y si
a. f ( x, y ) ≥ 0 ∀ ( x, y ) ,
b. ∑∑ f (x, y ) = 1 ,
x y
c. P ( X = x, Y = y ) = f ( x, y )
Para cualquier región A en el plano xy , P[( X , Y ) ∈ A] = ∑∑ f (x, y ) .

A
Ejemplo 7. Se seleccionan al azar dos placas para un ordenador de una

caja que contiene tres placas de la marca A; dos, de la B; y tres, de la C. Si X es el
número de placas de A e Y el número de B que se seleccionan, halle:
a. la función de probabilidad conjunta f ( x, y )
b. la P[( X , Y ) ∈ A] , en la que A es la región {( x, y ) : x + y ≤ 1} .
Solución.
a. El espacio muestral es
 
 
S = ({ 0,0 ),({
0,1),({
1,0 ),({
1,1),({
0,2 ),({
2,0 )
 2 deC 1deB , 1deA, 1deA, 2 deB 2 deA 
 1deC 1deC 1deB 
Luego,
 3  3  3  2
       
f (0,0 ) =   = f (1,0 ) =     = f (0,2 ) =   =
2 3 1 1 9 2 1
 8  28 8 28  8  28
     
 2  2  2
 2   3  3  2   3
         
f (0,1) =     = f (1,1) =     = f (2,0 ) =   =
1 1 6 1 1 6 2 3
8 28 8 28  8  28
     
 2  2  2
La distribución conjunta la podemos escribir como:
 3  2   3 
     
 x   y   2 − x − y 
f ( x, y ) =
8
 
 2
Si construimos la tabla
f ( x, y ) 0 1 2 Total por
fila
0 3 28 9 28 3 28 15 28
y
1 6 28 6 28 12 28
2 1 28 1 28
Total por 10 28 15 28 3 28 1
columna
podemos ver que la suma de las probabilidades es uno.

Estadística 1 117
Definición 9. La función f ( x, y ) es una función de densidad

conjunta de las v.a continuas X y Y si
a. f ( x, y ) ≥ 0 ∀ ( x, y ) ,
∞ ∞
b. ∫ ∫ f (x, y )dxdy = 1 ,
−∞ −∞
c. Para cualquier región A en el plano xy , P[( X , Y ) ∈ A] = ∫ ∫ f ( x, y )dxdy .

A
Cuando X y Y son v.a continuas, f ( x, y ) es una superficie sobre el plano xy , y

P[( X , Y ) ∈ A] es igual al volumen del cilindro recto limitado por la base A y la
superficie.
Ejemplo 8. Una empresa distribuye bolsas de paquetes de café con

molido fino, molido grueso y oscuro tostado en forma natural y torrefacta. Para una
bolsa seleccionada al azar, sean X e Y, respectivamente, las proporciones de café de
tueste natural y torrefacta que son de molido fino y suponga que la función de
densidad conjunta es
4 x + y , 0 ≤ x ≤ 1, 0 ≤ y ≤ 1
f ( x, y ) =  .
 0, en cualquier otro caso
 1
P[( X , Y ) ∈ A] , estando A en la región ( x, y ) 0 < x < , < y <
1 1
Encuentre 
 2 4 2
Solución.
 1
P[( X , Y ) ∈ A] = P 0 < X < , < Y < 
1 1
 2 4 2
12 12
∫ ∫ (4 x + y )dxdy = ∫ (2 x )
1 21 2 12 12
1 y  y y2  11
= 2
+ xy dy = ∫  + dy =  +  =
1 4
140 14 0
2 2  2 4  1 4 64
Dada la distribución conjunta f ( x, y ) se pueden definir las distribuciones marginales
g ( x ) y h( y ) como:
Definición 10. Las distribuciones marginales de X sola y Y sola

son para el caso:
discreto: g ( x ) = ∑ f ( x, y ) y h( y ) = ∑ f ( x, y )
y x
∞ ∞
continuo: g ( x ) = ∫ f (x, y ) dy y h( y ) = ∫ f (x, y ) dx
−∞ −∞
Observación. El término marginal se usa porque en el caso discreto, los valores de

g ( x ) y h( y ) son los totales marginales de las columnas y filas respectivamente
cuando los valores de f ( x, y ) se muestran en una tabla rectangular. Vea la tabla
siguiente
Y y1 y2 ... yn Total
fila
X
x1 f ( x1 , y1 ) f ( x1 , y2 ) ... f ( x1 , yn ) g ( x1 )
x2 f ( x2 , y1 ) f ( x2 , y 2 ) ... f ( x2 , y n ) g ( x2 )
... … … ... … …
xn f ( xn , y1 ) f ( xn , y 2 ) ... f ( xn , y n ) g ( xn )
Total h( y1 ) h ( y2 ) ... h( y n )
columna
Estadística 1 119
Ejemplo 9. Muestre que los totales de filas y columnas de la tabla del

ejemplo 7 dan las distribuciones marginales de X sola y Y sola.
Solución.
Para la v.a Y :
2
P (Y = 0 ) = h(0 ) = ∑ f ( x,0 ) = f (0,0) + f (1,0 ) + f (2,0 ) =
3 6 1 10
+ + =
x =0 28 28 28 28
2
P (Y = 1) = h(1) = ∑ f ( x,1) = f (0,1) + f (1,1) + f (2,1) =
9 6 15
+ +0=
x=0 28 28 28
2
P (Y = 2 ) = h(2 ) = ∑ f (x,2 ) = f (0,2 ) + f (1,2 ) + f (2,2 ) =
3 3
+0+0=
x =0 28 28
Para la v.a X , compruébelo.
Ejemplo 10. Halle g ( x ) y h( y ) para la función de densidad conjunta

del ejemplo 8.
Solución.
∞ 1 y =1
 1 
g ( x ) = ∫ f ( x, y ) dy = ∫ (4 x + y )dy =  4 xy + y 2 
1
= 4x + , para 0 ≤ x ≤1 y
−∞ 0  2  y =0 2
g ( x ) = 0 en cualquier otro caso.
∫ f (x, y ) dy = ∫ (4 x + y ) dx = (2 x )
1
h( y ) = = 2 + y , para 0 ≤ y ≤ 1 y h( y ) = 0
x =1
2
+ xy
x =0
−∞ 0
en cualquier otro caso.

Definición 11. Sean X y Y v.a, discretas o continuas. La
distribución condicional de la v.a Y , dado que X = x , es
f ( x, y )
f (y x) = , g (x ) > 0 .
g (x )
Similarmente, la distribución condicional de la v.a X , dado que Y = y , es
f ( x, y )
f (x y ) = , h( y ) > 0 .
h( y )
Para calcular la probabilidad de que la v.a X caiga entre a y b :
P (a < X < b | Y = y ) = ∑ f ( x | y ) ; ; (para v.a discretas)

x
b
P(a < X < b | Y = y ) = ∫ f ( x | y ) dx ; (para v.a continuas)
a
Ejemplo 11. Del ejemplo 7, halle la distribución condicional de X , dado

que Y = 1 , y utilícela para determinar P( X = 0 | Y = 1) .
Solución.
( )
Hay que buscar f x y , donde y = 1 :
2
h(1) = ∑ f ( x,1) =
6 6 12 3
+ +0= =
x =0 28 28 28 14
Tenemos que
f ( x,1) 7
f ( x | 1) = = f ( x,1) , x = 0, 1, 2.
h(1) 3
Por tanto,
Estadística 1 121
f (0 | 1) = f (0, 1) =
7 7 3 1
= ,
3 3 14 2
f (1 | 1) = f (1, 1) =
7 7 3 1
= ,
3 3 14 2
f (2 | 1) = f (0, 1) = 0 = 0 ,
7 7
3 3
y la distribución condicional de X , dado que Y = 1 , es
x 0 1 2
f (x 1) 12 12 0
Con esta distribución calculamos:
P ( X = 0 | Y = 1) = f (0 | 1) =
1
.
2
De esta manera, si se conoce que una de las placas seleccionadas es de la marca B,

hay una probabilidad igual a 1 2 de que la otra placa no sea de la marca A.
Ejemplo 12. Dada la función de densidad conjunta
x2 + y2 , 0 < x < 1, 0 < y < 1

f ( x, y ) =  ,
1 1
g ( x ) , h( y ) , f ( x | y ) , y evalúe P < X < | Y =  .
1
encuentre
4 2 2
Solución.
∫ f (x, y ) dy = ∫ (x )
1
g (x ) =
1
2
+ y 2 dy = x 2 + , 0 < x <1.
−∞ 0
3
∞
∫ f (x, y ) dy = ∫ (x )
1
h( y ) =
1
2
+ y 2 dx = y 2 + , 0 < y < 1.
−∞ 0
3
Por tanto,
f ( x, y ) x 2 + y 2
f (x y ) = = , 0 < x <1, 0 < y <1
h( y ) y +
2 1
3
1 1 1
2 x2 + 2
1 1 1 4 dx = 12  x 2 + 1  dx = 19
P < X < | Y =  = ∫
4 2 2 1 1 1
+ 7 ∫1  4 112
4 4 3 4
VARIABLES ALEATORIAS INDEPENDIENTES
Definición 12. Sean X y Y dos v.a, discretas o continuas, con distribución

de probabilidad conjunta f ( x, y ) y distribuciones marginales g (x ) y h( y ) ,
respectivamente. Se dice que las v.a X y Y son estadísticamente independientes
si y sólo si
f ( x, y ) = g ( x ) h ( y )
∀ ( x, y ) dentro de sus rangos.
Ejemplo 13. Diga si las v.a del ejemplo 7 son independientes.
Solución. Según la definición 7, procedemos como indicamos a continuación:
f (0, 1) =
6
28
Estadística 1 123
2
g (0) = ∑ f (0, y ) =
3 6 1 10
+ + =
y =0 28 28 28 28
2
h(1) = ∑ f ( x, 1) =
6 6 12
+ +0=
x =0 28 28 28
Multiplicando, obtenemos:
f (0, 1) ≠ g (0) h(1) .
Como el producto de las funciones marginales no es igual a la función de

distribución de probabilidad conjunta, decimos que las v.a X e Y no son
estadísticamente independientes.
GENERALIZACIÓN A N VARABLES ALEATORIAS
Las definiciones anteriores se pueden generalizar al caso de varias v.a.

Sea f (x 1 , x 2 , ..., x n ) la función de probabilidad conjunta de las v.a
X 1 , X 2 , ..., X n .
Por ejemplo, tomemos la v.a X 1 , la distribución marginal de ésta es
 ∑ ⋅ ⋅ ⋅ ∑ f ( x1 , x2 , ..., xn ) (caso discreto)


g ( x1 ) =  ∞
x2 xn
.
 ∫ f ( x1 , x2 , ..., xn ) dx2 dx3 ⋅ ⋅ ⋅ dxn (caso continuo)
− ∞
Las distribuciones marginales conjuntas la definimos como:
 ∑ ⋅ ⋅ ⋅ ∑ f ( x1 , x2 , ..., xn ) (caso discreto)


φ ( x1 , x2 ) =  ∞
x3 xn
.
 ∫ f ( x1 , x2 , ..., xn ) dx3 dx4 ⋅ ⋅ ⋅ dxn (caso continuo)
− ∞
Para las distribuciones condicionales se pueden escoger numerosas casos. Si
deseamos la distribución condicional conjunta de X 1, X 2 y X 3 , con
X 4 = x4 , X 5 = x5 , ..., X n = xn , se escribe como:
f ( x1 , x2 , ..., xn )
f ( x1 , x2 , x3 | x4 , x5 , ..., xn ) = ,
g ( x4 , x5 , ..., xn )
donde g ( x4 , x5 , ..., xn ) es la distribución marginal conjunta de las v.a X 4 , X 5 , ..., X n .
Se dice que las v.a X 1 , X 2 , ..., X n son estadísticamente independientes mutuamente si y

sólo si
f ( x1 , x2 , ..., xn ) = f ( x1 ) f ( x2 ) ⋅ ⋅ ⋅ f ( xn )
∀ ( x1 , x2 , ..., xn ) dentro de su rango.
Ejemplo 14. El tiempo de vida en años, de un producto en conserva

embasado en recipientes plásticos, es una v.a cuya función de densidad de
probabilidad es
e −2 x , x>0
f (x ) =  .
Si X 1 , X 2 y X 3 son los tiempos de vida para tres de estos recipientes plásticos que se
escogen de forma independiente: encuentre el valor de P ( X 1 < 1, 1 < X 2 < 2, X 3 > 1) .
Solución. Como los recipientes se escogen de forma independientes, suponemos

que las v.a X 1 , X 2 y X 3 son estadísticamente independientes y tienen densidad de
probabilidad conjunta
f ( x1 , x2 , x3 ) = f ( x1 ) f ( x2 ) f ( x3 ) = e −2 x1 e −2 x 2 e −2 x3 = e −2( x1 + x 2 + x3 ) ,
para
Estadística 1 125
x1 > 0 , x2 > 0 , x3 > 0 y f ( x1 , x2 , x3 ) = 0 en cualquier otro caso. Por tanto,
∞2 1
− 1 −2
P( X 1 < 1, 1 < X 2 < 2, X 3 > 1) = ∫ ∫∫ e − 2 ( x1 + x 2 + x3 )dx1 dx2 dx3 =
2 3
( )( )(
e − 1 e− 4 − e− 2 − e− 2 )
1 1 0
=
1
2 3
( )2
1 − e − 2 e − 4 = 1,7 × 10 − 3 .
ESPERANZA MATEMÁTICA
Resulta interesante saber las medidas de posición de las v.a.
Definición 13. Sea X una v.a con distribución de probabilidad f ( x ) . La

media o valor esperado de X es
 ∑ x f ( x ) si X es discreta
 x
µ = E(X ) =  ∞ .
∫ x f ( x ) dx si X es continua
- ∞
Ejemplo 15. Se tira una moneda tres veces. Halle el valor esperado o
esperanza matemática de obtener el número mayor de caras sucesivas si:
a. la moneda no está trucada.
b. la moneda está trucada.
Solución.
Sea X el número mayor de caras sucesivas.
a. . La distribución de X se muestra en el ejemplo 2. Con esta distribución

obtenemos:
E = E(X) = 0 x 1/8 + 1 x 4/8 + 2 x 2/8 + 3 x 1/8 = 11/8
es el mayor número esperado de caras sucesivas.
b. el peso de la moneda es tal que:
E = E (X) = 0 x 1/27 + 1 x 10/27 + 2 x 8/27 + 3 x 8/27 = 50/27
es el mayor valor esperado de sucesiva caras.
Si interpretamos el resultado vemos que en ambos casos es favorable la obtención

de un mayor número de caras sucesivas.
Ejemplo 16. Sea X la v.a que denota la vida en horas de un

dispositivo electrónico. La función de densidad de probabilidad viene dada por
 20000
 x > 100
f (x ) =  x3
,
.
 0, en cualquier otro caso
¿Cuál será la vida esperada del dispositivo?
Solución.
∞
µ = E(X ) =
20000
∫x
100
x3
dx = 200 .
Se puede esperar que el dispositivo dure, en promedio, unas 200 horas.
En general, E(X) es la media ponderada de los posibles

valores de X, donde cada valor se pondera con su
probabilidad. Por tanto, E(X) es la media de la v.a X,
La esperanza en los juegos al azar: Si su valor es positivo

nos indica que el juego es favorable para el jugador y que
si juega un número grande de veces la ganancia que
obtenga será el valor de esa esperanza. Si su valor es
negativo lo que indica que el juego es desfavorable para el
jugador y el valor que tome será la pérdida que tendrá si
juega un gran número de veces. Si el valor de la
esperanza del juego es cero, el juego resultará empate.
Estadística 1 127
Consideremos una nueva v.a: g ( X ) , que depende de X .
Teorema 1. Sea X una v.a con distribución de probabilidad f ( x ) . La media o

valor esperado de la v.a g ( X ) es
µ g ( X ) = E [g ( X )] = ∑ g ( x ) f (x ) si X es discreta, y
∞
µ g ( X ) = E [g ( X )] = ∫ g (x ) f (x ) dx si X es continua
−∞
Ejemplo 17. El número de cajas de leche que se vende al inicio de

semana entre las 09:00 y las 10:00 horas se le puede asignar una v.a X , la cual
tiene la siguiente distribución de probabilidad
x 10 11 12 13 14
P( X = x ) 18 14 18 14 14
Si la cantidad de euros que se le paga al dependiente por las ventas de las cajas se
puede representar por la v.a g ( X ) = X + 2 ¿Se espera que el dependiente tenga
ganancias en el intervalo de ventas?
Solución.
De acuerdo al teorema anterior, el valor esperado de lo que puede percibir el

dependiente es
14
E [g ( X )] = E ( X + 2) = ∑ (x + 2) f (x )
x =10
= (12 ) + (13) + (14 ) + (15) + (16 ) = 14,25 €

1 1 1 1 1
8 4 8 4 4
Como el valor es positivo, se espera que el dependiente tenga ganancias de 14,25 €

de promedio.
Ejemplo 18. Si X es una v.a con función de densidad
e − x , 0< x<2
f (x ) = 
 0, en cualquier otro caso ,
Encuentre el valor esperado de g ( X ) = X − 1 .
Solución. Por el teorema anterior, podemos plantear:

2 2
E [g ( X )] = E ( X − 1) = ∫ ( x − 1) f (x ) dx = ∫ ( x − 1) e − x dx = −2e − 2
0 0
¿Cómo generalizamos el concepto a dos v.a con distribución de probabilidad

conjunta f ( x, y ) ?
Definición 14. Sean X y Y v.a con distribución de probabilidad

conjunta f ( x, y ) . La media o valor esperado de la v.a g ( X , Y ) viene dada por:
µ g ( X , Y ) = E [g ( X , Y )] = ∑∑ g ( x, y ) f ( x, y ) para v.a discretas

x y
∞ ∞
µ g ( X , Y ) = E [g ( X , Y )] = ∫ ∫ g (x, y ) f (x, y ) dx dy para v.a continuas
-∞ −∞
Y 
Ejemplo 19. Halle E   para la función de densidad
X
 x y e − x , 0 < x < ∞, 0 < y < 1

f ( x, y ) =  .
Solución. Por el teorema anterior, podemos plantear:

Estadística 1 129
1∞ 1
Y 
E [g ( X , Y )] = E   = ∫∫ x y e − x dx dy = ∫ y 2 dy = .
y 1
X 00 x 0
3
VARIANZA Y COVARIANZA
Definición 15. Sean X v.a con distribución de probabilidad f ( x ) con

media µ. La varianza de X es
[ 2
]
σ 2 = E ( X − µ ) = ∑ (x − µ ) f (x )
2
para X discreta
x
[ ] ∫ (x − µ )
∞
σ = E (X − µ ) = f ( x ) dx
2 2 2
para X continua
-∞
La raíz cuadrada da la desviación típica o estándar de X .
Forma alternativa para calcular la varianza:
Teorema 2. La varianza de una v.a X es
σ 2 = E (X 2 ) − µ 2 .
Demuéstrelo.
La varianza y la desviación típica miden la dispersión ponderada de los valores de x

sobre la media µ.
Interpretación física:
1. la media representa el centro de masa de los puntos xi
2. desviación típica representa el momento de inercia del sistema de puntos
Teorema 3. Sea X una v.a con distribución de probabilidad f ( x ) . La varianza de la v.a

g ( X ) es
{[
σ g2( X ) = E g ( X ) − µ g ( X ) ] }= ∑ [g ( X ) − µ ( ) ] f (x )
2
g X
2
para X discreta.
x
{[ ] }= ∫ [g ( X ) − µ ( ) ] f (x )
∞
σ = E g (X ) − µg (X )
2 2 2
g(X ) g X para X continua.
−∞
Definición 16. Sean X y Y v.a con distribución de probabilidad conjunta

f ( x, y ) . La covarianza de X y Y se expresa como:
σ XY = E [( X − µ X )(Y − µY )] = ∑∑ ( x − µ X ) ( y − µ y ) f ( x, y ) si X y Y son
x y
discretas.
∞ ∞
σ XY = E [( X − µ X )(Y − µY )] = ∫ ∫ ( x − µ ) ( y − µ ) f ( x, y )
−∞ −∞
X y X y Y son
continuas.
Teorema 4. La covarianza de dos v.a X y Y con medias µ X y µY , respectivamente,

está dada por
σ XY = E ( XY ) − µ X µY .
Demuéstrelo.
La covarianza entre dos v.a nos da información de la relación que hay entre ellas.
Sin embargo, la covarianza no indica nada sobre la fuerza de la relación ya que σ XY
depende de la escala (depende de las unidades que se miden para X y Y ).
La versión de la covarianza libre de la dificultad anterior es el coeficiente de

correlación:
Definición 17. Sean X y Y v.a con covarianza σ XY y desviaciones típicas
σX y σ Y , respectivamente. El coeficiente de correlación X y Y viene dado por:

Estadística 1 131
σ XY
ρ XY = .
σ X σY
Los ejemplos resueltos no se presentan en este apartado

porque su técnica resolutiva es similar al apartado
anterior. Igual consideración se hace con el apartado
siguiente.
MEDIAS Y VARIANZAS DE COMBINACIONES LINEALES DE VARIABLES

ALEATORIAS
Teorema 5. Sea X una v.a, a y b números reales. Entonces,

E (aX + b ) = a E ( X ) + b .
Compruébelo.
Teorema 6. Sean g ( X ) y h( X ) dos funciones de la v.a X . Entonces,
E [g ( X ) ± h( X )] = E [g ( X )] ± E [h( X )] .
Compruébelo.
Teorema 7. Sean g ( X ) y h(Y ) v.a de las v.a X y Y . Entonces,
E [g ( X , Y ) ± h( X , Y )] = E[g ( X , Y )] ± E[h( X , Y )] .
Compruébelo.
Teorema 8. Sea X y Y dos v.a independientes. Entonces, E ( X Y ) = E ( X ) E (Y ) .

Compruébelo.
Teorema 9. Si a y b son constantes, entonces σ aX

2
+b = a σ X = a σ .
2 2 2 2
Compruébelo.
Teorema 10. Si X e Y son v.a con distribución de probabilidad conjunta f ( x, y ) ,

entonces
σ aX
2
+ bY = a σ X + b σ Y + 2 abσ XY .
2 2 2 2
Compruébelo.
DESIGULADAD DE CHEYBYSHEV Y LA LEY DE LOS GRANDES NÚMEROS
Teorema 11. (Desigualdad de Cheybyshev). Sea X una v.a con media µ y

desviación típica σ. Entonces, ∀ k (positivo), la probabilidad de que un valor de
X ∈ [µ − kσ < X < µ + kσ ] es al menos 1 −

1
, i.e.
k2
P (µ − kσ < X < µ + kσ ) ≥ 1 −
1
k2
Demostración.
[ ] ∫ (x − µ )
∞
σ = E (X − µ ) =
2 2 2
f ( x ) dx
−∞
µ − kσ µ + kσ ∞
= ∫ (x − µ ) f (x ) dx + ∫ (x − µ ) f (x ) dx + ∫ (x − µ ) f (x ) dx
2 2 2
−∞ µ − kσ µ + kσ
µ − kσ ∞
≥ ∫ (x − µ ) f (x ) dx + µ ∫ σ(x − µ ) f (x ) dx ,
2 2
−∞ +k
Estadística 1 133
ya que la segunda de las tres integrales es no negativa.
Como x − µ ≥ kσ ; ∀ x ≥ µ + kσ o x ≤ µ − kσ , (x − µ )2 ≥ k 2σ 2 en las integrales
restantes. Por tanto,
µ − kσ ∞
σ2 ≥ ∫ k σ f (x ) dx + ∫ k σ f (x ) dx
2 2 2 2
−∞ µ σ +k
µ − kσ ∞
f ( x ) dx + ∫ f (x ) dx ≤ k
1
∫
−∞ µ σ
+k
2
.
De aquí
µ + kσ
P (µ − kσ < X < µ + kσ ) = f ( x ) dx ≥ 1 −
1
∫
µ σ −k
k 2
,
l.q.q.d.
Ejemplo 20. Suponga que X es una v.a de media µ = 75 y desviación

típica σ =5.
a. ¿Qué información se puede sacar de X para k=2?
b. Determinar un [a, b] sobre la media para que la probabilidad de que X

pertenezca al mismo sea al menos del 99%.
Solución.
a. µ - k σ = 75-2(5)=65 y µ + k σ =85
Por la desigualdad de Cheybyshev: P (65 ≤ X ≤ 85) ≥ 1- (1/2)2 = ¾ (es la

probabilidad de caer en un intervalo de dos desviaciones típicas).
b. Sea 1 - 1/k2 =0,99. Si resolvemos obtenemos que k=10. Así, [75-10(5),

75+10(5)]= [25, 125].
Media muestral y ley de los grandes números
Sea X v.a de media µ, entonces el resultado numérico de cada prueba es una v.a
con la misma media que X. El valor medio de todos los resultados n es también una
v.a, X n , que se llama media muestral, i.e.
X1 + X 2 + ⋅ ⋅ ⋅ + X n
Xn =
n
La ley de los grandes números dice que, a medida que aumenta n, la probabilidad
de que la X n se aproxime a µ está cerca de 1.
Ejemplo 21. Se tira un dado cinco veces y los resultados son:
x1=3, x2=4, x3=6, x4=1, x5=4
3 + 4 + 6 +1+ 4
El valor correspondiente de la media muestral: X 5 = = 3,6
5
En un dado no trucado la media µ=3,5. La ley de los grandes números dice que, a
medida que aumenta n, hay posibilidades de que X n se aproxime a 3,5.
Teorema 12 (ley de los grandes números). ∀α (número positivo), se cumple que

lím P(µ − α ≤ X n ≤ µ + α ) → 1 .
n →∞
Bibliografía

Mc Graw Hill, 2001.

Ed. Thomson. 2005.
R. E. Walpole, R. H. Myers y S. L. Myers, Probabilidad y estadística (para

ingenieros), sexta edición, Ed. Pearson/Prentice Hall, 1998.
Estadística 1 135
10. Estudiar las notas de clases del profesor.
11. Estudie los ejemplos resueltos que aparecen en el:
S.Lipschutz Cáp. 5 (sección de problemas resueltos)
J. L. Devore Cáp. 3 (3.1 al 3.3) y 4 (4.1 y 4.2)

12. Construya un mapa conceptual relativo a las v.a.
13. Elabore un sistema de apuntes personales que le permita

resolver problemas acerca del contenido de las v.a visto
hasta el momento.
14. Realice los ejercicios propuestos que aparecen más abajo.
15. Del Devore realice los ejercicios:
Distribuciones discretas y continuas
1. El número total de horas, medidas en unidades de 100 horas, que una familia
utiliza una aspiradora en un período de un año es una v.a continua X que tiene la
función de densidad
 x, 0 < x <1

f ( x ) = 2 − x, 1≤ x < 2 .
 0, en cualquier otro caso

Encuentre la probabilidad de que en un período de un año, una familia utilice su

aspiradora
a. menos de 120 horas;
b. entre 50 y 100 horas.
R/ a. 0.68 b. 0.375
2. Un embarque de siete televisores contiene dos unidades defectuosas. Un hotel
hace una compra al azar de tres de los televisores. Si x es el número de unidades
defectuosas que compra el hotel, encuentre la distribución de probabilidad de X .
Exprese los resultados con el histograma de probabilidad.
R/
x 0 1 2
f (x ) 2/7 4/7 1/7
3. La distribución de probabilidad de X , el número de imperfecciones por 10

metros de una tela sintética en rollos continuos de ancho uniforme, está dada por
x 0 1 2 3 4
f (x ) 0.41 0.37 0.16 0.05 0.01
Construya la distribución acumulada de X .
R/
 0, x<0
 0.41, 0 ≤ x < 1

0.78, 1 ≤ x < 2
F (X ) = 
0.94, 2 ≤ x < 3
0.99, 3 ≤ x < 4

 1, x≥4 .
4. Una v.a continua X que puede tomar valores entre x = 1 y x = 3 tiene una
función dada por f ( x ) = 1 2 . Encuentre:
a. P(2 < X < 2.5)
b. P( X ≤ 1.6)
Estadística 1 137
R/ a. 1/4 b. 0.3
5. Considere la función de densidad
k x , 0 < x <1
f (x ) = 
a. Evalúe k.
b. Encuentre F ( X ) y utilícela para evaluar P(0.3 < X < 0.6) .
3
R/ a. 3/2 b. F ( X ) = x 2 ; 0.3004
Distribuciones de probabilidad conjunta
6. De un costal de frutas que contiene tres naranjas, dos manzanas y tres plátanos
se selecciona una muestra aleatoria de cuatro frutas. Si X es el número de naranjas; y
Y , el de manzanas en la muestra, encuentre:
a. la distribución de probabilidad conjunta de X e Y.
b. P[( X , Y ) ∈ A] ; A es la región formada por {(x, y ) | x + y ≤ 2}.

R/
f ( x, y ) 0 1 2 3
0 3 70 9 70 3 70
y
1 2 70 18 70 18 70 2 70
2 3 70 9 70 3 70
b. 1/2
7. Sea X el tiempo de reacción, en segundos, a cierto estimulante e Y la temperatura

( F ) a la que cierta reacción comienza a suceder. Suponga que las v.a
o
X y Y tienen
densidad conjunta
4 xy, 0 < x < 1; 0 < y < 1

f ( x, y ) =  .
Encuentre:
 1 1 1
a. P 0 ≤ X ≤ y ≤Y ≤ ;
 2 4 2
b. P( X < Y ) .
R/ a. 3/64 b. 1/2 .
8. La cantidad de queroseno, en miles de litros, que hay en un tanque al inicio de

mañana de cualquier día es una cantidad aleatoria Y de la que una cantidad aleatoria
X se vende durante el día. Si el tanque no se reabastece durante el día ( x ≤ y ) y
suponiendo que la función de densidad conjunta de las variables es
2, 0 < x < 1, 0 < y < 1,

f ( x, y ) = 
0, en cualquier otro caso
a. Determine si X e Y son independientes.
1 1 3
b. Encuentre P < X < | Y =  .
4 2 4
R/ a. Dependiente b. 1/3.
9. Sea X el número de veces que falla una máquina de control numérico: 1, 2 ó 3

veces en un día dado. Considere que Y es el número de veces que se llama a un
Estadística 1 139
técnico para una emergencia. Su distribución de probabilidad conjunta viene dada

por
f ( x, y ) x 1 2 3
1 0.05 0.05 0.1

y
2 0.05 0.1 0.35
3 0 0.2 0.1
a. Evalúe la distribución marginal de X .
b. Evalúe la distribución marginal de Y .
c. Encuentre P (Y = 3 | X = 2 ) .
R/
a.
x 1 2 3
g (x ) 0.10 0.35 0.55
b.
y 1 2 3
h( y ) 0.20 0.50 0.30
c. 0.2.
10. Un dado balanceado se lanza dos veces. Sean X y Y el número de cuatro y de
cinco que se obtienen en los dos lanzamientos, respectivamente. Halle:
a. la distribución de probabilidad conjunta de X y Y.
b. P[( X , Y ) ∈ A] ; A es la región {(x, y ) | 2 x + y < 3}.

R/
f ( x, y ) 0 1 2
0 16 36 8 36 1 36
y
1 8 36 2 36
2 1 36
b. 11/12
11. Dada la función de densidad conjunta
6-x-y, 0 < x < 2, 2 < y < 4

f ( x, y ) =  .
Encuentre P (1 < Y < 3 | X = 2 ) .
R/ 3/4
12. Si X , Y y Z tiene la función de densidad de probabilidad conjunta
k x y 2 z , 0 < x < 1, 0 < y < 1, 0 < z < 2

f ( x, y , z ) =  .
a. encuentre k .
Estadística 1 141
 1 1 
b. encuentre P X < , Y > , 1 < Z < 2  .
 4 2 
R/ a. 3 b. 21/512
Esperanza matemática
13. La función de densidad de las mediciones codificadas del diámetro de paso de

los hilos de un encaje es
 4
 0 < x <1
(
f (x ) = π 1 + x 2
,
) .
Encuentre el valor esperado de X.
R/ ln 4 π .
14. Sea X una v.a con la siguiente distribución de probabilidad
x -3 6 9
f (x ) 1/6 1/2 1/3
Halle µ g ( X ) , donde g ( X ) = (2 X + 1) .
2
R/ 209.
15. Las v.a X y Y tienen la siguiente probabilidad de distribución conjunta

f ( x, y ) x : 2 4
1 0.10 0.15
y
3 0.20 0.30
5 0.10 0.15
a. Encuentre el valor esperado de g ( X , Y ) = XY 2
b. Encuentre µX y µY .
R/ a. 35.2 b. µ X = 3.20 ; c. µY = 3.00
Varianza y covarianza
16. Halle la desviación típica de la v.a g ( X ) = (2 X + 1) del ejercicio 14.

2
R/ 118.9
17. Encuentre la covarianza de las v.a X y Y del ejercicio 9.
R/ σ XY = 0.005
Medias y varianzas de combinaciones lineales de v.a
18. Una v.a X tiene una distribución de probabilidad:
x 0 1 2 3 4 5
f(x) 1/15 2/15 2/15 3/15 4/15 3/15
( ) [
Halle E ( X ) y E X 2 y luego evalúe E (2 X + 1) .
2
]
Estadística 1 143
R/ 209
[
19. Si una v.a X se define tal que E ( X − 1) = 10 y
2
] [ ]
E ( X − 2 ) = 6 . Halle µ y
2
σ2.
7 15
R/ µ= σ2 =
2 4
20. una v.a X tiene media µ = 12 , varianza σ 2 = 9 y una distribución de probabilidad

desconocida. Con el teorema de Cheybyshev, estime
a. P( X − 10 ≥ 3) ;
b. P( X − 10 < 3) ;
c. P(5 < X < 15) ;
d. el valor de la constante c tal que P( X − 10 ≥ c ) ≤ 0.04 .
R/ a. A lo más 4/9 c. Al menos 21/25
b. Al menos 5/9 d. 10
21. Considere que las v.a X y Y representan el número que ocurre cuando se lanza un
dado rojo y uno verde, respectivamente. Encuentre:
a. E(X + Y ) ;
b. E(X − Y );
c. E(X Y ).
R/ a. 7; b. 0; c. 12.25.
22. Si la función de densidad conjunta de X y Y está dada por

2
 ( x + 2 y ), 0 < x < 1, 1 < y < 2
f ( x, y ) =  7 .
g(X , Y ) =
X
Encuentre el valor esperado de + X 2Y .
Y3
R/ 1.
8. DISTRIBUCIONES DE PROBABILIDAD DISCRETA
La distribución de probabilidad discreta describe el comportamiento de una v.a sin

importar la forma en que se presente la misma, i.e. tabular, histograma o fórmula.
En la práctica ocurre que diferentes experimentos estadísticos tienen el mismo
comportamiento. De ser así, las v.a discretas asociadas a estos experimentos
tendrían la misma función de distribución de probabilidad y por ende la misma
fórmula. Por tanto, sería consecuente estudiarlas y obtener sus propiedades
generales. Este escenario permite la disposición de un conjunto de funciones de
distribución de probabilidad que podríamos utilizar sin necesidad de aplicar los
procedimientos que hemos visto antes –identificamos la situación del experimento
estadístico y usamos la función de distribución con propiedades ya conocidas.
Estadística 1 145
DISTRIBUCIÓN UNIFORME DISCRETA
Proposición 1. Si la v.a X toma los valores x1 , x2 , ..., xk , con probabilidades

idénticas, entonces la distribución uniforme discreta está dada por
f ( x; k ) =
1
, x = x1 , x2 , ..., xk .
k
Teorema 1. La media y la varianza de la distribución uniforme discreta f ( x; k ) son

respectivamente
k k
∑x ∑ (x − µ)
2
i i
µ= i =1
y σ2 = i =1
.
k k
Demuéstrelo.
Ejemplo 1. En el lanzamiento de un dado no trucado, determine:
a. la función de distribución de probabilidad que caracteriza la ocurrencia de

una cara cualquiera.
b. La media y la varianza.
Solución. Cada elemento del espacio muestral S = {1, 2, 3, 4, 5, 6} tiene una

probabilidad de ocurrencia de 1/6. Por tanto, se puede emplear la distribución
uniforme discreta.
a.
f ( x;6 ) = ,
1
x = 1, 2, 3, 4, 5, 6 .
6
b.
1+ 2 + 3 + 4 + 5 + 6
µ= = 3 .5
6
σ2 =
(1 − 3.5)2 + (2 − 3.5)2 + (3 − 3.5)2 + (4 − 3.5)2 + (5 − 3.5)2 + (6 − 3.5)2 =
35
.
6 12
EXPERIMENTOS DE BERNOULLI. DISTRIBUCIÓN BINOMIAL
Definición 1. Los resultados sucesivos e independientes de una experiencia

dicotómica se llaman experimentos o pruebas de Bernoulli.
Propiedades del proceso de Bernoulli:
Experimento con n pruebas que se repiten.
Cada resultado de la prueba se puede clasificar como éxito o fracaso.

La probabilidad del éxito en un experimento de Bernoulli se denota por p y
permanece constante en cada prueba.
Las pruebas que se repiten son independientes.
Proposición 2. Un experimento de Bernoulli puede tener como resultado un éxito

con probabilidad p y un fracaso con probabilidad q = 1 − p . Entonces la distribución
de probabilidad de la v.a binomial X , el número de éxitos de n pruebas

independientes es
n
b( x; n, p ) =   p x q n − x x = 0, 1, 2, ... , n .
 x
Teorema 2. La probabilidad de que salga exactamente x éxitos en un

experimento binomial b( x; n, p ) viene dada por:
n
P ( x ) = P( x éxitos ) =   p x q n − x
 x
Observaciones:
1. La probabilidad de que salga uno o más éxitos es 1 − q n .
2. La probabilidad de obtener al menos x éxitos viene dado por:

P( x ) + P( x + 1) + P(x + 2) + ...P(n ) .
Estadística 1 147
Ejemplo 2. Se tira una moneda 6 veces. Hallar:
a. La probabilidad de que salgan exactamente dos caras.
b. La probabilidad de que al menos salgan cuatro caras.
c. La probabilidad de que no salga cara.
d. La probabilidad de que salgan una o más caras.
Experimento binomial. Sea cara: éxito. n = 6 y p = q = 1/2

2 4
 6  1   1 
P(2) =      =
15
a. ≈ 0,23
 2  2   2  64
4 2 5 6
 6  1   1   6  1   1   6  1  11
b. P(4) + P(5) + P(6) =      +      +    = ≈ 0.34
 4  2   2   5  2   2   6  2  34
6
1 1
c. q6 =   =
2 64
1 63
d. 1 − qn = 1 − = ≈ 0.98
64 64
Distribución binomial en forma tabular
x 0 1 2 … n
P(x) qn  n  n −1  n  n−2 2 … pn
 q p  q p
1  2
Teorema 3. Sea b( x; n, p ) una distribución binomial22. Entonces, la:
22
Son sus propiedades
Media o número esperados de éxitos es µ = np .
Varianza es σ 2 = npq .
Desviación típica es σ = npq .
Observaciones
1. La distribución de Bernoulli suele usarse en

modelos físicos 0-1, i.e, fracaso- éxito, fallo-
funcionamiento.
2. La distribución Binomial suele usarse en control de

la calidad en diagramas de control por atributos y
muestreo por reemplazo. Es el modelo
probabilístico conveniente para muestrear una
población infinitamente grande, en el que p
representa la fracción de éxitos o fracasos en la
población.
DISTRIBUCIÓN MULTINOMIAL
Generalización de la distribución binomial: el experimento binomial se convierte en

multinomial si cada prueba tiene más de dos resultados posibles.
Proposición 3. Si una prueba puede conducir a los resultados E1 , E 2 , ..., E k con
probabilidades p1 , p 2 , ..., p k , entonces la distribución de probabilidad de las v.a
X 1 , X 2 , ..., X k , que representan el número de ocurrencias para E1 , E 2 , ..., E k en n

pruebas independientes es
 n  x1 x2
f ( x1 , x2 , ..., xk ; p1 , p2 , ..., pk , n ) = 
n!
 p1 p2 ⋅ ⋅ ⋅ pkxk = p1x1 p2x2 ⋅ ⋅ ⋅ pkxk
 x1 , x2 ,⋅ ⋅ ⋅xk  x1! x2 !⋅ ⋅ ⋅xk !
Estadística 1 149
k k
donde ∑ xi = n
i =1
y ∑p
i =1
i = 1.
Ejemplo 3. Se tira un dado ocho veces. Hallar la probabilidad de

obtener 5 y 6 exactamente dos veces y los otros números exactamente una vez.
Solución.
2 2
 1 1 1 1 1 1  8!  1   1   1  1  1  1  35
p = f  2, 2, 1, 1, 1, 1; , , , , , , 8  =          = ≈ 0,006
 6 6 6 6 6 6  2!⋅2!⋅1!⋅1!⋅1!⋅1!  6   6   6  6  6  6  5832
DISTRIBUCIÓN HIPERGEOMÉTRICA
Si bien la distribución binomial es el modelo de la probabilidad aproximado para el

muestreo con reemplazo a partir de una población dicótoma finita, la distribución
hipergeométrica es el modelo de probabilidad exacto para el número de éxitos en
la muestra.
En los tipos de aplicaciones, la distribución hipergeométrica es muy similar a la

distribución binomial. Estamos interesados en el cálculo de probabilidades para
el número de observaciones que caen en una categoría. En el caso de la binomial se
requiere independencia entre las pruebas –el muestreo se debe hacer con
reemplazo-. La distribución hipergeométrica no requiere independencia -el
muestreo que se hace sin reemplazo.
Las aplicaciones de la distribución hipergeométrica se encuentran en muestreo de

aceptación, pruebas electrónicas y garantía de calidad. En estos casos se destruye
el artículo de prueba; por eso se utiliza el muestreo sin reemplazo.
Condiciones del experimento hipergeométrico:
1. La población por muestrear tiene N individuos (población finita).

2. Cada individuo se caracteriza como un éxito ( S ) o fracaso ( F ), y hay M
éxitos en la población.
3. Se elige una muestra de n individuos sin reemplazo, de manera que cada

subconjunto de tamaño n tenga las mismas probabilidades de ser elegido.
La v.a. X = número de éxitos en la muestra. La distribución de probabilidad

P( X = x ) = h(x; n, M , N ) .
Proposición 4. Si X es el número de éxitos ( S ) en una muestra completamente

aleatoria de tamaño n extraídos de una población que consiste de M éxitos y ( N − M )
fracasos, entonces la distribución de probabilidad de X , denominada distribución
hipergeométrica, está dada por
 M  N − M 
  
 x  n − x 
P ( X = x ) = h(x; n, M , N ) = ; x = 0, 1, 2, ... , n , (1)
N
 
n
para un entero x que satisface máx(0, n − N + M ) ≤ x ≤ mín(n, M ) .
Teorema 4. Sea X la v.a. hipergeométrica con función de distribución h , entonces, la

media y la varianza vienen dadas por:
M  N −n M  M
µ = n⋅ y σ2 =  ⋅ n ⋅ ⋅ 1 −  .
N  N −1  N  N
Como M N es la proporción de éxitos en la población, entonces:
µ = n⋅ p ,
(2)
 N −n
σ =  ⋅ n ⋅ p ⋅ (1 − p ) .
2
 N −1 
Estadística 1 151
En la expresión anterior se observa que las medias de las v.a. binomial e

hipergeométrica coinciden; la varianza, no. A (N − n ) (N − 1) se le denomina factor de
corrección de población finita.
h( x; n, M , N ) y B(n, p ) son aproximadamente iguales siempre que p no esté demasiado

cerca de 0 ó 1. Dicho de otra forma, n << N .
Ejemplo 4. Varias cajas de 40 artículos cada una se consideran

aceptables si no contienen más de tres defectuosos. Para muestrear la caja se toma
cinco artículos al azar y se rechaza la caja si se encuentra un artículo defectuoso
a. ¿Cuál es la probabilidad de que se encuentre exactamente un

defectuoso en la muestra si hay tres defectuosos en toda la caja?
b. Encuentre la media y la varianza de la v.a.
c. Emplee el teorema de Chebyshev para interpretar el

intervalo µ ± 2σ .
Solución.
a. La distribución hipergeométrica con n = 5 , N = 40 , M = 3 y x = 1 permite

encontrar la probabilidad de un objeto defectuoso:
 3  40 − 3 
  
 1  5 − 1 
P ( X = 1) = h(1; 5, 3, 40 ) = = 0.3011
 40 
 
5
b. Según el teorema 4, tenemos:
5⋅3 40 − 5 3  3 
µ= = 0.375 y σ2 = 5 1 −  = 0.3113 .
40 39 40  40 
c. σ = 0.558 . Luego µ ± 2σ = 0.375 ± 2 ⋅ 0.3113 ⇒ [− 0.741, 1.491] . El

teorema de Chebyshev establece que el número de artículos defectuosos que se
obtienen al seleccionar cinco de una caja de 40 artículos de los que tres son
defectuosos tiene una probabilidad al menos de 3/4 de caer en el intervalo citado.
DISTRIBUCIÓN BINOMIAL NEGATIVA Y GEOMÉTRICA
La v.a. binomial X es el número de éxitos cuando se fija el número de ensayos, en

tanto que la distribución binomial negativa surge de fijar el número deseado de
éxitos y permitir que sea aleatorio el número de ensayos.
Condiciones del experimento binomial negativo:
1. Secuencia de ensayos independientes.
2. Cada ensayo produce ya sea un éxito ( S ) o un fracaso ( F ).
3. La probabilidad de éxito es constante de un ensayo a otro; i.e., .,
P(S en el ensayo i ) = p ; i = 1, 2, 3,...
4. El experimento continúa hasta que se observa un total de r éxitos; r es un

entero positivo especificado.
La v.a. X = número de fracasos que preceden al r -ésimo éxito. X es la v.a.

binomial negativa porque en contraste con la v.a. binomial, el número de
éxitos es fijo y el número de ensayos es aleatorio.
Proposición 5. Si X es la v.a. binomial negativa con r = número de éxitos (S) y

p = P(S ) , entonces, la función de distribución es
 x − 1 r
nb( x; r , p ) =   p (1 − p ) ;
x−r
x = k , k + 1, k + 2,... (3)
 r − 1
Teorema 5. Sea X la v.a. binomial negativa con función de distribución nb , entonces,

la media y la varianza vienen dadas por:
r (1 − p ) r (1 − p )
µ= y σ2 =
p p2
Estadística 1 153
Ejemplo 5. Se lanzan tres monedas. Halle:
a. la probabilidad de obtener sólo caras o sólo cruces por segunda vez en el

quinto lanzamiento.
b. la media y la varianza de la v.a.
Solución.
a. La distribución binomial negativa con x = 5 , r = 2 y p = 1 4 permite encontrar la

probabilidad de obtener sólo caras o sólo cruces por segunda vez en el quinto lanzamiento:
1   5 + 2 − 1 1   1 
2 3
 27
nb 5; 2,  =    1 −  = .
 4   2 − 1  4   4  256
 1  1
2 1 −  2 1 − 
µ= 
4
σ 2 =  2  = 24
4
b. =6 y
1 1
4  
4
Si en la distribución binomial negativa r = 1 , tenemos la distribución de probabilidad del

número de pruebas que se requieren para un solo éxito.
Con r = 1 , los términos sucesivos de la distribución binomial negativa forman una

progresión geométrica y por eso a esta nueva distribución se le llama distribución
geométrica y se denota por g ( x; p ) .
Proposición 6. Si la repetición de pruebas independientes puede tener como

resultado un éxito con probabilidad p y un fracaso con probabilidad q = 1 − p ,
entonces la distribución de probabilidad de la v.a X , el número de la prueba en el que

ocurre el primer éxito, es
g ( x; p ) = pq x −1 , x = 1,2,3,...
Teorema 6. Sea X la v.a. geométrica con función de distribución g ( x; p ) , entonces, la
media y la varianza vienen dadas por:
µ=
1
y σ2 =
(1 − p ) .
p p2
DISTRIBUCIÓN DE POISSON
Los experimentos que proporcionan valores numéricos de una v.a X , el número

que ocurre en un intervalo o región dada, se denominan experimentos de
Poisson.
Proceso de Poisson. Para tipo de eventos particulares con el tiempo. Ejemplo, los
relacionados con los impulsos. También se emplean en los fenómenos por unidad
de área, volumen, de tiempo, etc.
Propiedades de un proceso de Poisson
1. El número de resultados que ocurre en diferentes intervalos o regiones

espaciales son independientes entre si –proceso sin memoria.
2. La probabilidad de que ocurra un solo resultado durante un intervalo muy

corto o una pequeña región espacial es proporcional a la longitud del
intervalo o al tamaño de la región y es independiente de los resultados que
ocurren fuera de estos.
3. La probabilidad de ocurrencia de más de un resultado en un intervalo o

región pequeña es insignificante.
El número de resultados que ocurren durante un experimento de Poisson se llama

v.a de Poisson y su distribución de probabilidad se denomina distribución de
Poisson.
La v.a X tiene una distribución de Poisson con parámetro λ > 0 si la fmp de X

viene dada por
Estadística 1 155
p (x; λt ) = f ( x; λt ) =
(λt )x e − λt
, x = 0,1,2,...
x!
donde λ es el número promedio de resultados por unidad de tiempo o región y t es el

tiempo o región específica de interés.
Teorema 7. Sea p( x; λt ) una distribución de Poisson23. Entonces, la:
Media o número esperados es µ = λt .
Varianza es σ 2 = λt .
Desviación típica es σ = λt .
Compruébelo.
No hay experimentos sencillos en los que se base la distribución de Poisson.
Teorema 8. Sea X una v.a binomial con fmp b( x; n, p ) . Si n → ∞ , p → 0 y

np → λ > 0 . Entonces, b( x; n, p ) → p( x; λt ) .
Demostración.
 n
b( x; n, p ) =   p x q n − x =
n!
p xqn− x
 x x!(n − x )!
n(n − 1) ⋅ ⋅ ⋅ (n − x + 1) x n(n − 1) ⋅ ⋅ ⋅ (n − x + 1)  µ   µ 
x n− x
p (1 − p ) =
n− x
=   1 − 
x! x! n  n
−x
 1   x −1 µ  µ   µ 
x n
= 11 −  ⋅ ⋅ ⋅ 1 −  1 −  1 −  .
 n  n  x!  n  n
Si n → ∞ mientras x y µ permanecen constantes, aplicamos límite a ambos lados y

obtenemos:
23
Son sus propiedades
−n µ −µ
µx  µ
n
µx  1   µx  
lím b( x; n, p ) = lím 1 −  = lím  1 +  = e − µ = p x; λ
{t  .
n →∞ x! n → ∞ n x! n → ∞  (− n ) µ   x!  µ
 
Por tanto, b( x; n, p ) → p( x; λt ) ;
l.q.q.d
Cuando en la distribución de Bernoulli la probabilidad de éxito es muy pequeña con

respecto a np, y nq muy pequeño con respecto a n, el cálculo resulta muy laborioso
y suele usarse la distribución de Poisson que se aproxima a la Binomial.
Ejemplo 6. Las 220 erratas de un libro de 200 páginas están

distribuidas aleatoriamente por el mismo. Hallar la probabilidad de que una página
cualquiera contenga:
a. Ninguna errata
b. Una errata
c. Dos erratas
d. 2 o más erratas
Solución.
Éxitos: número de erratas en experimentos de Bernoulli: : n = 220 .
1
Probabilidad de que salga una errata en una pág. Dada: p= .
200
Como p es pequeña, usamos la aproximación de Poisson a la distribución binomial con

λt = np = 1.1 :
P ( X = x ) = p ( x; λt ) =
(λt )x e−λt
x!
a. P (0 ) = p(0;1.1) =
(1.1)0 e−1.1 = 0.333
0!
Estadística 1 157
b. P (1) = p (1;1.1) =
(1.1) e −1.1
1
= 0.366
1!
c. P (2 ) = p (2;1.1) =
(1.1) e −1.1
2
= 0.201
2!
d. P( X ≥ 2) = 1 − P(0) − P(1) = 1 − 0.333 − 0.366 = 0.301
Bibliografía

Mc Graw Hill, 2001.

Ed. Thomson. 2005.

16. Estudiar las notas de clases del profesor.
17. Estudie los ejemplos resueltos que aparecen en el:
S.Lipschutz Cáp. 5 (sección de problemas resueltos)

J. L. Devore Cáp. 3 (3.1 al 3.3) y 4 (4.1 y 4.2)
18. Construya un mapa conceptual relativo a las v.a.
19. Elabore un sistema de apuntes personales que le permita resolver problemas

acerca del contenido de las v.a visto hasta el momento.
20. Realice los ejercicios propuestos que aparecen más abajo.
21. Del Devore realice los ejercicios:
1. Se lanza un dado de forma aleatoria.

a. Elabora el modelo de distribución para la variable aleatoria X ‘número
obtenido’
b. ¿Cuál es la probabilidad de obtener un número mayor de 4?
c. Calcula el valor esperado y la varianza de esta variable aleatoria.
d. ¿Qué probabilidad hay de que se obtenga un número entre 2 y 4, ambos

inclusive?
R/
a.
X ≡ Uniforme de seis puntos (especifique la v.a, la fmp y la función de distribución

acumulada)
b. 1/2
21 35
c. µX = , σ X2 =
6 12
d. 1/2
2. Un cierto lote de 26 componentes mecánicos contiene seis defectuosos. Se

extrae un elemento del lote al azar.
a. Elabora el modelo de distribución para la variable aleatoria X ‘elemento

defectuoso’
b. ¿Cuál es la probabilidad de que el componente extraído del lote sea no

defectuoso?
c. Calcula la esperanza y la desviación típica de esta variable aleatoria
R/
a. Bernouilli (especifique la v.a, la fmp y la función de distribución acumulada)
10
b.
13
3 30
c. µX = , σX =
13 13
Estadística 1 159
3. Un individuo responde a cuatro preguntas verdadero falso al azar.
a. Elabora el modelo de distribución para la variable aleatoria X ‘número de

aciertos’
b. ¿Cuál es la probabilidad de que acierte al menos 3 preguntas?
d. ¿Cuál es la probabilidad de que como máximo se acierten dos preguntas.
e. ¿Qué probabilidad hay de que acierte entre 1 y 3 preguntas, ambas

inclusive?
f. ¿Cuál es la probabilidad de que acierte dos preguntas o más?
R/
a. Binomial (especifique la v.a, la fmp y la función de distribución acumulada)
b. probabilidad de que acierte al menos 3 preguntas
0.3125
c. µ X = 2 , σ X2 = 1
d. 0.6875
e. 0.875
f. 0.6875
4.
1) A un comercio llegan en promedio 13 clientes por hora con una distribución

de Poisson. El dueño debe salir durante 17 minutos a hacer un recado.

de clientes perdidos’
b. Calcula el número esperado de clientes perdidos y la desviación típica

de esta variable aleatoria.
c. ¿Cuál es la probabilidad de que no pierda ningún cliente?

d. Encuentra la probabilidad de que pierda 3 clientes
e. Calcula la probabilidad de que pierda 3 o más clientes.
2) Un individuo responde a 60 preguntas con 11 opciones en las que sólo una

es verdadera al azar.

de aciertos’
b. Calcula la probabilidad de que acierte al menos 3 preguntas
R/
1)
a. Poisson (especifique la v.a, la fmp y la función de distribución acumulada)
b. µ X = 3.68 , σ X = 1.92
c. 0.025
d. 0.21
e. 0.714
2)
a. Binomial (especifique la v.a, la fmp y la función de distribución acumulada)

pero se puede usar Poisson.
b. 0.9
c. µ X = 5.45 , σ X = 2.23 (Bernouilli) σ X = 2.34 (Poisson)
5. Se lanza al aire una moneda trucada 8 veces, de tal manera que la probabilidad
de que aparezca cara es de 2/3, mientras que la probabilidad de que aparezca cruz
es de 1/3.

de lanzamiento en el que aparece la primera cruz’
Estadística 1 161
b. Calcula la media y la varianza de esta variable aleatoria
c. ¿Cuál es la probabilidad de que la primera cruz aparezca entre el

tercer y sexto intento, ambos inclusive?
d. Determine la probabilidad de que en el último lanzamiento aparezca

una cruz, y la probabilidad de que no aparezca en ninguno de los
ocho intentos.
e. Determina la probabilidad de que en el tercer lanzamiento aparezca

la primera cara.
R/
a. Geométrica (especifique la v.a, la fmp y la función de distribución

acumulada)
b. µX = 3 , σ X2 = 6
c. 0.36
d. La probabilidad de que la primera cruz salga en el octavo intento será: 0.02.
La probabilidad de que la primera cruz no aparezca en las primeras ocho tiradas

será: 0.04
e. probabilidad de que en el tercer lanzamiento aparezca la primera

cara
En este caso la variable aleatoria ha cambiado ya que consideramos el como éxito

sacar cara, por tanto la variable aleatoria será el número de repeticiones del
experimento necesarias para que salga la primera y única cara. Sea Y la nueva
variable aleatoria.
p = probabilidad de que aparezca una cara = p( éxito) = 2/3
q = probabilidad de que aparezca un cruz = p(fracaso) = 1/3
Y ≡ G ( 2 / 3)
Soporte DY = {1, 2...}
pY ( y ) = P (Y = y ) = (1/ 3) ( 2 / 3) , y ∈ DY = {1, 2...}

y −1
Función de masa
0 si y < 1
Función de distribución FY ( y ) = P (Y ≤ y ) = 
1 − (1/ 3 ) si y ≥ 1
y
Entonces la probabilidad buscada sería;
3 −1
1  2
P (Y = 3) = pY (3) =     = 0.07
3  3
6. Disponemos de una moneda trucada con probabilidad de cara igual a p=0.25. La

lanzamos hasta que obtenemos 2 caras.
a. Elabora el modelo de distribución para la variable aleatoria X ‘número de

lanzamiento fallidos hasta obtener dos caras’
b. Calcula el número de fallos esperados hasta obtener el segundo éxito y la

desviación típica de la distribución de la variable aleatoria.
c. Describe la distribución del número de lanzamientos necesarios hasta

obtener dos caras.
d. Calcula el número esperado de lanzamientos hasta obtener el segundo éxito

y la desviación típica de la distribución de la variable aleatoria
e. Calcula la probabilidad de obtener dos caras antes del cuarto intento
f. Calcula la probabilidad de obtener dos caras entre el tercer y sexto intento.
R/
a. binomial negativa (especifique la v.a, la fmp y la función de distribución

acumulada)
b. µX = 6 , σX = 2 6
c.
En este caso la variable aleatoria será una Pascal, que en el mismo experimento que
la anterior lo que mide son el número de lanzamientos hasta el segundo éxito.
 i

Y : Ω = {0,1} → {0,1, 2,K , 60} ⊆ , ω → Y (ω = (ω1 , ω2 ,K) ) = min i,
∞

∑ω
k =i
k = 2

Estadística 1 163
Soporte DY = {2,3, 4...}
 y − 1  2 y −2
Función de masa pY ( y ) = P (Y = y ) =   p q , y ∈ DX = {2,3, 4,...}
 y − 2
y
 k − 1  2 y−2
Función de distribución FY ( y ) = P (Y ≤ y ) = ∑  p q ,y≥2
k =0  k − 2 
d. Calcula el número esperado de lanzamientos hasta obtener el

segundo éxito y la desviación típica de la distribución de la variable
aleatoria
El número esperado de lanzamientos no es más que la media de la distribución de esta
variable aleatoria. Como sabemos que si X ≡ BN ( n, p ) entonces
Y = X + n ≡ Pascal ( n, p ) , tenemos que:
n·q 2·3 / 4
µY = E [Y ] = E [ X + n ] = E [ X ] + n = +n = + 2 = 6 + 2 = 8 será el número
p 1/ 4
esperado de lanzamientos que tendremos que realizar hasta obtener dos caras.
Para calcular la desviación típica, primero calculamos la varianza de Y a partir de la ya

calculada utilizando las propiedades de la varianza y luego calculamos su raíz:
n·q 2·3 / 4/
σ Y2 = V [Y ] = V [ X + n ] = V [ X ] = = = 24 ⇒ σ Y = 2 6
p 2 1/ 4 2/
e. Calcula la probabilidad de obtener dos caras antes del cuarto

intento
Para calcular esta probabilidad podemos utilizar cualquiera de las dos variables
aleatorias.
Considerando X , hemos de calcular la probabilidad de que el número de fracasos sea

≤ 2 , es decir:
 2 + 0 − 1 2 0  2 + 1 − 1  2 1  2 + 2 − 1 2 2
P ( X ≤ 2 ) = p X ( 0 ) + p X (1) + p X ( 2 ) =   p q +  p q + p q =
 0   1   2 
2 2 2 2
1 1   2 1   3   3 1   3 
=    +      +      =
0 4   1 4   4   2 4   4 
1 3 9 16 + 24 + 27 67
= + 2· + 3 = = 0.26
16 64 256 256 256
Considerando Y , hemos de calcular la probabilidad de que el número de intentos sea ≤ 4 ,
es decir:
 2 − 1  2 2 − 2  3 − 1  2 3− 2  4 − 1  2 4 − 2
P ( Y ≤ 4 ) = pY ( 2 ) + pY ( 3) + pY ( 4 ) =   p q + 3 − 2 p q +  4 − 2 p q =
 2 − 2    
2 2 2 2
1 1   2 1   3   3 1   3 
=    +      +      =
0 4  1 4   4  2 4   4 
1 3 9 16 + 24 + 27 67
= + 2· + 3 = = 0.26
16 64 256 256 256
f. Calcula la probabilidad de obtener dos caras entre el tercer y sexto

intento.
Para calcular esta probabilidad podemos utilizar cualquiera de las dos variables
aleatorias.
Considerando X , hemos de calcular la probabilidad de que el número de fracasos

esté entre 1 y 4, es decir:
P (1 ≤ X ≤ 4 ) = p X (1) + p X ( 2 ) + p X ( 3) + p X ( 4 ) =
 2 + 1 − 1 2 1  2 + 2 − 1 2 2  2 + 3 − 1 2 3  2 + 4 − 1  2 4
=  p q +  p q +  p q + p q +=
 1   2   3   4 
2 2 2 2 3 2 4
 2 1   3   3 1   3   4 1   3  5 1   3 
=      +      +      +      =
 1 4   4   2 4   4   3 4   4   4 4   4 
3 32 33 34 6·43 + 27·42 + 27·42 + 5·81 1653
= 2· 3 + 3 4 + 4· 5 + 5· 6 = = 0.40
4 4 4 4 46 4096
Estadística 1 165
Considerando Y , hemos de calcular la probabilidad de que el número de intentos esté

entre 3 y 6, es decir:
P ( 3 ≤ Y ≤ 6 ) = pY ( 3) + pY ( 4 ) + pY ( 5 ) + pY ( 6 ) =
 3 − 1  2 3− 2  4 − 1  2 4 − 2  5 − 1  2 5 − 2  6 − 1  2 6 − 2
=  p q +  4 − 2 p q + 5 − 2 p q +  6 − 2 p q =
3− 2      
2 2 2 2 3 2 4
 2 1   3   3 1   3   4 1   3   5 1   3 
=      +      +      +      =
1 4   4   2 4   4   3 4   4   4 4   4 
3 32 33 34 6·43 + 27·4 2 + 27·4 2 + 5·81 1653
= 2· 3 + 3 4 + 4· 5 + 5· 6 = = 0.40
4 4 4 4 46 4096
9. DISTRIBUCIONES DE PROBABILIDAD CONTINUA
DISTRIBUCIÓN UNIFORME CONTINUA
Definición 1. La función de densidad de la v.a uniforme continua X en el intervalo

[A, B] es
 1
 A≤ x≤ B
f ( x; A, B ) =  B − A
,
.
Teorema 1. La media y la varianza de la distribución uniforme son
µ=
A+ B
y σ 2
=
( B − A)
2
.
2 12
Demuéstrelo.
DISTRIBUCIÓN NORMAL
La distribución normal es la más importante en toda la probabilidad y la estadística.
Definición 2. La v.a X tiene una distribución normal, si su función de

densidad viene dada por:
1  x−µ 
2
−  
f ( x; µ , σ ) =
1 2 σ 
e , −∞ < x < ∞ .
2π σ
La distribución normal se representa por: ( )

N µ ,σ 2 o N x; µ , σ 2 ( ) o N ( x; µ , σ )
Estadística 1 167
Teorema 2. Sea N (µ, σ2) una distribución normal24. Entonces, la:
Media o número esperados de éxitos es µ .
Varianza es σ 2 .
Desviación típica es σ .
Distribución normal tipificada
X −µ
X sea cualquier N (µ, σ2). La v.a tipificada es Z = .
σ
Z es una distribución normal, con N (0, 1) tenemos:
z2
1 −2
φ (z ) = e
2π
Evaluación de las probabilidades de la normal
Sabemos que:
b
P(a ≤ X ≤ b ) = ∫ f ( x )dx,
a
Si X es una distribución normal podemos calcular el valor de la integral sin realizar

el cálculo.
Evaluación de las probabilidades tipificadas
Se usan tablas25 (Apéndice del Lipschutz)
Ejemplo 1. Hallar:
a. φ (1,26 ) . Valor 0,3962
b. φ (0,34) . Valor 0,1331
24
Son sus propiedades
25
El procedimiento depende del formato de la tabla. En el Devore se hace algo diferente pero la esencia de
búsqueda obedece al conocimiento de propiedades.
c. φ (4,2) . ∀z ≥ 3,99 el valor es 0,5000
Con tabla y propiedades de simetría de la curva se puede hallar P ( z1 ≤ Z ≤ z2 )

como sigue:
Φ ( z2 ) + Φ ( z1 ) es z1 ≤ 0 ≤ z2

P( z1 ≤ Z ≤ z2 ) =  Φ ( z2 ) − Φ ( z1 ) es 0 ≤ z1 ≤ z2
Φ (z ) − Φ ( z ) es z ≤ z ≤ 0
 1 2 1 2
como el área bajo la curva es 1, es posible hallar:
 0,5000 + Φ( z1 ) es 0 ≤ z1
P(Z ≤ z1 ) = 
0,5000 − Φ( z1 ) es z1 ≤ 0
 0,5000 − Φ( z1 ) es 0 ≤ z1
P(Z ≥ z1 ) = 
0,5000 + Φ ( z1 ) es z1 ≤ 0
Ejemplo 2. Hallar:
a. P(− 0,5 ≤ Z ≤ 1,1)

Estadística 1 169
b. P(0,2 ≤ Z ≤ 1,4)
c. P(− 1,5 ≤ Z ≤ −0,7 )
d. P(Z ≥ 1,6)
a. P(− 0,5 ≤ Z ≤ 1,1) = Φ(1,1) + Φ(0,5) = 0,3643 + 0,1915 = 0,5558
b. P(0,2 ≤ Z ≤ 1,4) = Φ(1,4) − Φ(0,2) = 0,4192 − 0,0793 = 0,3399
c. P(− 1,5 ≤ Z ≤ −0,7 ) = Φ(1,5) − Φ(0,7 ) = 0,4332 − 0,2580 = 0,1752
d. P(Z ≥ 1,6) = 0,5 − Φ(1,6) = 0,5000 − 0,4452 = 0,0548
Evaluación de las probabilidades normales arbitrarias
Para evaluar P (a ≤ X ≤ b ) cambiamos a y b a unidades tipificadas:
a−µ b−µ
z1 = y z2 = . Entonces, P(a ≤ X ≤ b ) = P( z1 ≤ Z ≤ z2 ) que es la curva
σ σ
normal tipificada.
Ejemplo 3. Sea N (70, 4). Hallar:
a. P(68 ≤ X ≤ 74)
b. P(72 ≤ X ≤ 75)
c. P(63 ≤ X ≤ 68)
d. P( X ≥ 73)
68 − 70 74 − 70
z1 = = −1 , z 2 = =2
2 2
P(68 ≤ X ≤ 74) = P(− 1 ≤ Z ≤ 2) = Φ(2) + Φ(1) = 0,4772 + 0,3413 = 0,8184
y así procedemos con todos.
Aproximación normal a la distribución binomial
Cuando n aumenta la distribución binomial

resulta más difícil de calcular. Se puede
hacer una aproximación al caso normal.
Propiedad básica del histograma de

probabilidad de la distribución
binomial:
Para np ≥ 5 y nq ≥ 5 , el histograma de
B(n, p) es casi simétrico respecto a µ = np
sobre el [µ − 3σ , µ + 3σ ] , donde
σ = npq y fuera del intervalo P(k ) ≅ 0 .
Aproximación normal. Teorema Central del Límite
Para cualquier valor entero de k entre µ − 3σ y µ + 3σ , el área bajo la curva

normal entre k - 0,5 y k + 0,5 es igual a P (k), el área del rectángulo en k.
La probabilidad de la binomial P (k) para B(n, p) se puede aproximar por la

probabilidad de la normal P (k − 0,5 ≤ X ≤ k + 0,5) para N (np, npq) dados np ≥ 5 y
nq ≥ 5 .
Teorema 3. (Central del Límite) Sean X1, X2, X3,… una sucesión de v.a
independientes e idénticamente distribuidas, con media µ y varianza σ2. Sea
Xn − µ
Zn = . Entonces, para n grande y ∀ {a ≤ x ≤ b} ,
σ n
P(a ≤ Z n ≤ b ) ≈ P(a ≤ φ ≤ b )
siendo Φ la distribución normal tipificada.

Estadística 1 171
DISTRIBUCIÓN GAMMA. FAMILIAS
Cualquier función de distribución normal tiene forma de campana. Por tanto, es

simétrica. No obstante, la simetría no está presente en todos los casos, i.e., la
distribución está sesgada. Antes de utilizar una distribución que nos dé la posibilidad
de trabajar la asimetría necesitamos definir la función Gamma. Luego, presentamos
la distribución gamma, adecuada para modelizar el comportamiento de variables
aleatorias continuas con asimetría positiva.
Definición 3. La función Gamma Γ(α ) , ∀α > 0 , se define por
∞
Γ(α ) = ∫ xα −1e − x dx . (4)
0
Propiedades:
1. ∀α > 1 , Γ(α ) = (α − 1) ⋅ Γ(α − 1) -se demuestra integrando por partes. Esto

permite obtener una fórmula recurrente.
2. ∀α = n entero positivo, Γ(n ) = (n − 1)! .
1
3. Γ  = π .
2
Compruébelo.
De la definición de función gamma, si:
 x α −1 e − x
 x≥0
Γ (α )
f (x ; α ) =  , (5)

 0 x<0
∞
entonces f ( x; α ) ≥ 0 y ∫ f (x; α ) dx = 1 .
0
Por tanto, f ( x; α ) cumple con las
propiedades de una fdp.

Familia de distribuciones gamma
Definición 4. La v.a. continua X tiene una distribución Gamma si la fdp de X

es
 1 α −1
−
x
β
 α x e x≥0
f ( x ; α , β ) =  β Γ (α )

, (6)

 0 x<0
α > 0, β > 0 . La distribución Gamma estándar tiene β = 1 (vea la expresión

anterior).
Densidad Gamma
Densidad Gamma estándar

Teorema 4. Si la v.a. X tiene distribución gamma f ( x; α , β ) , entonces, la media y la
varianza vienen dadas por E ( X ) = µ = αβ y V ( X ) = σ 2 = αβ 2 , respectivamente.
Si X es una v.a. gamma estándar, la función de distribución acumulada de X es
yα −1e − y
x
F ( x;α ) = ∫ dy ; x > 0, (7)
0
Γ(α )
se llama función gamma incompleta26.
26
En ocasiones se refiere a la expresión anterior sin el término Γ (a ) .
Estadística 1 173
Teorema 5. Si X tiene distribución gamma con parámetros α y β , entonces, ∀x > 0 ,
la función de distribución acumulada de X está dada por
x 
P( X ≤ x ) = F ( x;α , β ) = F  ;α  .
β 
Nota: F (•;α ) es la función acumulada.
Distribución exponencial
La familia de distribuciones exponenciales proporciona modelos de probabilidad que

son muy utilizados en ingeniería y disciplinas científicas.
Definición 5. X tiene una distribución exponencial con parámetro λ > 0 si la

fdp de X es
λ e − λ x x ≥ 0

f ( x; λ ) =  (8)
 0 x<0

Nota. Caso particular de la función gamma con α =1 y
β = 1 λ . Entonces, la media y la varianza de X son
1
1. µ = αβ = ,
λ
1
2. σ 2 = αβ 2 =
λ2
Esta función de distribución exponencial es fácil de integrar.

Densidad de exponenciales
Particularmente, la función de distribución acumulada es
 0 x<0

F ( x; λ ) = 
1 − e − λ x x ≥ 0

Utilidades. Se usa:
1. como modelo en ocurrencia de eventos sucesivos (por la relación estrecha

que tiene con la distribución de Poisson). Ejemplos: las llamadas que entran
a un conmutador, los clientes que llegan a una estación de servicios.
2. para modelar la distribución de vida útil de componentes27. Se basa en la

falta de memoria de la distribución exponencial.
Distribución ji-cuadrada
Es importante porque es la base de varios procedimientos de inferencia

estadística28. Está muy relacionada con las distribuciones normales.
Definición 6. La v.a. X tiene distribución ji-cuadrada con parámetro ν (entero

positivo) si su f ( x; α , β ) tiene α = ν 2 y β = 2 . Así, la función de distribución de una
v.a. ji-cuadrada es
 1
ν
−1 − x
e 2 x≥0
2
 ν x
f ( x;ν ) =  2 2 Γ(ν 2 )

.

 x<0
 0
(9)
Nota. ν: número de grados de libertad de X . Por lo general se usa el símbolo χ 2 en

lugar de ji-cuadrada.
Teorema 6. Si X tiene distribución ji cuadrada, entonces la media y la varianza vienen

dadas por
µ =ν y σ 2 = 2ν .
27
Se verá que hay otras distribuciones que proporcionan modelos de vida útil más generales.
28
Veremos aplicaciones de ellas en la ingerencia estadística.
Estadística 1 175
Aplicaciones de las distribuciones exponencial y gamma
El parámetro β es la media de la distribución exponencial y es el recíproco en la

distribución de Poisson. La distribución de Poisson no tiene memoria (independencia en los
períodos sucesivos). El parámetro β importante es el tiempo medio entre los eventos. En
la teoría de la confiabilidad, en la cual la falla de equipos por lo general se ajusta a un
proceso de Poisson, β es el tiempo medio entre las fallas. Muchos desperfectos de
equipos obedecen a un proceso tipo Poisson y por eso se aplica la distribución
exponencial. Además, los tiempos de sobrevivencia en experimentos biomédicos y
tiempo de respuesta de computadoras son ejemplos de aplicaciones de la
distribución expoenencial.
Ejemplo 4. Un sistema tiene componentes cuyo tiempo de falla en años está dado
por T . Considere que la v.a T se modela bien con una distribución exponencial con tiempo
medio para la falla β = 5. Si se instalan cinco de estos componentes en diferentes
sistemas, ¿qué probabilidad hay de que al menos dos aún funcionen al final de ocho años?
Solución. La probabilidad de que un componente aún funciones después de ocho años es
∞ t
1 −5
P(T > 8) =
5 ∫8
e dt ≈ 0.2
Considere que X es el número de componentes que funcionan después de ocho años. Con
el uso de la distribución binomial
5 1
P( X ≥ 2 ) = ∑ b( x;5,0.2 ) = 1 − ∑ b( x;5,0.2 ) = 1 − 0.7373 = 0.2627 .
x=2 x=0
La función gamma es importante porque define una familia de distribuciones en las

que sus miembros son casos especiales. Además, tiene aplicaciones en tiempos de
espera y teoría de confiabilidad. Mientras que la distribución exponencial describe el
tiempo hasta la ocurrencia de un evento de Poisson (o el tiempo entre eventos de
Poisson), el tiempo (o espacio) que transcurre hasta que ocurre un número
específico de eventos de Poisson es una v.a cuya función de densidad se describe
por la función gamma. Este número específico de eventos es el parámetro α en la
función de densidad gamma. Cuando α = 1 , ocurre la distribución exponencial.
Ejemplo 5. A un conmutador llegan un promedio de cinco llamadas telefónicas por
minutos ¿Cuál es la probabilidad de que pase más de un minuto hasta que lleguen
dos llamadas?
Solución. El proceso de Poisson se aplica al tiempo que pasa hasta la ocurrencia de

dos eventos de Poisson que siguen una distribución gamma con β = 1 5 y α = 2.
Consideremos la v.a X el tiempo en minutos que transcurre antes de que lleguen dos
llamadas. La probabilidad se determina por
x x
−
P( X ≤ x ) = ∫
1 β
xe dx
0
β2
1
P( X ≤ 1) = 25∫ xe − 5 x dx = 0.96 .
0
Mientras el origen de la distribución gamma trata con el tiempo (espacio) hasta la

ocurrencia de α eventos de Poisson, existen casos en que la distribución ajusta
bien aunque no halla una estructura tipo Poisson clara –se observa en problemas de
tiempo de supervivencia.
Ejemplo 6. En el estudio del efecto de la dosis de un tóxico en el tiempo de

sobrevivencia de ratas, se determinó que este tiempo, en semanas, tiene una
distribución gamma con α = 5 y β = 10 ¿Cuál es la probabilidad de que una rata no
sobreviva más de 60 semanas?
Solución.
Sea la v.a X el tiempo de sobrevivencia. La probabilidad es
∞ −
x
P( X ≤ x ) = ∫ α
1
xα −1e β dx
( )
0 β Γ α
60 x
1 α −1 − β
P( X ≤ 60 ) =
1
5 ∫
x e dx
β 0 Γ(5)
Si hacemos el cambio y = x β , obtenemos la integral gamma incompleta, cuyo valor

se busca en una tabla estadística:
Estadística 1 177
60
P( X ≤ 60 ) = dx = F (6; 5) = 0.715
1 4 −y
∫ Γ(5) x e
0
OTRAS DISTRIBUCIONES CONTINUAS
Las familias de distribuciones normal, gamma y uniforme dan una variedad de

modelos de probabilidad para las variables continuas pero en algunas situaciones
ningún miembro de la familia no ajusta bien un conjunto de datos observados. Por
tanto, se han desarrollados otras familias que permiten hacerlo.
Distribución de Weibull
Al igual que la distribución gamma y exponencial, la distribución de Weibull se aplica

a problemas de confiabilidad y de prueba de vida como los tiempos de falla o
duración de la vida de componentes, que se mide en algún tiempo específico hasta
que falla.
Definición 7. La v.a. X tiene una distribución Weibull con parámetros α > 0 y

β >0 en la función de distribución de probabilidades dada por
  x α
 α −  
α −1  β 
βα x e x≥0
f ( x; α , β ) =  .

 x<0
 0
Observaciones
1. α = 1 , se reduce a la distribución exponencial con λ = 1 β .
2. Hay distribuciones gammas que no son de Weibull y viceversa

Teorema 7. Si X es una v.a. con distribución de Weibull, entonces, la media y la
varianza vienen dadas por:
 1    1    1  2 
µ = β Γ 1 +  y σ = β Γ1 +  − Γ1 +   .
2 2
 α    α    α  
La función de distribución acumulada:
 0 x<0

F ( x; α , β ) =   x
− 
α
 (10)
β
1 − e 
x≥0
Densidad de Weibull
Distribución logonormal
Esta distribución se aplica en casos donde una transformación de logaritmo natural

da como resultado una distribución normal.
Definición 8. La v.a. no negativa X tiene una distribución logonormal si la

v.a Y = ln X tiene una distribución normal con parámetros µ y σ viene dada por
Estadística 1 179
 1 −
[ln ( x )− µ ]
2
 , x≥0.
f ( x; µ , σ ) =  2π σx e
2σ 2
 x<0
 0,
donde µ y σ son la media y la desviación típica de ln X .
Curvas de densidad logonormal
Teorema 8. Si X es una v.a. con distribución logonormal, entonces su media y varianza

son:
( )
σ2
µ+
E(X ) = e V ( X ) = e 2 µ +σ eσ − 1 .
2 2
2
y
Como ln X tiene una distribución normal, la fda de X se puede expresar en términos de

la fda Φ( z ) de una variable normal tipificada Z . Para x ≥ 0 ,
 ln ( x ) − µ   ln ( x ) − µ 
F ( x; µ ,σ ) = P( X ≤ x ) = P(ln X ≤ ln x ) = P Z ≤  = Φ .
 σ   σ 
Distribución beta
Todas las familias de distribuciones continuas analizadas, salvo la uniforme, tienen

densidad positiva en un intervalo infinito. La distribución beta da densidad positiva
sólo para X en un intervalo de longitud finita.
Definición 9. La v.a. X tiene una distribución beta con parámetros α > 0 ,
β > 0, A y B si la fdp de X es
Γ(α + β )  x − A   B − x 
α −1 β −1
 1
 A≤ x≤ B
f ( x;α , β , A, B ) =  B − A Γ(α ) ⋅ Γ(β )  B − A   B − A 

 0 en cualquier otro caso
Si A = 0 , B = 1 da la distribución beta estándar.
La integración de la fdp es difícil, salvo que α y β sean enteros. Por tal motivo se
utiliza la tabla de la función beta incompleta.
Curvas de densidad beta estándar
Teorema 9. Si X es una v.a. con distribución beta, entonces su media y varianza son:
µ = A + (B − A)
α
y σ =
2 ( B − A) α β
2
.
α +β (α + β )2 (α + β + 1)
Estadística 1 181
Resumen
Hemos trabajado algunas funciones de distribución. Ahora conviene dar una idea
estructurada de las mismas. En todas interesa su soporte, la función de masa
(discreta) o densidad (continuas), la función de distribución y valores de análisis de
datos (esperanza, varianza y desviación típica). Lo importante es destacar cuando
seleccionarlas de forma conveniente.
Acorde a nuestro interés:
Distribuciones
Unidimensionales Multidimensionales Otras
Discretas Continuas Multinomial

Weibull
Uniforme n Uniformes Lognormal

puntos
Normal
Beta
Binomial
Gamma
T-student
Poisson
F de Fisher-
Hipergeométri Gamma Exponencial Ji-Cuadrado Snedecor
ca Incompleta
Binomial
negativa o de
Pascal
Bibliografía

Mc Graw Hill, 2001.
Jay L. Devore, “Probabilidad y estadística” (para ingeniería y ciencias), sexta

edición. Ed. Thomson. 2005.

Orientaciones al estudio independiente
1. Hacer un resumen donde aparezcan las funciones de distribución estudiadas.

Redacte el mismo con fines utilitarios. Haga una ficha descriptiva con los
elementos principales de cada distribución.
2. Extienda la ficha descriptiva a las distribuciones la F de Fisher-Snedecor y la

T-student t n .
3. Conforme vayan apareciendo otras las incorporaremos a nuestro resumen.
4. El estudiante debe gestionar las tablas de las funciones de distribución.
5. Conforme sea necesario se buscará más información de estas funciones de

distribución. Consulte páginas web ofrecidas por el profesor en la guía
docente y la wikipedia.
Distribución uniforme
1. La cantidad diaria de café, en litros, que sirve una máquina es una v.a X que
tiene una distribución continua uniforme con A = 7 y B = 10. Halle la probabilidad
de que en un día dado la cantidad de café que sirve la máquina sea:
Estadística 1 183
a. a lo más 8.8 litros;
b. más de 7.4 litros pero menos de 9.5 litros;
c. al menos 8.5 litros.
R/
a. 0.6; b. 0.7; c. 0.5.
Distribución normal
2. En una distribución normal estándar, determine el área bajo la curva que está:
a. a la izquierda de z = 1.43;
b. a la derecha de z = -0.89;
c. entre z = -2.16 y z = -0.65
d. a la izquierda de z = -1.39;
e. a la derecha de z = 1.96;
f. entre z = -0.48 y z = 1.74
R/
a. 0.9236
b. 0.8133
c. 0.2424
d. 0.0823
e. 0.0250
f. 0.6435
3. Para una distribución normal estándar, determine el valor de k tal que
a. P (Z < k ) = 0.0427 ;
b. P(Z > k ) = 0.2946
c. P(− 0.93 < Z < k ) = 0.7235
R/
a. -1.72; b. 0.54; c. 1.28

4. Si la v.a X está normalmente distribuida con media 18 y desviación estándar 2.5, halle:
a. P( X < 15) ;
b. el valor de k de manera que P( X < k ) = 0.2236 ;
c. el valor de k de manera que P( X > k ) = 0.1814 ;
d. P(17 < X < 21) .
R/
a. 0.1151; b. 16.1; c. 20.275; d. 0.5403
Aproximación de la normal a la binomial
5. Evalúe P (1 ≤ X ≤ 4 ) para una variable binomial con n = 15 y p = 0.2 con el uso de
a. tablas
b. la aproximación de la curva normal
R/
a. 0.8006; b. 0.7803
6. Un proceso para fabricar un componente electrónico tiene 1% de defectuosos.

Un plan de control de calidad es seleccionar 1% artículos del proceso, y si ninguno
está defectuoso el proceso continúa. Use la aproximación normal a la binomial para
encontrar:
a. la probabilidad de que el proceso continúe con el plan de muestreo que se

describe;
b. la probabilidad de que el proceso continúe aun si éste está mal (es decir, si la
frecuencia de componentes defectuosos cambia a 5.0 % de defectuosos).
R/
a. 0.1574; b. 0.0108
Estadística 1 185
7. Si un 20 % de los habitantes de una ciudad prefieren comprar en el mercado

productos ecológicos sobre cualquier otro tipo de producto, ¿cuál es la probabilidad
de que entre los siguientes 1000 productos entrantes al mercado:
a. entre 170 y 185 inclusive sean ecológicos?
b. al menos 210 pero no más de 225 sean ecológicos?
R/
a. 0.1171; b. 0.2049
Distribución gamma y otras
8. Si una v.a X tiene una distribución gamma con α = 2 y β = 1, encuentre la
probabilidad P(1.8 < X < 2.4) .
R/
2.8e −1.8 − 3.4e −2.4 = 0.1545
9. El consumo de agua en una ciudad sigue aproximadamente una distribución

gamma con α = 2 y β = 3 . La capacidad diaria de dicha ciudad es de 9 millones de
litros diarios de agua.
a. Halle la media y la varianza del consumo diario de agua en la ciudad.
b. Según el teorema de Cheybyshev, hay una probabilidad de 3/4 de que el

consumo de agua en cualquier día caiga dentro de qué intervalo.
R/
a. µ = 6 ; σ 2 = 18 ; b. de 0 a 14.485 millones de litros.
10. la magnitud de tiempo para que una persona sea atendido en una cafetería es
una v.a que tiene una distribución exponencial con una media de cuatro minutos
¿Cuál es la probabilidad de que una persona sea atendida en menos de tres minutos
en al menos cuatro de los siguientes seis días?
R/
x 6− x
6
 6  − 
3
 − 34 
∑  1 − e 
 
x = 4  x 
4 e 
  = 0.3968
  
11. Suponga que la vida de servicio, en años, de la batería de un aparato para

sordos es una v.a que tiene una distribución de Weibull con α = 1 2 y β = 2 .
a. ¿Qué tiempo puede durar esta batería?
b. ¿Cuál es la probabilidad de que esta batería esté en funcionamiento después de

dos años?
R/
a. π 2 = 1.2533; b. e −2 .
12. Las vidas de algunos sellos automovilísticos obedecen una distribución de
Weibull con tasa de falla Z (t ) = 1 t . Encuentre la probabilidad de que cierto sello

todavía esté después de cuatro años.
R/
e −4
13. El tiempo de respuesta de cierta computadora, obtenida de una investigación,

obedece una distribución exponencial con una media de tres segundos.
a. ¿Cuál es la probabilidad de que el tiempo de que el tiempo de respuesta exceda

cinco segundos?
b. ¿Cuál es la probabilidad de que el tiempo de que el tiempo de respuesta exceda

diez segundos?
R/
a. 0.1889; b. 0.357.
Estadística 1 187
14. Los porcentajes siguen a menudo una distribución logarítmica normal. S estudia
el uso promedio de potencia (dB por hora) para una compañía y se sabe que tiene
la distribución citada con parámetros µ = 4 y σ = 2 .
a. ¿Cuál es el uso de potencia media?
b. ¿Cuál es la varianza?
R/
(
a. e6 ; b. e12 e 4 − 1 )
15. El número de automóviles que llega a una intersección por minutos tiene una
distribución de Poisson con una media de 10. El interés se centra alrededor del
tiempo que transcurre antes de que 15 automóviles aparezcan en la intersección.
a. ¿Cuál es la probabilidad de que transcurra más de un minuto entre llegadas?
b. ¿Cuál es el número medio de minutos que transcurre entre llegadas?
R/
a. e −10 ; b. β = 0.10 .
10. INFERENCIA ESTADÍSTICA
La inferencia estadística es la parte de la Estadística que permite sacar

conclusiones sobre una población, a partir de la información que proporciona una
muestra representativa de la misma. Lo hace empleando un modelo de
probabilidad asignado a las variables aleatorias de la población y a partir de los
datos obtenidos por la estadística descriptiva.
conclusiones
Población Muestra
la
Inferencia estadística Si es representativa

Permite sacar conclusiones de la
Generalmente, la población suele ser “grande” y no es posible estudiarla en toda su

integridad en la mayor parte de los casos. Por tanto, las conclusiones obtenidas
deben basarse en el examen de sólo una parte de ella. Las ventajas de estudiar una
población a partir de sus muestras son principalmente que su coste es reducido, la
mayor rapidez en los análisis y brinda más posibilidades de estudio.
Toda inferencia estadística exacta es imposible pues se dispone de información

parcial, sin embargo es posible realizar inferencias inseguras y medir el grado de
inseguridad si el experimento se ha realizado de acuerdo con determinados
principios. Uno de los propósitos de la inferencia Estadística es el de conseguir
técnicas para hacer inferencias inductivas y medir el grado de incertidumbre de
tales inferencias. La medida de la incertidumbre se realiza en términos de
probabilidad.
Estadística 1 189
Sobre cada individuo medimos una o varias características –variables-. Por tanto, a
cada población le corresponde una variable aleatoria ( X ). De esta forma,
quedan identificadas población y variable aleatoria asociada. Así, en la Inferencia,
población es el conjunto de individuos a estudiar, pero también la variable aleatoria
asociada a la característica que medimos sobre los individuos.
En general, supondremos un modelo de distribución de probabilidad para la

variable aleatoria estudiada que resuma las características de la misma aunque
desconozcamos los parámetros que trataremos de estimar a partir de una muestra.
En determinadas situaciones no será necesario especificar tales distribuciones y las
inferencias se hacen sobre características de la distribución que no son
necesariamente parámetros.
Según el conocimiento sobre la distribución en la población, la inferencia

Estadística puede dividirse en:
1. Inferencia Paramétrica: Se conoce la forma de la distribución pero no

sus parámetros. Se efectúan inferencias sobre los parámetros
desconocidos de la distribución conocida.
2. Inferencia No Parámetrica: Se desconocen la forma y los parámetros.

Se realizan inferencias sobre características que no tienen que ser
parámetros de una distribución conocida (Mediana, Estadísticos de Orden).
Según la forma en que se estudian los parámetros o características

desconocidas, la inferencia puede dividirse en:
1. Estimación: Se intenta dar estimaciones de los parámetros desconocidos

sin hacer hipótesis previas sobre posibles valores de los mismos.
Estimación puntual: Un único valor para cada parámetro.
Estimación por intervalos: Intervalo de valores probables para el

parámetro.
2. Contraste de Hipótesis: Se realizan hipótesis sobre los parámetros

desconocidos y se desarrolla un procedimiento para comprobar la
verosimilitud de la hipótesis planteada. Entonces, las diferentes técnicas de
muestreo adquieren vital importancia.
DISTRIBUCIONES DE MUESTREO
La teoría del muestreo tiene por objetivo estudiar las relaciones existentes entre la
distribución de un carácter en una población y las distribuciones de dicho carácter
en todas sus muestras.
La representatividad de la muestra queda garantizada con la elección correcta del

método de muestreo. De éstos el más importante es el muestreo aleatorio. Sin
embargo, existen otros como el muestreo sistemático, estratificado y por
conglomerados.
Como las muestras aleatorias escogidas para un estudio son diferentes y por
consiguiente, dan estimaciones distintas, se necesita el conocimiento de la
variación de todas las posibles estimaciones derivadas de muestreos aleatorios para
llegar a conclusiones razonables.
El muestreo29 aleatorio se puede plantear bajo dos puntos de vista:
1. Sin reposición de los elementos; Se seleccionan n elementos de la

población mediante n extracciones sin reemplazamiento, asignando a cada
una de ellas probabilidades iguales a los elementos no seleccionados en los
anteriores (en el paso i − ésimo , la probabilidad que tiene un elemento de
1
ser seleccionado es N − i ). Siempre se verificará que n ≤ N .
2. Con reposición; Se seleccionan n elementos de la población mediante n

extracciones sucesivas con reemplazamiento, asignando a cada una de ellas
1
probabilidades iguales a todos los elementos de la población, N .
En ambos casos podemos considerar muestras ordenadas (importa el orden en que

hayan sido seleccionadas) o muestras sin ordenar (no importa el orden en que
hayan sido escogidas), sólo nos importa el conjunto total de elementos en la
muestra. A estas últimas se las denominará subpoblaciones.
Teorema 1. Si N es el tamaño de la población y n es el tamaño de la muestra,
= N ( N − 1) ⋅ ⋅ ⋅ ( N − n + 1)
N!
VN , n =
entonces hay (N − n)! diferentes posibles muestras
29
Llamaremos muestra de tamaño n a un subconjunto de tamaño n de la población (ver apuntes iniciales del
curso).
Estadística 1 191
VRN , n = N n
ordenadas diferentes sin reemplazamiento y diferentes posibles
muestras ordenadas con reemplazamiento.
Si se realiza un muestro aleatorio con reemplazamiento de tamaño n en una

población de N elementos, la probabilidad de que en esa muestra ordenada no
aparezca un elemento dos veces es:
VN , n N ( N − 1) ⋅ ⋅ ⋅ ( N − n + 1)
p= =
VRN , n Nn
Teorema 2. Si N es el tamaño de la población y n es el tamaño de la muestra,

N
C N , n =  
entonces hay  n  diferentes posibles subpoblaciones (muestras no
ordenadas) de tamaño n mediante muestreo sin reemplazamiento y
 N + n − 1
CRN , n =  
 n  diferentes posibles subpoblaciones de tamaño n mediante
muestreo con reemplazamiento.
La diferencia principal entre el muestreo30 con reemplazamiento y el muestreo sin

reemplazamiento es que en el primero los resultados individuales son
independientes y el segundo no. Por lo general, si el tamaño de la población es muy
“grande”, las diferencias son inexistentes y siempre podremos suponer la
independencia de los sucesos individuales.
OBSERVACIÓN. Cuando N >> n , se puede aplicar al proceso de muestreo un

modelo de probabilidad asumiendo los resultados individuales de cada muestra
como independientes -se hayan obtenido las muestras con o sin reemplazamiento.
A partir de ahora supondremos que las muestras que consideramos serán con
reemplazamiento. Se harán observaciones cuando los resultados para la muestra
con reemplazamiento difieran de los obtenidos.
30
Consulte esto en los apuntes del tema correspondiente
La distribución de probabilidad de una variable aleatoria (v.a) definida en un espacio
de v.a se llama distribución muestral.
Interesan los análisis de datos muestrales:
MEDIA MUESTRAL
Hagamos las siguientes consideraciones:
1. Sea X v.a. con media µ X y desviación típica σ X , definida en una

población.
2. Una muestra aleatoria de tamaño n nos da n posibles valores

x1 , x2 ,..., xn
independientes (muestra con reemplazamiento) para la variable
aleatoria X .
3. Podemos considerar estos valores como los de n variables aleatorias

X 1 , X 2 ,..., X n
independientes e idénticamente distribuidas a X ; es decir, de
media µ X = µ y desviación típica σ X = σ .
La media muestral se define como:
1 n
X = ∑ Xi
n i =1 X
; con reemplazamiento. Media muestral de las i .
Si no consideramos la reposición,
1 n
X = ∑ xi
n i =1 ; sin reemplazamiento. Media muestral de las xi .
Teorema 3. Sea X una v.a de media µ y desviación típica σ . Entonces, la media

muestral X , para muestras aleatorias de tamaño n con reemplazamiento (sin
reemplazamiento), tienen como media

µ X y desviación típica σ X , dadas por:
µX = µ 

σ 
σX =
n  con reemplazamiento.
Estadística 1 193
µX = µ 

σ N −n
σX = ⋅
n N − 1  sin reemplazamiento; (n < N )
Observación: Si X está aproximadamente distribuida como una normal; X ,

también.
La distribución muestral de X
Se presenta un teorema que dice que si la muestra es grande, entonces la media

muestral X está aproximadamente distribuida como una normal sin tener en
cuenta la distribución de X .
Teorema 4. (Teorema central del Límite) Sea X una variable aleatoria de

media µ y desviación típica σ definida en una población cualquiera. Si el tamaño
de la muestra es grande ( n ≥ 30 ), entonces, la media muestral X está
 σ 
X = N µ = µX , σ X = 
aproximadamente distribuida como una normal:  n  ; con
reemplazamiento,
 σ N −n
X = N  µ = µ X , σ X = ⋅ 

 n N − 1  ; sin reemplazamiento.
Observaciones:
• Si n ≥ 30 , X es normal sin importar la distribución de X .
• Si n < 30 , la distribución de X es normal si las distribuciones de X no

difiere mucho de la normal.
• Si la distribución de X es normal, la distribución de X es normal sin

importar el valor de n .
• Si el muestreo se hace sin reemplazamiento y N >> n (poblaciones

grandes), no hay que distinguir muestras con y sin reemplazamiento. Por
tanto, la distribución de la v.a se puede tomar igual. Esta condición se puede
N −n
≈1
observar con un N > 20 ⋅ n , de tal manera que N −1 .
PROPORCIÓN MUESTRAL
Existen ocasiones en las cuales no interesa la media muestral de una población, sino
alguna proporción de ella.
En general puede interesar la proporción p de una población que tiene una

característica determinada. Si se toma una muestra de esa población, la proporción
p̂ , en la muestra con la característica estudiada, se aproximará al valor
poblacional. Planteamos:
n o de elementos en la muestra con la característica

pˆ =
n (tamaño de la muestra )
El conjunto de todos los posibles valores que puede tomar p̂ forman la variable
aleatoria P̂ , llamada proporción muestral.
La distribución muestral de proporciones es la adecuada para dar respuesta a estas

situaciones.
Una población binomial está estrechamente relacionada con la distribución

muestral de proporciones y puede evaluarse usando la aproximación normal a
la binomial. Cualquier evento se puede convertir en una proporción si se divide el
número obtenido entre el número de intentos.
Teorema 5. Sea p la proporción de una población y se toman muestras aleatorias

de tamaño n . Entonces, P̂ tiene:
 media p

 y
desviación típica p(1 − p ) n
 ; con reemplazamiento y,
 media p

 y
desviación típica
 p(1 − p ) n ⋅ (N − n ) (N − 1) ; sin reemplazamiento.
Estadística 1 195
Teorema 6. (Teorema central del Límite -para proporciones muestrales).

Sea p la proporción poblacional. Si el tamaño de la muestra n es muy grande, la
proporción muestral P̂ estará aproximadamente distribuida como una normal
 p ( p − 1) 
Pˆ ≡ N  p, 

 n  ; con reemplazamiento,
 p( p − 1) N − n 
Pˆ ≡ N  p, 
 n N − 1 
; sin reemplazamiento.
Observaciones:
• Consideramos n muy grande cuando n ≥ 30 .
• N >> n (con N > 20 ⋅ n ), no es necesario distinguir el muestreo con o sin

reemplazamiento.
VARIANZA MUESTRAL
Sea X una variable aleatoria poblacional de media µ y desviación típica σ . Una

muestra aleatoria de tamaño n nos da n posibles valores independientes
(muestra con reemplazamiento o sin reemplazamiento con N >> n )

x1 , x2 ,..., xn
para la variable aleatoria X .
Los valores anteriores se pueden considerar como los de n variables aleatorias

X 1 , X 2 ,..., X n
independientes e idénticamente distribuidas a X , es decir de media
µ X = µ y desviación típica σ X = σ .
∑ (X − X)
n
2
i
S2 = i =1
La variable aleatoria n −1 , donde X es la media muestral, es la

varianza muestral
Distribución chi cuadrado
Debido al teorema Central del Límite, la distribución normal desempeña un papel

importante en la inferencia estadística. Pero no es la única.
Z1 , Z 2 ,..., Z k k
Definición: Sean v.a normales e independientes, cada una con
k
X 2 = ∑ Z i2
media 0 y desviación típica 1. Entonces, la v.a i =1 se llama v.a chi
cuadrado con k grados de libertad.
Nota:
• X 2 (0,1) ∀i .
• Al número k se le denomina grados de libertad de la variable aleatoria.
• Si n > 30 , esta distribución se aproxima a una normal de media n y
desviación típica 2n .
Teorema 7. Sea X una variable aleatoria distribuida normalmente con media µ y

desviación típica σ definida en una población y consideremos que N >> n ,
(n − 1)S 2
entonces la variable aleatoria σ2 se distribuye como una chi cuadrado con
(n − 1)S 2 ≡ Z n2−1
n − 1 grados de libertad, es decir σ2 .
Estadística 1 197
Teorema 8. Si las hipótesis del teorema 7 se cumplen, entonces, la media de

(n − 1)S 2
S 2 es µ = σ y la desviación típica de
2
σ2 es
2(n − 1)
2
y por tanto la desviación típica de S es
2(n − 1)σ 2 2
σ= = ⋅σ 2
n −1 n −1 .
Con reemplazamiento
Muestras aleatorias
Sin reemplazamiento
Por ser diferentes se necesita conocer
Variación de estimaciones muestreos aleatorios
que pueden ser
Media muestral Proporción muestral Varianza muestral
Si O Si Si
n ≥ 30 X es normal n ≥ 30 n ≥ 30 y N >> n
X ≈ Normal P̂ ≈ Normal (n − 1)S 2 ≈ Chi cuadrado

σ2
Si
Como No se necesita
Si
N >> n
distinguir entre
ESTIMACIÓN PUNTUAL
El objetivo de la estimación puntual es: dado un parámetro de interés de una

población (media poblacional µ o proporción p de la población), usar una muestra
para calcular un número que represente en cierto sentido una buena estimación del
valor real del parámetro. El número que resulta se llama estimación puntual.
PARÁMETROS Y ESTADÍSTICOS
En estadística en general:
Parámetro: cualquier característica numérica de una población.
Estadístico: cualquier cantidad calculada de una muestra (no depende de ningún

parámetro).
Ejemplo 1. Nota media de los estudiantes de una universidad es 6,1.

Nota media de un 30% de los estudiantes es 5,1. Parámetro: 6,1. Estadístico:
5,1.
Estimador es un estadístico usado para estimar un parámetro desconocido de la

población.
Ejemplo 2. Si se desea conocer el precio medio de un artículo

(parámetro desconocido) se recogerán observaciones del precio de dicho artículo en
diversos establecimientos (la muestra) y la media aritmética de las observaciones
puede utilizarse como estimador del precio medio.
Si consideramos la muestra como valores particulares de una variable aleatoria, un

estadístico no es más que una variable aleatoria y como tal se puede encontrar
una función de probabilidad que lo caracterice.
Estadística 1 199
Características de los estimadores
Para cada parámetro pueden existir varios estimadores. En general, se escoge el

estimador que posea mejores propiedades.
Definiciones:
Estimador insesgado (sesgado): su valor esperado (no) es igual al parámetro

que pretendemos estimar con él, es decir, cuando la esperanza de su distribución
de probabilidad (no) coincide con el valor del parámetro. Matemáticamente:
ˆ () ˆ ˆ ()
estimador insesgado de θ si E θ = θ ∀θ . Si θ no es insesgado, E θ − θ se
llama sesgo de θ .
ˆ
El insesgamiento significa que algunas muestras producirán sobreestimaciones y

otras subestimaciones del parámetro θ porque de otro modo θ no podría ser el
centro (punto de equilibrio) de la distribución θ .
ˆ
Principio de estimación insesgado: Al elegir entre varios estimadores de θ ,

seleccione uno que sea insesgado.
La media muestral, la varianza muestral y la proporción muestral son estimadores

insesgados para la media poblacional, la varianza poblacional y proporción
poblacional, respectivamente.
La desviación típica muestral es un estimador sesgado para la desviación típica
poblacional.
Estimador consistente: si la probabilidad de que el valor del estadístico sea

cercano al parámetro aumenta conforme aumentamos el tamaño de la muestra.
Estimador más eficiente: cuando su desviación típica es menor31.
(estimador insesgado)
(EIVM)
Estimador suficiente: cuando agota toda la información que hay en la muestra

para estimar el parámetro.
Estimador eficaz: cuando es insensible a los valores extremos que pueda tomar la
muestra.
Estimación puntual valor de un estadístico cuando estima un parámetro

poblacional.
Ejemplo 3. Determinada propiedad de una población se distribuye

como una normal de media y desviación típica desconocidas. Hallar las estimaciones
puntuales de la media, la varianza σ y la desviación típica σ , sabiendo que una
2
muestra de cinco elementos ha tomado los siguientes valores:
x1 = 19 , x2 = 17 , x3 = 18 , x4 = 20 , x5 = 16 .
Consideramos X variable aleatoria normal de media µ X y desviación típica σ X .
Tomar de esta forma una muestra de cinco elementos es como tomar cinco
variables aleatorias X 1 , X 2 , X 3 , X 4 , X 5 independientes e idénticamente
31
Esto significa que si tomamos el valor que nos proporciona el estimador para estimar el parámetro tendrá mayor
probabilidad de producir una estimación más cercana al parámetro. Se ha supuesto como principio que se ha
elegido el estimador insesgado de varianza mínima (EIVM).
Estadística 1 201
distribuidas a X y los valores particulares de la muestra serán los valores

particulares de las respectivas variables aleatorias.
Como la media muestral es un estimador insesgado para la media, se puede

aproximar el valor de la media poblacional por el de la media muestral:
1 n 1 5 17 + 18 + 19 + 20 + 16
µ= ∑
n i =1
X i = ∑ xi =
n = 5 5 i =1 5
= 18
X i = xi
y como la varianza muestral es un estimador para la varianza poblacional:
1 n
(X i − X i )2 n==5 1 ∑ (xi − 18)2 =
5
σ 2 = S2 = ∑
n i =1 5 i =1
X i = xi
X =18
=
(17 − 18) + (18 − 18) + (19 − 18) + (20 − 18)2 + (16 − 18)2
2 2 2
=2
5
Por tanto una estimación puntual para la desviación típica será la raíz cuadrada de
este valor
σ = 2 = 1.41
X 1 , ..., X n
Teorema 9. Sea una muestra aleatoria de una distribución normal con
parámetros µ y σ . Entonces el estimador µ̂ = X es el EIVM para µ .
Nota 1: El teorema no dice que al estimar la media poblacional µ , el estimador X

se debe usar sin tomar en cuenta la distribución que está siendo muestreada.
Nota 2: En algunas situaciones, es posible obtener un estimador con sesgo

pequeño que se preferiría para el mejor estimador insesgado.
La definición de insesgamiento no indica en general cómo se pueden obtener

estimadores insesgados.
Vistas las características de las condiciones que debe reunir un estimador para que
sea considerado aceptable, queda por resolver el problema de cómo proceder a la
determinación de la estimación puntual. Se necesitan métodos para la estimación
puntual. Los que más se conocen son: métodos de los momentos, los
estimadores de máxima verosimilitud (EMV), de estimación por mínimos
cuadrados y el método de Bayes se emplean con dicha finalidad.
Método de los momentos
El método de los momentos consiste en igualar las expresiones de los k

primeros momentos (en relación al origen) tanto de la variable representativa
poblacional como de la muestra; como resultado, se obtiene un sistema que permite
obtener, como raíces, los estimadores buscados.
una muestra aleatoria de una fmp o fdp f ( x ) . Para

X 1 , ..., X n
Definición. Sea
k = 1,2,..., el k − ésimo momento poblacional, o k − ésimo momento de la
1 n k
( ) ∑ Xi
distribución f ( x ) , es E X . El k − ésimo momento muestral es n i =1
k
.
X 1 , ..., X n
Definición. Sea una muestra aleatoria de una fmp o fdp
f ( x;θ1 ,θ 2 ,⋅ ⋅ ⋅,θ m ) θ1 ,θ 2 ,⋅ ⋅ ⋅,θ m son parámetros cuyos valores se desconocen.
, donde
Los estimadores de momento 1

θˆ ,θˆ ,⋅ ⋅ ⋅,θˆ
2 m se obtienen igualando los primeros m
momentos poblacionales con los primeros m momentos muestrales
correspondientes y resolviendo para

θ1 ,θ 2 ,⋅ ⋅ ⋅,θ m .
X , ..., X
Ejemplo 4. 1 n es una muestra aleatoria de tiempos de
respuesta de n peticiones de una central de control. Suponiendo que la distribución
es exponencial con parámetro λ , determine el estimador de momento.
Solución. Hay un solo parámetro por estimar. El estimador se obtiene igualando

E ( X ) con X .
Estadística 1 203
E(X ) =
1 1 1
=X λ=
En la distribución exponencial λ , con lo cual λ o X .
1
λˆ =
El estimador de momento de λ es X .
X 1 , ..., X n
Ejemplo 5. es una muestra aleatoria cuya distribución tiene
forma de campana asimétrica con parámetros α y β , determine los estimadores
de momento.
Solución. Suponga una distribución Gamma con los parámetros α y β . Como

Γ(α + 2 )
E ( X ) = αβ y
( )
E X2 = β2
Γ(α )
= β 2 (α + 1)α
, los estimadores de momento de
α y β se obtienen igualando los primeros momentos poblacionales con los
muestrales, i.e.,
X = αβ
X i2 = β 2 (α + 1)α
1
n
∑
.
1
∑ X i2 = X 2 + β 2α
Luego se resuelven ambas ecuaciones: X = α β ,
2 2 2
n . Divida
esta ecuación con la primera ecuación de momento, se obtiene que
2
1 X
∑ X i2 − X 2 αˆ =
1
β̂ = n
X n
∑ X i2 − X 2
. Luego, .
Observación. Advierta la importancia capital de las funciones de distribución

cuando se buscan los estimadores.
Método de estimadores de máxima verosimilitud
El método de EMV se basa en el principio lógico de que es habitual que suceda lo

más probable. Así, los estimadores de los parámetros son aquellos que hacen
máxima la función de verosimilitud (función de probabilidad de la muestra
F ( X 1 , X 2 ,⋅ ⋅ ⋅, X n ;θ1 ,θ 2 ,⋅ ⋅ ⋅,θ m )
que depende de los parámetros a estimar).
X 1 , ..., X n
Definición. Sea una muestra aleatoria de una fmp o fdp conjunta
f ( x1 , x2 ,...xn ;θ1 ,θ 2 ,⋅ ⋅ ⋅,θ m ) θ1 ,θ 2 ,⋅ ⋅ ⋅,θ m son parámetros cuyos valores se
, donde
x1 , x2 ,...xn
desconocen. Cuando son los valores muestrales observados y f es
considerada como una función de

θ1 ,θ 2 ,⋅ ⋅ ⋅,θ m , se llama función de verosimilitud.
Las emv
θˆ1 ,θˆ2 ,⋅ ⋅ ⋅,θˆm son los valores de i que maximizan la función de θˆ
verosimilitud. Por tanto,

( )
f x1 , x2 ,...xn ;θˆ1 ,θˆ2 ,⋅ ⋅ ⋅,θˆm ≥ f ( x1 , x2 ,...xn ;θ1 ,θ 2 ,⋅ ⋅ ⋅,θ m )
∀ θ1 ,θ 2 ,⋅ ⋅ ⋅,θ m .
Xi xi
Cuando las se sustituyen en lugar de las , resultan estimadores de máxima
verosimilitud.
X 1 , ..., X n
Ejemplo 6. es una muestra aleatoria de una distribución
exponencial con parámetro λ . La función de verosimilitud es un producto de fdp
( ) (
f ( x1 , x2 ,...xn ; λ ) = λe − λx1 ⋅ ⋅ ⋅ λe − λxn = λn e ∑ i
−λ x
)
ln[ f ( x1 , x2 ,...xn ; λ )] = n ln (λ ) − λ ∑ xi
.
Ahora derivamos el logaritmo respecto a λ e igualamos a cero y obtenemos:
n 1
n
− ∑ xi = 0 λ= =
λ o ∑x i x
.
1
λˆ =
El estimador de probabilidad máxima es X . Observe que es idéntico al método
 1 1 
 E   ≠ 
de los momentos; sin embargo, no es un estimador insesgado   X  E ( X ) .
X , ..., X
n es una muestra aleatoria de una distribución
Ejemplo 7. 1
normal. La función de verosimilitud es

Estadística 1 205
( x1 −µ )2 ( xn − µ )2
n n
( xi − µ )2
 1 2 −∑
( ) 1 − 1 −
2σ 2
f x1 , x2 ,...xn ; µ , σ 2 = 2σ
⋅⋅⋅ 2σ
=
2 2
2 
e e e i =1
2π σ 2 2π σ 2  2 π σ 
Así,
[(
ln f x1 , x2 ,...xn ; µ , σ 2 =)] n
2
( 1 n
2σ =
)
ln 2 π σ 2 − 2 ∑ ( xi − µ )
2
i 1 .
Para encontrar los valores µ y σ que maximizan la función de verosimilitud, se

2
deben tomar las derivadas parciales de ln f con respecto a µ y σ , igualar a cero

2
(X − X)
=∑
2
σˆ 2 i
y resolver las ecuaciones resultantes. Las emv son µ̂ = X y n .
La emv de σ no es un estimador insesgado. Así, dos principios de estimación

2
distintos (emv e insesgamiento) dan dos estimadores distintos.
X 1 , ..., X n
Ejemplo 8. es una muestra aleatoria de una fdp de Weibull
  x α
 α −  
α −1  β 
βα x e x≥0
f ( x; α , β ) = 

 x<0
 0
Se halla la verosimilitud y luego se el logaritmo de ella. A este último se le calculan

las derivadas parciales con respecto a α y β y se igualan a cero. Se obtienen:
1
−1
 xα ⋅ ln ( x ) ln ( xi ) 
α = ∑ i α i − ∑ β =  ∑ i
 xα α
 
 ∑ xi  
n
y  n  .
Las ecuaciones no pueden resolverse de forma explícita con el fin de obtener
fórmulas generales para las emv α̂ y β̂ . Sin embargo, para cada muestra
x1 , x2 ,...xn
, las ecuaciones se resuelven por procedimiento numérico iterativo. Los
procedimiento de determinación de momento pares de α y β son complicados.
¿Cómo estimar funciones de parámetros?
Principio de invarianza. Sean

θˆ1 ,θˆ2 ,⋅ ⋅ ⋅,θˆm los emv de los parámetros θ1 ,θ 2 ,⋅ ⋅ ⋅,θ m .
h(θ1 ,θ 2 ,⋅ ⋅ ⋅,θ m )
Entonces la emv de cualquier función de estos parámetros es la
función
( )
h θˆ1 ,θˆ2 ,⋅ ⋅ ⋅,θˆm de las emv.
Ejemplo 9. Con la distribución normal, la emv de µ y σ son µ̂ = X

2
σˆ 2 =
1
∑ (X i − X )2 ( )
. Para conseguir la emv de la función h µ , σ = σ = σ , se
2 2
y n
sustituye la emv en la función:
1
σˆ = σ =  ∑ ( X i − X ) 
12 22
n 
La emv de σ no es la desviación estándar muestral S , aunque están cerca de

menos que n sea muy pequeña.
Ejemplo 10. El valor promedio de la v.a. X con una distribución de

 1
µ = β ⋅ Γ1 + 
Weibull es  α .
1 
µˆ = βˆΓ1 +

Así, la emv de µ es αˆ  . α̂ y β̂ son las emv de α y β . X no es la

emv de µ , aunque es un estimador insesgado. Para un n grande, µ̂ es un mejor

estimador que X .
¿Cómo se comportan los emv con muestras grandes?
Proposición. Si el tamaño de la muestra es grande, con condiciones muy generales

en la distribución conjunta de la muestra, el emv de cualquier parámetro θ es
aproximadamente insesgado E θ ≈ θ
ˆ ( ( ) ) y tiene varianza que es casi tan pequeña
Estadística 1 207
como se pueda lograr mediante cualquier estimador, i.e., la emv de θ es

ˆ
aproximadamente el EIVM de θ .
El método de estimación por mínimos cuadrados calcula las estimaciones de

los parámetros minimizando la función de distancia cuadrática entre los valores
estimados y los verdaderos valores de los parámetros.
El método de Bayes calcula la estimación de los parámetros minimizando la

función de riesgo medio, la cual mide la pérdida media que se produce cuando se
usan los valores estimados como verdaderos valores de los parámetros.
Los estimadores puntuales más comunes son:
Para una población binomial, la proporción muestral del número de éxitos es

un estimador consistente, suficiente, insesgado y de varianza mínima para el
parámetro poblacional p .
Para una población de Poisson, la media muestral es un estimador

consistente, suficiente, insesgado, eficiente y de varianza mínima para el
parámetro poblacional λ .
Para una población normal, la media muestral es un estimador consistente,

suficiente, insesgado, eficiente y de varianza mínima para el parámetro
poblacional µ . Además, la covarianza muestral es un estimador insesgado,
suficiente, consistente y de mínima varianza para el parámetro poblacional
σ2.
Bibliografía

Mc Graw Hill, 2001.

Ed. Thomson. 2005.
Recomendaciones al estudio individual
1. Estudie los ejemplos resueltos donde aparecen los

métodos de inferencia puntual. A continuación
proceda a resolver los ejercicios propuestos
2. Puede ampliar en el segundo texto recomendado.
PROBLEMAS PROPUESTOS
Muestreo
Ejercicio 1. ¿Cuál será la composición más probable de un comité de 3 miembros

elegidos al azar entre un conjunto de 13 hombres y 9 mujeres?
Ejercicio 2.
a. Determina el número de muestras aleatorias de tamaño 5 que se

pueden obtener sin reemplazamiento en una población de 5 gatos, 3
perros y 2 ratones.
b. ¿Cuántas muestras posibles de sólo dos animales son posibles?
c. De entre las anteriores ¿Cuál es la más probable?
Ejercicio 3. ¿Cuál es la probabilidad de que en una muestra con reemplazamiento

de tamaño 10 en una población de 300 habitantes no tenga elementos repetidos?
S = {2,3, 4}
Ejercicio 4. Sea . Un espacio equiprobable
a. Calcula la media y la varianza de la población

Estadística 1 209
b. Halla la distribución de probabilidad para la media muestral de

muestras aleatorias de tamaño 2 obtenidas con reemplazamiento.
c. Calcula la media y la varianza de X
S = {1,5, 6,8}
Ejercicio 5. Sea .
a. Halla la distribución de probabilidad de la media muestral para

muestras aleatorias de tamaño 2 obtenidas sin reemplazamiento y
para muestras con reemplazamiento. Compara los valores de la
media y desviación típica poblacionales con los de la media.
b. Halla la distribución de la varianza muestral para muestras aleatorias

de tamaño 3 obtenidas sin reemplazamiento. Calcula su media y su
varianza.
Ejercicio 6. La proporción de hombres calvos de edades comprendidas entre 40 y

60 años es de 2/3. Se toman muestras aleatorias de tamaño 25 con
reemplazamiento de hombres en esa franja de edad en una ciudad de 10000
habitantes. ¿Cuál es la media y la desviación típica del estimador proporción para
esas muestras?
Ejercicio 7. Si una población está formada por 10 elementos, ¿cuál es el tamaño

de la muestra para el cual hay el mayor número de muestras distintas obtenidas?
a. Con reemplazamiento
b. Sin reemplazamiento
c. ¿Y en una población de tamaño N arbitrario?
Ejercicio 8. El 37% de alumnos de una universidad compatibilizan sus estudios con

un trabajo ¿Cuál es la media y la desviación típica de la proporción de alumnos
trabajadores, para todas las muestras de tamaño 40, obtenidas con
reemplazamiento, de la población de alumnos?
a. Con reemplazamiento
b. Sin reemplazamiento
Ejercicio 9. Se toman muestras de tamaño 20 sin reemplazamiento
correspondientes a una variable aleatoria X de una población. La variable aleatoria
se distribuye como una normal de media X

µ = 45
y desviación típica
σX = 3.
Calcula la media y la desviación típica de la varianza muestral.
Estimadores insesgados
Ejercicio 10. Sea X una v.a. binomial con parámetros n y p . Demuestre que la
proporción muestral pˆ = X n es un estimador insesgado de p .
X 1 , X 2 , ..., X n
Ejercicio 12. Sea una muestra aleatoria de una distribución con
∑ (X − X)
2
σˆ = Sˆ 2 =
2 i
media µ y varianza σ . Demuestre que el estimador n −1

2
es un
estimador insesgado de σ .
2
Ejercicio 13. Al medir la resistencia a la flexión en MPa de vigas de concreto se

obtuvieron los siguientes resultados:
5,9 7,2 7,3 6,3 8,1 6,8 7,0 7,6 6,8 6,5 7,0
6,3 7,9 9,0 8,2
8,7 7,8 9,7 7,4 7,7 9,7 7,8 7,7 11,6 11,3 11,8
10,7
Diga qué estimador usó y calcule una estimación puntual:
a. del valor medio de resistencia para la población conceptual de todas

las vigas fabricadas.
b. del valor de resistencia que separa el 50% más débil de las vigas del
50% más fuerte.
c. del valor promedio de las dos resistencias extremas.
d. de la desviación estándar poblacional σ .

Estadística 1 211
e. de la proporción de las vigas cuya resistencia a la flexión es mayor

que 10 MPa . Sugerencia: considere una observación un éxito si
pasa de 10.
f. del coeficiente poblacional σ µ .
Métodos de estimación puntual
X , ..., X
n es una muestra aleatoria cuya distribución se corresponde
Ejercicio 14. 1
con un número de éxitos fijo y un número de ensayos aleatorios con
parámetros r y p . Determine:
a. Los estimadores de momento.
b. Las estimaciones correspondientes si aplicamos el modelo anterior al

número de goles por juego que se hacen en una liga según se
muestra en la siguiente tabla:
goles 0 1 2 3 4 5 6 7 8 9 10
frecuencia 29 71 82 89 65 45 24 7 4 1 3
X 1 , ..., X n
Ejercicio 15. es una muestra aleatoria de una distribución Gamma con
parámetros α y β .
a. Deduzca las ecuaciones cuya solución produce los emv de α y β . ¿Se

puede resolver de manera explícita?
b. Demuestre que la emv de µ = αβ es µˆ = X̂ .
En el texto: “Jay L. Devore, Probabilidad y estadística (para ingeniería y ciencias),

sexta edición. Ed. Thomson. 2005” pág. 277, resuelva los ejercicios 21 y 22.
11. INTERVALOS DE CONFIANZA PARA UNA ÚNICA POBLACIÓN
La estimación puntual, debido a que es sólo un número, por si misma no

proporciona información acerca de la precisión y confiabilidad de una
estimación. Por la variabilidad del muestreo, por ejemplo, casi nunca se da el caso
de que x = µ . La estimación puntual no indica nada en relación con cuán cerca
podría estar de µ .
Para informar un solo valor sensible del parámetro que está siendo estimado,
alternativamente, se calcula e informa un intervalo completo de valores posibles,
una estimación de intervalo o intervalo de confianza (IC).
El IC se calcula primero al seleccionar un nivel de confianza, que es una medida del

grado de confiabilidad del intervalo. Ejemplo, un nivel de confianza del 95%
significa que el 95% de las muestras darían un intervalo que incluye el parámetro
que se está estimando, y sólo el 5% de las muestras producirían un intervalo
erróneo. Mientras mayor sea el nivel de confianza, se está más convencido de que
el parámetro que se está estimando se ubica dentro del intervalo.
Si el nivel de confianza es alto y el intervalo resultante es bastante reducido, el

conocimiento del valor del parámetro es razonablemente preciso. Un IC muy amplio
señala que hay gran cantidad de incertidumbre con respecto a lo que se está
estimando.
Supongamos que el parámetro a estimar es θ y que θ es un estimador insesgado

ˆ
para ese parámetro.
INTERVALOS DE CONFIANZA
Conviene que el estimador se encuentre en un intervalo de forma que la

probabilidad de que el parámetro pertenezca al intervalo sea bastante alta y éste no
sea demasiado amplio.
Ejemplo 1. P(µ − E ≤ X ≤ µ + E ) = 0.95 ⇔

P (X − E ≤ µ ≤ X + E ) = 0.95
µ se puede determinar con un 95% de confianza. A [X − E , X + E ] se le llama

intervalo de confianza aleatorio con un nivel de confianza del 95% para µ , y
a E se le llama margen de error.
Estadística 1 213
Precisemos estos conceptos:
Un intervalo de confianza para el parámetro θ , es un intervalo real de la forma

[a, b] ⊂ R , [ˆ ]
muchas veces de la forma θ − E ,θ + E ⊂ R , de forma que la
ˆ
probabilidad de que el parámetro pertenezca a ese intervalo sea bastante alta:

P(θ ∈ [a, b]) = 1 − α , con α ≈ 0 .
El nivel de confianza o coeficiente de confianza, denotado por 1 − α , es la

probabilidad de que el parámetro pertenezca al intervalo.
Generalmente a α se le denomina nivel de significación del intervalo de

confianza.
En general hablaremos de intervalo de confianza a nivel 1 − α para cierto

parámetro θ .
Cuando hablamos de error al utilizar IC nos referimos al error máximo que

podemos cometer al tomar como verdadero valor del parámetro el centro del
intervalo considerando cierto que el parámetro pertenece al intervalo.
Por tanto, el error es la mitad de la amplitud del IC, es decir, si el intervalo de

b−a
E=
confianza tiene la forma
[ a, b ] , el error tomará la forma 2 .
En general, la expresión del error dependerá del tamaño de la muestra y de algún

parámetro adicional que utilicemos.
Esto último es muy útil cuando queremos calcular el tamaño mínimo de la muestra
para que el error no exceda cierta cantidad.
En general, el IC dependerá de la
distribución muestral del estadístico.
Por tanto, buscaremos valores de la abscisa Figura 1

en la distribución correspondiente, de forma
que el área encerrada por la función de
densidad entre esos valores coincida con el
nivel de confianza del intervalo.
Cuando las abscisas que buscamos son
− zα 2 zα 2
simétricas respecto de la media de la distribución en cuestión, un valor crítico es
el valor de la abscisa en una determinada distribución que deja a su derecha un
área igual a α 2 o a su izquierda un valor 1 − α 2 . Aquí, 1 − α es el nivel de
confianza.
* z
En general se representa por z o α 2 , si Z es el nombre de la v.a utilizada para
calcular el intervalo.
Normalmente, las distribuciones que utilizaremos están tabuladas y los valores

críticos pueden calcularse fácilmente utilizando las tablas adecuadas.
Ejemplo 2. Sea X una v.a normal de media µ (con valor desconocido)

y desviación típica σ = 2 . De una muestra aleatoria (con reemplazamiento) de 25
valores de X obtenemos una media muestral x = 10 . Halle el margen de error E
para un IC del 95% para µ y determine el correspondiente IC. Interprete el
resultado.
x1 , x2 ,..., x25
Solución. Las observaciones muestrales reales son el resultado de una
X 1 , X 2 ,..., X 25
muestra aleatoria de una distribución normal. Como X es normal, lo
es también X .
(
El margen de error, E , satisface la ecuación P µ − E ≤ X ≤ µ + E = 0.95 . )
Tipifiquemos la variable X :
 
 
 
 µ−E−µ X −µ µ+E−µ
P ≤ ≤
 σ σ σ 
 n 
12n3 n
P(µ − E ≤ X ≤ µ + E ) = 
 
Z 
 
−E E −E E 
= P ≤ Z ≤  = P ≤Z≤  = 0.95
 2 2  0.4 0.4 
 
 5 5 .
Estadística 1 215
Como X es normal, también lo es Z . Como Z es una v.a tipificada, de las tablas,

hallamos que
P(0 ≤ Z ≤ 1.96 ) =
0.95
= 0.475
P(− 1.96 ≤ Z ≤ 1.96) = 0.95 ⇔ 2 .
Es decir, 1.96 es el valor crítico de Z correspondiente a una probabilidad de 0.95.

E
= 1.96
Así, 0.4 ⇒ E = 0.4 × 1.96 = 0.784 .
El IC del 95% es [x − E , x + E ] = [10 − 0.784, 10 + 0.784] = [9.216, 10.784] .
Tenemos una confianza del 95% de que la media µ de X es algún valor de ese
intervalo, lo que significa que a medida que x toma todos los posibles valores de
X , el 95% de todos los intervalos [x − 0.784, x + 0.784] contendrán a µ . Aunque
las diferentes muestras aleatorias de tamaño 25 puedan dar valores diferentes de
x , el valor de E , para cada muestra, es el mismo.
Los intervalos pueden tener diferentes formas y obtenerse por diferentes métodos.
El objetivo de este tema es estudiar algunos de los IC más utilizados para estimar
los parámetros más comunes de una población, media proporción y desviación
típica. Daremos reglas para determinar el IC.
INTERVALO DE CONFIANZA PARA LAS MEDIAS
Sea X la v.a poblacional y su media µ una incógnita. Además, x el valor de la

media muestral obtenida de una muestra aleatoria de tamaño n . Un intervalo de
z *σ
E=
confianza para µ es [x − E , x + E ] y el error se calcula con n .
Los intervalos de confianza para µ requieren que la media muestral esté distribuida
aproximadamente como una normal.
REGLA 1 (Intervalo de confianza para µ cuando σ es conocida)

Requisitos: X tiene desviación típica σ conocida y X está aproximadamente
distribuida como una normal.
Sean: 1 − α = γ el nivel de confianza y x el valor obtenido de la media muestral X

de una muestra aleatoria de tamaño n . Entonces, se pueden aplicar los siguientes
pasos:
1. Hallar el valor crítico Z : se halla z* de la v.a normal tipificada Z en la que

γ
( )
P − z* ≤ Z ≤ z* = γ ⇔
( )
P 0 ≤ Z ≤ z* =
2
z *σ
E=
2. Calcular: n
3. Determinar el intervalo de confianza
Figura 2
Ejemplo 3. En un río se realizan mediciones para determinar la

concentración de zinc en el agua. En una muestra de mediciones de concentración
del Zn en 36 sitios diferentes dio como resultado una concentración promedio de
2,6 g ml . Si la desviación estándar poblacional es 0,3. Determine los IC del 95% y
99% para la concentración media de Zn en el río.
Solución.
La v.a X poblacional tiene media µ desconocida y desviación típica conocida

( σ = 0,3 ). Como la muestra tiene tamaño n = 36 ≥ 30 , entonces, X está
distribuida aproximadamente como una normal. Con el nivel de confianza del 95% y
teniendo en cuenta que la estimación puntual de µ nos da que x = 26 , entonces,
podemos aplicar la regla 1:
Estadística 1 217
P(− zα 2 ≤ Z ≤ zα 2 ) = 0,95 = 1 − α
1. Como el intervalo de confianza es del 95%, .
z =z
Por tanto, α = 0,5 y el valor crítico, α 2
*
, que deja un área de 0,025 a su
zα 2 = z * = 1,96
derecha es (se busca con una tabla o programa informático).
Nota: la determinación anterior es equivalente a proceder como se hizo en el

γ 0,95
P − z *
≤(Z ≤ z *
= γ ⇔ )
P 0 ≤ Z ≤ z* = =
2 2
( = 0,475 )
ejemplo 2: . Con una
tabla32, veremos igualmente que z = 1,96 .

*
z *σ 1,96 ⋅ 0,3
E= = = 0,098
2. El error es n 36 .
3. El IC sería [2.6 − 0.098, 2,6 + 0.098] = [2.50, 2.70] .
Por tanto, el intervalo del 95% es aquel para el cual la media poblacional está en el
intervalo 2.50 < µ < 2.70 . Así, un 95% de muestras que se hubieran realizado
aportarían una concentración media de Zn en el intervalo reportado.
Haga usted el mismo análisis para un IC del 99%. En ese caso 2.47 < µ < 2.73 .
¿Qué cree usted acerca del uso del IC del 95% y el 99%?
Antes de continuar convienen recordar la distribución t.
32
Se debe tener cuidado a la hora de usar las tablas porque para calcular lo mismo emplean diferentes formas.
Definición. Sea Z la v.a normal tipificada, y χ la v.a chi cuadrado con k grados
2
y χ son independientes. Entonces, la v.a

2
de libertad. Suponiendo que Z
Z
t=
χ2 k
se llama v.a t con k grados de libertad.
Observe la analogía de la distribución t
con la normal, pero se diferencia de ésta
en que es más dispersa. Cuanto mayor
es el grado de libertad de la distribución
t más se aproxima a la distribución
normal.
Figura 3
Teorema 1. Sea X v.a que tiene como media µ . Sea X la media muestral
correspondiente a muestras aleatorias de tamaño n , y S la correspondiente
X −µ
t=
desviación típica. Si X está normalmente distribuida, entonces la v.a S n
tiene distribución t con k − 1 grados de libertad.
REGLA 2 (Intervalo de confianza para µ cuando σ es desconocida)
Requisito: X distribuida aproximadamente como una normal.
Sean: γ el nivel de confianza y 1 2

x , x ,..., x
n los valores de la v.a X que se obtienen
de una muestra aleatoria de tamaño n . Primero, se calculan los estadísticos de la
x=
1
∑ xi s=
1
∑ (xi − x )2
muestra n y n −1 , luego se siguen los siguientes
pasos:
t * = tα 2
1. Hallar el valor crítico de t , , de la v.a t con n − 1 grados de libertad
γ
( ) ( )
P 0 ≤ t ≤ t* =
que satisfaga P − t ≤ t ≤ t = γ
* *
⇔ 2
t *s
E=
2. Calcular n
3. Determinar el IC
Figura 4
Estadística 1 219
Nota: la distribución t se necesita principalmente para muestras pequeñas pero

X debe ser aproximadamente normal.
Ejemplo 4. Los valores de temperatura determinados en siete sistemas

termodinámicos son los siguientes: 10.4, 9.6, 10.2, 10.2, 9.8, 10.0 y 9.8 oC.
Obtenga un IC del 95% para la media de todos los sistemas termodinámicos si se
supone una distribución aproximadamente normal.
Solución.
Se nos pide un IC para µ y σ es desconocida. X está distribuida

aproximadamente como una normal.
x = 10.2 x4 = 10.2 x5 = 9.8 x6 = 10.0 x7 = 9.8

Sean x1 = 10.4 , x2 = 9.6 , 3 , , , , . Si
1 n 1 7
x= ∑ i 7∑
n i=1
x =
i =1
xi = 10
calculamos los estadísticos: y
n 7
s=
1
∑ (xi − x )2 = 1 ∑ (xi − x )2 = 0.283
n − 1 i =1 7 − 1 i =1 , entonces, podemos aplicar la
regla 2:
1. El valor crítico de la v.a t con 6 grados de libertad que satisface

( )
P − t * ≤ t ≤ t * = 0.95 se busca en una tabla o programa informático. Como α = 0,5 ,
t * = tα 2
el valor crítico , que deja un área de 0,025 a su derecha es
t0.025 = 2,447 ≈ 2,45
.
(
0.95
)
P 0 ≤ t ≤ t* =
2
= 0.475
Equivalentemente, . Si buscamos en una tabla la
probabilidad correspondiente a 6 grados de libertad t ≈ 2.45 .
*
t *s 2.45 ⋅ 0.283
E= = = 0.26
2. El error, n 7
 t *s t *s 
 x − , x +  = [10 − 0.26, 10 + 0.26] = [9.74, 10.26]
3. El IC:  n n
El IC del 95% para la media de temperatura es 9.74 < µ < 10.26 .
INTERVALO DE CONFIANZA PARA LAS PROPORCIONES
La población se divide en dos grupos; uno de ellos, se llama exitoso. Sea p la

proporción de desconocida de éxitos en la población. El IC lo definimos:
[ pˆ − E , pˆ + E ] , donde p̂ es la proporción de éxitos en la muestra aleatoria.
REGLA 3 (Intervalo de confianza para la proporción poblacional p )
Requisito: el tamaño de la muestra es grande ( n ≥ 30 ).
Sean: γ el nivel de confianza y p̂ la proporción de éxitos que se obtienen en una

muestra aleatoria de tamaño n ≥ 30 . Se siguen los siguientes pasos:
*
1. Hallar, mediante una tabla o programa informático, el valor crítico z de la
v.a normal tipificada Z que satisface que ( )

P − z* ≤ Z ≤ z* = γ ⇔
γ
(
P 0 ≤ Z ≤ z* = ) 2
pˆ (1 − p )
E = z*
2. Calcular: n
3. Determinar el [ pˆ − E , pˆ + E ]
Ejemplo 5. En una muestra aleatoria de 1000 científicos de una

comunidad, el 60% prefiere aplicar una técnica experimental para medir con
fiabilidad la dureza de un material. Determine un IC para la proporción de todos los
científicos que prefieren el uso de la técnica experimental con un nivel de confianza
del 90%.
Estadística 1 221
Solución. El grupo de científicos se divide en los que desean aplicar la técnica y los
que no. La proporción p de éxitos en la población se desconoce. Como el tamaño
de la muestra es grande ( 1000 ≥ 30 ) y hacemos p = 0.60 , podemos aplicar la regla
ˆ
3:
1. Teniendo en cuenta que el nivel de significación es del 90%, buscamos el valor
(
P 0 ≤ Z ≤ z* =) 0.90
= 0.45
. En este caso z = 1.65
*
crítico que satisface 2
pˆ (1 − p ) 0.60 ⋅ (1 − 0.60)
E = z* = 1.65 ≈ 0.03
2. n 1000
3. [ pˆ − E , pˆ + E ] = [0.60 − 0.03, 0.60 + 0.03] = [0.57, 0.63]
El IC para la proporción de todos los científicos que prefieren el uso de la técnica

experimental con un nivel de confianza del 90% es 0.57 < p < 0.63 ¿Qué significa
esto?
INTERVALO DE CONFIANZA PARA LAS VARIANZAS
Las inferencias con relación a una varianza poblacional son de menor interés que las
anteriores. No obstante, en determinadas situaciones es necesaria su utilización.
Intervalo de confianza para σ cuando µ es desconocida

2
REGLA 4 (Intervalo de confianza para σ cuando µ es desconocida)

2
Requisito: X está aproximadamente distribuida como una normal.
γ : Nivel de confianza especificado. Suponga que los valores x1 , x2 ,..., xn de X se

obtienen de una muestra aleatoria de tamaño n . Se calculan primero los valores de
x=
1
∑ xi s2 =
1
∑ (xi − x )2
la muestra n y n −1 . Se siguen los pasos:
1. Hallar los χ valores críticos: con tablas o programa informático se hallan

2
los valores de a y b de la v.a chi cuadrado con n − 1 grados de libertad que

1− γ 1+ γ
(
P χ2 ≤ a = ) 2
(
, P χ2 ≤ b = )2
.
satisfacen
 (n − 1)s 2 (n − 1)s 2 
 b ,
 a 
2. Determinar el intervalo de confianza .
Intervalos de confianza para la desviación típica
 (n − 1)s 2 , (n − 1)s 2 
 
 b a 
Bibliografía

Mc Graw Hill, 2001.

Ed. Thomson. 2005.
Recomendaciones al estudio individual
Después de estudiar los apuntes se debe revisar en la

bibliografía recomendada ejemplos y problemas resueltos.
Posteriormente, se deben realizar los ejercicios propuestos
que aparecen a continuación.
Ejercicio 1. Calcula en intervalo de confianza a nivel 0.85 de una variable aleatoria

de media desconocida y desviación típica 25 si en una muestra aleatoria de 50
elementos hemos obtenido una media de 112. ¿Cuántos elementos debería tener la
muestra para que el error fuera menor o igual a 2,5?
Estadística 1 223
Ejercicio 2. En una muestra aleatoria de tamaño 10 de una población

normalmente distribuida se obtiene una media de 124 y una varianza de 21. Calcula
el intervalo de confianza del 90% para la media poblacional.
Ejercicio 3. En una muestra de 200 alumnos de segundo curso en una universidad

de Madrid el 35% afirmaron que pretendían trabajar de 16 a 20 horas semanales
para ganar dinero extra. Calcula el intervalo de confianza del 95% para la
proporción de todos los alumnos de ese curso que tiene las mismas pretensiones de
dedicación a un trabajo para ganar dinero.
Ejercicio 4. Una muestra aleatoria para los tipos de en los préstamos personales
cargados por un banco es de 12.8%, 12,2%, 13,4%, 11,9% y 13%. Considerando
que los tipos de interés están normalmente distribuidos con una desviación típica
del 0.9%, calcula en intervalo de confianza del 90% para la media de tipos de
interés.
Ejercicio 5. En una muestra aleatoria de 100 ordenadores, 92 cumplían las

especificaciones del fabricante. Calcula el intervalo de confianza del 99.5% para la
proporción de ordenadores que realmente cumplen las especificaciones del
fabricante.
Ejercicio 6. Se comprueba en una muestra de 20 pastillas de analgésicos el

contenido en paracetamol, obteniéndose una media de 22mg y una desviación típica
de 4mg. Encuentra un intervalo de confianza a nivel del 95% para la media de la
variable, suponiendo que la distribución de la variable en la población es normal.
Ejercicio 7. El intervalo de confianza al 95% para la media poblacional de una
variable aleatoria normalmente distribuida con varianza conocida es

[126.4,132.8]
.
Calcula un intervalo de confianza a nivel 98% para la media basado en la misma
muestra.
Ejercicio 8. Una muestra aleatoria de 28 valores de una variable aleatoria

normalmente distribuida tiene una desviación típica de 6. Calcula el intervalo de
confianza para la desviación típica poblacional a nivel 0.98.
Ejercicio 9. Se sabe que la distribución de puntuaciones en un test sigue una ley
normal con media 48 y desviación típica 10. Si extraemos 100 muestras de 25
individuos cada una ¿Entre qué dos valores se encontrará el 95% de las muestras
obtenidas?
Ejercicio 10. Se sospecha que el número de unidades que contiene cada dosis de
una vacuna no llega a las 10000 unidades que se indica en los envases. El
laboratorio que la fabrica afirma que ese es su contenido medio. Para comprobarlo,
se toman al azar 100 dosis y se determina el número de unidades de cada una,
obteniéndose una media de 9940 unidades y una desviación típica de 120 unidades.
Suponiendo que la distribución del número de unidades en cada dosis se distribuye
como una normal, ¿Qué podemos decir acerca de la información del laboratorio
para un nivel de confianza del 99%?
Ejercicio 11. Queremos analizar la desviación típica del nivel de benzocaína por
cápsula en cierto medicamento. Su distribución sigue una normal. Tomamos una
muestra de 16 cápsulas y nos da un contenido medio de benzocaína de 2.8
unidades por gramo y una desviación de 0.4 unidades por gramo. Obtén los
intervalos de confianza par ala desviación típica de niveles 95% y 99%.
Ejercicio 12. ¿Cuál debe ser el tamaño de una muestra para obtener un intervalo
de confianza del 95% para una proporción poblacional con un margen de error
máximo de 0.04?
Ejercicio 13. Con una determinada encuesta se quiere determinar un intervalo de

confianza del 95% para la proporción de ciudadanos a favor del carné por puntos
con un margen de error menor que el 2%. ¿Cuál debe ser el tamaño de la muestra?
Estadística 1 225
12. CONTRASTE DE HIPÓTESIS
Hemos visto que un parámetro poblacional se puede determinar a partir de una

muestra mediante un número (estimación puntual) y un intervalo completo de
valores posibles (IC). Suele ocurrir que en ocasiones no interesa estimar un
parámetro, sino más bien la determinación de un procedimiento de decisión que se
base en los datos que pueda producir una conclusión acerca de algún sistema
científico. Entonces, se debe decidir cuál de dos afirmaciones de contradictorias
acerca de un parámetro es correcta. Para hacer esto se llevan a cabo pruebas de
hipótesis o contraste de hipótesis estadísticas.
Una hipótesis estadística es una afirmación o conjetura con respecto a una o

más poblaciones. Su veracidad o falsedad nunca se sabe con absoluta certidumbre,
salvo que se haga la prueba con toda la población. Esto último no tiene sentido
práctico en muchas situaciones. Por eso se toma una muestra aleatoria de la
población y se utilizan los datos contenidos en la muestra para proporcionar
evidencia que apoye o no la hipótesis. La evidencia de la muestra que es
inconsistente con la hipótesis que se establece conduce al rechazo de ésta; la
evidencia que la apoya, a su aceptación.
El diseño de un procedimiento de decisión se debe hacer con la idea en la mente de

la probabilidad de una conclusión errónea. La aceptación de una hipótesis implica
que los datos no dan suficiente evidencia para rechazarla. Por otra parte, el rechazo
implica que la evidencia muestral la refuta, es decir, hay una pequeña probabilidad
de obtener la información muestral observada cuando, de hecho, la hipótesis es
verdadera.
Para la realización de un contraste se utiliza un estadístico cuya distribución en el

muestreo se conoce si la hipótesis que hemos hecho es verdadera. Al extraer la
muestra, el estadístico toma un cierto valor que nos puede llevar a sospechar que la
hipótesis no es razonable y debe ser rechazada, o contrariamente, puede
considerarse justificación de la hipótesis. Sin embargo, tanto en un caso como en
otro podemos equivocarnos, esto es, podemos rechazar una hipótesis siendo
verdadera o bien aceptarla siendo falsa.
Existen test de hipótesis paramétricos, en los que las hipótesis que consideramos
hacen referencia a parámetros de la población y test no paramétricos, donde la
hipótesis hace referencia a la distribución de determinada población. Presentamos
los test paramétricos.
CONCEPTOS PREVIOS
Hipótesis nula e hipótesis alternativa
Los contrastes se caracterizan por la presencia de una hipótesis sobre la distribución

H
poblacional a la que llamaremos hipótesis nula ( 0 ), que queremos contrastar
con otra hipótesis que agrupa todos los casos en los que no se verifica la hipótesis
Ha
nula, esta otra hipótesis se denomina hipótesis alternativa ( ). Ambas
hipótesis son complementarias.
H
En ocasiones a a se le denomina hipótesis del investigador pues refleja la
aseveración que a éste le gustaría validar. La palabra nula significa de ningún valor,
H
efecto o consecuencia. Por tanto, 0 da una idea que debe estar asociada a la idea
de ningún cambio, ninguna mejoría o diferencia, etcétera con respecto a la opinión
actual.
H0
Por lo general, los contrastes de hipótesis no tiene un carácter imparcial frene a
Ha
y , en general no se trata de ver, a la luz de la muestra, cual de ambas hipótesis
H
es más verosímil, en realidad se favorece a 0 y se intenta descubrir si los datos
obtenidos por la muestra dan evidencias suficientes para rechazarla, en cuyo caso
se aceptaría la hipótesis alternativa.
Hipótesis simples y compuestas
Una hipótesis simple es aquella que determina totalmente la distribución

poblacional, hacen referencia a un único posible valor para el parámetro (en test
paramétricos) o a una única función de distribución (en test no paramétricos). Una
hipótesis compuesta es aquella en la que se hace referencia a más de un valor
posible para el parámetro o a más de una función de distribución para la población.
Supongamos que θ es el parámetro cuyo valor queremos contrastar y sea Θ el

conjunto de todos los posibles valores que puede tomar. La forma que tomaría una
hipótesis
Estadística 1 227
H 0 : θ = θ0

H : θ = θ1 Θ = {θ 0 ,θ1}
Simple sería:  a y en este caso .
 H 0 : θ ≤ θ0

H : θ > θ 0 θ ,θ 0 ∈ Θ
Compuesta podría ser:  a , .
En este test las hipótesis son unilaterales, es decir de la forma

θ < θi ó θ ≥ θi .
Ambos tipos de hipótesis se pueden combinar en un mismo test, por ejemplo que la
hipótesis nula sea simple y la alternativa compuesta.
Ejemplo 1.
 H 0 : θ = θ0

H a : θ ≠ θ0 ,
θ ,θ0 ∈ Θ = [− 3,9] .
En este test la hipótesis alternativa además de ser compuesta es bilateral es decir
de la forma
θ ≠ θ i ⇔ θ > θi ∨ θ < θi .
Observación: Podemos dividir el espacio de parámetros Θ en dos conjuntos

Θ0
disjuntos: , el conjunto de valores del parámetro que verifican la hipótesis nula y
Θ1 , el conjunto de parámetros que verifican la hipótesis alternativa. De este modo
un test de hipótesis puede representarse de la forma:
H 0 : θ ∈ Θ0

 H a : θ ∈ Θ1
Clasificación de los resultados de un test
El siguiente cuadro muestra las diferentes situaciones que nos podemos encontrar a
la hora de realizar un test de hipótesis:
Lo que puede pasar
H0 H0
Cierta Falsa
H0 ERROR DE TIPO I CORRECTO

Rechazar
Resultado
del test
H0 CORRECTO ERROR DE TIPO II
Aceptar
Tabla 1
Error de tipo I es el que se comete cuando se rechaza la hipótesis nula siendo

cierta.
Error de tipo II es el que se comete cuando se acepta la hipótesis nula siendo

falsa.
Los mejores tests son aquellos en los que la probabilidad de cometer alguno de
estos errores es mínima.
En general, cuando se disminuye la probabilidad de uno de los errores, se aumenta

la del otro. No es posible minimizar ambos errores al mismo tiempo.
Diseño general de un test de hipótesis
Tipos de test
H0 Ha
Sea X una población donde consideramos hipótesis nula y la hipótesis
x1 , x2, ..., xn
alternativa. Sea una muestra aleatoria simple. El resultado del test será
H0
aceptar o rechazar .
Un test No aleatorizado es cualquier partición del espacio muestral en dos

c
regiones C y su complementario C que llamaremos respectivamente región
c
( )
crítica (C ) y región de aceptación C , de modo que si 1 2 ,
x , x ..., xn ∈ C
se
rechaza
H0
y si
(x , x
1 2, ..., xn )∈ C c
se acepta
H0
.
Estadística 1 229
Un test aleatorizado consiste en dar una función del espacio muestral

ψ : X → [ 0,1]
(población X ) en el intervalo [0,1] , a la que llamaremos función
ψ ( x1 , x2 ,..., xn )
crítica del test. En este caso será la probabilidad de rechazar la
H0 x1 , x2 ,...xn
hipótesis nula cuando es la muestra.
Un ejemplo de funcionamiento de una función crítica sería:
1 si ( x1 , x2 ,..., xn ) ∈ C

ψ ( x1 , x2 ,..., xn ) = γ si ( x1 , x2 ,..., xn ) ∈ C '

0 si ( x1 , x2 ,..., xn ) ∈ ( C ∪ C ')
c
En este caso C ' es un espacio intermedio, y en el caso de que la muestra esté en él

se hace un sorteo, por ejemplo lanzar una moneda cargada, con probabilidad de
cara igual a γ , si sale cara se rechaza 0 y en caso contrario se acepta.

H
Observa que podríamos considerar los test no aleatorizados como casos particulares
de un test aleatorizado tomando la siguiente función crítica:
1 si ( x1 , x2 ,..., xn ) ∈ C
ψ ( x1 , x2 ,..., xn ) = 
0 si ( x1 , x2 ,..., xn ) ∈ C
c
Nosotros sólo estudiaremos test no aleatorizados.
Estadístico de contraste
Después de haber determinado la hipótesis nula y alternativa, y haber tomado una

muestra nos ayudaremos de determinados estadísticos sobre la muestra para
decidir la pertenencia o no de la misma a la región crítica. El estadístico que
elegimos para cada contraste lo denominaremos estadístico de contraste.
De esta forma si T es el estadístico de contraste, la región crítica podría tomar la
forma:
{
C = (x , x ..., x ) ∈ X n , T (x , x ..., x ) ≤ c ∈ R
1 2, n 1 2, n } o definida a partir de cualquier
otra condición del estadístico sobre la muestra.
Diseño de un test
Para diseñar el mejor test para realizar un contraste se sigue el siguiente

procedimiento:
1. Se determina una cota superior a la probabilidad de cometer el error de tipo

H0
I (Rechazar siendo cierta). A esta cota la llamaremos nivel de
significación del test:

P ( Error de tipo I ) = P ( rechazar H 0 siendo cierta ) ≤ α ∈ [ 0,1] .
2. Desechar todos los test cuya probabilidad de cometer el error de tipo I sea
mayor que el nivel de significación.
3. Del resto de test nos quedaremos con aquel cuyo error de tipo II sea menor.
Observaciones:
Las hipótesis no son intercambiables: Es fundamental fijar de antemano quién es la

H0 Ha
hipótesis nula y quién la alternativa .
El nivel de significación que tomemos marcará la imparcialidad del test con respecto
a la hipótesis nula. En general α toma valores bastante pequeños
( α = 0.001, 0.01, 0.05 ).
Función de potencia, nivel de significación y tamaño de un test
H0 Ha
Para contrastar la hipótesis frente a , se utiliza la función de potencia de
un test, la cual es la función que va del espacio de parámetros Θ al intervalo

[ 0,1] ,
β : Θ → [ 0,1] : θ → β (θ ) β (θ )
, donde es la probabilidad de rechazar la hipótesis
nula siendo θ el verdadero valor del parámetro.
β (θ ) = P (θ ∈ C )
En los test no aleatorizados .
α ∈ [ 0,1]
Diremos que un test paramétrico tiene nivel de significación si
β (θ ) ≤ α ∀θ ∈ Θ0
.
Estadística 1 231
Se llama tamaño de un test al supremo de los valores de la función de potencia

sup β (θ ) ≡ Tamaño del test =β
en el conjunto de los posibles parámetros θ ∈Θ
Observaciones:
Si θ verifica a y es el verdadero valor del parámetro, se verificará que:

H

β (θ ) = P (θ ∈ C ) = 1 − P (θ ∈ C c ) = 1 − P ( error de tipo II )
.
P ( error de tipo II ) = 1 − β (θ )
Por tanto, .
Es decir, minimizar la probabilidad de error de tipo II habiendo fijado un

nivel de significación, equivale a maximizar la función de potencia.
Por tanto, para elegir un test lo que se hace es tomar aquellos cuyo tamaño
sea igual a α (nivel de significación) y de éstos elegir el que tenga
uniformemente más potencia, es decir cuya función de potencia sea mayor en
los valores del parámetro de la hipótesis alternativa.
Definidos el nivel de significación y la potencia de un test podemos recoger

sus significados en la tabla 1:
Lo que puede pasar
H0 H0
Cierta Falsa
ERROR DE TIPO I CORRECTO

Rechazar
H0
P ( Rechazar H0 / H0 cierta ) = α P ( aceptar H0 / H0 cierta ) = 1 − α
Resultado
del test
CORRECTO ERROR DE TIPO II
Aceptar
H0
P ( No aceptar H0 / H0 falsa ) = 1 − β P ( No rechazar H0 / H0 falsa ) = β
Tabla 2
CONTRASTE DE HIPÓTESIS PARA LA MEDIA POBLACIONAL
Sea X la v.a poblacional con media µ X y desviación típica σ X .
En los contrastes para la media poblacional, como estadístico, utilizamos la media

muestral tipificada. Habíamos visto que la distribución de la media muestral,
conocida
σ X y verificándose las condiciones del teorema central del límite, era
( )
X ≡ N µ X , σ X n . Por tanto, si utilizamos la media muestral tipificada como
X − µX
Z= ≡ N (0,1)
estadístico, tendremos que: σ X n .
Cuando se desconoce
σ X , la media muestral con ciertos ajustes se distribuye según
X − µX
≡ tn −1
una T- de student con n − 1 grados de libertad: S/ n ; siendo
n
1
S2 = ∑ ( X i − X )2
n − 1 i =1 la varianza muestral, X la media muestral, n el tamaño de
la muestra y
µ X la media poblacional. En este caso ya estamos utilizando un el
X − µX
T= ≡ tn −1
estadístico tipificado S/ n .
Regla 1. (Contraste de hipótesis del valor P para µ siendo σ conocida)
Requisitos: X tiene desviación típica conocida σ , y la media muestral X está

aproximadamente distribuida como una normal.
Sea α el nivel de significación para el contraste y supongamos que un valor x de

la media muestral X se ha obtenido en una muestra aleatoria de tamaño n .
Hacemos el siguiente procedimiento:
H 0 : µ X = µ0 Ha
1. Plantear la hipótesis nula y la alternativa .
Estadística 1 233
H0
2. Cálculo del estadístico de contraste: Si es cierta; entonces,
 σ 
X ≡ N  µ0 , X 
X ≡ N ( µ0 , σ X )  n  , es decir que tipificando
y por tanto
X − µ0
Z= ≡ N ( 0,1)
σX
obtendríamos que la media muestral tipificada n es el
estadístico de contraste. Su valor, sobre la muestra bajo la hipótesis nula, es
x − µ0
z=
σX
n ; donde hemos considerado a µ0 el valor de la media poblacional
1 n
x = ∑ xi
y n i =1 .
3. Determinación del valor de P : Con una tabla normal tipificada o un

programa informático hallamos el valor de P del contraste correspondiente
Ha
a :
Para H a : µ X < µ0 , el valor de P es P(Z ≤ z ) .
Para H a : µ X > µ0 , el valor de P es P(Z ≥ z ) .
H a : µ X ≠ µ0 P P(Z ≤ − z ) + P(Z ≥ z )
Para , el valor de es o
2 P(Z ≥ z )
equivalentemente .
4. Establecer una conclusión: Si el valor P ≤ α , entonces, z y x son
estadísticamente representativo a nivel α , y rechazamos

H0
. Si el valor
P > α , entonces ni z ni x son estadísticamente representativo a nivel α ,
H0
y no rechazamos .
Una versión alternativa de la regla 1 sería:
Regla 1a. (Región crítica, contraste de hipótesis para µ y σ conocida)
Hasta el paso 2, todo es similar a la regla 1.

3. Determinación de la región crítica: Con una tabla normal tipificada o un
Ha
programa informático hallamos la región crítica correspondiente a y
α para:
H a : µ X < µ0 z ≤ zα 2
, la región crítica está formada por los valores , donde
zα 2 < 0 P(Z ≤ zα 2 ) = α
es valor que satisface .
z ≥ zα 2
H a : µ X > µ0 , la región crítica está formada por los valores , donde
zα 2 > 0 P(Z ≥ zα 2 ) = α
z ≤ − zα 2
H a : µ X ≠ µ0 , la región crítica está formada por los valores o
z ≥ zα 2 zα 2 > 0
, donde es valor que satisface
P(Z ≤ − zα 2 ) + P(Z ≥ zα 2 ) = α P (Z ≥ zα 2 ) = α 2
o equivalentemente .
4. Establecer una conclusión: Si el valor de la muestra z del estadístico de

contraste, está en la región crítica, entonces z y x son estadísticamente
significativo al nivel α , y rechazamos 0 . Si z no está en la región crítica,

H
entonces z y x no son estadísticamente significativos al nivel α , y no
H0
rechazamos .
La figura 1, nos muestra, para el caso de un contraste bilateral, las regiones de

rechazo o de aceptación de la hipótesis nula.
C c = {( x1 , x2 ,..., xn ) , − zα / 2 ≤ z ≤ zα / 2 }
Para el contraste bilateral con nivel de significación α,
y siendo zα / 2 tal que:
α
P ( Z ≥ zα / 2 ) = P ( − zα / 2 ≤ z ≤ zα / 2 ) = 1 −
2
la región crítica es C y la de aceptación Cc
Región crítica
C = {( x1 , x2 ,..., xn ) , z < − zα / 2 ∨ z > zα / 2 } = {( x1 , x2 ,..., xn ) , z < − zα / 2 } ∪ {( x1 , x2 ,..., xn ) , z > zα / 2 }
Figura 1
Estadística 1 235
Regla 2. (Valor de P para contraste de hipótesis para µ siendo σ

desconocida)
Requisito: La media muestral X está aproximadamente distribuida como una

normal.
Sea α el nivel de significación para el contraste y supongamos que los valores

x1 , x2 , ..., xn X n.
de se obtienen de una muestra aleatoria de tamaño
1 n
x= ∑ xi
n i =1
Primeramente, calculamos los estadísticos de la muestra: y
s=
1
∑ (xi − x )2
n −1 . Hacemos el siguiente procedimiento:
H 0 : µ X = µ0 Ha
X ≡ N ( µ0 , σ X )
2. Cálculo del estadístico de contraste: Si de desviación típica
X − µ0
T= ≡ tn −1
H S/ n
desconocida y 0 es cierta; entonces, , es decir el
estimador del contraste bajo la hipótesis nula se distribuye como una t de
student con n − 1 grados de libertad. Su valor, sobre la muestra bajo la
x − µ0
t= ≡ tn −1
hipótesis nula, es s/ n ; donde hemos considerado a
µ0 el valor
de la media poblacional.
3. Determinación del valor de P : Con una tabla de t o un programa

informático, para la v.a t con n − 1 grados de libertad, hallamos el valor de
P del contraste correspondiente a H a :
Para H a : µ X < µ0 , el valor de P es P(t ≤ t ) .

ˆ
Para H a : µ X > µ0 , el valor de P es P(t ≥ t ) .

ˆ
Para H a : µ X ≠ µ0
, el valor de P es
( ) (
P t ≤ − tˆ + P t ≥ tˆ ) o
equivalentemente
(
2 P t ≥ tˆ ).
4. Establecer una conclusión: Si el valor P ≤ α , entonces, tˆ y x son

H0
. Si el valor
P > α , entonces ni tˆ ni x son estadísticamente representativo a nivel α ,
H0
y no rechazamos .
Regla 2a. (Región crítica, contraste de hipótesis para µ y σ desconocida)

Ha
α para:
H a : µ X < µ0 t ≤ tα 2
tα 2 < 0 P (t ≤ tα 2 ) = α
H a : µ X > µ0 t ≥ tα 2
tα 2 > 0 P (t ≥ tα 2 ) = α
H a : µ X ≠ µ0
, la región crítica está formada por los valores de tˆ , donde
tα 2 > 0 P(t ≤ −tα 2 ) + P(t ≥ tα 2 ) = α
es valor que satisface o
P(t ≥ tα 2 ) = α 2
equivalentemente .
4. Establecer una conclusión: Si el valor de la muestra tˆ , del estadístico de

contraste, está en la región crítica, entonces tˆ y x son estadísticamente
significativo al nivel α , y rechazamos 0 . Si tˆ no está en la región crítica,

H
entonces tˆ y x no son estadísticamente significativo al nivel α , y no

H0
rechazamos .
Estadística 1 237
La figura 2, nos muestra, para el caso de un contraste bilateral, las regiones de

rechazo o de aceptación de la hipótesis nula.
C c = {( x1 , x2 ,..., xn ) , − tα / 2 ≤ t ≤ tα / 2 }
Para el contraste bilateral con nivel de significación α,
y siendo tα / 2 tal que:
α
P ( tn −1 ≥ tα / 2 ) = P ( −tα / 2 ≤ tn−1 ≤ tα / 2 ) = 1 − α
2
la región crítica es C y la de aceptación Cc
Región crítica
C = {( x1 , x2 ,..., xn ) , t < −tα / 2 ∨ t > tα / 2 } = {( x1 , x2 ,..., xn ) , t < −tα / 2 } ∪ {( x1 , x2 ,..., xn ) , t > tα / 2 }
Figura 2
CONTRASTE DE HIPÓTESIS PARA LAS PROPORCIONES
Como hemos visto en temas anteriores un buen estimador para la proporción

poblacional p era la proporción muestral P̂ y que su distribución, si se verificaban
 p (1 − p ) 
Pˆ ≡ N  p, 
 n 
las condiciones del teorema central del límite, era   ; siendo p
la proporción poblacional y n el tamaño de la muestra. Tipificando el estimador
anterior obtendremos el estimador de contraste para la proporción muestral
Pˆ − p
Z= ≡ N ( 0,1)
p (1 − p )
n .
Regla 3. (Contraste de hipótesis del valor P para µ siendo σ conocida)
Requisito: El tamaño de la muestral tiene que ser grande n ≥ 30 .

Sea α el nivel de significación para el contraste y supongamos que p̂ es la
proporción de éxitos obtenidos en un muestreo aleatorio de tamaño n ≥ 30 .
Hacemos el siguiente procedimiento:
H 0 : p = p0 Ha
H0
2. Cálculo del estadístico de contraste: Si es cierta; entonces, el estadístico
Pˆ − p0
Z= ≡ N ( 0,1)
p0 (1 − p0 )
de contraste es la proporción muestral tipificada . n
Su valor, sobre la muestra bajo la hipótesis nula, es z, es decir
Pˆ − p0
pˆ =
p0 (1 − p0 )
n .

Ha
a :
, el valor de P es P (Z ≤ z ) .
H a : p < p0
Para
Para H a : p > p0 , el valor de P es P(Z ≥ z ) .
H a : p ≠ p0 P P(Z ≤ − z ) + P(Z ≥ z )
Para , el valor de es o
2 P(Z ≥ z )
equivalentemente .
4. Establecer una conclusión: Si el valor P ≤α , entonces, z es

H0
. Si el valor
P > α , entonces ni z ni p̂ son estadísticamente representativo a nivel α ,
H0
y no rechazamos .
Regla 3a. (Región crítica, contraste de hipótesis para µ y σ conocida)

Estadística 1 239

Ha
α para:
H a : µ X < µ0 z ≤ zα 2
zα 2 < 0 P(Z ≤ zα 2 ) = α
z ≥ zα 2
H a : µ X > µ0 , la región crítica está formada por los valores , donde
zα 2 > 0 P(Z ≥ zα 2 ) = α
z ≤ − zα 2
H a : µ X ≠ µ0 , la región crítica está formada por los valores o
z ≥ zα 2 zα 2 > 0
P(Z ≤ − zα 2 ) + P(Z ≥ zα 2 ) = α P (Z ≥ zα 2 ) = α 2
4. Establecer una conclusión: Si el valor de la muestra z de la proporción

muestral, p̂ , está en la región crítica, entonces z y p̂ son
estadísticamente significativo al nivel α H0

, y rechazamos . Si z no está en
la región crítica, entonces z y p̂ no son estadísticamente significativo al
nivel α , y no rechazamos 0 .
H
CONTRASTE DE HIPÓTESIS PARA LAS VARIANZAS
Sea X una población que se distribuye como una normal de media y varianza
x1 , x2 ,...xn
desconocida y sea una muestra aleatoria simple sobre la población.
Sabemos que un buen estimador para la varianza poblacional es la varianza

n
∑(X i − X )2
S2 = i =1
muestral n −1 , donde X es la media muestral, y que su distribución,

siempre que el tamaño de la muestra sea suficientemente grande o que la muestra
perteneciera a una población distribuida como una normal, es una Chi cuadrado con
( n − 1) S 2 ≡ χ 2
n −1
n − 1 grados de libertad, es decir σX 2
.
Por tanto, el estadístico de contraste que utilizamos en esta ocasión es:
( n − 1) S 2 ≡ χ 2
n −1
σX2
.
Regla 4. (Contraste de hipótesis del valor P para σ

2
siendo µ
desconocida)
Requisito: X está aproximadamente distribuida como una normal.

x1 , x2 , ..., xn X n.
de se obtienen de una muestra aleatoria de tamaño
1 n
x= ∑ xi
n i =1
Primeramente, calculamos los estadísticos de la muestra: y
s2 =
1
∑ (xi − x )2
n −1 . Hacemos el siguiente procedimiento:
H 0 : σ X2 = σ 02 Ha
H0
( n − 1) S 2 ≡ χ 2
n −1
de contraste es 0 σ 2
, el cual es una v.a chi cuadrado con n − 1
grados de libertad. Su valor, sobre la muestra bajo la hipótesis nula, es
χˆ n2−1 =
(n − 1)s 2
σ 02 .
3. Determinación del valor de P : Con una tabla de chi cuadrado con n − 1

grados de libertad, o un programa informático, hallamos el valor de P del
Ha
contraste correspondiente a :
Para H a : σ X < σ 0 , el valor de P es P(χ n −1 ≤ χ n −1 ) .

2 2 2
ˆ2
Para H a : σ X > σ 0 , el valor de P es P(χ n −1 ≥ χ n −1 ) .

2 2 2
ˆ2
(
2 P χ n2−1 ≤ χˆ n2−1 , s 2 < σ 02 )
Para
H a : σ X2 ≠ σ 02
, el valor de P

es 
(
2 P χ n2−1 ≥ χˆ n2−1 , s 2 > σ 02
.
)
Estadística 1 241
χˆ 2
4. Establecer una conclusión: Si el valor P ≤ α , entonces, n −1 y s son
2

H0
. Si el valor
P > α , entonces ni χˆ n −1 ni s 2 son estadísticamente representativo a nivel
2
α , y no rechazamos
H0
.
Regla 4a. (Región crítica, contraste de hipótesis para σ siendo µ

2
desconocida)
3. Determinación de la región crítica: Con una tabla de chi cuadrado con n − 1

grados de libertad, o un programa informático, hallamos la región crítica
y α para:
Ha
correspondiente a
χˆ 2 ≤ χ1−α 2
H a : σ X < σ 0 , la región crítica está formada por los valores n −1
2 2
,
χ1−α 2 < 0 P(χ n −1 ≤ χˆ n −1 ) = α
2 2
donde es valor que satisface .
H a : σ X2 > σ 02 χˆ n2−1 ≥ χ1−α 2

, la región crítica está formada por los valores ,
χ1−α 2 > 0 P (χ 2
n −1 ≥ χˆ 2
n −1 )= α .
donde es valor que satisface
χˆ 2 ≤ χ1−α 2
H a : σ X ≠ σ 0 , la región crítica está formada por los valores n −1
2 2
o
χˆ n −1 ≥ χα 2
2
χ
, donde 1−α 2
>0
es valor que satisface
P χ n −1 ≤ χ1−α = α 2
2
y
( )
χα 2 > 0 P (χ n2−1 ≤ χˆ n2−1 ) = α 2
4. Establecer una conclusión: Si el valor de la muestra

χˆ n2−1 del estadístico de
contraste está en la región crítica, entonces

χˆ n2−1 y s 2 son estadísticamente
significativo al nivel α , y rechazamos

H0 χˆ 2
. Si n −1 no está en la región
χˆ 2
crítica, entonces n −1 y s no son estadísticamente significativo al nivel α ,
2
H0
y no rechazamos .
Ejercicio 1. Conocemos que las alturas de los individuos de una ciudad se

distribuyen según una normal. Deseamos contrastar con un nivel de significación
α = 0.05 si la altura media es diferente de 174 cm , para ello seleccionamos una
muestra de tamaño 25 obteniendo que x = 170cm y que la desviación típica
muestral toma el valor de s = 10cm . Determina qué tipo de contraste vamos a
realizar, su región crítica y si finalmente rechazamos o no la hipótesis nula.
Ejercicio 2. Conocemos que las alturas de los individuos de una ciudad se

distribuyen según una normal. Deseamos contrastar con un nivel de significación
α = 0.05 si la altura media es menor de 174 cm , para ello seleccionamos una
muestra de tamaño 25 obteniendo que x = 170cm y que la desviación típica
muestral toma el valor de s = 10cm . Determina qué tipo de contraste vamos a
realizar, su región crítica y si finalmente rechazamos o no la hipótesis nula.
Ejercicio 3. La vida útil de una pila de 1,5 voltios es una variable aleatoria
normalmente distribuida con media 40 horas y desviación típica 4 horas. Se
introduce un nuevo compuesto químico para que la producción de pilas sea más
eficaz. La empresa quiere saber si la vida útil de las pilas se verá afectada por este
cambio. Para ello se asume que la desviación típica se mantiene en 4 horas y se
toma una muestra de 100 pilas para realizar el contraste, obteniéndose una vida útil
media de 39.1 horas.
d. ¿Se puede decir que la vida media de las pilas no ha cambiado con
un grado de confianza del 95%? ¿Y del 99%?
e. ¿Qué nivel de confianza estaríamos utilizando si rechazamos la

hipótesis nula cuando el valor del estadístico bajo la hipótesis nula no
pertenece al intervalo
[39.5, 40,5] ?
Estadística 1 243
Ejercicio 4. Una importante firma de coches ha diseñado un nuevo sistema

parachoques que se supone disminuirá el riesgo de los daños en colisiones a
velocidades mayores de 10km/h. En un contraste a 12 coches, la velocidad media
para esa disminución fue de 8Km/h con una desviación típica muestral de 1,5Km/h.
a. Realiza el contraste apropiado sobre la afirmación a un nivel de

significación 0.05?
b. ¿Hay evidencia significativa para rechazar la afirmación de que a

velocidades de hasta 10Km/h el riesgo de colisión disminuye?
Ejercicio 5. En una muestra aleatoria de 125 consumidores de cerveza, 68

afirmaron que distinguen sin dificultad la cerveza sin alcohol de la normal. Se quiere
estudiar si el 50% de los consumidores de cerveza distinguen entre sin y normal,
contra la alternativa de que ese porcentaje es bajo con un nivel de significación de
0.05.
a. ¿Hay evidencias estadísticas para rechazar la hipótesis nula?
b. ¿Y si consideramos la hipótesis alternativa contraria?
c. Sin realizar el contraste bilateral, ¿podrías prever el resultado?
Ejercicio 6. Una noticia del periódico afirma que en ninguna facultad el número de
los alumnos becados es mayor o igual al 50%. En la facultad de bellas artes afirman
que en su facultad el número de alumnos becados si es mayor o igual al de la
mitad. Para refutar la afirmación de la universidad se toma una muestra aleatoria de
25 alumnos y se comprueba que 17 de ellos están becados.
a. Realiza el contraste apropiado e indica si la afirmación de la

universidad se puede refutar con un nivel de significación 0.05.
b. Es el valor del estadístico significativo a un nivel 0.01. En caso

contrario que tamaño muestral necesitaríamos para que lo fuera.
Justifica tu respuesta.
Ejercicio 7. Las notas de álgebra de una universidad se distribuyen normalmente

con media 73 y desviación típica 9. Se introducen algunos cambios en la docencia
para reducir la variación y se quiere hacer un estudio de su efectividad. Se toma
una muestra aleatoria de 51 alumnos que siguen el nuevo programa y se calcula
una desviación típica de 7.4.
a. Realiza el contraste que consideres más oportuno para demostrar
que el nuevo programa funciona, es decir que la desviación típica ha
disminuido, con un nivel de significación de 0.05
b. ¿El resultado sigue siendo el mismo a un nivel de significación de

0.01?
Ejercicio 8. Las regulaciones del mercado de agua mineral exigen que cierta
botella contenga, en promedio, 333 mililitros con una desviación típica menor de 3
ml. Se toma una muestra de 50 botellas de cierta marca de agua, recogiéndose los
resultados de la capacidad obteniéndose una media de 333.682 ml y una desviación
típica de 3.069 ml. Realiza los contrastes que consideres oportuno sobre la siguiente
muestra para verificar que se cumplen las especificaciones propuestas por el
mercado.
Estadística 1 245
13. INFERENCIA ESTADÍSTICA DE DOS POBLACIONES
Hemos visto la inferencia por intervalos de confianza y por contraste de hipótesis.

Básicamente, los procedimientos se pueden resumir como indicamos a
continuación:
Permiten con la
Intervalos de confianza sacar
Muestras y Una Población

Inferencia por conclusiones
¿Cómo?
Estableciendo los
mediante
X

Fundamentos de la Inferencia Reglas  Pˆ
 Sˆ
la aplicación de 
GENERALIZACIÓN A DOS POBLACIONES
La idea es la misma con algunas diferencias que aparecen como consecuencia de

ser dos poblaciones.
Población 1
Permiten con la
Intervalos de confianza sacar
y
Muestras y
Inferencia por conclusiones
Población 2
¿Cómo?
Reglas
Estableciendo los mediante
 X −Y
ˆ
 PX − PˆY
Fundamentos de la Inferencia Sˆ 2 − Sˆ 2
 X Y
la aplicación de
Como observamos del esquema, las reglas, se expresan mediante las diferencias de
los datos muestrales.
INTERVALO DE CONFIANZA Y CONTRASTE DE HIPÓTESIS PARA LA

DIFERENCIA DE LA MEDIA POBLACIONAL
Sean X e Y las v.a poblacionales con media µ X y µY , y desviación típica σ X y

σ Y respectivamente. Para determinar el IC para µ X − µY , se toman muestras
aleatorias de tamaño m y n de las distribuciones X e Y respectivamente. Se
consideran los casos en los cuales se conocen o no a σ X y σ Y .
Ahora, µ X − µY es la media de la v.a X − Y . Por tanto, podemos utilizar los

procedimientos que conocemos para una v.a. Además, como X e Y son v.a
independientes, también lo son X e Y , y por ende la varianza de X − Y es la
σ X2 σ Y2
σ X2 −Y = +
suma de las varianzas de X e Y : m n . Aquí hemos supuesto que son
conocidas las varianzas, luego señalamos las generalidades si éstas no son
conocidas.
REGLA 1 (Intervalo de confianza para µ X − µY ; cuando σ X y σ Y son conocidas)
Requisitos: X e Y son v.a independientes con desviaciones típicas conocidas σ X

y σ Y respectivamente, y X e Y están aproximadamente distribuida como una
normal.
Sean: 1 − α = γ el nivel de confianza y los valores 1 2

x , x ,..., xm y , y ,..., yn
de X y 1 2
de Y se obtienen de muestras aleatorias de tamaño m y n , respectivamente.
1 1
x=
m
∑ xi y=
n
∑ yi
Primero, se calculan los valores muestrales e . Entonces,
se pueden aplicar los siguientes pasos:
4. Hallar el valor crítico Z : se halla z* de la v.a normal tipificada Z en la que

γ
P(0 ≤ Z ≤ z * ) =
(
P −z ≤Z ≤ z =γ ⇔
* *
) 2
Estadística 1 247
σ X2 σ Y2
E = z* +
5. Calcular: m n
6. Determinar el intervalo de confianza para µ X − µY : [x − y − E , x − y + E ]
Nota: Observe las analogías y diferencias que hay con la estimación por IC de una
población.
¿Qué ocurre cuando no se conocen las desviaciones típicas?
Cuando se desconocen
σ X y σ Y , podemos asumir dos situaciones: las desviaciones
típicas
1. son iguales
2. no son necesariamente iguales
Sp =
(m − 1)S X2 + (n − 1)SY2
Primera situación: el estadístico m+n−2 , donde
S X2 =
1
∑ (X i − X )2 SY2 = 1 ∑ (Yi − Y )2
m −1 y n −1 , se llama estimador conjunto de la
desviación típica común de X e Y . Si X e Y tienen v.a normales e
X − Y − (µ X − µY )
t=
1 1
Sp +
independientes, se puede demostrar que la v.a m n tiene una
distribución t con m + n − 2 grados de libertad.
REGLA 2 (Intervalo de confianza para µ X − µY ; cuando σ X y σY son

desconocidas pero iguales)
Requisitos: X e Y son v.a independientes, X e Y están aproximadamente

distribuida como una normal. Las desviaciones típicas σ X y σ Y son desconocidas
pero iguales.
x , x ,..., xm y , y ,..., yn
de X y 1 2
de Y se obtienen de muestras aleatorias de tamaño n y m , respectivamente.
1 1
x=
m
∑ xi y=
n
∑ yi
Primero, se calculan los valores muestrales , ,
(m − 1)s X2 + (n − 1)sY2
s =
2 1
∑ (xi − x )2 s =
2 1
∑ ( yi − y )2 sp =
X
m −1 ,
Y
n −1 y m+n−2 .
Entonces, se pueden aplicar los siguientes pasos:
t * = tα 2
4. Hallar el valor crítico de t , , de la v.a t con m + n − 2 grados de
(
libertad que satisfaga P − t ≤ t ≤ t = γ
* *
)
1 1
E = t *s p +
5. Calcular m n
6. Determinar el IC para µ X − µY : [x − y − E , x − y + E ]
Segunda situación: Si no se puede asumir que las desviaciones típicas

desconocidas sean iguales, tenemos dos posibilidades
Muestras pequeñas. En lugar de t, se puede usar la v.a

X − Y − (µ X − µY )
τ=
S X2 SY2
+
m n .
τ no tiene distribución t pero si m ≥ 5 y n ≥ 5 (son moderados), y X e Y se

distribuyen normalmente, entonces se puede aproximar por una v.a t . El números
de grados de libertad, lo determina el mayor número entero ( [k ] ) tal que [k ] ≤ k ,
2
 s X2 sY2 
 + 
k= m n
2 2
1  s X2  1  sY2 
  +  
valor que determinamos con
m − 1  m  n − 1 n .
Estadística 1 249
El IC lo calculamos como en la regla 2 pero el error se determina mediante

s X2 sY2
E = t* +
m n , siendo t * el valor de la v.a t con [k ] grados de libertad que
(
satisface que P − t ≤ t ≤ t = γ
* *
)
Muestras grandes ( m ≥ 30 y n ≥ 30 ): la v.a τ es aproximadamente la v.a
normal tipificada Z , y el error se calcula mediante la expresión
s X2 sY2
E = z* +
m n ; donde z * es el valor de Z que satisface que
( )
P − z* ≤ Z ≤ z* = γ .
Regla 3 (Contraste de hipótesis del valor P para µ X − µY cuando σ X y σ Y son

conocidas)
Requisitos: X e Y son v.a independientes con desviaciones típicas conocidas σ X

y σ Y respectivamente, y X e Y están aproximadamente distribuida como una
normal.
Sean: α el nivel de significación y x e y valores de X e Y que se obtienen de

muestras aleatorias de tamaño m y n , respectivamente. Entonces, se pueden
aplicar los siguientes pasos:
H 0 : µ X = µ0 Ha
H0
6. Cálculo del estadístico de contraste: Si es cierta; el estadístico de
X −Y
Z=
σ X2 σ Y2
+
contraste m n es aproximadamente la v.a normal tipificada cuyo
x−y
z=
σ X2 σ Y2
+
valor de contraste es m n .

Ha
a para:
H a : µ X − µY < 0 ⇔ H a : µ X < µY , el valor de P es P(Z ≤ z ) .

H a : µ X − µY < 0 ⇔ H a : µ X < µY , el valor de P es P(Z ≥ z ) .
P(Z ≤ − z ) + P(Z ≥ z )
H a : µ X − µY ≠ 0 ⇔ H a : µ X ≠ µY , el valor de P es
2 P(Z ≥ z )
8. Establecer una conclusión: Si el valor P ≤ α , entonces, z y x − y son
estadísticamente significativo al nivel α , y rechazamos

H0
. Si el valor
P > α , entonces ni z ni x − y son estadísticamente significativo al nivel α ,
H0
y no rechazamos .
Regla 3a. (Región crítica, contraste de hipótesis para µ X − µY cuando σ X y

σ Y son conocidas)

Ha
α para:
z ≤ zα 2
H a : µ X < µY , la región crítica está formada por los valores , donde
zα 2 < 0 P(Z ≤ zα 2 ) = α
z ≥ zα 2
H a : µ X > µY , la región crítica está formada por los valores , donde
zα 2 > 0 P(Z ≥ zα 2 ) = α
z ≤ − zα 2
H a : µ X ≠ µY , la región crítica está formada por los valores o
z ≥ zα 2 zα 2 > 0
P(Z ≤ − zα 2 ) + P(Z ≥ zα 2 ) = α P (Z ≥ zα 2 ) = α 2

contraste, está en la región crítica, entonces z y x−y son
estadísticamente significativos al nivel α , y rechazamos 0 . Si z no está

H
en la región crítica, entonces z y x−y no son estadísticamente
significativo al nivel α , y no rechazamos 0 .

H
Estadística 1 251
Regla 4. (Valor de P para contraste de hipótesis para µ X − µY siendo σ X y

σ Y desconocidas)
Requisitos: X e Y son v.a independientes con desviaciones típicas desconocidas

pero iguales. X e Y están aproximadamente distribuidas como una normal.

x1 , x2 , ..., xm y , y ,..., yn
de X e 1 2 de Y , se obtienen de una muestra aleatoria de
tamaño m y n respectivamente. Primeramente, calculamos los estadísticos de la
x=
1
∑
1
xi y = ∑ yi s X2 =
1
∑ (xi − x )2 sY2 = 1 ∑ ( yi − y )2
muestra: m , n , m −1 , n −1 y
sp =
(m − 1)s X2 + (n − 1)sY2
m+n−2 . Hacemos el siguiente procedimiento:
H 0 : µ X = µY Ha
H0
X −Y
t=
1 1
Sp +
de contraste m n , es aproximadamente la v.a. t con m + n − 2
x−y
tˆ =
1 1
sp +
grados de libertad cuyo valor del contraste es m n .
7. Determinación del valor de P : Con una tabla de t o un programa

informático, para la v.a t con m + n − 2 grados de libertad, hallamos el valor
H
de P del contraste correspondiente a a para:
H a : µ X < µY , el valor de P es P(t ≤ t ) .

ˆ
H a : µ X > µY , el valor de P es P(t ≥ t ) .

ˆ
H a : µ X ≠ µY , el valor de P es
(
P t ≤ − tˆ + P t ≥ tˆ ) ( ) o equivalentemente
(
2 P t ≥ tˆ ).
8. Establecer una conclusión: Si el valor P ≤ α , entonces, tˆ y x − y son
estadísticamente representativos a nivel α , y rechazamos

H0
. Si el valor
P > α , entonces ni tˆ ni x − y son estadísticamente representativos a nivel
α , y no rechazamos
H0
.
Regla 4a. (Región crítica, contraste de hipótesis para µ X − µY siendo σ X y

σ Y desconocidas)

Ha
α para:
t ≤ tα 2
H a : µ X < µY , la región crítica está formada por los valores , donde
tα 2 < 0 P (t ≤ tα 2 ) = α
t ≥ tα 2
H a : µ X > µY , la región crítica está formada por los valores , donde
tα 2 > 0 P (t ≥ tα 2 ) = α
H a : µ X ≠ µY , la región crítica está formada por los valores de tˆ , donde

tα 2 > 0 P(t ≤ −tα 2 ) + P(t ≥ tα 2 ) = α
es valor que satisface o
P(t ≥ tα 2 ) = α 2
equivalentemente .
6. Establecer una conclusión: Si el valor de la muestra tˆ , del estadístico de

contraste, está en la región crítica, entonces tˆ y x − y son estadísticamente
significativos al nivel α , y rechazamos 0 . Si tˆ no está en la región crítica,

H
entonces tˆ y x − y no son estadísticamente significativos al nivel α , y no

H0
rechazamos .
INTERVALOS DE CONFIANZA Y CONTRASTE DE HIPÓTESIS PARA LA

DIFERENCIA DE PROPORCIONES DE DOS POBLACIONES
En este caso, los éxitos se pueden representar por modelos de experimentos
binomiales independientes B (n1 , p1 ) y B (n2 , p2 ) , en las que los i (donde i = 1, 2 )

p
pruebas que forman los i − ésimos

ni
son las probabilidades de éxitos en las
Estadística 1 253
ni
experimentos. El conjunto de todas las posibles proporciones de éxitos en las (en
el cual i = 1,2 ) de cada experimento define la v.a i con media i y varianza

P̂ p
pi (1 − pi ) ni µ ˆ ˆ = p1 − p2
. Así, la media de P1 − P2 es P1 − P2
ˆ ˆ
y teniendo en cuenta la
pˆ1 (1 − pˆ1 ) pˆ 2 (1 − pˆ 2 )
σ2 = +
independencia, la varianza de P1 − P2 es
ˆ ˆ Pˆ1 − Pˆ2
n1 n2 p̂
. Los i son
P̂
los valores muestrales de los i que se obtienen muestras aleatorias grandes e
independientes de las poblacionales binomiales.
H : p − p =0
En los contrastes de hipótesis, a diferencia de los IC, donde 0 1 2 , se
combinan datos muestrales con el fin de obtener una proporción muestral conjunta
p̂ , que en términos de valores muestrales p̂i , se puede calcular como una media,
n pˆ + n pˆ
pˆ = 1 1 2 2
n
ponderada según los valores i :
n1 + n2 .
Si los tamaños de las muestras son iguales, la media ponderada se simplifica.

Sustituyendo p1 y p2 por p̂ en la expresión para la varianza de la diferencia
1 1
σ2 = pˆ (1 − pˆ ) + 
Pˆ1 − Pˆ2 , se puede estimar con Pˆ1 − Pˆ2
 n1 n2  .
REGLA 5 (Intervalo de confianza para p1 − p2 )
Requisitos: Los tamaños de las muestras son grandes: n1 ≥ 30 y n2 ≥ 30 .
Sean: γ el nivel de confianza y que un valor i de i (siendo i = 1, 2 ) se obtiene

p̂ P̂
ni ≥ 30
de una muestra aleatoria de tamaño . Entonces, se pueden aplicar los
siguientes pasos:
z = z*
1. Hallar el valor crítico Z : se halla α 2 de la v.a normal tipificada Z en
γ
P(0 ≤ Z ≤ z * ) =
(
la que P − z ≤ Z ≤ z = γ ⇔
* *
) 2
pˆ1 (1 − pˆ1 ) pˆ 2 (1 − pˆ 2 )
E = z* +
n1 n2
2. Calcular:
3. Determinar el intervalo de confianza para p1 − p2 : [ p1 − p2 − E , p1 − p2 + E ] .

ˆ ˆ ˆ ˆ
REGLA 6 (Valor P , contraste de hipótesis para p1 − p2 )

ˆ ˆ
Requisitos: Los tamaños de las muestras son grandes: n1 ≥ 30 y n2 ≥ 30 .
Sean: α el nivel de significación y que un valor i de i (siendo i = 1, 2 ) se

p̂ P̂
ni ≥ 30
obtiene de una muestra aleatoria de tamaño . Primeramente, calculamos
n1 pˆ1 + n2 pˆ 2
pˆ =
n1 + n2 . Entonces, se pueden aplicar los siguientes pasos:
H 0 : p1 − p2 = 0 Ha
H0
Pˆ1 − Pˆ2
Z=
1 1
pˆ (1 − pˆ )  + 
de contraste  n1 n2  , es aproximadamente la v.a.
pˆ1 − pˆ 2
z=
1 1
pˆ (1 − pˆ )  + 
tipificada. El valor del contraste es  n1 n2  .

programa informático, hallamos el valor de P del contraste correspondiente
Ha
a para:
H a : p1 < p2 , el valor de P es P(Z ≤ z ) .
H a : p1 > p2 , el valor de P es P(Z ≥ z ) .
P(Z ≤ − z ) + P(Z ≥ z )
H a : p1 ≠ p2 , el valor de P es o equivalentemente
2 P(Z ≥ z )
.
Estadística 1 255
4. Establecer una conclusión: Si el valor P ≤ α , entonces, z y p1 − p2 son

ˆ ˆ
estadísticamente significativos al nivel α , y rechazamos

H0
. Si el valor
P > α , entonces ni z ni pˆ1 − pˆ 2 son estadísticamente representativos al
nivelα H0
, y no rechazamos .
REGLA 6a. (Región crítica, contraste de hipótesis para p1 − p2 )

ˆ ˆ
y α
Ha
programa informático hallamos la región crítica correspondiente a
para:
z ≤ zα 2 = z *
H a : p1 < p2 , la región crítica está formada por los valores ,
zα 2 < 0 P(Z ≤ zα 2 ) = α
donde es valor que satisface .
H a : p1 > p2 z ≥ zα 2
zα 2 > 0 P(Z ≥ zα 2 ) = α
z ≤ − zα 2
H a : p1 ≠ p2 , la región crítica está formada por los valores o
z ≥ zα 2 zα 2 > 0
P(Z ≤ − zα 2 ) + P(Z ≥ zα 2 ) = α P (Z ≥ zα 2 ) = α 2

contraste, está en la región crítica, entonces z y pˆ1 − pˆ 2 son

H
en la región crítica, entonces z pˆ1 − pˆ 2 no son estadísticamente

y

H
INTERVALOS DE CONFIANZA Y CONTRASTE DE HIPÓTESIS PARA LOS

RATIOS DE VARIANZA DE DOS POBLACIONES
De la misma manera que hemos hecho en los casos anteriores, podemos definir la
v.a que sea la diferencia de σ X y σ Y . Sin embargo, la distribución de probabilidad

2 2
de σ X − σ Y es complicada. En su lugar, utilizamos otra distribución menos
2 2
complicada que nos puede dar información acerca de dos poblaciones cuando
interese el trabajo con la v.a de la varianza.
REGLA 7 (Intervalos de confianza para σ X2 σ Y2 cuando µ X y µY

desconocidas)
Requisitos: Las v.a X e Y son independientes y están aproximadamente

distribuidas como una normal.

x , x ,..., xm y , y ,..., yn
de X y 1 2
de Y se obtienen de muestras aleatorias independientes de tamaño n y m ,
1
x=
m
∑ xi
respectivamente. Primero, se calculan los valores muestrales ,
y=
1
∑ yi s X2 =
1
∑ (xi − x )2 sY2 =
1
∑ ( yi − y )
2
n , m − 1 , y n − 1 . Entonces, se pueden
* *
1. Hallar los valores críticos de F : Hallar los valores de F1 y F2 que cumplan
1+ γ 1+ γ
[ ]
P F (m − 1, n − 1) ≤ F1* =
2 y
[ ]
P F (n − 1, m − 1) ≤ F2* =
2
 1 s X2 1 s X2 
 F * × s2 , F * × s2 
2. Determinar el IC  1 Y 2 Y 
.
REGLA 8 (Valor P del contraste de hipótesis para σ X σ Y cuando µ X y µY

2 2
desconocidas)
Requisito: X e Y están aproximadamente distribuidas como una normal.

x , x ,..., xm y , y ,..., yn
de X y 1 2
de Y se obtienen de muestras aleatorias independientes de tamaño n y m ,
1
x=
m
∑ xi
respectivamente. Primero, se calculan los valores muestrales ,
y=
1
∑ yi s X2 =
1
∑ (xi − x )2 sY2 =
1
∑ ( yi − y )2
n , m −1 , y n −1 . Entonces, se pueden
Estadística 1 257
H0 : σ X = σY Ha
H0
2. Cálculo del estadístico de contraste: Si es cierta; el estadístico de
2
S X
es aproximadamente la v.a F (m − 1, n − 1) cuyo valor de

2
contraste
S Y
s X2
s2
contraste es Y .
3. Determinación del valor de P : Con una tabla F o un programa informático,

H
hallamos el valor de P del contraste correspondiente a a para:
σ X2  s X2 
< P  F (m − 1, n − 1) ≤
sY2 
Ha : 1
σ Y2 ⇔ H a : σ X < σ Y , el valor de P es 
2 2
.
σ X2  s X2 
Ha : 2 > 1 P  F (m − 1, n − 1) ≥ 2 
σ ⇔ H a : σ X2 > σ Y2 sY 
Y , el valor de P es  .
σ X2
Ha : ≠1
σ Y2 ⇔ Ha :σ X ≠ σY ,
2 2
el valor es
  s X2  s X2
2 P  F (m − 1, n − 1) ≤ , si <1
  sY2  sY2

2 P  F (m − 1, n − 1) ≥ s X2 
, si
s X2
>1
  sY2  sY2
.
4. Establecer una conclusión: Si el valor P ≤ α , entonces, el contraste es
estadísticamente significativo al nivel α , y rechazamos

H0
. Si el valor
P > α , entonces el contraste no es estadísticamente significativo al nivel α ,
H0
y no rechazamos .
REGLA 8a. (Región crítica, contraste de hipótesis para σ X σ Y cuando µ X y

2 2
µY desconocidas)

y α
Ha
programa informático hallamos la región crítica correspondiente a
para:
H a : σ X2 < σ Y2
, la región crítica está formada por todos los valores muestrales
2
sY
2
≥ F*
sX , donde F* es el valor de F que cumple
[
P F (n − 1, m − 1) ≤ F = 1 − α .
*
]
H a : σ X < σ Y , la región crítica está formada por todos los valores muestrales
2 2
sY2
2
≥ F*
[
P F (n − 1, m − 1) ≤ F = 1 − α .
*
]
H a : σ X2 < σ Y2
, la región crítica está formada por todos los valores muestrales
2
sY
2
≥ F*
[
P F (n − 1, m − 1) ≤ F = 1 − α .
*
]
contraste, está en la región crítica, entonces z y pˆ1 − pˆ 2 son

H
en la región crítica, entonces z pˆ1 − pˆ 2 no son estadísticamente

y

H
Bibliografía
S.Lipschutz y J. Schiller, “Introducción a la probabilidad y estadística”. Ed. Mc Graw

Hill, 2000.
Orientaciones al estudio individual
Estudiar la teoría del capítulo 10 del texto citado. Observará la similitud y diferencias
que tiene la inferencia de dos poblaciones con el caso de una población. Las reglas
que se utilizan lo evidencian.
Los esquemas que se presentan arriba tienen la función de orientarlo a que se está
haciendo lo mismo. Desde luego, se deben observar matices.
Estadística 1 259
14. ANALISIS DE VARIANZA
CONTRASTE CHI CUADRADO
Existen multitud de situaciones en las que un investigador está interesado en saber

cómo se aproximan los datos experimentales a los valores esperados en un modelo
de probabilidad. En tales propósitos se utilizan los contrastes asociados con el
estadístico χ . En general, este tipo de test consiste en tomar una muestra y

2
observar si hay diferencia significativa entre las frecuencias observadas y las

especificadas por la ley teórica del modelo que se contrasta, también denominadas
“frecuencias esperadas”.
Además del uso de este tipo de test con el estadístico χ , el mismo se puede
2
emplear en contraste de
homogeneidad de muestras cualitativas

independencia de variables cualitativas
CONTRASTE CHI CUADRADO DE BONDAD DE AJUSTE
Hemos trabajado las pruebas de hipótesis estadísticas de los parámetros de una

sola población. Ahora, nos interesa una prueba para determinar si una población
tiene una distribución teórica específica.
El contraste proporciona una herramienta técnica que permite comparar el número

esperado de resultados de un experimento con el número real de resultados que se
obtienen al realizarlo.
ai (i = 1,2,..., k )
Teorema 1. Sean los resultados posibles de un experimento con
pi
sus respectivas probabilidades y para cada realización de n pruebas
npi ai
independientes de un experimento, es el número esperado de que salga ,
k
∑f i =n
np ≥ 5
donde i =1 . Entonces, para grandes valores de n ( i ), la v.a
χ =∑
2
k
( fi − npi )2
i =1 npi
se aproxima a una chi cuadrado con k − 1 grados de libertad.
Hipótesis nula y estadístico de contraste
p
Se debe tener en cuenta que al aplicar el teorema 1, las i son desconocidas pero
podemos hacer conjeturas de sus valores con un modelo de probabilidad. La
hipótesis nula es
H 0 = P(a1 ) = p1 , P(a2 ) = p2 , P(ak ) = pk

…,
Se recogen los datos del experimento y se calcula un valor χ̂ del estadístico de

2
contraste χ . Si χ = 0 entonces, los datos del experimento son exactamente

2
ˆ2
iguales a los valores esperados supuestos. Por tanto, cuanto más pequeño sea χ̂ ,
2
hay más aceptación de la hipótesis nula; en caso contrario, menos aceptación tiene
la hipótesis nula.
Variable aleatoria multinomial
Aquí se realizan n experimentos independientes (con las mismas probabilidades)
que tienen k posibles resultados i (i = 1,2,..., k ) . La v.a i es el número de veces

a X
ai X , X ,..., X k
que sale en las n pruebas, y las v.a 1 2 , tomadas en conjunto se
denominan v.a multinomial ( X ). Estas v.a no son independientes.
Contraste: valor P y región crítica
Elementos a tener en cuenta:
Realizar un experimento con n pruebas independientes y determinar las

k
ai ∑f
i =1
i =n
frecuencias de los resultados , / .
Calcular el valor del contraste χ̂ de la anterior χ .

2 2
Estadística 1 261
( )
El valor de P del contraste es P χ ≥ χ̂ , si la hipótesis nula fuera cierta.
2 2
Se ha asumido que hay k − 1 grados de libertad.
Si P ≤ α , H 0 se rechaza; en caso contrario, se acepta.
EQUIVALENTEMENTE
La región crítica la componen todos los valores

χ 2 ≥ χ * = χ crítico que
satisfacen P χ ≥ χ = α
2 *
( )
H 0 se rechaza si χ̂ está en la región crítica; en caso contrario, se acepta.
2
H a : P(ai ) ≠ pi
Nota: es multidireccional en términos de las k probabilidades
P(ai ) Ha ⇔
. No obstante, el contraste es unilateral en la v.a chi cuadrado ( a la
hipótesis
χ ≥ χ = χ crítico )
2 *
Ejemplo 1. Se lanza un dado 120 veces y se registra cada resultado

como se indica en la tabla:
Cara 1 2 3 4 5 6
fj 20 22 17 18 19 24
Frecuencia ( )
Se quiere saber si el dado está trucado. Considere un contraste con un nivel de

significación de 0,05.
Solución.
H
Se asume que el dado no está trucado ( 0 ). Asumimos un contraste chi cuadrado
de bondad de ajuste al nivel de significación.
1 1
pi = npi = 120 × = 20 ≥ 5
Si el dado no está trucado, 6 . El número esperado es 6
(muestra grande). El valor del contraste es
χ =∑
2
6
( f i − npi )2 = (20 − 20)2 + (22 − 20)2 + (17 − 20 )2 + (18 − 20)2 + (19 − 20)2 + (24 − 20)2 = 1,7
i =1 npi 20 20 20 20 20 20
Con una tabla, para 5 grados de libertad, encontramos que el valor crítico es
χ 02, 05 = 11,070 H0
. Como 1,7<11,070; entonces, no se rechaza . Hay suficiente
evidencia de que el dado no está trucado.
Nota. La tabla anterior se puede sustituir por una de frecuencias observadas y

esperadas.
Ejemplo 2 (otra aplicación). Se quiere averiguar si la hipótesis de que

la distribución de frecuencias, de la duración de resistencias eléctricas sometidas a
un calentamiento se distribuye según una relación normal con media µ = 3,5 y
desviación estándar σ = 0,7 . Las frecuencias observadas se presentan en la
siguiente tabla:
Límite de clases fi
1.45 - 1.95 2
1.95 - 2.45 
17
2.45 - 2.95 4
2.95-3.45 15
3.45-3.95 10
3.95 - 4.45 5
8
4.45 - 4.95 3
Estadística 1 263
Solución. Para aplicar el teorema 1, debemos determinar los valores esperados.

Resulta conveniente determinar las frecuencias esperadas y expresarlos en una
tabla.
H
Si tomamos como 0 : que la distribución de la duración es normal, entonces las
probabilidades las determinamos tipificando la v.a y los valores límites de clase. Por
ejemplo, elegimos los límites de la quinta clase:
Área bajo la curva = P( z1 < Z < z2 )
donde
3,45 − 3,5 3,95 − 3,5

z1 = = −0,07 z2 = = 0,64
0,7 y 0,7 .
P( z1 < Z < z2 ) = P(− 0.07 < Z ) + P(Z < 0,64) = 0,0279 + 0,2389 = 0,2668
f esp = 0,2668 × 40 ≈ 10,7

Por tanto, la frecuencia esperada para la quinta clase es
¿Cómo usted calcula los otros valores de frecuencias esperadas? Compruebe que
estos valores son los que se muestran en la tabla siguiente:
Límite de clases fi f esp
1.45 - 1.95 2 0,5

1.95 - 2.45  
17 2,18,5
2.45 - 2.95 4 5,9
2.95-3.45 15 10,3
3.45-3.95 10 10,7
3.95 - 4.45 5 7,0

8 10,5
4.45 - 4.95 3 3,5 
Debido a la existencia de frecuencias esperadas menores que 5, se combinan las
clases adyacentes y de siete la reducimos a cuatro, con lo cual escribimos:
χ =∑
2
4 (f i − f i −esp )
2
=
(7 − 8,5)2 + (15 − 10,3)2 + (10 − 10,7 )2 + (8 − 10,5)2 = 3,05
i =1 f i−esp 8,5 10,3 10,7 10,5
χ 02, 05 = 7,815
Para 3 grados de libertad, el valor crítico es , el cual es mayor que el
valor calculado χ = 3,05 . Luego, no tenemos razón para rechazar 0 y podemos

2
H
concluir que la distribución normal con media µ = 3,5 y desviación estándar

σ = 0,7 hace un buen ajuste a la duración de las resistencias eléctricas sometidas
al calentamiento.
PRUEBA DE INDEPENDENCIA (DATOS CATEGÓRICOS)
Otra aplicación de la χ la encontramos en la prueba de la hipótesis de

2
independencia de dos variables de clasificación. Veamos un ejemplo para su mejor

entendimiento:
Ejemplo 3. Se implementa una tecnología para fabricar dispositivos con

más rendimiento de trabajo. Si se toma una muestra aleatoria de 1000 técnicos,
observamos que se clasifican según la valoración que hacen del rendimiento en alto,
medio y bajo, y si manifiestan preferencia o discrepancia en la implementación de la
tecnología. Se ha elaborado una tabla de contingencia 2 × 3 para las frecuencias
observadas:
Tabla de contingencia 2 × 3
Nivel de rendimiento
Frecuencia marginal
Cambio de tecnología Alto Medio Bajo
Total
Personas que prefieren 210 217 170 597

Estadística 1 265
Personas que discrepan 100 143 160 403
Total 310 360 330 1000
Frecuencia marginal
¿Es la opinión de un técnico independiente respecto al nivel de rendimiento y la

tecnología de fabricación implementada?
H :
Solución. Sea 0 independencia entre la opinión de un técnico con respecto a la
tecnología implementada y el nivel de rendimiento de los dispositivos.
Seleccionemos un nivel de significación α = 0,05 .
H
La aceptación o no de 0 depende del buen ajuste entre los valores de frecuencias
observados y esperados.
La aplicación del teorema 1 requiere el conocimiento de la frecuencia esperada.

Entonces, se definen los eventos acordes:
al nivel de rendimiento del dispositivo:
A : Persona seleccionada que lo considera alto
M : Persona seleccionada que considere medio
B : Persona seleccionada que considere bajo
a la implementación de la tecnología
P : Persona seleccionada que la prefiere
D : Persona seleccionada que discrepa
Las estimaciones de probabilidad se pueden calcular con las frecuencias marginales

P ( A) = P(M ) = P (B ) = P (P ) = P (D ) =
310 360 330 597 403
1000 , 1000 , 1000 , 1000 , 1000
H0
Si es verdadera y las dos variables son independientes, se debe tener:
P( A ∩ P ) = P( A)P(P ) =
310 597
1000 1000 ,
P( A ∩ D ) = P( A)P(P ) =
310 403
1000 1000 ,
P(M ∩ P ) = P(M )P(P ) =

360 597
1000 1000 ,
P(M ∩ D ) = P(M )P(D ) =

360 403
1000 1000 ,
P(B ∩ P ) = P(B )P(P ) =

330 597
1000 1000 ,
P(B ∩ D ) = P(B )P(D ) =

330 403
1000 1000 .
Para obtener las frecuencias esperadas, multiplicamos las probabilidades por el

310 597
f esp = 1000 ≈ 185.1
número total de observaciones. Por ejemplo: 1000 1000
Podemos señalar que la expresión para calcular la frecuencia esperada es
f esp =
(total de la columna ) × (total de la fila )
gran total
Así, planteamos la tabla anterior con las frecuencias esperadas calculadas
Frecuencias observadas (esperadas)

Estadística 1 267
Nivel de rendimiento
Cambio de tecnología Alto Medio Bajo

Total
f (f ) esp f (f )
esp f (f ) esp
Personas que 210 (185,1) 217 170 597

prefieren (215,0) (197,0)
Personas que 100 (125,0) 143 160 403

discrepan (145,1) (133,0)
Total 310 360 330 1000
La determinación del número de grados de libertad se calcula con
grados de libertad = (r − 1)(c − 1)
donde r y c representan el número de filas y columnas respectivamente. En este

caso hay 2 grados de libertad.
χ =∑
2
(f i − f i −esp )
2
H0 i f i−esp
La prueba de independencia la hacemos con . La suma se
extiende a todas las celdas rc de la tabla de contingencia r × c . Si

χ 2 > χα2 con
grados de libertad = (r − 1)(c − 1) , se rechaza H 0 al nivel de significación α ; en
caso contrario se acepta. Así,
χ2 =
(210 − 185,1)2 + (217 − 215,0)2 + (170 − 197,0 )2 + (100 − 125,0)2
185,1 215,0 197,0 125,0
+
(143 − 145,1) (160 − 133,0 )
2
+
2
≈ 17,6
145,1 133,0
Con una tabla, teniendo en cuenta que hay 2 grados de libertad, encontramos que
χ 02, 05 = 5,991 χ2 > χ2
0 , 05 H
. Como , se rechaza 0 . Entonces, se concluye que la
opinión de un técnico no es independiente respecto al nivel de rendimiento y la

tecnología de fabricación implementada.
Nota. Hemos utilizado la distribución χ discreta. La continua aproxima muy bien a
2
esta última porque el número de grados de libertad es mayor que 1. En una tabla
de contingencia de 2 × 2 se aplica la corrección de Yates para continuidad:
χ2 = ∑
(f − f
i i −esp − 0,5 )
2
i f i−esp
.
Cuando las frecuencias de las celdas esperadas:
Son grandes, los resultados corregidos y sin corregir son los mismos.
Están entre 5 y 10 se debe usar la corrección de Yates.
Son menores que 5 se utiliza la prueba de exacta de Fisher-Irwin –no la

veremos en el curso.
CONTRASTE CHI CUADRADO DE DISTRIBUCIONES HOMOGÉNEAS
Hemos usado la v.a chi cuadrado para contrastar si los datos de un experimento
estaban de acuerdo con una hipotética distribución de probabilidad. Además, es
posible usarla también para contrastar si dos o más v.a independientes
multinomiales con los mismos resultados tienen las mismas distribuciones de
probabilidad.
Ejemplo 4.
Las categorías de un deporte determinado constan de 250 hombres y 210 mujeres y

se distribuyen como se indica en la tabla siguiente:
Categoría
Primera Segunda Tercera Cuarta Quinta Totales

(P) (S) (T) (C) (Q)
Género Hombres 35 42 85 48 40 250
Mujeres 28 50 77 35 20 210
Estadística 1 269
Utilice la v.a chi cuadrado, al nivel de significación del 0,05, para contrastar que la
distribución de las categorías es la misma.
Solución.
Con las frecuencias conjuntas de los m = 250 hombres y n = 210 mujeres en cada
categoría, se obtienen las estimaciones de las probabilidades:
p̂P =
ANÁLISIS DE VARIANZAS
Al igual que el contraste χ generalizaba el contraste de dos proporciones, es

2
necesario definir un nuevo contraste de hipótesis que sea aplicable en situaciones

en las que el número de medias que se quiera comparar sea superior a dos. El
análisis de la varianza (ANOVA) surge como una generalización del contraste
para dos medias de la t de Student, cuando el número de muestras a contrastar es
mayor que dos.
El ANOVA es una colección de situaciones experimentales y procedimientos

estadísticos para el análisis de respuestas cuantitativas de unidades experimentales
(individuos u objetos). El problema ANOVA más simple se conoce como ANOVA de
un solo factor y está relacionada con el análisis de datos muestreados de más de
dos poblaciones numéricas (distribuciones) o de datos de experimentos en los que
se han usado más de dos tratamientos. La característica distintiva de los
tratamientos o poblaciones entre sí se conocen como el factor bajo estudio y los
diferentes tratamientos o poblaciones son conocidos como niveles del factor.
ANOVA de un solo factor
Se denomina modelo factorial con un factor o ANOVA con un factor al modelo

(lineal) en el que la variable analizada la hacemos depender de un solo factor de tal
manera que las causas de su variabilidad se engloban en una componente aleatoria
que se denomina error experimental:
X = factor ± error
Éste análisis se centra en la comparación de más de dos medias poblacionales o
tratamiento.
µ
Consideremos a I el número de poblaciones o tratamientos que se comparan y i
la media de la población i o la respuesta promedio real cuando se aplica el
tratamiento i ; donde i = 1, 2, ..., I .
Las hipótesis son
H 0 = µ1 = µ 2 = ⋅ ⋅ ⋅ = µ I
Ha :
Por lo menos dos
µi son diferentes
Una prueba de estas hipótesis necesita la disponibilidad de una muestra aleatoria de

cada población o tratamiento.
Ejemplo 1.
Solución.
Se necesita un procedimiento de prueba formal.

Estadística 1 Unificado

Hochgeladen von

Dokumentinformationen

Originaltitel

Copyright

Verfügbare Formate

Dieses Dokument teilen

Dokument teilen oder einbetten

Freigabeoptionen

Stufen Sie dieses Dokument als nützlich ein?

Sind diese Inhalte unangemessen?

Copyright:

Verfügbare Formate

Estadística 1 Unificado

Hochgeladen von

Copyright:

Verfügbare Formate

Estadística Descriptiva

1. PRESENTACIÓN DEL AUTOR .................................................................. 5

1. PRESENTACIÓN DEL AUTOR

El Dr. Jesús Manuel Bergues Cabrales posee una experiencia docente y

La Estadística es la ciencia matemática que se utiliza para describir, analizar e

La Estadística enseña a razonar de manera lógica y a tomar decisiones informadas

Estadística descriptiva Inferencia estadística

Los modelos que refiere la inferencia estadística son probabilísticos y permiten

Población: Conjunto de seres u objetos de los que se va a obtener información.

su tamaño se indica con N .

Muestra: Un subconjunto de la población.

representará bien a todos sus elementos.

su tamaño se indica con n .

ha de ser representativa de toda la población. En general n << N .

Permite sacar conclusiones de la Inferencia estadística Si se conoce sus

Documento que norma todo el sistema de competencias, contenidos, evaluaciones y

Variable estadística. Clasificación

El trabajo estadístico se realiza recogiendo la información en variables. Éstas se

(directamente por su contenido –

(por el orden que ocupan –

(datos numéricos: se pueden

xx1 ,, xx2 ,..., xn ; xi : valor de la variable para el elemento i-ésimo de la

ORGANIZACIÓN DE LOS DATOS: TABLAS DE FRECUENCIAS

Estamos interesados en conocer un patrón de variabilidad de los datos porque

Una vez seleccionada la muestra y tomados los valores de la variable estadística, se

En una universidad en la que hay un total de 1000 alumnos ( N = 1000 ), se quiere

Observa que x1 = 19, x2 = 18, x3 = 20...., x20 = 22

x1 = 18, x2 = 18, x3 = 18,..., x20 = 27.

Rango: diferencia entre el mayor y el menor valor que toma la variable.

En el ejemplo: rango = 27-18 = 9

Análisis tabular de los datos

18 3 3/20 3 3/20 15% 15%

19 4 4/20 7 7/20 20% 35%

20 4 4/20 11 11/20 20% 55%

21 1 1/20 12 12/20 5% 60%

22 3 3/20 15 15/20 15% 75%

23 3 3/20 18 18/20 15% 90%

24 1 1/20 19 19/20 5% 95%

27 1 1/20 20 20/20 5% 100%

1. dividir el rango que tome la muestra en intervalos: intervalos de clase.

2. tomar un elemento representativo por cada intervalo.

1. La amplitud es la longitud o diferencia entre el

2. Es importante que estos intervalos se solapen y

Ejemplo 1.2. [1, 2 ) [ 2,3) [3, 4 ) [ 4,5) [5, 6] : intervalos de clase de

amplitud 1 que dividen el intervalo [1, 6] .

Para utilizar estos intervalos como si se trataran de un solo elemento se ha de

La frecuencia absoluta de cada xi será el número de elementos de la muestra

El resto de tabulaciones se efectuarán siguiendo el mismo criterio que en el caso

Ejemplo 1.3. Tenemos los datos de las alturas de 16 personas en

[160,170 ) 165 5 5/16 5 5/16 500/16 % 500/16 %

[170,180 ) 175 6 6/16 11 11/16 600/16 %

[180,190 ) 185 3 3/16 14 14/16 300/16 %

[190, 200 ) 195 2 2/16 16 16/16 200/16 %

REPRESENTACIONES GRÁFICAS DE LAS DISTRIBUCIONES DE

Cualitativas Diagramas de rectángulos

Un histograma no es más que un diagrama de barras, en el que la base de cada

Construcción de un histograma y un polígono de frecuencias:

1. Determinar el rango de los datos.

2. Obtener en número de clases, tantas como número de barras.

3. Establecer la longitud de clase: es igual al rango entre el número de clases.

4. Construir los intervalos de clases: Los intervalos resultan de dividir el rango

5. Graficar el histograma: se hace un gráfico de barras, las bases de las

Este sería el histograma de frecuencias para el Ejemplo 1.3: