Sie sind auf Seite 1von 270

Estadística Descriptiva

Estadística 1 3

Índice

1. PRESENTACIÓN DEL AUTOR .................................................................. 5


2. INTRODUCCIÓN ..................................................................................... 7
3. ANALISIS DE LOS DATOS ..................................................................... 22
4. DATOS BIDIMENSIONALES. AJUSTE DE CURVAS................................. 44
5. TÉCNICAS DE CONTEO ......................................................................... 57
6. PROBABILIDAD.................................................................................... 81
7. VARIABLES ALEATORIAS ................................................................... 105
8. DISTRIBUCIONES DE PROBABILIDAD DISCRETA.............................. 144
9. DISTRIBUCIONES DE PROBABILIDAD CONTINUA............................. 166
10. INFERENCIA ESTADÍSTICA .......................................................... 188
11. INTERVALOS DE CONFIANZA PARA UNA ÚNICA POBLACIÓN...... 212
12. CONTRASTE DE HIPÓTESIS.......................................................... 225
13. INFERENCIA ESTADÍSTICA DE DOS POBLACIONES ..................... 245
14. ANALISIS DE VARIANZA .............................................................. 259
Estadística 1 5

1. PRESENTACIÓN DEL AUTOR

El Dr. Jesús Manuel Bergues Cabrales posee una experiencia docente y


metodológica avalada por treinta y dos años en la eneseñanza de asignaturas
relacionadas con las Físicas Teóricas, Matemáticas y Física General. Además, ha
desarrollado actividades de investigación en el campo de la materia condensada en
temáticas vinculadas a las nanoestructuras semiconductoras y materiales
semimagnéticos. Actualemente desarrolla su actividad investigadora en sistemas
complejos trabajando modelos teóricos para el estudio de propiedades térmicas y
mecánicas del ADN. Por otra parte estudia la distribución de corriente y electrodos
en tumores sólidos.
Estadística 1 7

2. INTRODUCCIÓN

La Estadística es la ciencia matemática que se utiliza para describir, analizar e


interpretar ciertas características de un conjunto de “individuos” llamado población.

La Estadística enseña a razonar de manera lógica y a tomar decisiones informadas


en presencia de incertidumbre y variación.

Estadística

Estadística descriptiva Inferencia estadística

(colecciona, describe, visualiza y resume datos (genera modelos, infiere y hace predicciones
originados a partir de los fenómenos en asociadas a los fenómenos en cuestión)
estudio)

Los modelos que refiere la inferencia estadística son probabilísticos y permiten


asignar probabilidades a los fenómenos estudiados (relacionan la probabilidad y la
estadística). La probabilidad aporta los modelos teóricos y con la estadística se
trata de adaptarlos a sucesos reales.

DEFINICIONES

Población: Conjunto de seres u objetos de los que se va a obtener información.

 su tamaño se indica con N .

Muestra: Un subconjunto de la población.

 representará bien a todos sus elementos.

 su tamaño se indica con n .

 ha de ser representativa de toda la población. En general n << N .

 La teoría del muestreo se ocupa de que las muestras sean extraídas con
cierta garantía.
la permite formular y responder preguntas
Si se conoce la
probabilidad de la

Población Muestra

la

Permite sacar conclusiones de la Inferencia estadística Si se conoce sus


características

GUÍA DOCENTE

Documento que norma todo el sistema de competencias, contenidos, evaluaciones y


sistemas de procedimiento de la asignatura. Importa ver su relación con el
diagrama anterior1. En otras palabras, están las directrices de nuestro sistema de
enseñanza-aprendizaje. Se encuentra en la PDU.

Variable estadística. Clasificación

El trabajo estadístico se realiza recogiendo la información en variables. Éstas se


ordenan y se almacenan en ficheros. Posteriormente, se puede operar con ellas y
aplicarles funciones para hacer transformaciones y análisis estadísticos.

1
El diagrama puede verse en dos partes, no es un ciclo cerrado
Estadística 1 9

Nominales

(directamente por su contenido –


sexo: V y M, etc.)
Cualitativas

(no cuantificables
numéricamente). Describen las
categorías
Ordinales

(por el orden que ocupan –


“satisfacción en el trabajo”: baja,
Variable estadística media, alta; etc.)
Variable
estadística
(cada una de las
características que se Discretas
(cada una de las Discretas
estudia en una muestra)
características que se
(cantidad finita o numerable de
(cantidad finita o numerable de
valores aislados -Nº de hijos, etc.)
valores aislados -Nº de hijos,
etc.)

Cuantitativas

(datos numéricos: se pueden


medir, ordenar, operar)
Continuas

(infinidad no numerables de
valores, i.e. toman cualquier
valor real -estatura, peso, etc.)
Variables ratio Variables por
intervalos
(toman
(tomanvalores puntuales)
valores
(toman valores por
intervalos)

sussus valores
valores se
se
representan
x1 , x2 ..., xN ; xi (i = 1, 2, ⋅ ⋅⋅, N ) : valor de la variable para el elemento i-
ésimo de la población

xx1 ,, xx2 ,..., xn ; xi : valor de la variable para el elemento i-ésimo de la


1 2 ,..., xn ; xi : valor de la variable para el elemento i-ésimo de la
muestra
muestra
Después de recoger los datos se ordenan para facilitar su análisis.

ORGANIZACIÓN DE LOS DATOS: TABLAS DE FRECUENCIAS

Estamos interesados en conocer un patrón de variabilidad de los datos porque


inicialmente están dispersos. Con este fin utilizamos las distribuciones de
frecuencias (conjunto de valores que ha tomado una variable junto con sus
frecuencias y nos da la forma en que están distribuidos los datos inherentes a su
variabilidad), los histogramas (una representación visual de los datos) y análisis
exploratorios de datos.

Una vez seleccionada la muestra y tomados los valores de la variable estadística, se


organizan los datos.

Datos desagrupados
(se consideran todos los valores de la variable, cada uno con el
valor que tenga)

Organización
Datos agrupados
(Normalmente se agrupan los datos de variables continuas, y por
lo general cuando la variable aleatoria toma valores diferentes
en todos los elementos de la muestra)

Datos desagrupados.

Ejemplo 1.1.

En una universidad en la que hay un total de 1000 alumnos ( N = 1000 ), se quiere


hacer un estudio sobre las edades de los alumnos. Para ello se toma una muestra
de 20 personas (n=20) obteniéndose los siguientes valores:

19, 18, 20, 18, 20, 23, 18, 20, 22, 19, 19, 23, 21, 22, 24, 27, 23, 19, 20, 22

Observa que x1 = 19, x2 = 18, x3 = 20...., x20 = 22

Muestra ordenada:

18, 18, 18, 19, 19, 19, 19, 20, 20, 20, 20, 21, 22, 22, 22, 23, 23, 23, 24, 27

x1 = 18, x2 = 18, x3 = 18,..., x20 = 27.

Rango: diferencia entre el mayor y el menor valor que toma la variable.

En el ejemplo: rango = 27-18 = 9


Estadística 1 11

Análisis tabular de los datos

frec. frec.
frec. frec. absolutas relativas Porcentajes
absolutas relativas acumuladas acumulada Porcentajes acumulados

i
n Ni
xi ni fi = i Ni = ∑ n j Fi = pi = f i ·100 Pi = Fi ·100
n j =1 n

18 3 3/20 3 3/20 15% 15%

19 4 4/20 7 7/20 20% 35%

20 4 4/20 11 11/20 20% 55%

21 1 1/20 12 12/20 5% 60%

22 3 3/20 15 15/20 15% 75%

23 3 3/20 18 18/20 15% 90%

24 1 1/20 19 19/20 5% 95%

27 1 1/20 20 20/20 5% 100%

n = 20 100%

Datos agrupados

Procedimiento:

1. dividir el rango que tome la muestra en intervalos: intervalos de clase.

2. tomar un elemento representativo por cada intervalo.

3. considerar todos los valores de la variable que caigan dentro del intervalo
como si fueran ese elemento representativo

Existen varios criterios para determinar el número de clases, sin embargo ninguno
de ellos es exacto. Algunos autores recomiendan de cinco a quince clases,
dependiendo de como estén los datos y cuántos sean. Un criterio usado
frecuentemente es que el número de clases debe ser aproximadamente la
raíz cuadrada del número de datos, por ejemplo, la raíz cuadrada de 30 es
mayor que cinco, por lo que se seleccionan seis clases.
OBSERVACIONES (intervalos de clase)

1. La amplitud es la longitud o diferencia entre el


mayor y menor valor que pertenezca al intervalo.
Se suelen tomar todos con igual amplitud.

2. Es importante que estos intervalos se solapen y


que su intersección sea vacía.

Ejemplo 1.2. [1, 2 ) [ 2,3) [3, 4 ) [ 4,5) [5, 6] : intervalos de clase de

amplitud 1 que dividen el intervalo [1, 6] .

Para utilizar estos intervalos como si se trataran de un solo elemento se ha de


tomar un elemento representativo de cada uno de ellos. A este elemento
representativo se le denomina marca de clase.

La marca de clase es el punto medio de cada uno de los intervalos de clase. Hay
tantas marcas de clase como intervalos de clase.

x
La marca de clase se denota con i , porque al trabajar con datos agrupados, se
utilizará como el valor de la variable estadística cuando los datos nos son
agrupados.

La frecuencia absoluta de cada xi será el número de elementos de la muestra


que estén dentro del intervalo representado por la marca de clase xi .

El resto de tabulaciones se efectuarán siguiendo el mismo criterio que en el caso


anterior pero considerando la marca de clase como valor.
Estadística 1 13

Ejemplo 1.3. Tenemos los datos de las alturas de 16 personas en


centímetros y queremos tabularlas: 160, 172’4, 168, 167, 175, 179, 180, 198, 164,
166, 174, 177, 182’5, 185, 191, 173’5

i
ni Ni
Intervalos xi ni fi = Ni = ∑ n j Fi = pi = f i ·100 Pi = Fi ·100
n j =1 n

[160,170 ) 165 5 5/16 5 5/16 500/16 % 500/16 %

[170,180 ) 175 6 6/16 11 11/16 600/16 %


1100/16
%

[180,190 ) 185 3 3/16 14 14/16 300/16 %


1400/16
%

[190, 200 ) 195 2 2/16 16 16/16 200/16 %


1600/16
%

n=16

Nota. Para definir una distribución de frecuencia se necesita conocer todos los
valores de la variable y una de las frecuencias que hemos visto en las tablas
anteriores pues el paso de una a otra es inmediato. Observe además que es posible
distinguir dos tipos: agrupadas y desagrupadas.

REPRESENTACIONES GRÁFICAS DE LAS DISTRIBUCIONES DE


FRECUENCIAS

Una representación gráfica nos permite de una simple mirada tener una idea rápida
de las propiedades principales. Como veremos, podemos tener idea si es simétrica o
se aproxima a la normalidad u otras propiedades que se pueden analizar
formalmente utilizando contrastes, etcétera.
Hay que considerar:

Histogramas de frecuencia

Datos
agrupados Polígonos de frecuencia

Polígonos de frecuencia
acumuladas

Cuantitativas

Diagrama de barras

Diagrama escalonado
Datos sin
agrupar
Variables Polígonos de frecuencias

Polígonos de frecuencias
acumuladas

Diagramas de sectores

Cualitativas Diagramas de rectángulos

Pictogramas

Un histograma no es más que un diagrama de barras, en el que la base de cada


barra es un intervalo de clase, por tanto, para construirlos debemos de agrupar los
datos.

Construcción de un histograma y un polígono de frecuencias:

1. Determinar el rango de los datos.

2. Obtener en número de clases, tantas como número de barras.

3. Establecer la longitud de clase: es igual al rango entre el número de clases.

4. Construir los intervalos de clases: Los intervalos resultan de dividir el rango


de los datos en relación al resultado del PASO 2 en intervalos iguales.

5. Graficar el histograma: se hace un gráfico de barras, las bases de las


barras son los intervalos de clases y altura son la frecuencia de las clases.
Estadística 1 15

Este sería el histograma de frecuencias para el Ejemplo 1.3:

Si se unen los puntos medios de la base superior de los rectángulos se obtiene el


polígono de frecuencias. Intente hacerlo, compruebe con el que aparece en la
página siguiente.

El polígono de frecuencias se puede hacer para datos no agrupados sin pasar por la
agrupación previa de ellos.

En el Ejemplo 1.1, el polígono de frecuencias tomaría la siguiente forma:


Poligono de frecuencias relativas

0,25

Frecuencias relativas
0,2

0,15

0,1

0,05

0
18 19 20 21 22 23 24 27
Valores de la variable estadística

Ejemplo 1.4.

A una fábrica de envases de vidrio, un cliente le está exigiendo que la capacidad de


cierto tipo de botella sea de 13 ml, con una tolerancia de más menos 1 ml. La
fábrica establece un programa de mejora de calidad para que las botellas que se
fabriquen cumplan con los requisitos del cliente. Se realiza un muestreo y se
obtienen los siguientes valores:

11, 12, 13, 12, 13, 14, 14, 15, 11, 12, 13, 12, 14, 15, 11, 12, 16, 14, 13, 14, 14, 13,
15, 15, 15

PASOS:

1. El rango es 16-11=5

2. Tenemos 25 datos, como 25 = 5 , tomaremos 5 clases.

3. Rango/(nº de clases) = 5/5 = 1. La longitud de las clases será 1.

4. [11, 12) [12, 13) [13, 14) [14, 15) [15, 16]
Estadística 1 17

5. Los datos tabulados serán:

Clase Intervalo Frecuencia Frecuencia


relativa

1 [11, 12) 3 3/25=0,12

2 [12, 13) 5 5/25=0,2

3 [13, 14) 5 5/25=0,2

4 [14, 15) 6 6/25=0,24

5 [15, 16] 6 6/25=0,24

25 1,00

Haga el histograma de frecuencias y el polígono de frecuencias relativa.

¿Qué ventajas nos proporciona la distribución de frecuencias?

1. Permite la visibilidad de la distribución de la variable que se estudia y la


forma de la misma.

2. Permite analizar, controlar y mostrar las capacidades de los procesos de los


que derivan sus datos desde el punto de vista cuantitativo y cualitativo.

3. Ayuda en la determinación del promedio, de la desviación estándar, de los


coeficientes de asimetría y curtosis y las características restantes de una
distribución.

4. Probar a qué distribución matemática se acopla mejor estadísticamente una


distribución empírica de datos a la variable que se estudia.
Es importante interpretar las distribuciones de frecuencia y
para ello:

1. El promedio de la distribución, ¿está en una posición adecuada?

2. La dispersión de la distribución, ¿cómo es respecto al promedio?

3. El valor medio, la desviación estándar, el rango y otros… ¿cómo se


relacionan?

4. ¿Hay valores que faltan o suben o bajan repentinamente?

5. ¿Son aceptables los valores máximos y mínimos de la distribución?

6. ¿Es simétrica o asimétrica la distribución?

7. La parte derecha o izquierda de la distribución, ¿tiene forma de acantilado?

8. ¿Tiene más de un pico la distribución?

9. El pico de la distribución, ¿es demasiado chato o agudo?

Estos puntos nos servirán para analizarlos con las medidas que daremos más
adelante.

Variables cualitativas

Mayormente vamos a ver datos numéricos. En el caso de variables cualitativas:

Frecuencia
absoluta
Los diagramas de rectángulo se asignan a cada
modalidad de la variable cualitativa un rectángulo
con igual (o proporcional) a su frecuencia absoluta

ni y con base constante


turismo

comercio
pesca

industria

Los diagramas de sectores se construyen con un


industria
turismo

círculo cuya área es proporcional a la frecuencia

absoluta. El ángulo central αi es:


pesca
comercio

ni
αi = 360 = f i ⋅ 360
N
Estadística 1 19

Los pictogramas se representan de manera pictórica con la modalidad de la variable


cualitativa (se pueden expresar de diferentes formas)

Existen otras formas gráficas de representar las variables que no hemos explicitado,
¿cómo serán?

Bibliografía

S.Lipschutz y J. Schiller, “Introducción a la probabilidad y estadística”. Ed. Mc Graw


Hill, 2000.

Jay L. Devore, Probabilidad y estadística (para ingeniería y ciencias), sexta edición.


Ed. Thomson. 2005.

César Pérez López, “Estadística” (problemas resueltos y aplicaciones). Ed. Pearson


Prentice Hall, 2003.

RECOMENDACIONES AL ESTUDIO INDEPENDIENTE

1. Revisar las notas de clases del profesor.

2. Revisar ejemplos 1.1, 1.2 y 1.3 del S.Lipschutz Cap.1.

3. Revisar problemas resueltos 1.1 - 1.6 del S.Lipschutz Cap.1.

4. Lea además, el Devore Pág. 1 a la 28.

5. Leer la guía docente. Ver el sistema de clases y evaluación.

6. ¿Tiene ud. idea de cómo son los otros gráficos que hemos señalado en
clases? Analícelos.

7. Averigüe que es un diagrama de:

a. Puntos y qué información nos brindan.

b. tallo y hoja y qué información nos brindan.

c. caja y bigote y qué información nos brindan.

8. Vea el Devore, pág. 11 a la 14. Puede buscar también en Internet o fijarse


de los ejemplos citados arriba.
9. Alternativamente puede consultar el manual complementario de
bioestadística para ver ejemplos de los conceptos principales.

EJERCICIOS PROPUESTOS

1. En un grupo de estudiantes se ha registrado las calificaciones que han


obtenido en la asignatura de Estadística. Una vez organizado los datos, se
obtuvo el siguiente resultado:

Calificaciones 0 1 2 3 4 5 6 7 8 9 10

Número de Estudiantes 4 2 6 15 5 16 20 6 4 2 2

a. Determine la distribución de frecuencias adecuadas para las puntuaciones.

b. Halle el porcentaje de alumnos que aprobó la asignatura (los que sacaron


5).

c. Halle el porcentaje de alumnos que sacaron notas superiores a 7.

d. Si hubiera que otorgar 8 becas erasmus, ¿en cuánto hay que subir el
aprobado?

e. Haga las representaciones gráficas de las distribuciones adecuadas de este


problema.

2. Los valores relativos al número de estudiantes y facultades de


ingeniería en un determinado país son:

Estudiantes 0- 100- 200- 300- 400- 500- 600- 700- 800-


100 200 300 400 500 600 700 800 900

No de 18 37 11 19 20 12 5 3 2
Facultades

a. Construir la tabla de frecuencias adecuadas a los datos.

b. Hallar el número de facultades con más de 400 estudiantes.


Estadística 1 21

c. Hallar el porcentaje de facultades con más de 200 estudiantes y menos de


500.

3. Después de la selectividad, un grupo de estudiantes de un instituto han


elegido las siguientes carreras en la USJ:

Carrera Arquitectura Farmacia Informática Enfermería Fisioterapia

Estudiantes 50 64 20 120 100

a. Construir la distribución de frecuencias adecuada para la variable carrera


elegidas por los alumnos y hacer los gráficos correspondientes.

b. Determine el diagrama de sectores.

4. Los pesos de hombres y mujeres de una clase son:

122 (W) 117 (W) 117 (W) 167 (M) 114 (W)

195 (M) 145 (M) 158 (M) 158 (M) 190 (M)

110 (W) 134 (W) 165 (M) 104 (W) 132 (W)

107 (W) 105 (W) 181 (M) 142 (W) 123 (W)

155 (M) 155 (M) 172 (M) 149 (M) 120 (W)

140 (W) 163 (M) 125 (W) 130 (W) 150 (M)

187 (M) 147 (M) 118 (W) 159 (M) 160 (M)

115 (W) 175 (M) 125 (W) 177 (M) 121 (W)

a. Construir un cuadro de tallos y hojas con los datos, tomando las decenas
como tallos y las unidades como hojas.

b. Construir un cuadro de tallos y hojas con los datos como el apartado a, pero
poniendo las hojas de los pesos de los hombres a la derecha del tallo y las
de las mujeres a la izquierda.
3. ANALISIS DE LOS DATOS

Estudiamos las distribuciones de frecuencia de una variable. Nos interesa resumir


dichas distribuciones mediante las medidas de posición o tendencia central,
dispersión y forma. El histograma daba esta información. Se trata ahora de
cuantificarlos. A estas operaciones se les denomina análisis de los datos2.

Análisis de datos

Medidas de Medidas de Medidas de Medidas de


tendencia central dispersión posición forma

Cuartiles
Media Rango Asimetría

Mediana Varianza Deciles Aplastamiento


o Curtosis

Moda Desviación Percentil


típica

Momentos
potenciales
Unidades
tipificadas

Coeficiente
de variación

MEDIDAS DE TENDENCIA CENTRAL

Grupo de estadísticos que permiten ver lo dominante, típico o la tendencia de una


distribución de datos. Con otras palabras, son valores representativos o centrales
alrededor de los cuales se distribuyen los valores de las variables.

2
Nosotros por conveniencia vamos a considerar las medidas de tendencia central y de posición en grupos
separados. En algunos textos ambas se consideran como medidas de posición.
Estadística 1 23

La representatividad de una distribución se considera operativa si intervienen en su


determinación todos los valores de una distribución. Ésta se considera única para
cada distribución, calculable y de fácil obtención.

Medias

Sea la distribución de frecuencias ( xi , ni ) :

Media aritmética
n
xi k
xi ⋅ ni k
Media muestral: x = ∑
i =1 n
= ∑
i =1 n
= ∑
i =1
xi ⋅ f i

k N
xi ·ni x
Media poblacional: µ = ∑
i =1 N
=∑ i
i =1 N

Ambas definiciones coinciden. Se simbolizan diferentes porque habrá que


distinguirlas en las medidas de dispersión.

ni y f i son la frecuencia absoluta y relativa respectivamente.

La media aritmética es muy sensible a los valores extremos de la variable pues una
observación extrema, hará que la media se desplace en esa dirección. Por tanto, no
es recomendable su uso en distribuciones muy asimétricas. Por otro lado, con
variables discretas puede ocurrir que su valor no se corresponda con el conjunto de
valores al que pertenece la variable (ejemplo: la media de las placas base de
ordenadores elaborados en cuatro días es x = 158,2 placas base).

En ocasiones interesa: Media ponderada:


n

x ·w + x ·w + ... + xn ·wn ∑xw i i


Xw = 1 1 2 2 = i =1
;
w1 + w2 + ... + wn n

∑w
i =1
i
x1 , x2 ,...xn son los datos; w1 , w2 ,...wn , sus respectivos ‘pesos’.

log x1 + log x2 + ⋅ ⋅ ⋅ + log xn n


log xi
Media geométrica: log x g = =∑ .
n i =1 n

Así, xg = n x1 x2 ⋅ ⋅ ⋅ xn .

Con los datos agrupados en una tabla: xg = n x1n1 x2n2 ⋅ ⋅ ⋅ xk k .


n

La media geométrica es útil en los casos en que las variables presentan variaciones
acumulativas (para promediar variables tales como porcentajes, tasas, números
índices, etcétera). Se debe tener cuidado con la presencia de la raíz.

n
Media armónica: xa = n
1
∑x
i =1 i

n
Para valores que se repiten: xa = k
.
1

i =1 xi
ni

No es aconsejable su uso con valores pequeños de la variable. Con ella se puede


promediar variables tales como productividades, velocidades, tiempos,
rendimientos, tipos de cambio, etcétera.

x12 + x22 + ⋅ ⋅ ⋅ + xn2


Media cuadrática: xc =
n

n1 x12 + n2 x22 + ⋅ ⋅ ⋅ + nk xk2


Para valores que se repiten: xc =
n

Mediana
Estadística 1 25

Considerando x1 , x2 ,..., xn (los datos de la muestra ordenados en orden creciente),


la mediana es el valor de la distribución que deja el mismo número de datos antes y
después de él.

El conjunto de datos menores o iguales que la mediana representan el 50% de los


datos, y los que son mayores que la mediana representan el otro 50% del total de
datos de la muestra.

Para datos desagrupados

 x n +1 n, impar
~  2
x =  xn + xn
+1
 2 2
n, par
 2

Para datos agrupados

n Sí, entonces ~
x coincidirá con la abscisa correspondiente.
¿Coincide con el valor de
2
una frecuencia absoluta
acumulada? No, entonces ~
x se determina a través de semejanza de
triángulos en el histograma o polígono de frecuencias

Para la variable continua calculamos la media como indicamos a continuación:

Según el teorema de Tales:


100% n
CB DE
C =
Ni
n
AB AE
50% D
2
A
N i − N i −1 n 2 − N i −1
N i −1 E B
= ~
li − li −1 x − li −1
0%
li −1 ~
x li
Cálculo geométrico de la mediana. Sección de gráfica N i y N i −1 (frecuencias absolutas acumuladas)

n 2 − N i −1
La mediana se puede expresar como ~
x = li −1 + (li − li −1 ) . Si denominamos
N i − N i −1
ai = li − li −1 (amplitud del intervalo); entonces, la expresión anterior queda:
~ n 2 − N i −1
x = li −1 + ai
Ni

La mediana se calcula rápidamente, posee una interpretación sencilla y su valor no


está afectado por las observaciones extremas pues no depende de los valores que
toma la variable, sino del orden de las mismas. Por ello es adecuado su uso en
distribuciones asimétricas. A diferencia de la media, el valor de una variable discreta
toma siempre esos valores.

Moda

{ }
Valor de la variable que más se repite: Md = xi , Si ni = max f j , j ∈ {1, 2,..., k}

Si la distribución de datos tiene dos moda se llama bimodal; tres modas, trimodal.

Si todas las variables tienen la misma frecuencia diremos que no hay moda.

Al tratar con datos agrupados, se define el intervalo modal (mayor frecuencia


absoluta) antes de definir la moda.

En intervalos con la misma amplitud se puede tomar el valor de la moda en el


extremo inferior del intervalo, Md = li −1 ; o en el extremo superior, Md = li ; o
tomar la marca de clase del intervalo modal, Md = xi . Si todos los valores del
intervalo modal están distribuidos uniformemente dentro de él, la moda estará más
cerca de aquel intervalo contiguo de frecuencia mayor, siendo las distancias de la
moda, Md , a los intervalos contiguos inversamente proporcionales a las
frecuencias de dichos intervalos:

ni +1
Md = li −1 + ai
ni −1 + ni +1

Si los intervalos tienen amplitud diferente:

d i +1
Md = li −1 + ai
d i −1 + d i +1

ni
siendo d i = (densidad de frecuencia).
ai
Estadística 1 27

La moda es la medida más representativa en caso de distribuciones de variables


nominales. Su justificación se debe a que éstas no presentan datos que se puedan
ordenar de modo que no son posibles operaciones elementales con sus
observaciones. La moda se emplea principalmente cuando los valores de la variable
presentan una gran concentración hacia un valor determinado. Únicamente se
emplea en distribuciones de gran frecuencia total.

Relación entre las media, mediana y moda

Cuando las distribuciones son unimodales, la mediana está con frecuencia


comprendida entre la media y la moda e incluso más cerca de la media.

Las distribuciones que presentan cierta inclinación, se recomienda el uso de la


mediana. No obstante, en los estudios relacionados con propósitos estadísticos y de
inferencia estadística suele ser más apta la media.

MEDIDAS DE POSICIÓN

Los estadísticos de posición van a ser valores de la variable caracterizados por


superar a cierto porcentaje de observaciones en la población (o muestra). Son
medidas de posición no central que permiten conocer otros puntos
característicos de la distribución y los denominamos cuantiles de orden k , que
son aquellos valores de la variable, que ordenados de menor a mayor, dividen a la
distribución en k partes, de forma tal que cada una de ellas contiene el mismo
número de frecuencias.

Existirán r = k − 1 cuantiles de orden k . El primero dejará a su izquierda la


fracción 1k de frecuencia de las observaciones; el segundo, 2 k ; el
r − ésimo cuantil, r k . Éste último deja a su derecha 1 − r k frecuencia de
observaciones. Al r − ésimo cuantil lo designamos por Qr ,k .

Si tenemos la distribución agrupada el r − ésimo cuantil, toma el valor:

rN
− N i −1
Qr , k = li −1 + k ai
ni
< N i y [li −1 , li ] es el intervalo siguiente que contiene a
rN rN
siendo N i −1 < y cuya
k k
amplitud es ai .

Dentro de los cuantiles de orden k , estudiaremos los cuartiles ( k = 4 y r = 1,2,3 ; es


decir, 3 cuartiles), deciles ( k = 10 y r = 1,2,⋅ ⋅ ⋅,9 ; es decir 9 deciles) y percentiles
(k = 100 y r = 1,2,⋅ ⋅ ⋅,99 ; es decir 99 percentiles).

Cuartiles

Cuartiles Q1 , Q2 , Q3 o Qc = Qc , 4 ( c = 1,2,⋅3 ), ordenados los datos en orden


creciente, x1 , x2 ,..., xn , son tres números que dividen la distribución de los datos
en cuatro partes iguales. El segundo cuartil coincide con la mediana.

Q1 = xi , siendo i el valor que más se aproxime a n / 4 superiormente, i ≥ n / 4

Q2 = ~
x

Q3 = x j , siendo j el valor que más se aproxime a 3n / 4 superiormente, j ≥ 3n / 4 .

Datos agrupados. Se calculan con el diagrama de frecuencias absolutas


acumuladas. Aquí, Q1 es el dato cuya ordenada es n / 4 y deja el 25% de datos
menores o iguales que él a su izquierda y el 75% de los datos, mayores que él, a su
derecha.

Análogamente, Q3 es el número cuya ordenada en el diagrama de frecuencias


absolutas acumuladas coincide con 3n / 4 y deja el 75% del los datos, menores que
él, a su izquierda y el 25% de datos, mayores que él a su derecha.

La misma construcción es válida para calcular los deciles y los percentiles

Deciles

Deciles D1 , D2 , D3 , D4 , D5 , D6 , D7 , D8 y D9 o Dd = Qd ,10 ( d = 1,2,⋅ ⋅ ⋅,9 ).

Ordenados los datos en orden creciente, x1 , x2 ,..., xn , los deciles son los valores
que dividen a la distribución en diez partes iguales.
Estadística 1 29

El cálculo es análogo al de la mediana y los cuartiles:

Dd = xi , siendo i el valor que más se aproxime a d ·n /10 superiormente,


i ≥ d ·n /10 ∀d ,1 ≤ d ≤ 9 .

En el diagrama de frecuencias absolutas acumuladas Dd es el número cuya


ordenada coincide con el valor d ·n /10 ∀d ,1 ≤ d ≤ 9 .

Percentiles

Percentiles P1 , P2 ,..., P99

Ordenados los datos en orden creciente, x1 , x2 ,..., xn , los noventa y nueve


números que dividen la distribución de los datos en cien partes iguales serán los
percentiles.

El cálculo es análogo a los anteriores:

Pc = xi , siendo i el valor que más se aproxime a c·n /100 superiormente,


i ≥ c·n /100 ∀c, 1 ≤ c ≤ 99 .

En el diagrama de frecuencias absolutas acumuladas Pc es el número cuya


ordenada coincide con el valor c·n /100 ∀c, 1 ≤ c ≤ 99 .

A veces es útil indicar los valores máximos ( H ) y mínimos ( L ) que toma la variable
estadística en una muestra o población.

Otra medida de posición que caracteriza la distribución de frecuencias son los


momentos potenciales.
k
1
Momento de orden r respecto del origen se define como: a r =
N
∑x n
i =1
r
i i
∑ (x − x ) ni .
k
1
Momento de orden r respecto de la media se define como: mr = j
N i =1

Ambos momentos se relacionan mediante la fórmula:

r r
mr = a r −  a r −1a1 +  a r − 2 a12 − ⋅ ⋅ ⋅ + (− 1) a1r
r

1  2

Observación: El momento de orden 1 respecto del origen coincide con la media


aritmética; el momento de orden 2 respecto a la media, con la varianza de la
distribución (la veremos más adelante).

Relación entre promedios y Fórmula de Foster

Puede demostrarse que para la misma distribución de frecuencias ( xi , ni ) se cumple


la siguiente relación: xa ≤ x g ≤ x ≤ xc .

La relación de los diferentes promedios se hace con la fórmula de Foster, en la cual


la media de orden m viene dada por la expresión:

n1 x1m + n2 x2m + ⋅ ⋅ ⋅ + nk xkm


M (m ) = m ,
N

con lo cual

M (−1) = xa , M (0 ) = x g , M (1) = x y M ( 2 ) = xc .

MEDIDAS DE DISPERSIÓN

Los estadísticos de tendencia central o posición sólo nos indican donde se sitúa un
grupo de puntuaciones. Sin embargo, las medidas de dispersión muestran la
variabilidad de una distribución, indicando por medio de un número o estadístico, si
las diferentes puntuaciones de una variable están o no muy alejadas de la media.
Cuanto mayores son los valores de esos estadísticos más variabilidad habrá. Cuanto
menores son, más homogéneas son las puntuaciones respecto a la media. De este
modo se puede saber si todos los casos son parecidos o hay grandes diferencias
entre ellos.

Dentro de las medidas de dispersión tenemos medidas absolutas y relativas (son


adimensionales). Posteriormente, la clasificación de las medidas absolutas y
relativas se hace atendiendo a si están o no referidas a promedios.
Estadística 1 31

Medidas de dispersión absolutas no referidas a promedios

{ } {
Rango o recorrido R = max xi , i ∈ {1, 2,..., k } − min xi , i ∈ {1, 2,..., k} }
Esencialmente, el cálculo de esta magnitud es sencillo, las unidades se
corresponden con el de la variable estadística, intervienen dos valores en su
determinación, es sensible a valores extremos y aumenta o permanece igual con el
incremento del número de observaciones.

Recorrido intercuartílico RI = Q3 − Q1

Medidas de dispersión relativas no referidas a promedios

mayor valor
Coeficientes de apertura CA = de la distribución.
menor valor

recorrido
Recorrido relativo Rr = .
media

RI
Recorrido semintercuartílico Rs = .
Q1 + Q3

Medidas de dispersión absolutas referidas a promedios


k

∑ (x − P )n
1
Desviación respecto al promedio: D = i i
N i =1

Tiene el inconveniente que al efectuar el promedio se produce la compensación de


términos positivos y negativos siendo la medida pequeña con una dispersión
grande. La solución a esta dificultad se resuelve introduciendo los módulos o
elevando al cuadrado.

k
1
Desviación media con respecto a la media aritmética: Dm =
N
∑x
i =1
j − x ni .
k
1
Desviación media con respecto a la mediana: D~x =
N
∑x
i =1
j −~
x ni .

Sin embargo, las medidas de dispersión más utilizadas son:

Varianza

La varianza de una variable mide la dispersión de sus valores respecto al valor


central x o µ . La podemos definir además como la media aritmética de las
desviaciones cuadráticas de n o N puntos respecto a su media aritmética.

1 n 1 n 2
Varianza muestral: s 2 = ∑ ( x − x )2
= ∑ xi −
n 2
x (demuéstrelo)
n − 1 i =1 n − 1 i =1 n −1
i

N N

∑ (xi − µ )
1 1
Varianza poblacional: σ 2 = = ∑x − µ 2 (demuéstrelo)
2 2
i
N i =1 N i =1

Esta medida es siempre una cantidad no negativa y muy útil en la inferencia


estadística. La varianza tiene una dimensionalidad que no coincide con la variable
estadística. Para resolver este problema se define otra medida de dispersión, la
desviación típica.

Desviación típica

1 n
Desviación típica muestral: s = ∑ (xi − x )2
n − 1 i =1 ¿A qué se debe la diferencia
entre ambas expresiones?
N

∑ (x − µ)
1
Desviación típica poblacional: σ =
2
i
N i =1

Observación. Tanto la varianza como la desviación típica son sensibles a la


variación de cada una de las puntuaciones (ver definición), en el intervalo
( x − 2 s, x + 2 s ) se encuentra al menos el 75% de las observaciones (en caso de
distribución normal el 95% -se definirá más adelante) y no se recomienda usarlas
cuando tampoco sea recomendable el de la media aritmética como medida de
tendencia central.
Estadística 1 33

s
Error estándar e = .
n

Observación. Es posible definir desviación media respecto a la moda y desviación


cuadrática respecto a la mediana y a la moda en las medidas de dispersión
absolutas referidas a promedios.

Medidas de comparación: unidades tipificadas y el coeficiente de


variación

Las medidas de centralización y dispersión nos dan información sobre una muestra.
Sin embargo, si queremos comparar dos magnitudes de una misma población (la
resistencia eléctrica y la diferencia de potencial de un elemento ohmico), comparar
una desviación respecto a la media no tiene sentido. El mismo problema se plantea
si medimos cierta cantidad de dos poblaciones con distintas unidades (la masa del
ADN y la de un sólido cristalino –unidades en uma y en kg puede resultar que la
dispersión en uma sea despreciable).

Para comparar datos procedentes de diferentes muestras o poblaciones se


emplean las unidades tipificadas y/o el coeficiente de variación pues elimina
la dimensionalidad de las variables y tiene en cuenta la proporción existente entre
medias y desviación típica.

Z-scores o valores tipificados

Sea xi un valor procedente de una muestra o población con media x o µ y


desviación típica s o σ .

xi − x
zi = , es el valor tipificado o z-score de la muestra. La nueva variable
s
tiene z i = 0 y s zi = 1 .

xi − µ
zi = , es el valor tipificado o z-score de la población. La nueva variable
σ
tiene z i = 0 y σ zi = 1 .

Las unidades tipificadas muestran el número de desviaciones típicas que en un valor


dado se sitúa por encima o por debajo de la media de su muestra o población. Éstas
permite hacer comparables dos medidas estadísticas que en un principio no lo son
(comparación de la masa del ADN y el sólido cristalino). También es aplicable al
caso en que se quieran comparar individuos semejantes de poblaciones diferentes
(conductividades eléctricas del sólido cristalino de un material conductor y
semiconductor).

Coeficiente de variación

Para resolver los inconvenientes que presenta la desviación típica se define una
medida adimensional de la variabilidad: coeficiente de variación. Nos sirve para
comparar tablas en las que se utilicen unidades diferentes de medida.

s
Coeficiente de variación muestral: CV =
x

σ
Coeficiente de variación poblacional: CV =
µ

A veces este cociente se expresa en tanto por ciento y nos dará un porcentaje de
variabilidad de los datos respecto a la media. El coeficiente no es invariante ante
cambios de origen pero si es invariante a cambios de escala. Como en su cálculo
intervienen todos los miembros de la muestra o población (ver quiénes lo forman)
nos da mucha garantía ante otros coeficientes. El único inconveniente se presenta
cuando x = 0 .

Observación. El coeficiente de variación sirve para


comparar las variabilidades de dos conjuntos de valores
(muestras o poblaciones), mientras que si deseamos
comparar a dos individuos de cada uno de esos conjuntos,
es necesario usar los valores tipificados.

D~
Índice de dispersión respecto a la mediana V~x = ~x
x

Sirve para comparar medianas de varias distribuciones que puedan estar en


unidades diferentes.

MEDIDAS DE FORMA
Estadística 1 35

Ahora nos interesa si los datos se distribuyen de forma simétrica con respecto a un
valor central, o si bien la gráfica que representa la distribución de frecuencias es de
una forma diferente del lado derecho que del lado izquierdo. Si la simetría ha sido
determinada, podemos preguntarnos si la curva es más o menos apuntada.

Las medidas de forma tratan de comparar las distribuciones de los datos con los de
una población normal en la que la moda y la media coinciden y su distribución de
frecuencias relativas es simétrica respecto de la media. Esta medida de comparación
es muy útil con variables discretas. Sólo se utilizarán estas medidas para
distribuciones de datos unimodales. Cuando las distribuciones son continuas se
recomienda la mediana por cuanto ésta divide al histograma de frecuencias en dos
partes de áreas iguales.

Simetría

Distribución normal

Distribución unimodal es simétrica cuando todos los valores de la distribución sean


simétricos respecto a la moda y valores simétricos tengan frecuencias relativas
iguales.

Asimetría

Asimétrica a la derecha o
asimétrica positiva si las Asimétrica a la izquierda o
frecuencias más altas se asimétrica negativa si la cola
encuentran en el lado izquierdo de está a la izquierda Md > x
la media, mientras que en
derecho hay frecuencias más
pequeñas (cola)

Md < x

Asimétrica a la derecha: Se verifica Asimétrica a la izquierda: Se


que Md < X verifica que Md > X
Para medir la asimetría de una distribución se pueden utilizar los siguientes
coeficientes:

Coeficiente de asimetría de Pearson:

> 0 asimétrica a derecha


x − Md 
Ap = ⇒ = 0 simétrica
s < 0 asimétrica a izquierda

Coeficiente de asimetría de Fisher:

m3
1 k

N i =1
(x j − x ) ni
3
> 0 asimétrica positiva

g1 = 3 = ⇒ = 0 simétrica
σ 3
< 0 asimétrica negativa
 ∑ (x j − x ) ni 
1 k 2 2 
 i =1
N 

Coeficiente de asimetría de Fisher estandarizado: Para N > 150, el


g1
coeficiente es asintóticamente normal con media cero y varianza 6/N, g s = .
6
N

Coeficiente de asimetría de Bowley:

> 0 asimétrica positiva


Q3 + Q1 − 2 ~
x 
Ab = ⇒ = 0 simétrica
Q3 + Q1 < 0 asimétrica negativa

Coeficiente absoluto de asimetría:

Q3 + Q1 − 2Q2 > 0 asimétrica positiva


A=
s 
⇒ = 0 simétrica
Q3 + Q1 − 2 ~
x
= < 0 asimétrica negativa
s 

Curtosis o aplastamiento

La Curtosis o aplastamiento o apuntamiento analiza el grado de concentración


que presentan los valores alrededor de la zona central de la distribución, i.e., da
idea si la distribución es más o menos apuntada que una normal).
Estadística 1 37

Según el grado de curtosis, una distribución puede ser:

1.

2.

3.

4.

5.

Presenta
6. un grado de Presenta un elevado grado de Presenta un reducido grado
concentración medio alrededor de concentración alrededor de los de concentración alrededor
los valores centrales de la variable
7. valores centrales de la variable de los valores centrales de

Medidas de curtosis más comunes

Coeficiente de curtosis o coeficiente de aplastamiento de Fisher:


k

∑ (x − x ) ni
1 4
 g 2 > 0 Leptocúrtica

i
m4 N
g2 = −3 = i =1
⇒  g 2 = 0 Mesocúrtica
σ4 1 k

2
 g < 0 Platicúrtica
∑ (x − x)
2
 i ni   2
N i =1 

Coeficiente de curtosis estandarizado: Si N > 150, g 2 es asintóticamente


normal de media cero y varianza 24/N. Por tanto,

g2
g ks = . El coeficiente es asintóticamente normal (0, 1).
6
N

Es importante después del análisis de datos presentar el siguiente teorema, la cual


será muy útil al analizar las variables aleatorias X .

DESIGUALDAD DE CHEVYSHOV

Teorema (Desigualdad de Chevyshov) Sea una distribución de datos cualquiera


xi , un número K ≥ 0 . Si la frecuencia relativa de los datos está comprendida en el
intervalo  X − K ·S , X + K ·S  ( X es la media de los datos y S la desviación típica),
se verifica que:

{ }
frecuencia relativa xi ; X − xi ≤ K ·S ≥ 1 −
1
K2
.

Observación. La tesis se puede escribir también como:

{x ;
i X − xi ≤ K ·S } ≥ 1− 1
.
n K2

1 1 3
Ejemplo: Sea K = 2 , 1 − 2
= 1 − = = 0, 75 , lo que indica que más del 75% de
K 4 4
los datos, cualquiera que sea la distribución, se encuentran en un intervalo de la
forma  X − K ·S , X + K ·S  .

ANÁLISIS EXPLORATORIO DE DATOS

La media y la desviación típica son convenientes cuando la distribución de datos es


aproximadamente normal o, al menos simétrica o unimodal. Sin embargo, en el
estudio de control de la calidad, por ejemplo, las variables no cumplen siempre
estos requisitos. Entonces hay que hacer un análisis de la estructura de datos.

Hoy en día se usan novedosas técnicas del análisis exploratorio de datos y se


pueden analizar los datos y detectar posibles anomalías que presenten las
observaciones. Para este objetivo, se recomienda hacer los siguientes pasos:

1. Iniciar el análisis con datos que permitan visualizar su estructura. Para datos
cuantitativos se debe empezar por gráficos de tallos y hojas o como se
denominan también histogramas digitales.

2. Examinar los posibles valores atípicos (outliers) en el conjunto de datos


mediante los gráficos de caja y bigote. Debemos tener presente que el
gráfico de caja siempre debe ir junto con los histogramas digitales (o
gráficos de tallos y hojas), porque los primeros no detectan si las
distribuciones son multimodales.

Si los datos no se ajustan a la distribución normal se deben usar estadísticos


resistentes o robustos. Éstos se ven pocos afectados por valores atípicos pues
suelen basarse en la mediana y los cuartiles que pueden calcularse fácilmente.
Estadística 1 39

Se pueden complementar nuestro análisis con los diagramas de simetría y


gráfico normal de probabilidad.

Los gráficos de simetría permiten analizar la simetría de una variable. En el eje


de las ordenadas se representan las distancias de los valores de la variable a la
mediana que quedan por encima de ella; en el eje de las abscisas, los que quedan
por debajo. La simetría perfecta implicaría estar sobre los valores de la diagonal
principal que se forma.

Pasos:

1. Calcular la mediana.

2. Se ordenan los valores de la variable en orden descendente.

3. Se calculan las distancias d i (i = 1,2,⋅ ⋅ ⋅, n ) entre los valores ordenados y la


mediana.

4. Se toman los d i > 0 ordenados en orden creciente y los denominamos pi


(valores sobre la mediana).

5. Se toman los d i < 0 (con signos cambiados) ordenados en orden creciente y


los denominamos ni (valores bajo la mediana).

6. Se grafican (− ni , pi ) .

Los gráficos normales de probabilidad determinan si un conjunto de datos se


ajusta a una distribución normal. Este gráfico presenta en el eje de las abscisas los
valores de la variable; en el eje de las ordenadas, los valores de las frecuencias
relativas acumuladas. La normalidad perfecta corresponde a los puntos (xi , Fi )
situados una línea recta ubicada en la diagonal del primer cuadrante.

Bibliografía

1. Lipschutz y J. Schiller, “Introducción a la probabilidad y estadística”. Ed. Mc Graw


Hill, 2000.

2. Jay L. Devore, Probabilidad y estadística (para ingeniería y ciencias), sexta


edición. Ed. Thomson. 2005.

3. Apuntes del profesor J M Bergues, 2009.

4. Material complementario de bioestadística.


Orientaciones al estudio individual

1. Estudiar las notas de clases.

2. Ejemplos del texto (1) recomendado Pág. 8 a la


20.

3. Ver el concepto de Gran media. Vea el texto


citado.

4. Estudiar los problemas resueltos del mismo libro


(1). Pág. 33 a la 38.

5. Alternativamente vea ejemplos resueltos en el


material complementario de bioestadística.

6. Puede consultar la Wikipedia o las páginas Web de


la asignatura para buscar ejemplos de los
diferentes tópicos explicados.

7. Este estudio es preliminar, después de la clase de


refuerzo se pondrán ejercicios a realizar por los
estudiantes y luego viene un proceso de
consolidación.

EJERCICIOS PROPUESTOS

1. Durante un mes diez vendedores de un concesionario de coches vendieron 13,


17, 10, 18, 17, 9, 17, 13, 15, 14 coches respectivamente. Hallar:

a. la media

b. la mediana

c. la moda

d. el medio rango

e. la varianza

f. la desviación típica
Estadística 1 41

2. La distribución de los salarios en una universidad se presenta como sigue:

Salarios No de trabajadores

0 - 10000 2000
Calcular:
10000 - 20000 1500
a. el salario medio por trabajador.
20000 - 30000 900 b. el salario más frecuente.
c. el salario tal que la mitad de los restantes sea
30000 - 40000 1000
inferior a él.

40000 - 50000 2500 d. El primer cuartil salarial y el percentil 60.

50000 - 60000 600

60000 - 70000 300

70000 - 80000 10

3. Los rendimientos de cuatro inversiones realizadas por una empresa y las


cantidades invertidas inicialmente en la unidad monetaria son las que se relacionan
a continuación:

Cantidad inicial Rendimientos


Calcular el rendimiento medio por unidad monetaria
invertida para el total de inversiones de la empresa
300000 1500
mediante:
500000 2000
a. el concepto que mejor se ajuste a la situación

200000 900 descrita.


b. Otros procedimientos. Compárelos entre sí.
400000 1300
4. La tabla muestra los consumos de un determinado producto por habitantes en
una ciudad de una navidad a otra.

Meses Dic Ene Feb Mar Abr May Jun Jul Ago Sep Oct Nov Dic
. . . . . . . . . . . . .

consum 17 15 10 9,3 9,4 9,2 8,5 9 9 6,5 8,2 10 18


o 5

A partir de los incrementos unitarios de consumo de cada mes, calcule el


incremento unitario anual medio acumulativo.

5. En un experimento controlado una partícula recorre una distancia 100 Km. a una
velocidad de 150 km/h y 60 Km. a una velocidad de 120 km/h Determine ¿cuál es la
velocidad media de la partícula en todo el recorrido?

6. La tabla muestra los salarios de grupos de profesores de dos universidades con


un número de total de trabajadores similares.

Universidad 1 Universidad 2

Salarios No Profesores Salarios No Profesores

10000 - 20000 240 5000 - 15000 190

20000 - 30000 360 15000 - 25000 430

30000 - 40000 220 25000 - 35000 180

40000 - 50000 560 35000 - 45000 130

a. Calcular el salario medio en cada universidad y el salario medio del conjunto


de las dos universidades.
Estadística 1 43

b. ¿Cuál de los dos salarios es más representativo?

c. ¿Se puede diferenciar si en una universidad se gana más que en la otra?

d. ¿Cuál es el salario medio percibido por el mayor número de profesores en la


primera universidad?

e. En la segunda universidad clasificamos a un profesor en el grupo en el que


se encuentra el 50% de los que menos salarios tiene, ¿cuál es el tope del
salario que puede percibir?

7. En una práctica de laboratorio se realiza la medición de la resistencia eléctrica de


50 elementos ohmicos. 7 elementos ohmicos tienen una resistencia entre 10 y 20
Ω ; 11, entre 20 y 30 Ω ; 15, entre 30 y 40 Ω ; 10, entre 40 y 50 Ω ; 5, entre 50 y
60 Ω ; y 2, entre 60 y 70 Ω . Se quiere:

a. La media, la mediana, la moda, la desviación media respecto a la media,


tercer cuartil, sexto decil, trigésimo percentil, recorrido intercuartílico y
recorrido semiintercuartílico de los ohmios de las resistencias.

b. Calcular el coeficiente de asimetría de Bowley y realizar el gráfico adecuado


para el estudio de la asimetría de la distribución de las resistencias de los
elementos ohmicos.

c. Deducir el grado de normalidad de la distribución mediante el gráfico de


normalidad.

d. Construir el diagrama de tallo y hojas realizando una comparación con el


histograma de frecuencias y deduciendo de él la simetría y la normalidad de
la distribución de la resistencia eléctrica de los elementos ohmicos.

e. Analice la distribución mediante un gráfico exploratorio de cajas y bigotes.

8. En el laboratorio se ha medido una magnitud física de tal manera que para varios
valores de la misma se han realizados varias mediciones según se reporta en la
siguiente tabla:

xi 1 3 4 6 10

ni 5 12 20 8 5
a. Estudie analítica y gráficamente la simetría de esta distribución.

b. Cuantifique el grado de apuntamiento de esta distribución.

c. Estudie la normalidad de esta distribución

4. DATOS BIDIMENSIONALES. AJUSTE DE CURVAS

INTRODUCCIÓN

En mediciones de magnitudes que se realizan en un laboratorio o algún otro tipo


de valor que se obtienen al realizar un estudio determinado, se obtienen datos del
tipo:

(x1, y1), (x2, y2),…, (xn, yn).

Interesa buscar la relación que se establece entre las variables (correlación):


gráfica o analíticamente ¿Por qué?

Las gráficas muestran un entendimiento rápido del objeto de estudio; las


expresiones analíticas, expresan directamente la relación que se establece entre las
variables.
Estadística 1 45

¿Cómo se satisfacen estos requerimientos a partir de un conjunto de datos? Idea:


representar los datos en un plano y según la forma en que se distribuyen, trazar la
curva que mejor se ajuste a esa nube de puntos.

Datos bidimensionales
Recta de regresión

Esta recta se traza después


Parece que representan de haber culminado todo el
una recta proceso de regresión

En cualquier situación la información procede de datos cuya naturaleza es


estadística. Por tanto, ¿qué debemos considerar para que la información de interés
resulte confiable?

La respuesta a estas consideraciones la veremos a continuación. Tratamos los datos


bidimensionales y para éstos hay que definir estadísticos conjuntos, los cuales
pueden ser vistos también de forma individual. La necesidad de considerar los
estadísticos conjuntos o individuales es importante porque lo que vamos hacer es
obtener curvas de regresión y los denominados coeficientes de regresión se calculan
a partir de éstos parámetros.

DATOS BIDIMENSIONALES

Se necesitan precisar algunas definiciones:

Datos bidimensionales: aquellos que tienen la forma (x1, y1), (x2, y2),…, (xn, yn).

Se pueden considerar las frecuencias absolutas de los datos bidimensionales o las


frecuencias absolutas de las variables individuales (frecuencia marginal):

Ejemplo 1. Tabla de doble entrada. Frecuencia absoluta marginal (de


las variables peso

y altura) y frecuencia conjunta de las variables.


Frecuen
Peso \ 166- 171- 176-180 181- 186- cia
altura 170 cm 175 cm cm 185 cm 190 cm marginal

(Altura)

61-70 kg 1 1 2

71-80 kg 2 4 6

81-90 kg 2 1 3

90-100kg 1 1

Frecuencia
marginal 1 3 6 1 1 12
(Peso)

Diagramas de dispersión: representación de los pares de valores obtenidos en


un plano cartesiano.

Ajuste de curvas: Aquella curva y = f (x) que mejor represente a la nube de


puntos. Algunas curvas típicas son de tendencia:

1. Lineal
y = mx + p

2. Polinómica
y = a0 + a1 x + a1 x 2 + ... + a1 x n
Linealización

3. Hiperbólica y = 1 (a + bx ) 1 y = a + bx

log y = log a + x log b


4. Exponencial y = ab x

y = ax b log y = log a + b log x


Estadística 1 47

5. Geométrica

METODOLÓGICAMENTE estudiaremos primero el caso lineal.

CASO LINEAL

Observar si los puntos se acercan a


una recta (correlación lineal). En
ese caso la recta se llama recta de
regresión.

La recta de regresión es creciente


(decreciente) cuando la correlación
es positiva o directa (negativa o
inversa).

Para no hacer valoraciones cualitativas acerca de si la correlación lineal puede ser


fuerte o no, introducimos:

Coeficiente de correlación

La covarianza mide la relación lineal entre dos variables y se expresa:

1 n
s xy = ∑ (xi − x )( yi − y )
n − 1 i =1

Propiedades

 − ∞ ≤ s xy ≤ ∞

> 0 Correlación directa. Re cta de regresión creciente



 s xy ⇒ = 0 No hay correlación
< 0 Correlación inversa. Re cta de regresión decreciente

La covarianza depende de los valores de las variables y por tanto de sus unidades.
Para tener una medida adimensional se utiliza el coeficiente de correlación de
Pearson ( rxy ):

Alternativamente

n n
1  n  n 
sxy ∑(x − x)( y − y)
i i ∑
i=1
xi yi − ∑xi ∑yi 
n  i=1  i=1 
rxy = = i=1
=
sxsy n n
n 2 = 1 n    n 2 1  n 2 
∑(xi − x) ∑( yi − y)
2
2 2
∑xi − ∑xi   ∑yi − ∑yi  
i=1 i=1 n  i=1   n  i=1  
 i=1  i=1

s x es la desviación típica (marginal) de la variable x y s y es la desviación típica


(marginal) de la variable y .

La alternativa es útil después de hacer una tabla. Demuestre que la expresión es


equivalente a la anterior.

Propiedades:

 −1 ≤ rxy ≤ 1

 Es un coeficiente adimensional. Por ello sirve de valor de comparación


aunque las variables vengan expresadas en unidades diferentes.

 Si rxy = 1 o rxy = −1 , la relación es funcional, es decir podemos expresar una

de las variables en función de la otra ( ∃f , y = f ( x ) ).

Interpretación:

 Si rxy está próximo a 1 ó -1 la correlación es fuerte (por encima de ±0.8).

 Si rxy está próximo a 0, la correlación es débil.

 Si rxy >0 la correlación es directa. Hay relación lineal positiva.


Estadística 1 49

 Si rxy <0 la correlación es inversa. Hay relación lineal negativa.

 Si sxy = 0 y por tanto rxy = 0 la correlación es nula. La relación lineal es


nula.

Interpretación gráfica:

 Si rxy = 1 los puntos (x, y) forman una recta creciente.

 Si rxy = -1 los puntos (x, y) forman una recta decreciente.

 Si rxy > 0 los puntos (x, y) forman una nube ascendente más cercana a una
recta cuanto más cercano sea este valor a 1.

 Si rxy < 0 los puntos (x, y) forman una nube descendente más cercana a una
recta cuanto más cercano sea este valor a -1.

 Si rxy = 0 la nube de puntos sigue una distribución totalmente aleatoria


(circular).

Recta de regresión. Mínimos cuadrados. Ajuste de curvas

Hemos visto que los datos bidimensionales pueden estar correlacionados y esa
relación puede ser lineal. Entonces el diagrama de puntos se aproximaría a una
recta de la forma y = mx + p . Tanto m y p se deben determinar.

La determinación de la recta de regresión de y sobre x3, se hace con el método


de mínimos cuadrados: consiste en encontrar los valores de m y de p que
minimicen la distancia vertical que hay entre la recta y los puntos de la forma
( xi , yi ) , i ∈ {1, 2,..., n} que forman el diagrama de puntos.

El punto de la recta que corresponde al punto de abscisa xi será de la forma

( xi , mxi + p ) , i.e., el i-ésimo valor de nuestra variable estadística bidimensional,

( xi , yi ) .

Llamemos d i = [(mxi + p ) − yi ]2 , a la distancia vertical que hay entre la recta

y = mx + p y el punto ( xi , yi ) .

3
Se puede determinar también la recta de regresión de x sobre y
Para considerar todas las distancias (la de todos los puntos ( xi , yi ) con
i ∈ {1, 2,..., n} ), consideramos la suma de todos los d i . Para no trabajar con raíces
tomaremos la suma de las distancias verticales al cuadrado
n

∑d
i =1
i
2
= d12 + d 22 + ... + d n2 (error cuadrático entre la recta de regresión de y sobre

x y los puntos ( xi , yi ) con i ∈ {1, 2,..., n} ).

n n

∑ di2 = ∑ [(mxi + p ) − yi ] : derivamos


2
Por tanto, el problema se reduce a minimizar
i i

parcialmente esta expresión respecto de p y respecto de m e igualamos a cero


ambas derivadas: con lo que obtendríamos el siguiente sistema de ecuaciones:

 n n

 n p + m ∑
i =1
xi = ∑
i =1
yi


 n n n

 ∑ i + ∑ = ∑
2
p x m x i xi yi
 i=1 i =1 i =1 ,

donde n es el número de puntos ( xi , yi ) , i.e., datos de nuestro problema.

 p = y − mx
 r s
Resolviendo este sistema obtendríamos que 
m = xy y
 sx

Por tanto, la recta de regresión de y sobre x tomará la forma:


rxy s y  r s 
y= x +  y − xy y x 
sx  sx 

Observaciones:

1. El punto ( x, y ) pertenece a la recta de regresión.


Demuéstrelo.
Estadística 1 51

(
2. El punto de la forma x + s x , y + rxy s y ) pertenece a
la recta de regresión. Demuéstrelo.

¿CÓMO SE PROCEDE PARA REPRESENTAR LA


CURVA DE REGRESIÓN LINEAL?

Con lo visto hasta ahora podemos indicar un procedimiento de trabajo para hallar la
recta de regresión. Para este fin podemos seguir los siguientes pasos:

1. Representamos el diagrama de dispersión4. Éste nos dará una idea si la nube


de puntos sigue una distribución lineal o no5.

2. Calculamos el coeficiente de correlación de Pearson (nos confirmará si hay


correlación lineal o no).

3. Si hay correlación lineal, entonces determinamos estadísticamente los


valores de la pendiente y el intercepto con el eje de las ordenadas de la
recta de regresión (ver arriba). Aquí tenemos dos alternativas equivalentes
entre sí:

a. Resolvemos el sistema de ecuaciones que se obtiene directamente al


aplicar el método de los mínimos cuadrados y determinamos m y p .

b. Utilizamos directamente las fórmulas de m y p .

4. Trazamos la recta de regresión lineal.

Ejemplo 2. En el laboratorio se termina la dependencia de dos


magnitudes físicas y se obtiene la siguiente relación:

4
No es correcto representar la recta en el diagrama de dispersión pues usted no sabe aún cuál es la verdadera
recta o la que más se le aproxime.
5
Es evidente que si la nube de puntos me muestra que no hay correlación lineal, entonces no hace falta seguir el
procedimiento.
x 4 2 10 5 8 ¿Puede ajustarse esta distribución de puntos con una recta?

y 8 12 4 10 5

Paso 1. Diagrama de dispersión

Parece que es una recta

Paso 2. Coeficiente de correlación de Pearson


x y x2 y2 xy
n
1  n  n 

i =1
xi yi −  ∑ xi  ∑ yi 
n  i =1  i =1 
rxy = 4 8 16 64 32
 n 2 1  n 2   n 2 1  n 2 
∑ xi −  ∑ xi   ∑ yi −  ∑ yi  
 i =1 n  i =1    i =1 n  i =1  
2 12 4 144 24

1
162 − 29 36 10 4 100 16 40
rxy = 5 = −0,8833
1 2 1 2
209 − 29 328 − 36 5 10 25 100 50
5 5

8 2 64 4 16

total 29 36 209 328 162

Se puede ajustar con una recta.

Paso 3. Determinar m y p

1 n 2 1  n  
2
1 1 
sx = ∑ xi −  ∑ xi   =  209 − 292  = 3,1937
n  i =1 n  i =1   4 5 
Estadística 1 53

1 n 2 1  n  
2
1 1 
sy = ∑ yi −  ∑ yi   = 328 − 36 2  = 4,1473
n  i =1 n  i =1   4 5 

rxy s y − 0,8833 4,1473


m= = = −1,1470
sx 3,1937

− (− 1,1470) = 13,8526
36 29
p = y − mx =
5 5

Paso 4. Recta de regresión

Hacen falta dos puntos. Escojamos: (x , y ) =  29 , 36  = (5,8, 7,2) y el punto


 5 5 
p = 13,9 (También pudiéramos tomar también el punto (x + s x , y + rxy s y ) ).

Como usted puede ver la recta de regresión no


es la que se obtiene uniendo los puntos del
diagrama de dispersión. Este tipo de error es
muy frecuente cometerlo. Se recomienda que
se acostumbre a este último paso efectuarlo
separado.

AJUSTES DE CURVAS. CASO NO LINEAL

Algunas veces no existe una relación lineal entre las variables estadísticas
consideradas, pero eso no indica que no haya relación matemática o funcional entre
ellas. Para determinar numéricamente la relación existente entre las variables
estadísticas a tratar, podemos utilizar los siguientes argumentos (vea pág. 2):

 Si entre y y x2 observamos una relación lineal, entonces usaremos la


curva parabólica
1
 Si entre y x hay una relación lineal utilizaremos una curva hiperbólica.
y

 Si entre x y ln ( y ) observamos una relación lineal, entonces usaremos la


curva exponencial.

 Si entre ln ( x ) y ln ( y ) observamos una relación lineal, entonces usaremos


la curva geométrica.

 Si entre y y ln ( x ) hay una relación lineal, entonces usaremos la curva


logarítmica.

¿QUÉ SIGNIFICA ESTO?

Si no podemos linealizar, hacemos el procedimiento de ajuste de la curva de


mínimos cuadrado. La técnica es similar a la vista antes. Tendríamos ajuste por
mínimos cuadrado parabólico, hiperbólico, etcétera.

¿CÓMO PROCEDEMOS AL HACER UN AJUSTE DE CURVA CUALQUIERA?

1. Representamos el diagrama de dispersión:

a. Si hay linealidad hacemos el procedimiento de la regresión lineal


anterior.

b. En caso contrario, vea el punto 2.

2. Si no existe linealidad, podemos analizar alguna transformación de las


variables viejas con el fin de obtener una linealización entre las nuevas
variables que resultan de la transformación. A estas nuevas variables hay
que verificarles si existe tal linealidad:

a. Hallamos el coeficiente de Pearson, para ver si existe la linealidad de


las nuevas variables o para comprobar cuan bueno es el ajuste.

b. Si no se verifica la linealidad de las nuevas variables, ver punto 3.

3. Si no existe aplicamos el método de mínimos cuadrados en correspondencia


con el tipo de curva.
Estadística 1 55

Problema. Halle la curva que ajusta los siguientes datos:

x 1 2 3 4 5 6

y 6 12 24 50 95 190

Nota: Recuerde que a partir de ahora usted debe emplear


un método general que permita obtener cualquier tipo de
curva de regresión. Auxíliese de los que el profesor ha
esbozado.

Bibliografía

Lipschutz y J. Schiller, “Introducción a la probabilidad y estadística”. Ed. Mc Graw


Hill, 2000.

ORIENTACIONES AL ESTUDIO INDEPENDIENTE

1. Estudiar las notas de clase.

2. Estudiar la deducción de las expresiones que


permiten obtener la recta de regresión. Hacer lo
mismo con la regresión parabólica, polinómica,
hiperbólica, potencial y exponencial.

3. Ver ejemplo 1.23 y problemas resueltos (pág. 38-


45) del texto indicado.

4. Puede ver ejemplos resueltos en cualquier otro


texto que considere oportuno.

5. Realice los ejercicios propuestos del mismo texto.


EJERCICIOS PROPUESTOS

1. Los ahorros A y los ingresos I mensuales en cientos de euros de 10 grupos de un


departamento universitario se reportan en la siguiente tabla:

A 1,9 1,8 2,0 2,1 1,9 2,0 2,2 2,3 2,7 3,0

I 20,5 20,8 21,2 21,7 22,1 22,3 22,2 22,6 23,1 23,5

a. ajuste los datos a un modelo lineal que explique los ahorros de los grupos en
función de los ingresos para el departamento universitario.

b. ajuste los datos a un modelo parabólico que explique los ahorros de los
grupos en función de los ingresos para el departamento universitario.

c. ¿Cuál de los ajuste es mejor?

d. ¿Qué ajuste se puede prever para un grupo en el departamento que ingrese


2500 euros mensuales?

2. Para describir la distribución de la renta de personas físicas suele utilizarse la ley


b
x 
de Pareto que viene definida por la ecuación y = 1 −  0  ; donde y es el
 x
porcentaje de personas con una renta igual o inferior a x siendo x0 la renta mínima y
b un parámetro estructural. Se pide ajustar una ley de Pareto a los datos
siguientes:

ln x 0,7 1,2 1,5 1,8 2,2 2,7 3,2 3,5 4,0

y 0,033 0,107 0,22 0,373 0,55 0,753 0,88 0,96 1

3. La inversión K y el producto interior bruto y se relacionan mediante la expresión


y = aK c (función de Cobb-Douglas). Ajuste la función a los datos:
Estadística 1 57

yi 2,6 2,9 3,4 4,1 5,1 6,0 7,2 9,2 11,2 13,1 15,2 17,3 19,9

Ki 0,6 0,6 0,8 1,0 1,3 1,4 1,6 1,9 2,2 2,5 2,9 3,5 3,9

4. Determine las expresiones que permiten realizar la regresión:

a. parabólica

b. polinómica

5. TÉCNICAS DE CONTEO

INTRODUCCIÓN

En la vida, interesan los fenómenos aleatorios –no tienen una relación de causa-
efecto.

¿Cómo los llamamos? Sucesos. En probabilidades representan los posibles


resultados de un experimento aleatorio.

¿Qué información previa se necesita para determinar el número de posibilidades


de que ocurra un suceso? EL CONTEO

¿Por qué es necesario aprender técnicas de conteo? Los elementos de un conjunto


no son siempre fáciles de contar.

¿Qué técnicas son esas? Leyes de la combinatoria, diagramas de árbol,


comparación de conjuntos a partir de funciones inyectivas, biyectivas o
sobreyectivas, etcétera. Nos ocuparemos de la combinatoria y los diagramas de
árbol.

¿Qué relación tiene la teoría de conjuntos y la técnica de conteo?

• Un suceso será como un conjunto

• El suceso ocurrirá cuando aparezca alguno de sus elementos.

• el número de posibilidades de que ocurra no es más que encontrar su


cardinal.

PRINCIPIO DEL CÁLCULO

El análisis de la combinatoria (permutaciones y combinaciones) está relacionado con


la determinación del número de posibilidades lógicas de que ocurra un suceso.

¿Cuáles son los principios del cálculo?

• Principio de la regla de suma

• Principio de la regla del producto

Principio de la regla de suma.

Supongamos que un suceso E ocurre de m maneras y un segundo suceso F ocurre


de n maneras y que ambos no ocurren simultáneamente. Entonces, E o F
pueden ocurrir de m+n maneras.

• ¿En términos de conjuntos? n( A ∪ B ) = n( A) + n(B ) ; A ∩ B = φ ;

Principio de la regla del producto

Supongamos que un suceso E ocurre de m maneras e independientemente un


segundo suceso F ocurre de n maneras. Entonces, las combinaciones de E y de F
pueden ocurrir de mn maneras.

• ¿En términos de conjuntos? n( A × B ) = n( A) ⋅ n(B ) ; (A y B conjuntos finitos)

Ejemplo 1. Una universidad tiene tres cursos diferentes de informática,


cuatro diferentes de idiomas y dos diferentes de ciencias naturales (sin más
requisitos).

a) ¿Cuántas opciones hay de escoger uno de los cursos?


Estadística 1 59

b) ¿Cuántas opciones hay de escoger un curso de cada?

Solución.

a) Hay n = 3 + 4 + 2 = 9 opciones.

b) Hay n = 3 (4) (2) = 24 opciones.

En los tópicos que se tratan más adelante se utilizan conceptos tales como factorial
de un número y coeficientes binomiales. A continuación se tratan estos conceptos.

Factorial

Factorial6 de un número natural n: n!= 1 ⋅ 2 ⋅ 3 ⋅ ... ⋅ (n − 1) ⋅ n (1)

Nota: n!= n ⋅ (n − 1)! y 1! = 1

Se define 0! = 1

Ejemplo 2. Calcule:

a) 5! Solución 5!= 5 ⋅ 4 ⋅ 3 ⋅ 2 ⋅ 1 = 120

7! 7! 7 ⋅ 6 ⋅ 5 ⋅ 4 ⋅ 3!
b) Solución = = 840
3! 3! 3!

Ejemplo 3. Demuestre que:

a) n (n − 1)(n − 2 ) ⋅ ⋅ ⋅ (n − r + 1) =
n!
.
(n − r )!
n (n − 1)(n − 2 ) ⋅ ⋅ ⋅ (n − r − 1) n!
b) =
1 ⋅ 2 ⋅ 3 ⋅ ... ⋅ (r − 1) r r!(n − r )!

Solución.

n(n − 1) ⋅ ⋅ ⋅ (n − r + 1) (n − r )(n − r − 1) ⋅ ⋅ ⋅ 3 ⋅ 2 ⋅ 1
a) n(n − 1) ⋅ ⋅ ⋅ (n − r + 1) =
n!
=
1 (n − r )(n − r − 1) ⋅ ⋅ ⋅ 3 ⋅ 2 ⋅ 1 (n − r )!
n(n − 1) ⋅ ⋅ ⋅ (n − r + 1)
= n(n − 1) ⋅ ⋅ ⋅ (n − r + 1) =
1 n!
b) . Observe el apartado a).
1 ⋅ 2 ⋅ 3 ⋅ ... ⋅ (r − 1)r r! r!(n − r ) !

6
Evidentemente, el factorial puede definirse en orden inverso al mostrado.
Estos resultados serán empleados después en la combinatoria.

Aproximación de Stirling a n!

Cuando los números son muy grandes para el cálculo del factorial se emplea la
fórmula de Stirling:

n!≈ 2πn n ne − n (2)

Coeficientes binomiales

n
El símbolo  , donde n y r son números enteros positivos ( r ≤ n ), se denomina
r
coeficiente binomial y se define como:

 n  n (n − 1)(n − 2 ) ⋅ ⋅ ⋅ (n − r + 1)
  = . (3)
r 1 ⋅ 2 ⋅ 3 ⋅ ... ⋅ (r − 1) r

Del ejemplo 3 b) y (3), se puede plantear:

n n!
  = (4)
 r  r!(n − r ) !

Sabiendo que n – (n - r) = r, se plantea la relación siguiente:

n n! n! n!  n 
  = = = =   ;
 
r r!(n − r ) ! (n − (n − r )) !(n − r ) ! (n − r ) !(n − (n − r )) !  n − r 

n  n 
Por tanto, se cumple la siguiente propiedad:   =  ; (5)
r  n − r

Ejemplo 4. Calcule:

7 10 
a) a)   , b)   .
 4 3

Solución

7 7 ⋅ 6 ⋅ 5 ⋅ 4!
a) Aplicando (4), se tiene:   = = 35
 4 4!⋅3!
Estadística 1 61

10  10  10 ⋅ 9 ⋅ 8 ⋅ 7!
b) Aplicando (5), se tiene7:   =   = = 120
  7
3 7!⋅3!

Los coeficientes binomiales son útiles para calcular el desarrollo de un binomio8


elevado a una potencia entera positiva.

Teorema 1. Sea un binomio elevado a una potencia entera positiva n. Entonces, el


desarrollo del binomio es posible hacerlo en términos de coeficientes binomiales
según la expresión:

(x + y )n = ∑ 
n n  n−k k
x y (6)
k =0  k 

Ejemplo 5. Efectúa el desarrollo de ( x + 2 y )


3

Solución. Según (6):

(x + 2 y )3 = ∑ 
3 3  3−k
x (2 y ) =
k

k =0  
k

 3  3  3  3
=   x 3−0 (2 y ) +   x 3−1 (2 y ) +   x 3−2 (2 y ) +   x 3−3 (2 y )
0 1 2 3

0 1  2  3

Cálculo de los coeficientes binomiales:

 3 3! 3!  3  3 3! 3! 3 ⋅ 2!  3
  = = = 1 =  ;   = = = = 3 =  ;
 0  0!(3 − 0 )! 1 ⋅ 3!  3  1  1!(3 − 1)! 1 ⋅ 2! 1 ⋅ 2!  2

sustituyendo los coeficientes en la expresión anterior:

(x + 2 y )3 = x3 + 3x 2 (2 y ) + 3x(2 y )2 + (2 y )3 = x3 + 6 x 2 y + 12 xy 2 + 8 y 3

7
Si aplica la fórmula (2.4) calcula más. Esto indica la ventaja de conocer esta propiedad.
8
De ahí el nombre de coeficientes binomiales.
1
Si se hace una comparación con el triángulo de
1 1
Pascal vemos que los coeficientes binomiales 2
(x+y)
corresponden con los números que aparecen en el
1 2 1
triángulo de Pascal (ver figura 1). 1 3 3 1
(x+y)4

1 4 6 4 1
1 5 10 10 5 1
Figura 1

PERMUTACIONES

Cualquier colocación de un conjunto de n objetos9 en un orden dado se llama


permutación de los objetos (todos tomados a la vez). Cualquier colocación de r
≤ n objetos en un orden dado se llama se llama r-permutación de los n objetos
tomados de r en r.

Ejemplo 6. Sea un conjunto de cuatro letras: a, b, c, d. Determine:

a) Las permutaciones de las cuatro letras tomadas todas a la vez;

b) Las permutaciones de las cuatro letras tomadas de tres en tres;

c) Las permutaciones de las cuatro letras tomadas de dos en dos.

Solución.

a) bdca, dcba, y acdb;

b) bad, adb, cbd, y bca;

c) ad, cb, da, y bd.

Representaciones del número de permutaciones: P (n, r ), Pn ,r , n Pr , Prn , o (n )r .

En el curso se emplean la primera y/o la segunda por comodidad. No obstante, es


aconsejable emplear una sola.

9
La terminología objeto o elementos se usan indistintamente.
Estadística 1 63

Se puede dar una idea de cómo se busca una expresión que permita calcular el
número de permutaciones de n elementos tomados de r en r (r ≤ n). En el ejemplo
6 se plantearon diferentes alternativas, pero no se indicó cómo se podía hacer.
Obsérvese el siguiente ejemplo:

Ejemplo 7. Hallar el número de permutaciones de cuatro letras: a, b, c,


d, tomadas de tres en tres.

Solución. Por ahora interesa buscar el número de palabras de tres letras usando
las cuatros letras sin repetirlas. Pasos a seguir:

1. La primera letra se elige de entre cuatro posibilidades distintas; la


segunda, entre tres opciones diferentes; la tercera, entre dos
posibilidades distintas.

2. Por el teorema fundamental del cálculo, existen 4 ⋅ 3 ⋅ 2 = 24 palabras


posibles de tres letras sin repetición de las mismas.

3. Hay 24 permutaciones. Con el paso anterior y la simbología señalada,


éstas corresponden a: 4 ⋅ 3 ⋅ 2 = 24 = 4 ⋅ 3 ⋅ 2 ⋅1 = P (4,3) .

Si el resultado se generaliza a una permutación de n objetos tomados de r en r, se


puede escribir para el caso en que no hay repeticiones de objetos:

P(n, r ) = n(n − 1)(n − 2 ) ⋅ ⋅ ⋅ (n − r + 1) =


n!
(n − r )!
Teorema 2. Sea un conjunto formado por n elementos distintos. Si se ordenan n
elementos tomados de r en r (r ≤ n) sin repetición; entonces, el número de
ordenaciones distintas que se pueden formar se determina por la siguiente
expresión:

P(n, r ) = n(n − 1)(n − 2 ) ⋅ ⋅ ⋅ (n − r + 1) =


n!
(7)
(n − r )!
Observación. Si n = r, P (n, n ) = Pn = n! (8)
Ejemplo 8. En el ejemplo 6 a), calcule el número de permutaciones.

Solución. En este caso n = r, entonces, P (4,4 ) = P4 = 4!= 4 ⋅ 3 ⋅ 2 ⋅1 = 24 .

Si hay repeticiones ¿cómo se determinan las permutaciones?

Teorema 3. Sea un conjunto formado por n elementos. Si se ordenan n elementos,


con repetición nr de sus elementos; entonces, el número de ordenaciones distintas
que se pueden formar se determina por la siguiente expresión:

P(n; n1 , n2 ,..., nr ) =
n!
, (9)
n1!n2!...nr !

donde n = n1 + n2 + ... + nr

Ejemplo 9. Hallar el número de palabras distintas que se pueden


formar con las palabras siguientes:

a) JESUS

b) STATEMENT

Solución.

a) Con JESUS, hay 5! = 120 permutaciones posibles de las letras. La S se repite dos
veces y da lugar a 2!= 2 formas distintas de colocar la letra S produciendo la misma

JES2US1. Así; P (5;2 ) =


5!
palabra aunque la S cambie de posición: JES1US2,
2!

9! 9 ⋅ 8 ⋅ 7 ⋅ 6 ⋅ 5 ⋅ 4 ⋅ 3!
b) P (9;3,2 ) = = = 30240
3! 2! 3! 2!

Nota. Es evidente que los elementos que se repiten una vez, su factorial es uno y
por tal motivo no se expresan en la fórmula.
Estadística 1 65

Muestras ordenadas

Múltiples problemas en el análisis combinatorio, probabilidades y estadística están


vinculados a la elección de un elemento de un conjunto S que posee n
elementos. La elección de un elemento después de otro r veces, en el conjunto
S, da lugar a la denominada muestra ordenada de tamaño r.

La muestra ordenada de tamaño r se puede conformar en dos casos:

1. Muestreo con reemplazamiento. El elemento escogido se devuelve al


conjunto antes de hacer otra selección. El principio del producto nos
indica que hay diferentes muestras de tamaño r dada por:

⋅ n2
 n14 ⋅ n43n = n
... r
(10)
r veces

2. Muestreo sin reemplazamiento. El elemento no se vuelve a introducir en el


conjunto antes de escoger al siguiente elemento10.

 P(n, r ) = n(n − 1)(n − 2 ) ⋅ ⋅ ⋅ (n − r + 1) =


n!
(n − r )!

Ejemplo 10

Una bolsa contiene tres bolas de diferentes colores: una blanca (b), una negra (n) y
una azul (a) ¿Cuántas extracciones de tres bolas podemos hacer?

a) si sacamos una bola y no la volvemos a meter en la bolsa.

b) si sacamos una bola y la volvemos a meter en la bolsa.

Solución

a) P(3,3) = P3 = 3!= 3 ⋅ 2 ⋅ 1 = 6

Diagrama de árbol: enumera todas las posibles apariciones posibles de una


secuencia de sucesos o experimentos donde cada suceso puede ocurrir de un
número infinito de maneras.

10
Observe la equivalencia que tiene con (2.7)
1a Extracción 2a Extracción 3a Extracción

n a ( b, n, a )

b a n ( b, a, n )

b a ( n, b, a )
n

a b ( n, a, b )

b n ( a, b, n )
a

n b ( a, n, b )

3 . 2 . 1 = 6

b) Hay 3 ⋅ 3 ⋅ 3 = 33 = 27 posibilidades. ¿Cómo será el diagrama de árbol en este


caso? La 1a extracción será como la 1a indicada en el diagrama anterior. Escojamos
una de las bolas, (n), para ejemplificar lo que pasa en las extracciones segunda y
tercera. De forma semejante ocurre con las otras dos bolas y la semejanza se
representa en el diagrama de árbol con los puntos suspensivos.

3a Extracción
1a Extracción 2a Extracción

( n, b, a )
a

n ( n, b, n )
b

b ( n, b, b )

( n, n, n )
n

n n a ( n, n, a )

b ( n, n, b )

a ( n, a, a )

( n, a, b )
a b

n ( n, a, n )

. . . . .

. . . . .

. . . . .

3 . 3 . 3 = 27
Estadística 1 67

Primera conclusión parcial11

Las permutaciones se pueden entender como las diferentes ordenaciones que


se pueden hacer con todos los elementos de un conjunto. Por tanto, decimos
que:

1. Son muestras ordenadas que pueden efectuarse:

 Sin repeticiones.
 Con repeticiones.

2. Interviene toda la muestra en el ordenamiento.

3. Dos grupos son diferentes si están ordenados de diferentes maneras.

VARIACIONES

Son muy parecidas a las permutaciones pero no intervienen todos los


elementos del conjunto.

Variaciones sin repetición de n elementos tomados de r en r: número de


agrupaciones que podemos hacer con n elementos distintos, tomándolos de r en
r sin repetir elementos. La representación viene dada por Vn , r o V (n, r ) y el cálculo
se efectúa según la siguiente expresión:

V (n, r ) = Vn ,r = n(n − 1)(n − 2 ) ⋅ ⋅ ⋅ (n − r + 1) =


n!
(11)
(n − r )!

Ejemplo 11

Una bolsa contiene 4 bolas de diferentes colores: una blanca (b), una negra (n),
una azul (a) y una roja (r) ¿Cuántas extracciones diferentes de tres bolas se pueden
hacer si cuando se saca una bola no se vuelve a meter en la bolsa?

Solución

Aplicando la fórmula de la definición: V (4,3) = V4 ,3 =


4!
(4 − 3)!

11
El contenido restante lleva el mismo estilo aunque se presente de manera más concisa.
Diagrama de árbol:

1a Extracción 2a Extracción 3a Extracción ( b, n, a )


a

n
( b, n, r )
r

a ( b, r, a )

r
b

n ( b, r, n )

n ( b, a, n )

r ( b, a, r )

a ( n, b, a )

( n, b, r )
r

a
( n, r, a )

n r
b
( n, r, b )

b ( n, a, b )

r ( n, a, r )

“El diagrama de árbol continúa en la página siguiente”


Estadística 1 69

( a, b, n )
n

b
( a, b, r )
r

( a, n, b )
b

a n
r ( a, n, r )

b ( a, r, b )

n
( a, r, n )

n ( r, b, n )

a ( r, b, a )

b
( r, n, b )
r n

a ( r, n, a )

b ( r, a, b )

a
n ( r, a, n )

4 . 3 . 2 =4 24

Variaciones con repetición de n elementos tomados de r en r: número de


agrupaciones que se pueden hacer con n elementos distintos, tomándolos de r
en r con la opción de repetirlos, es decir, tomar el mismo elemento varias veces
en un mismo grupo. Se representan por VRn , r o VR(n, r ) y el cálculo se efectúa
según la siguiente expresión:
VR(n, r ) = VRn, r = n r (12)

Ejemplo 12

Una bolsa contiene 3 bolas de distintos colores: una blanca (b), una negra (n) y
una azul (a) ¿Cuántas extracciones diferentes de dos bolas se pueden hacer si se
saca una bola y se vuelve a meter en la bolsa antes de la próxima extracción?

Solución

VR3, 2 = 32 = 9

Diagrama de árbol

1a Extracción 2a Extracción

b ( b, b )

b n ( b, n )

a ( b, a )

b ( n, b )

n n ( n, n )

a ( n, a )

b ( a, b )

a n ( a, n )

a ( a, a )

3 . 3 = 9

¿Qué diferencias existen entre las permutaciones y las variaciones? En las


permutaciones el término repetición se refiere a si hay o no elementos repetidos
en el conjunto de donde se toman éstos (se toman todos) y; en las variaciones, a
los elementos que se repiten en el grupo que se forma.
Estadística 1 71

Segunda conclusión parcial

Las variaciones se pueden entender como las diferentes ordenaciones que se


pueden hacer con algunos elementos de un conjunto. Por tanto, se dice que:

1. Son muestras ordenadas que pueden efectuarse:

 Sin repeticiones.
 Con repeticiones.

2. No interviene toda la muestra en el ordenamiento.

3. dos grupos son diferentes si:

 Sus elementos son distintos, o;

 Están ordenados de forma diferente.

COMBINACIONES

Sea un conjunto S de n elementos. Una combinación de los n elementos tomados


de r en r es cualquier selección r de los elementos donde no importa el orden;
es decir, una combinación r de un conjunto de n elementos es cualquier
subconjunto de r elementos.

Ejemplo 13. Las combinaciones de las letras a, b, c, d tomadas de tres


en tres son:

{a, b, c}, {a, b, d}, {a, c, d}, {b, c, d}, o también se escribe: abc, abd, acd, bcd

Las siguientes combinaciones son iguales: abc, acb, bac, bca, cab, cba. Cada
una representa al mismo conjunto {a, b, c}.

Lo mismo puede ser observado con las restantes:


Combinaciones Permutaciones

abc abc, acb, bac, bca, cab, cba

abd abd, adb, bad, bda, dab, dba

acd acd, adc, cad, cda, dac, dca


Tabla 1
bcd bcd, bdc, cbd, cdb, dbc, dcb

Las combinaciones se representan por C (n, r ) = Cn , r . Se pueden relacionar con las


permutaciones.

Ejemplo 14. Halla el número de combinaciones de cuatro letras a, b, c,


d, tomados de tres en tres.

Solución. Cada combinación compuesta por tres letras determina 3!= 6


permutaciones de las letras de la combinación como se observa en la tabla 1. La
combinación multiplicada por 3! es igual al número de permutaciones:

P(4,3) 4 ⋅ 3!
C (4,3) ⋅ 3!= P(4,3) ⇒ C (4,3) = = =4
3! 3!

Generalización del resultado. Dado que cualquier combinación de n objetos


tomados de r en r determina la existencia de r! permutaciones de los objetos de la
combinación: P (n, r ) = r!C (n, r ) .

Combinaciones sin repetición de n elementos tomados de r en r: es el


número de agrupaciones que se pueden hacer con n elementos diferentes
tomándolos de r en r sin que importe su orden y sin repetir los elementos.
Estadística 1 73

Teorema 4. Si S es un conjunto de n elementos y C (n, r ) una combinación sin


repetición de n elementos tomados de r en r; entonces, la combinación se calcula
según la expresión:

P(n, r )
C (n, r ) =
n!
= (13)
r! r!(n − r ) !

Observaciones

n! n
 Al número = Cn, r =   se le llama número combinatorio12.
r!(n − r )! r

n! V
 Cn , r = = n,r (14)
r!(n − r ) ! Pr

Ejemplo 15

Una bolsa contiene 4 bolas de diferentes colores: una blanca (b), una negra (n),
una azul (a) y una roja (r) ¿Cuántas extracciones diferentes de tres bolas podemos
hacer si al sacar una bola no se vuelve a meter en la bolsa y no importa el orden en
que salen?

Solución. Aplicando la fórmula de la combinación sin repetición:


 4 4!
C 4,3 =   = =4
 3  3!(4 − 3) !

Diagrama de árbol:

1a bola 2a bola 3a bola


( b, n, a )
a

n
r
( b, n, r )
b

a r ( b, a, r )

n a r
( n, a, r )

12
Lo empleamos anteriormente para el desarrollo del binomio
Combinaciones con repetición de n elementos tomados de r en r: son el
número de agrupaciones que se pueden hacer con n elementos tomados de r en r
sin que importe su orden y pudiendo repetir los elementos. Se representan
por CR (n, r ) = CRn , r .

Teorema 5. Si S es un conjunto de n elementos y CR(n, r ) es una combinación


con repetición de n elementos tomados de r en r; entonces, la combinación se
calcula según la expresión:

 n + r − 1 (n + r − 1) !
CR(n, r ) = CRn , r =   = (15)
 r  r!(n − 1) !

Ejemplo 16

Una bolsa contiene 4 bolas de diferentes colores: una blanca (b), una negra (n),
una azul (a) y una roja (r) ¿Cuántas extracciones diferentes de tres bolas se pueden
hacer si al sacar una bola se vuelve a meter en la bolsa y no importa el orden en el
que salgan las bolas?

Solución. Aplicando la fórmula (15):

 4 + 3 − 1  6  6! 6 ⋅ 5 ⋅ 4 ⋅ 3!
CR4,3 =   =   = = = 20
 3   3  3! 3! 3! 3!

Diagrama de árbol:
Estadística 1 75

bola 1 bola 2 bola 3

b b b (b, b, b) 1
n (b, b, n) 2
a (b, b, a) 3
r (b, b, r) 4
n n (b, n, n) 5
a (b, n, a) 6
r (b, n, r) 7
a a (b, a, a) 8
r (b, a, r) 9
r r (b, r, r) 10
n n (n, n, n) 11
n
a (n, n, a) 12
r (n, n, r) 13
a a (n, a, a) 14
r (n, a, r) 15
r r (n, r, r) 16
a
a a (a, a, a) 17
r (a, a, r) 18
r r (a, r, r) 19
r r r (r, r, r) 20

Tercera conclusión parcial

Las combinaciones se pueden entender como cualquier selección que se


pueden hacer con algunos elementos de la muestra, en la que se dice que:
1. Son muestras no ordenadas que pueden efectuarse:

 Sin repeticiones.
 Con repeticiones.
2. No interviene toda la muestra en el agrupamiento.

3. Dos agrupaciones son diferentes si sus elementos son distintos.

CONCLUSIÓN

Muestra

Ordenada No ordenada

Sin repetición Con repetición Sin repetición Con repetición

No Variaciones de n Variaciones de Combinaciones de n Combinaciones de n objetos


objetos n objetos objetos tomados de r en
tomados de r en r:
tomados de r r:
tomados de r en
interviene
r:
en r:
n n!  n + r − 1 n + r
CRn, r =   =
( − 1)!
Cn, r =   =
VRn , r = n ( )  r!(n − 1)!
r
n!  
r r! n − r !  r
Vn , r =
toda la (n − r )!

muestra

Interviene Permutaciones Permutaciones


de n objetos de n objetos
tomados de r en tomados de r
toda la r: en r:

n! Pn; n1 , n2 ,...,nk =
Pn , r =
(n − r )! = n!
muestra
n1!n2!...nk !
Si n=r:

Pn = n!

Bibliografía
Estadística 1 77

Seymour Lipschutz, John Schiller, Introducción a la probabilidad y estadística, ed.


Mc Graw Hill, 2001.

Apuntes del profesor Jesús Bergues

Jay L. Devore, Probabilidad y estadística (para ingeniería y ciencias), sexta edición.


Ed. Thomson. 2005.

Orientaciones al estudio independiente

1. Revisar el capítulo 2 del Lipschutz


(incluye los ejemplos y problemas
resueltos… sirve de preparación para la
clase práctica) aunque haya aspectos no
visto en clases (ejemplo, aparecen
elementos de la teoría de conjuntos que
el estudiante debe controlar).

2. El estudiante debe construir un


resumen.

3. Los problemas que estudie deben ser


analizados desde la perspectiva del
resumen elaborado y en ellos se debe
entrenar la manera que tiene de
distinguir cualquiera de los casos.

4. La técnica de conteo y las


probabilidades (las ideas se exponen en
el siguiente documento) deben ser
revisadas en el Devore (con un enfoque
unificado) una vez estudiados este
documento y el siguiente. Si el
estudiante conoce estos tópicos puede
leer directamente el Devore sin
necesidad de hacer lecturas extensas.
PROBLEMAS PROPUESTOS

1. Hallar:

a) 6!, 7!

b) 100!

12!
c)
15!

2. Hallar:

8
a)  
 
6

100 
b)  
 2 

 n + 1  n   n 
3. Demostrar que:   =   +  
 r   r − 1  r 

4. Una clase de informática tiene 9 alumnos y 8 alumnas. Hallar el número n de


formas en que la clase puede elegir13:

a) un delegado

b) dos delegados, uno hombre y otro mujer

c) un presidente y un vicepresidente

5. Hallar el número n de las distintas permutaciones que se pueden formar con


todas las letras de las palabras:

a) PADRE

b) UNUSUAL

c) SOCIOLOGICAL

13
Principio de cálculo
Estadística 1 79

6. Una clase se compone de ocho alumnos. Hallar el número de muestras


ordenadas de tamaño 3:

a) con reemplazamiento

b) sin reemplazamiento

7. Hallar n si: 2P(n, 2)+50 = P(2n, 2)

8. Una empresa tiene 20 trabajadores, de los que: 12 son hombres y 8 mujeres.


Hallar el número de posibilidades de que:

a) se pueda elegir entre los trabajadores un comité de cuatro miembros

b) se pueda elegir un comité de 4 miembros, de los cuales 2 son hombres y 2


mujeres.

c) Se pueda elegir un presidente, vicepresidente, tesorero y secretario.

9. Una caja contiene catorce lápices azules y diez verdes. Hallar el número de
posibilidades de que dos lápices se puedan sacar de la caja si:

a) Son de cualquier color

b) Si tienen el mismo color

 4  4  4  4  4
10. Demostrar:   +   +   +   +   =16
 0 1  2  3  4
Solución.

1.

a. 720, b. 5040, c. 1/2730

2.

a. 28, b. 4950

4.

a. 17, b. 72, c. 272

5.

a. 120 b. 840 c. 12!/(3! 2! 2! 2!)

6.

a. 512, b. 336

7.

n=5

8.

a. 4845, b. 1848, c. 11880

9.

a. 276, b. 136
Estadística 1 81

6. PROBABILIDAD

Los fenómenos que ocurren en la naturaleza pueden ser deterministas y


aleatorios (no tienen una relación de causa-efecto).

Nos interesan los fenómenos aleatorios los cuales se caracterizan por:

1. Con las mismas condiciones iniciales los resultados finales pueden ser
diferentes.

2. Los resultados posibles son conocidos de antemano.

3. No se puede predecir el resultado en cada experiencia particular.

4. En general, el experimento14 se puede repetir indefinidamente bajo idénticas


condiciones.

5. Si el experimento se repite un gran número de veces en las mismas


condiciones iniciales, entonces aparece algún modelo de regularidad estadística
en los resultados obtenidos.

Las probabilidades estudian los posibles resultados de un experimento aleatorio


(sucesos). Por tanto, la teoría de la Probabilidad es el modelo matemático del
fenómeno de la aleatoriedad y sus regularidades.

Históricamente, la teoría de la Probabilidad, para obtener el resultado de un


experimento, se ha apoyado en las definiciones siguientes:

1. Definición clásica (o a priori): si un suceso puede ocurrir de s maneras de


un total de n posibilidades iguales. Entonces la probabilidad p=s/n.

2. Definición frecuentista (o a posteriori): después de n repeticiones (n


grande) un suceso ocurre s veces. Entonces la probabilidad p=s/n.

Ambas teorías tienen defectos:

1. La teoría clásica es circular ya que “igual posibilidad” no ha sido definido.

2. La frecuentista no ha sido definido el término “grande”.

14
Cualquier situación u operación en la cual se pueden presentar uno o varios resultados de un conjunto bien
definido de posibles resultados.
El enfoque moderno de la teoría de la Probabilidad es axiomático15 –usa la
teoría de conjuntos.

ESPACIO MUESTRAL Y SUCESOS

 En un experimento aleatorio se pueden obtener diferentes resultados.

 Al conjunto de los posibles resultados distintos de un experimento aleatorio


se le llama espacio muestral, S.

 Cada uno de los elementos del espacio muestral se llama suceso


elemental.

 Cada subconjunto de S se llama suceso.


o Si un suceso está formado por más de un elemento se le llama
suceso compuesto.

Los sucesos, atendiendo a su ocurrencia, se clasifican como:

 Seguro: pasa siempre. Lo integran todos los elementos del espacio


muestral.

 Imposible: nunca ocurre. Se representa por ∅.

 Probable: pasa con cierta probabilidad.

Como un suceso es un conjunto, se pueden combinar para formar otros nuevos


usando las operaciones de conjuntos:

1. A U B es el suceso que ocurre si A ocurre u ocurre B (o ambos).

2. A I B es el suceso que ocurre si A ocurre y ocurre B.

3. Ac, el complementario de A. Si A, él no ocurre.

4. etcétera.

Los sucesos A y B son mutuamente excluyentes si son incompatibles, i.e., no


pueden ocurrir simultáneamente: A I B = ∅. Dos o más sucesos son mutuamente
excluyentes si cada dos de ellos son mutuamente excluyentes.

15
Asigna arbitrariamente probabilidades a los sucesos.
Estadística 1 83

Ejemplo 1

Experimento: lanzamiento de un dado y observar qué número sale

Espacio muestral: S = {1, 2, 3, 4, 5, 6}.

Suceso elemental: salida del 4.

Suceso: Salida de número pares, A = {2, 4, 6}. También, suceso compuesto.

Sea B = {1, 3, 5} y C = {2, 3, 5}. Entonces,

A U C= {2, 3, 4, 5, 6}, suceso de que un número par o uno primo ocurran.

B I C = {3, 5}, suceso de que un número impar y uno primo ocurran.

Cc = {1, 4, 6}, suceso de que un número primo no ocurra.

A y B son mutuamente excluyentes: A I B = ∅. Un número par y otro impar nunca


pueden ocurrir.

AXIOMAS DE PROBABILIDAD

Sea S el espacio muestral; ℘ , la clase de todos los sucesos; P, una función con
valores reales definida en ℘ . Entonces, P es la función de probabilidad (P(A) es la
probabilidad del suceso A) si se satisface los siguientes axiomas:

P1. ∀A, P( A) ≥ 0 .

P2. Para el suceso seguro S, P (S ) = 1 .

P3. Sean A y B dos sucesos incompatibles cualquiera, entonces se cumple que:


P ( A U B ) = P ( A) + P ( B ) .

P3’. ∀ sucesión {An }n∈N ⊂ A / Ai I A j = ∅, ∀i ≠ j

∞  ∞
P U Ai  = ∑ P( Ai )
 i =1  i =1
Cuando P cumple los axiomas anteriores, S, se llama espacio probabilístico, (S, A,
P).

Teoremas de espacios probabilísticos16

Teorema 1. La probabilidad del suceso imposible es nula ( P (∅ ) = 0 ).

Teorema 2. ∀A se cumple que P Ac = 1 − P ( A) ( )


Teorema 3. ∀A se cumple que 0 ≤ P( A) ≤ 1

Teorema 4. Si A ⊆ B entonces P ( A) ≤ P(B ).

Teorema 5. ∀A y B , se verifica que P ( A / B ) = P( A) − P( A I B )

Teorema 6. ∀A y B , se verifica que P ( A U B ) = P( A) + P (B ) − P ( A I B ) .

Aplicando el teorema anterior dos veces:

Corolario 7. ∀A , B y C se verifica que


P ( A U B U C ) = P ( A) + P (B ) + P (C ) − P( A I B ) − P ( A I C ) − P (B I C ) + P( A I B I C ).

ESPACIOS PROBABILÍSTICOS FINITOS

Espacios finitos equiprobables

Sea S un espacio muestral finito con n elementos y supongamos que a varios


resultados le asignamos iguales probabilidades. Entonces, S se convierte en un
espacio probabilístico (espacio finito equiprobable) si a cada punto P se le asigna
una probabilidad 1/n y si a cada suceso A que contiene r puntos se le asigna la
probabilidad r/n, i.e.,

n( A )
P ( A) =
n(S )

La fórmula anterior es válida en espacios equiprobables.

16
No presentamos los teoremas con el rigor que habitualmente lo hace la matemática, nos hemos limitado a ver
qué nos proporcionan.
Estadística 1 85

Teorema 8. Sea S espacio muestral finito y ∀A ⊂ S sea P(A) = n(A)/n(S).


Entonces, P cumple los axiomas P1, P2 y P3.

La expresión aleatorio se usa solamente con relación a un espacio equiprobable.

Ejemplo 2.

Se eligen aleatoriamente a un estudiante de entre 80. Treinta de ellos estudian


matemáticas, veinte; química, y diez; ambas asignaturas. Hallar la probabilidad que
el estudiante esté estudiando matemáticas o química.

Solución. Como el espacio es equiprobable: P(M)=30/80=3/8, P(Q)=20/80=¼,

P(M I Q ) = 10 80 = P(M U Q ) = P(M ) + P(Q ) − P(M I Q ) =


3 1 1 1
1
8 . Así; + − = .
8 4 8 2

Espacios probabilísticos finitos

Sea S={a1, a2,…,an}. Un espacio probabilístico finito se obtiene asignado a cada


punto ai de S un número real pi, llamado probabilidad de ai, que cumple con las
propiedades siguientes:

1. Cada pi ≥ 0 .

n
2. ∑p
i =1
i =1.

La probabilidad P(A) de un suceso A se define como la suma de las probabilidades


de los puntos de A. Por conveniencia escribiremos P(ai) en lugar de P{ai}.

En ocasiones los puntos de un espacio muestral finito S y sus probabilidades


asignadas se dan en forma de tabla, la cual recibe el nombre de distribución de
probabilidad.

Resultado a1 a2 … an

Probabilidad p1 p2 … pn
Teorema 9. La función anterior cumple los axiomas P1, P2, P3.

Ejemplo 3.

Experimento: lanzar tres monedas y observar el número de veces que sale cara.

Espacio muestral: S = {0, 1, 2, 3}.

Las asignaciones de los elementos de S definen el espacio probabilístico:

Resultado 0 1 2 3

Probabilidad 1/8 3/8 3/8 1/8

A = {1, 2, 3}, suceso que aparezca cara al menos una vez

B = {0, 3} suceso que aparezcan o todas caras o todas cruces.

Por definición

P(A) = P(1) + P(2) + P(3) = 3/8 +3/8 + 1/8 = 7/8

P(B) = P(0) + P(3) = 1/8 + 1/8 = 1/4

ESPACIOS MUESTRALES INFINITOS

Espacios muestrales contables e infinitos

Supongamos que S = {a1, a2, a3,…} es un espacio muestral contable e infinito.

Si se asigna a cada ai Є S un número real pi, llamado su probabilidad, se obtiene un


espacio probabilístico, en que los pi son tales que:

1. pi ≥ 0 .


2. ∑p
i =1
i =1
Estadística 1 87

La probabilidad P(A) de un suceso A es la suma de las probabilidades de sus


puntos.

Ejemplo 4.

Considere S = {a1, a2, a3,…,∞} del experimento de tirar una moneda hasta que
salga cara; aquí, n indica el número de veces que se tira la moneda. El espacio
probabilístico se obtiene:

p(1)=1/2, p(2)=1/22, p(3)=1/23, …, p(n)=1/2n, …, p(∞)=0.

Considere: A = {n es como mucho 3} y B = {n es par}

Entonces,

P(A) = P(1, 2, 3) = ½ + ¼ + 1/8 = 7/8

P(B) = P(2, 4, 6, 8, …) = ¼ + ¼2 + ¼3 + …

P(B) es una serie geométrica con a = ¼ y r = ¼ ,

P (B ) =
a 1 1
= 4
=
1− r 3
4 3

Espacios incontables

La probabilidad de un suceso A, i.e., que el punto seleccionado pertenezca a A, es la


razón:

m ( A)
P ( A) =
m(S )

A17 puede representar una longitud, área, etcétera. El espacio probabilístico se dice
que es uniforme.

17
Se consideran los espacios que pueden ser medidos geométricamente.
PROBABILIDAD CONDICIONADA E INDEPENDENCIA

La probabilidad se ha presentado con un enfoque axiomático. Los conceptos


utilizados en el conteo y la teoría de conjuntos están presentes en todo lo
estudiado.

El modelo matemático asociado a espacios muestrales finitos en los cuales los


sucesos elementales son equiprobables se denomina modelo uniforme y aquí se
utilizó la regla de Laplace.

Ahora se analiza cómo puede cambiar el espacio de probabilidad de un suceso


cuando se tiene en cuenta el resultado de otro experimento en la misma población.

Ejemplo 5

Un delegado de una escuela se elige al azar entre N estudiantes. Si todas las


elecciones son equiprobables (modelo uniforme) la probabilidad se determina por
P=1/N; ∀A ∈ S siendo S la población de los N estudiantes.

Sean A={estudiante de primer año} y B={mujer} partes de S:

• Se conoce que el estudiante elegido es de primer año; es decir, el suceso A


se ha realizado.

• B puede haberse realizado o no.

• Para que el estudiante además de primer año sea mujer, la selección tiene
que pertenecer a A y B (A∩B).

• Para que no sea mujer, el estudiante se ha escogido de A∩Bc.

• Como A es un suceso seguro, B no tendrá lugar a menos que se realice


A ∩ B N P( A ∩ B )
A∩B. Por tanto, la probabilidad que se realice B es = .
A N P ( A)
Estadística 1 89

PROBABILIDAD CONDICIONADA

Definición. Sea E un suceso en un espacio muestral S con P (E)>0. La probabilidad


de que un suceso A ocurra una vez que ha ocurrido E, o específicamente, la
probabilidad condicionada de A dado E, escrito P(A|E) se define como:

P( A ∩ E )
P( A | E ) = .
P (E )

Si S es equiprobable y n es el número de elementos de un suceso:

n( A ∩ E ) n( E )
P( A ∩ E ) = , P (E ) = , de modo que:
n (S ) n (S )
P ( A ∩ E ) n( A ∩ E )
P( A | E ) = = .
P(E ) n(E )

Formalmente,

Teorema 10. Sea S un espacio equiprobable y A y E dos sucesos. Entonces,

P ( A ∩ E ) n( A ∩ E )
P( A | E ) = = .
P(E ) n(E )

Ejemplo 6

Se tira un par de dados. Hallar:

a. la probabilidad de que salga un dos en uno de los dados, si la suma ha salido


seis.

b. P(A)

a. E = {la suma es 6} y A = {salga 2 en al menos uno de los dados}

De E dos pares pertenecen a A: A∩E = {(2, 4), (4, 2)}. Así, P (A|E) = 2/5.

b. A tiene 11 elementos: P(A) = 11/36.

Teorema de multiplicación para la probabilidad condicionada


Supongan que A y B son sucesos en el espacio muestral S con P(A)>0. Por
definición:

P( A ∩ B )
P (B | A) = , si multiplicamos por P(A), se obtiene un resultado útil:
P ( A)

Teorema 11. P(A∩B) = P(A) P(B|A)

Es útil porque por lo común se desea P(A∩B) ya que P(A) y P(B|A) se pueden
concretar a partir de la especificación del problema.

Colorario 11. P(A∩B∩C) = P(A) P(B|A) P(C|A∩B).

Ejemplo 7. Se tienen 15 bolas en una bolsa, de las cuales 6 son


blancas y las restantes negras. Se sacan al azar 3 bolas una detrás de la otra. Hallar
la probabilidad de que las tres no sean blancas.

• La probabilidad de que la primera no sea blanca es p = 9/15.

• Si la primera bola no es blanca, la probabilidad de que la segunda no lo sea


es p = 8/14.

• Si las dos primeras bolas no son blancas, la probabilidad de que la tercera


no lo sea es p = 7/13.

Así,

P = (9/15) (8/14) (7/13) = 12/65 ≈ 0,18

PROCESOS ESTOCÁSTICOS FINITOS Y DIAGRAMA DE ÁRBOL

Proceso estocástico: sucesión finitas de experimentos donde cada experimento


tiene un número finito de resultados con unas probabilidades dadas. Estos procesos
se describen por medio de un diagrama de árbol.
Estadística 1 91

Ejemplo 8

Suponga tres cajas X, Y, y Z de manera que:

• X tiene 10 bombillas y cuatro son defectuosas.

• Y tiene 6 de las que sólo una es defectuosa.

• Z tiene 8 de las que 3 son defectuosas.

Se escoge una caja al azar y, luego de ella, una bombilla al azar. Hallar la
probabilidad de que la bombilla no sea defectuosa.

Hay una sucesión de dos experimentos:


2
1. elegir una de las cajas. D
5
X
1 3
2. elegir una bombilla defectuosa (D) o no (N). 3
N
5
1 1
Con el diagrama de árbol y el teorema de multiplicación D
3 6
Y
determinamos la probabilidad. 5 N
1 6
3 D
Hay tres caminos que llevan a una bombilla no defectuosa, 3 8
Z
5
la suma de estos caminos da la probabilidad requerida: 8
N

P(N) = 1/3 x 3/5 + 1/3 x 5/6 + 1/3 x 5/8

PROBABILIDAD TOTAL Y FÓRMULA DE BAYES

Si S es la unión de conjuntos mutuamente disjuntos Ai (i = 1, 2, 3,…, n) y E es


cualquier subconjunto de S. Entonces, E = E ∩ S = E ∩ (A1 U A2 U… U An) = (E ∩
A1) U (E ∩ A2) U (E ∩ A3) U… (E ∩ An).

Los n subconjuntos de la parte derecha son mutuamente independientes.

Suponga que S es un espacio muestral y que los Ai son sucesos. Como E ∩ Ak es


disjunto:

P(E) = P (E ∩ A1) + P (E ∩ A2) +...+ P (E ∩ An)


Con el teorema de multiplicación para la probabilidad condicionada también
obtenemos que

P (E ∩ Ak) = P (Ak ∩ E) = P (Ak) P(E|Ak)

Teorema 12. (Probabilidad total) Sea E un suceso del espacio muestral S y Ai (i


= 1, 2, 3,…, n) sucesos mutuamente disjuntos cuya unión es S. Entonces,

P(E) = P(A1) P(E|A1) + P(A2) P(E|A2) +… + P(An) P(E|An)

Las A forman una partición de S (unión de conjuntos disjuntos)

Ejemplo 9

Tres empresas X, Y, Z producen equipos eléctricos, tales que:

X produce el 60% y el 4% son defectuosos;

Y produce el 25% y el 2% son defectuosos;

Z produce el 15% y el 3% son defectuosos;

Hallar la probabilidad de que un equipo escogido al azar sea defectuoso.

Por la ley de la probabilidad total:

P (D) = P(X) P (D|X) + P (Y) P (D|Y) + P (Z) P (D|Z)

= 0,60 x 0,04 + 0,25 x 0,02 + 0,15 x 0,03 = 0,0335

Teoremas 13. (Fórmula de Bayes). Sea E un suceso de un espacio muestral y Ai


(i = 1, 2, 3,…, n) sucesos disjuntos cuya unión es S. Entonces, para k = 1, 2, 3,…,
n,

P( Ak )P(E | Ak )
P( Ak | E ) = n

∑ P( A )P(E | A )
k =1
k k
Estadística 1 93

Ejemplo 10

Del ejemplo 4 suponga que encuentra un equipo defectuoso. Hallar la probabilidad


que el equipo haya sido fabricado por cada una de las empresas.

Por la fórmula de Bayes: P (D) = P(X) P (D|X) + P (Y) P (D|Y) + P (Z) P (D|Z)

P( X )P(D | X ) (0,60)(0,04 ) 240


P( X | D ) = = = = 0,7164
P (D ) 0,0335 335

P(Y )P(D | Y ) (0,25)(0,02 ) 50


P(Y | D ) = = = = 0,1493
P(D ) 0,0335 335

P(Z )P(D | Z ) (0,15)(0,03) 45


P (Z | D ) = = = = 0,1343
P (D ) 0,0335 335

Los problemas que se tratan con probabilidad total y fórmula de Bayes, se


pueden interpretar con procesos estocásticos en dos etapas.

P (E A1 )
A1 E
P ( A1 )
El primer paso del árbol corresponde a los sucesos

Ai (i = 1, 2, 3) con su partición S, y el segundo P ( A2 ) P (E A2 )


A2
E
corresponde al suceso arbitrario E.
P ( A3 ) P (E A3 )
A3 E

Con el diagrama de árbol se halla P (E):

P (E) = P (A1) P (E|A1) + P (A2) P (E|A2) + P (A3) P (E|A3)


P( Ak I E ) P( Ak )P(E | Ak ) P( Ak )P(E | Ak )
P( Ak | E ) = = = 3
P(E ) P(E )
∑ P( Ak )P(E | Ak )
k =1

SUCESOS INDEPENDIENTES

Definición. Los sucesos A y B son independientes si P (A∩B) = P(A) P (B); de


cualquier otra forma son dependientes.

La independencia es una relación simétrica. Particularmente

P (A∩B) = P(A) P (B) => P (B|A) = P (B) y P (A|B) = P(A)

Si A∩B = Ø y A y B son independientes. Entonces

P(A) P (B) = P (A∩B) = 0 así, P(A) = 0 o P (B) = 0

Ejemplo 11

La probabilidad de A de acertar a un blanco es ½ y la de B es 2/5. Ambos disparan


al objetivo. Hallar la probabilidad de que al menos uno de ellos de en el blanco.

Asumimos que A y B son independientes: P (A∩B) = P(A) P (B) = ¼ x 2/5 = 1/10.

Por la regla de la adición:

P(A U B) = P(A) + P (B) - P (A∩B) = ¼ + 2/5 – 1/10 = 11/20

Tres sucesos A, B y C son independientes si18:

1. P (A∩B) = P(A) P (B), P (A∩C) = P(A) P(C), P (B∩C) = P (B) P(C)

2. P (A∩B∩C) = P(A) P (B) P(C).

18
Ser independiente dos a dos no implica independencia, es decir, (1) no implica (2) y (2) no implica (1)
Estadística 1 95

La independencia se puede generalizar a más sucesos.

EXPERIMENTOS INDEPENDIENTES REPETIDOS

Definición. Sea S un espacio probabilístico finito. El espacio de n experimentos


repetidos e independientes, es el espacio probabilístico Sn de todas las n-ordenadas
de elementos de S, con las probabilidades de todas las n definidas como:

P (s1, s2,…, sn) = P (s1) P (s2)… P (sn)

Ejemplo 12

Cada vez que tres caballos a, b, c corren juntos sus probabilidades de ganar son
1/2, 1/3 y 1/6. Si los caballos corren dos veces: S2 = {aa, ab, ac, ba, bb, bc, ca, cb,
cc}.

P (aa) = P(a) P(a) = ¼

P (ab) = P(a) P (b) = 1/6

P (ac) = P(a) P(c) = 1/12

P (ba) = 1/6

P (bb) = 1/9

P (bc) = 1/18

P (ca) = 1/12

P (cb) = 1/18

P (cc) = 1/36

La probabilidad de que c gane la primera y la segunda carrera es P (ca) = 1/12

Experimentos repetidos como un proceso estocástico

Un proceso de experimentos repetidos se puede ver como un proceso estocástico


cuyo diagrama de árbol tiene las siguientes propiedades:
1. Cada punto en la rama tiene los mismos resultados.

2. todas las ramas con el mismo resultado tienen la misma probabilidad.

Bibliografía

Seymour Lipschutz, John Schiller, Introducción a la probabilidad y estadística, ed.


Mc Graw Hill, 2001.

Jay L. Devore, Probabilidad y estadística (para ingeniería y ciencias), sexta edición.


Ed. Thomson. 2005.

Recomendaciones al estudio independiente

Estudiar los ejemplos y problemas resueltos del texto


recomendado.

Estudie el Devore después de las lecturas indicadas. Si


controla el tema desde antes puede hacerlo directamente.

EJERCICIOS PROPUESTOS

Ejercicio 1. Hallar la probabilidad de sacar una suma de 8 puntos al lanzar dos


dados.

5
R/ p =
36

Ejercicio 2. Hallar la probabilidad de sacar por suma o bien 4, o bien 11 al lanzar


dos dados.

5
R/ p =
36
Estadística 1 97

Ejercicio 3. Se escriben al azar las cinco vocales ¿Cuál es la probabilidad de que la


“e” aparezca la primera y la “o” la última?

6 1
R/ p = =
120 20

Ejercicio 4. Una urna contiene 15 bolas blancas y 12 negras. Se extraen dos bolas
sin reintegrarlas ¿Cuál es la probabilidad de sacar dos bolas negras?

66 22
R/ p = =
351 117

Ejercicio 5. Una urna contiene 12 bolas blancas y 8 negras. Si se sacan dos bolas
al azar. ¿Cuál es la probabilidad de que sean del mismo color?

47
R/
95

Ejercicio 6. Una urna contiene 12 bolas blancas y 8 negras. ¿Cuál es la


probabilidad de sacar dos bolas negras reintegrando la bola extraída?

4
R/
25

Ejercicio 7. De una baraja española de 40 cartas ¿Cuál es la probabilidad de sacar


un caballo seguido de un tres, reintegrando la primera carta? ¿Y sin reintegrarla?

1 2
R/ Con reintegro . Sin reintegro
100 195

Ejercicio 8. Si la probabilidad de que ocurra un suceso cualquiera es 1/3 ¿Cuál es


la probabilidad de que se realice el suceso si se efectúan 4 pruebas?

65
R/
81

Ejercicio 9. De un juego de baraja de 40 cartas, se sacan dos de ellas.

a. ¿Cuál es la probabilidad de que las cartas escogidas sean un caballo y un


tres si se hace con reintegro?

b. ¿Cuál es la probabilidad de que las cartas escogidas sean un caballo y un


tres si se hace sin reintegro?

1 4
R/ a. b.
50 195
Ejercicio 10. Una urna contiene 8 bolas blancas, 5 negras y 2 rojas. Se extraen
tres bolas al azar y se desea saber:

a. La probabilidad de que las tres bolas sean blancas.

b. La probabilidad de que dos sean blancas y una negra.

56 8 140 28 4
R/ a. p = = b. p= = =
455 65 455 91 13

Ejercicio 11. Se extraen 3 cartas de una baraja de 40. Calcule la probabilidad de


que

a. las tres sean sotas.

b. sean un as, un dos y un tres

c. salga un rey, seguido de un cinco y éste de un siete

1 8 4
R/ a. b. c.
2470 1235 3705

Ejercicio 12. Una urna contiene dos bolas blancas y tres negras; otra, seis blancas
y cuatro negras. Extraemos una bola de cada urna ¿Cuál es la probabilidad de que
sean las dos negras?

6
R/
25

Ejercicio 13. Al lanzar dos veces un dado ¿Cuál es la probabilidad de que la suma
de puntos sea divisible por tres?

12 1
R/ p = =
36 3

Ejercicio 14. Con las cifras 1, 2, 3, 4 y 5 se escriben todos los números posibles de
tres cifras, sin repetir cifras en cada número. Si se señala un número al azar:

a. ¿Cuál es la probabilidad de que sea múltiplo de 4?

b. ¿Y de que sea múltiplo de 3?

1 2
R/ a. b.
5 5

Ejercicio 15. Una caja contiene 8 bolas rojas, 4 azules y 6 verdes. Se extraen 3
bolas al azar y se desea saber:

a. La probabilidad de que las tres sean rojas.


Estadística 1 99

b. La probabilidad de que dos sean rojas y una verde.

c. La probabilidad de que dos sean azules y la otra de otro color.

d. La probabilidad de que todas sean de distinto color.

e. La probabilidad de que todas sean del mismo color.

7 7 7 4 5
R/ a. b. c. d. e.
102 34 68 17 51

Ejercicio 16. Se lanza un dado 6 veces ¿Cuál es la probabilidad de que salga algún
1 en los 6 lanzamientos?

31031
R/
46656

Ejercicio 17. Una caja contiene 2 bolas blancas, 3 negras y 4 rojas. Otra contiene
3 blancas, 5 negras y 4 rojas. Se toma una bola al azar de cada caja ¿Qué
probabilidad hay de que sean del mismo color?

37
R/
108

Ejercicio 18. En una urna hay 50 bolas, aparentemente iguales, numeradas del 1
al 50 ¿Qué probabilidad hay de sacar, una a una, las 50 bolas en el orden natural?

1
R/
50!

Ejercicio 19. La probabilidad de acertar en un blanco de un disparo se estima en


0,2. La probabilidad de acertar en dos disparos será p1=0,04; p2=0,36; p3=0,12.
Determinar qué respuesta el la correcta.

R/ 0,36

Ejercicio 20. ¿Cuál es la probabilidad de torpedear un barco, si sólo se pueden


lanzar tres torpedos y la probabilidad de impacto de cada uno se estima en un 30
%?

R/ 0,657

Ejercicio 21. Se considera el experimento aleatorio “lanzar dos veces un dado”


¿Cuál es la probabilidad de obtener número par en el segundo lanzamiento
condicionado a obtener impar en el primero? ¿Son dependientes o independientes
estos sucesos? ¿Por qué?

R/ 1/2
Ejercicio 22. A un congreso asisten 80 congresistas. De ellos 70 hablan inglés y 50
francés. Se eligen dos congresistas al azar y se desea saber:

a. ¿Cuál la probabilidad de que se entiendan sin intérprete?

b. ¿Cuál es la probabilidad de que se entiendan sólo en francés?

c. ¿Cuál es la probabilidad de que se entiendan en un solo idioma?

d. Cuál es la probabilidad de que se entiendan en los dos idiomas?

143 89 52 39
R/ a. b. c. d.
158 632 79 158

Ejercicio 23. En una bolsa hay 8 bolas rojas, 10 negras y 6 blancas. Tres niños
sacan, sucesivamente, dos bolas cada uno, sin reintegrar ninguna. Hallar la
probabilidad de que el primero saque las dos rojas, el segundo las dos negras y el
tercero las dos blancas.

7 15 3 15
R/ , , ,
69 77 88 9614

Ejercicio 24. Se lanza un dado “n” veces ¿Cuál es la probabilidad de sacar al


menos un 6 en los “n” lanzamientos?
n
5
R/ 1 −  
6

Ejercicio 25. Se realiza el experimento aleatorio de lanzar sucesivamente cuatro


monedas al aire y se pide:

a. La probabilidad de obtener a lo sumo tres cruces.

b. La probabilidad de obtener dos caras.

R/ a. 15/16 b. 3/8

Ejercicio 26. Una pieza de artillería dispone de 7 obuses para alcanzar un objetivo.
En cada disparo la probabilidad de alcanzarlo es 1/7 ¿Cuál es la probabilidad de
alcanzar el objetivo en los 7 disparos?
7
6
R/ 1 −  
7

Ejercicio 27. La probabilidad de que un hombre viva más de 25 años es de 3/5, la


de una mujer es de 2/3. Se pide:
Estadística 1 101

a. La probabilidad de que ambos vivan más de 25 años.

b. La probabilidad de que sólo viva más de 25 años el hombre.

c. La probabilidad de que sólo viva más de 25 años la mujer.

d. La probabilidad de que viva más de 25 años, al menos, uno de


los dos.

R/ a. 2/5 b. 1/5 c. 4/15 d. 13/15

Ejercicio 28. Si de una baraja de 40 cartas se eligen 4 al azar, determinar:

a. La probabilidad de elegir dos reyes.

b. La probabilidad de que tres de las cartas sean del mismo palo.

c. La probabilidad de que todos los números sean menores de siete.

 4   36  10   30   24 
  ⋅     ⋅    
R/ a.     b. 4 ⋅     c.  
2 2 3 1 4
 40   40   40 
     
4 4 4

Ejercicio 29. Se lanzan tres monedas sucesivamente y se consideran los siguientes


sucesos:

A= ”obtener cruz en el primer lanzamiento”.

B= “obtener alguna cara”.

C= “obtener dos cruces”.

Se desea saber:

a. Si A y B son incompatibles.

b. Si A y B son independientes.

c. Si A y C son incompatibles.

d. Si A y C son independientes

R/ a. no son incompatibles. b. no son independientes. c. no son incompatibles. d. no son


independientes.
Ejercicio 30. De las 100 personas que asisten a un congreso 40 hablan francés, 40
inglés, 51 castellano, 11 francés e inglés, 12 francés y castellano y 13 inglés y
castellano. Se eligen al azar dos asistentes y se desea saber:

a. ¿Cuál es la probabilidad de que ninguno hable francés?

b. ¿Cuál es la probabilidad de que hablen castellano?

c. ¿Cuál es la probabilidad de que sen entiendan sólo en castellano?

d. ¿Cuál es la probabilidad de que sólo hablen un idioma?

e. ¿Cuál es la probabilidad de que hablen los tres idiomas?

 60   51  31  31  8   31  7   31  5   74 


      +   ⋅   +   ⋅   +   ⋅    
R/ a.   b.   c.               d.  
2 2 2 1 1 1 1 1 1 2
100  100  100  100 
       
 2   2   2   2 
 5
 
e.  
2
100 
 
 2 

Ejercicio 31. Un dado está “cargado” de modo que al lanzarlo, la probabilidad de


obtener un número es proporcional a dicho número. Hallar la probabilidad de que,
al lanzar el dado, se obtenga un número par.

R/ 12/21

Ejercicio 32. En una encuesta realizada entre 24 alumnos resulta que 18 fuman
ducados, 12 celtas y 8 de las dos clases. Se eligen tres alumnos al azar y se desea
saber:

a. ¿Cuál es la probabilidad de que los tres fumen?

b. ¿Cuál es la probabilidad de que dos, exactamente dos, fumen


ducados?

R/ a. 35/46 b. 459/1012

Ejercicio 33. Si de 800 piezas fabricadas por una máquina salieron 25 defectuosas
y se eligen 5 de aquéllas al azar ¿Cuál es la probabilidad de que haya alguna
defectuosa entre las cinco elegidas?
Estadística 1 103

 775 
 
 5 
R/ 1 −
 800 
 
 5 

Ejercicio 34. Se tiene tres urnas de igual aspecto. En la primera hay 3 bolas
blancas y 4 negras; en la segunda hay 5 negras y en la tercera hay 2 blancas y 3
negras. Se desea saber:

a. Si se extrae una bola de una urna, elegida al azar, ¿cuál es la


probabilidad de que la bola extraída sea negra?

b. Se ha extraído una bola negra de una de las urnas ¿Cuál es la


probabilidad de que haya sido extraída de la 2ª urna?

R/ a. 76/105 b. 35/76

Ejercicio 35. En un hospital especializado en enfermedades de tórax ingresan un


50 % de enfermos de bronquitis, un 30 % de neumonía y un 20 % con gripe. La
probabilidad de curación completa en cada una de dichas enfermedades es,
respectivamente, 0,7; 0,8 y 0,9. Un enfermo internado en el hospital ha sido dado
de alta completamente curado. Hallar la probabilidad de que el enfermo dado de
alta hubiera ingresado con bronquitis.

R/ 0,455

Ejercicio 36. Hay una epidemia de cólera. Un síntoma muy importante es la


diarrea, pero ese síntoma también se presenta en personas con intoxicación, y, aún,
en personas que no tienen nada serio. La probabilidad de tener diarrea teniendo
cólera, intoxicación y no teniendo nada serio es de 0,99; 0,5 y 0,004
respectivamente. Por otra parte, se sabe que el 2% de la población tiene cólera, el
0,5 % intoxicación y el resto (97,5 %), nada serio. Se desea saber:

a. Elegido un individuo de la población ¿Qué probabilidad hay de que


tenga diarrea?

b. Se sabe que determinado individuo tiene diarrea ¿Cuál es la


probabilidad de tenga cólera?

R/ a. 0,0262 b. 0,0756
Ejercicio 37. La probabilidad de que un artículo provenga de una fábrica A1 es 0,7,
y la probabilidad de que provenga de otra A2 es 0,3. Se sabe que la fábrica A1
produce un 4 por mil de artículos defectuosos y la A2 un 8 por mil.

a. Se observa un artículo y se ve que está defectuoso ¿Cuál es la


probabilidad de que provenga de la fábrica A2?

b. Se pide un artículo a una de las dos fábricas, elegida al azar ¿Cuál es


la probabilidad de que esté defectuoso?

c. Se piden 5 artículos a la fábrica A1 ¿Cuál es la probabilidad de que


haya alguno defectuoso?

R/ a. 0,462 b. 0,0052 c. 0,99999

Ejercicio 38. En una población animal hay epidemia. El 10 % de los machos y el


18 % de las hembras están enfermos. Se sabe además que hay doble número de
hembras que de machos y se pide:

a. Elegido al azar un individuo de esa población ¿Cuál es la probabilidad


de que esté enfermo?

b. Un individuo de esa población se sabe que está enfermo ¿Qué


probabilidad hay de que el citado individuo sea macho?

R/ a. 0,153 b. 0,218

Ejercicio 39. En una clase mixta hay 30 alumnas, 15 estudiantes que repiten
curso, de los que 10 son alumnos, y hay 15 alumnos que no repiten curso. Se pide:

a. ¿Cuántos estudiantes hay en la clase?

b. Elegido al azar un estudiante ¿Cuál es la probabilidad de que sea


alumno?

c. Elegido al azar un estudiante ¿Cuál es la probabilidad de que sea


alumna y repita el curso?

d. Elegidos al azar dos estudiantes ¿Cuál es la probabilidad de que


ninguno repita curso?

R/ a. 55 b. 5/11 c. 1/11 d. 52/99


Estadística 1 105

Ejercicio 40. La probabilidad de que un alumno apruebe Matemáticas es 0,6, la de


que apruebe Lengua es 0,5 y la de que apruebe las dos es 0,2. Hallar:

a. La probabilidad de que apruebe al menos una de las dos asignaturas.

b. La probabilidad de que no apruebe ninguna.

c. La probabilidad de que se apruebe Matemáticas y no Lengua.

R/ a. 0,9 b. 0,1 c. 0,4

7. VARIABLES ALEATORIAS

CONCEPTO DE VARIABLE ALEATORIA

La estadística hace inferencia acerca de poblaciones y sus características. La


realización de experimentos (experimentos estadísticos) conduce a resultados
sujetos al azar. Al resultado, con mucha frecuencia, se les asigna una descripción
numérica -vea el ejemplo 1, el cual está relacionado con una definición importante
en estadística y probabilidad.

Definición 1. Una variable aleatoria (v.a) X de un espacio muestral S


es una función de S en el conjunto de los números reales19:

X: S → R

Ejemplo 1. Se tira una moneda tres veces y se observa la sucesión de


20
cara y cruz :

S = {HHH, HHT, HTH, HTT, THH, THT, TTH, TTT}

19
Se asigna un valor numérico a cada resultado de S.
20
H es cara y T es cruz.
Sea X la asignación a cada punto de S del mayor número de caras sucesivas que
van saliendo:

X (TTT) = 0, X (HTH) = X (HTT) = X (THT) = X (TTH) = 1

X (HHT) = X (THH) = 2, X (HHH) = 3

La X es una variable aleatoria con rango Rx = {0, 1, 2, 3}, es decir, su espacio de


valores.

En el ejemplo anterior, el espacio muestral contiene un número finito de elementos.


Existen situaciones en las que el espacio muestral tiene una secuencia interminable
de elementos, pero numerable. Suponga el lanzamiento de un dado hasta que
aparezca el número cuatro: S = {F , NF , NNF , NNNF , ...}; F y N están
relacionadas con la aparición o no del cuatro.

Definición 2. Si un espacio contiene un número finito de posibilidades


o un conjunto infinitos de elementos numerables, se llama espacio muestral
discreto.

Los resultados de algunos experimentos estadísticos no pueden ser ni finitos ni


contables. Podemos ejemplificar el registro del tiempo requerido para que se lleve a
cabo una reacción química, en el cual los posibles valores de tiempo que forman el
espacio muestral son infinitos en número e incontables.

Definición 3. Si un espacio contiene un número infinito de


posibilidades igual al número de puntos en un segmento de línea, se llama espacio
muestral continuo.

La suma y producto de variables aleatorias satisface las siguientes propiedades:


Estadística 1 107

(X + Y)(s) = X(s) + Y(s), (kX) (s) = k X(s),

(X + k)(s) = X(s) + k, XY(s) = X(s) Y(s)

DISTRIBUCIÓN ALEATORIA DE UNA VARIABLE ALEATORIA FINITA

Una v.a X discreta toma cada uno de sus valores con cierta probabilidad. Con
frecuencia conviene representar todas las probabilidades de la v.a mediante una
fórmula. Necesariamente, la fórmula es una función.

Sea X v.a del espacio muestral S tal que:

Rx = {x1, x2,…, xn}

Entonces, X nos conduce a una función f que asigna probabilidades a los puntos de
Rx por21

f (xk) = P(X = xk)

Rx con la asignación de probabilidades es un espacio probabilístico.

Definición 4. El conjunto de pares ordenados (x, f (x )) se le llama


función de probabilidad, función masa de probabilidad o distribución de
probabilidad de la v.a X y satisface:

a. f (xk) ≥ 0

b. ∑k f (xk) = 1

c. f (xk) = P(X = xk)

21
Se puede representar en una tabla
Teorema1. Sea S un espacio equiprobable finito y f la distribución de una v.a X con
Rx = {x1, x2,…, xn}. Entonces:

f ( xk ) =
número de puntos de S con imagen xk
número de puntos de S

Ejemplo 2. Se tira una moneda tres veces y se observa la sucesión de


cara y cruz:

S = {HHH, HHT, HTH, HTT, THH, THT, TTH, TTT}

Sea X la v.a que asigna a cada punto de S el mayor valor de la sucesión de caras. El
espacio de valores es Rx = {x1, x2,…, xn}. Existirán:

a. un punto TTT, donde X = 0

b. cuatro puntos HTH, HTT, THT, TTH, donde X = 1

c. dos puntos HHT, THH, donde X = 2

d. un punto HHH, donde X = 3

Determine la distribución de probabilidades de la v.a X cuando:

a) La moneda no está trucada.

b) El peso de la moneda es tal que: P(H) = 2/3 y P(X) = 1/3.

Solución.

a) Si la moneda no está trucada, entonces S es equiprobable de 8 elementos. Por


el teorema 1:

x 0 1 2 3

f(x) 1/8 4/8 2/8 1/8

El gráfico de probabilidades se puede hacer con un diagrama de barra o un


histograma. Represéntelos usted mismo.
Estadística 1 109

b) Si el peso de la moneda es tal que: P(H) = 2/3 y P(X) = 1/3, entonces S no es


equiprobable. Las probabilidades de los puntos de S son:

P (HHH) = 2/3 x 2/3 x 2/3 = 8/27 P (THH) = 1/3 x 2/3 x 2/3 = 4/27

P (HHT) = 2/3 x 2/3 x 1/3 = 4/27 P (THT) = 1/3 x 2/3 x 1/3 = 2/27

P (HTH) = 2/3 x 1/3 x 2/3 = 4/27 P (THT) = 1/3 x 1/3 x 2/3 = 2/27

P (HTT) = 2/3 x 1/3 x 1/3 = 2/27 P (TTT) = 1/3 x 1/3 x 1/3 = 1/27

Al no ser S equiprobable no se puede utilizar el teorema 1 para calcular la


distribución f de X. f se calcula directamente:

f (0) = P (TTT) = 1/27

f (1) = P ({HTH, HTT, THT, TTH}) = 4/27 + 2/27 + 2/27 + 2/27 = 10/27

f (2) = P ({HHT, THH}) = 4/27 + 4/27 = 8/27

f (3) = P (HHH) = 8/27

Así, la distribución f de X

x 0 1 2 3

f(x) 1/27 10/27 8/27 8/27

Ejemplo 3. En una fábrica se han construido 9 pizarras digitales, de las


cuales 3 son defectuosas. Una facultad universitaria compra al azar 2 pizarras. Halle
la distribución de probabilidad para el número de defectuosas.

Solución. Sea X la v.a cuyos valores x son los números posibles de pizarras
digitales defectuosas que pueda comprar la facultad ( x = 0, 1, 2 ). Por tanto,
 3  6
   
f (0) = P( X = 0 ) =     =
0 2 30
9 72
 
 2

 3  6 
   
f (1) = P( X = 1) =     =
1 1 36
9 72
 
 2

 3  6
   
f (2 ) = P( X = 2 ) =     =
2 0 6
9 72
 
 2

La distribución de probabilidad de X es

x 0 1 2

f (x ) 30 72 36 72 6 72

Existen problemas donde se desea determinar la probabilidad de que el valor


observado de una v.a X sea menor o igual que cierto número real x . Cuando se
escribe F ( x ) = P( X ≤ x ) para cualquier número real x , se define a F ( x ) como la
distribución acumulada de la v.a X.

Definición 5. La distribución acumulada F ( x ) de una v.a discreta X


con distribución de probabilidad f ( x ) es

F ( x ) = P( X ≤ x ) = ∑ f (t ) para − ∞ < x < ∞ .


t≤x
Estadística 1 111

Ejemplo 4. Sea X una v.a discreta con la siguiente distribución de


probabilidad f:

x -2 1 2 4

f(x) 1/4 1/8 1/2 1/8

Halle la:

a) probabilidad de que el valor observado de una v.a X sea menor o igual que 1,5.

b) función de distribución acumulada.

Solución.

a) F (1,5) = P ( X ≤ 1,5) = f (− 2 ) + f (1) =


1 1 3
+ =
4 8 8

b) Para determinar la función de distribución acumulada de X determinemos:

F (− 2 ) = f (− 2 ) =
1 2
=
4 8

F (1) = f (− 2 ) + f (1) =
2 1 3
+ =
8 8 8

F (2 ) = f (− 2 ) + f (1) + f (2 ) =
3 1 3 4 7
+ = + =
8 2 8 8 8

F (4 ) = f (− 2 ) + f (1) + f (2 ) + f (4 ) =
7 1
+ =1
8 8

Por tanto,

 0 para x < −2
2 8 para - 2 ≤ x < 1

F ( x ) = 3 8 para 1 ≤ x < 2
7 8 para 1 ≤ x < 2

 1 para x ≥ 4
La función acumulada F de X se muestra a continuación. Observe que X tiene
escalón en xi con altura f(xi)

F(x)

1/2
Figura 1

x
-2 1 2 4

VARIABLES ALEATORIAS CONTINUAS

Una v.a continua tiene una probabilidad cero de tomar exactamente cualquiera de
sus valores. Por tanto, su distribución de probabilidad no se puede dar en forma
tabular (tiene más sentido hablar del valor en un intervalo que dar un valor
puntual). Sin embargo, podemos dar una fórmula para la distribución de
probabilidad de la v.a. La fórmula será función de los valores numéricos de la
variable continua X. Se representa por f(x) y se llama

Definición 6. Sea f: R → R una función continua a intervalos, tal que


b
P(a ≤ X ≤ b ) = ∫ f ( x )dx,
a

entonces se dice que X es una v.a continua. f(x) se llama función de densidad de
probabilidad o función de densidad de X.

Observación. Cuando X es continua, no importa si incluimos o no un extremo del


intervalo. Sin embargo, cuando X es discreta, no es cierto hacer esta afirmación.

Propiedades de f

a. f (x ) ≥ 0
Estadística 1 113


b. ∫ f (x )dx ≡ ∫ f (x )dx = 1
−∞ R

Ejemplo 5. Sea X una v.a continua con la siguiente función de densidad


de probabilidad

 12 x si 0 ≤ x ≤ 2

f (x ) = 
0 cualquier otra parte

a. Verifique la propiedad 2

b. Encuentre P (1≤X≤1,5)

Solución.

∞ 0 ∞ 2 2

∫− ∞ f (x )dx = −∫∞0dx + + ∫2 0dx = 2 ∫0 xdx = 4 x = 1 − 0 = 1


1 1 2
a.
0

1, 5 1, 5

b. P (1 ≤ X ≤ 1,5) = ∫ xdx = x
1 1 2 225 100 125 5
= − = =
1
2 4 1 400 400 400 16

Definición 7. La distribución acumulada F ( x ) de una v.a continua


X con función de densidad f ( x ) es

x
F ( x ) = P( X ≤ x ) = ∫ f (t )dt para −∞ < x < ∞.
−∞

De la definición anterior, se pueden escribir dos resultados:

 P(a < X < b ) = F (b ) − F (a )


dF ( x )
 f (x ) = , si existe la derivada.
dx

Ejemplo 6. Para la función de densidad del ejemplo anterior, encuentre


F ( x ) y úsela para evaluar P(1 ≤ X ≤ 1,5) .

Solución.

x x x
t2 x2
F ( x ) = P ( X ≤ x ) = ∫ f (t )dt = ∫ dt =
t
=
−∞ −∞
2 40 4

Así,

 0, x≤0
 x 2
F (x ) =  , 0 ≤ x ≤ 2
4
 1, x≥2

Dibuje la gráfica x vs. F ( x ) .

P(1 ≤ X ≤ 1,5) = F (1,5) − F (1) =


225 100 125 5
− = =
400 400 400 16

Observe que coincide con el ejemplo anterior.

DISTRIBUCIÓN CONJUNTA DE VARIABLES ALEATORIAS

Si es deseable obtener los resultados simultáneos de diversas v.a, utilizamos la


distribución de probabilidad conjunta de las mismas.
Estadística 1 115

Definición 8. La función f ( x, y ) es una distribución de


probabilidad conjunta o función de masa de probabilidad de las v.a
discretas X y Y si

a. f ( x, y ) ≥ 0 ∀ ( x, y ) ,

b. ∑∑ f (x, y ) = 1 ,
x y

c. P ( X = x, Y = y ) = f ( x, y )

Para cualquier región A en el plano xy , P[( X , Y ) ∈ A] = ∑∑ f (x, y ) .


A

Ejemplo 7. Se seleccionan al azar dos placas para un ordenador de una


caja que contiene tres placas de la marca A; dos, de la B; y tres, de la C. Si X es el
número de placas de A e Y el número de B que se seleccionan, halle:

a. la función de probabilidad conjunta f ( x, y )

b. la P[( X , Y ) ∈ A] , en la que A es la región {( x, y ) : x + y ≤ 1} .

Solución.

a. El espacio muestral es

 
 
S = ({ 0,0 ),({
0,1),({
1,0 ),({
1,1),({
0,2 ),({
2,0 )
 2 deC 1deB , 1deA, 1deA, 2 deB 2 deA 
 1deC 1deC 1deB 

Luego,
 3  3  3  2
       
f (0,0 ) =   = f (1,0 ) =     = f (0,2 ) =   =
2 3 1 1 9 2 1
 8  28 8 28  8  28
     
 2  2  2

 2   3  3  2   3
         
f (0,1) =     = f (1,1) =     = f (2,0 ) =   =
1 1 6 1 1 6 2 3
8 28 8 28  8  28
     
 2  2  2

La distribución conjunta la podemos escribir como:

 3  2   3 
     
 x   y   2 − x − y 
f ( x, y ) =
8
 
 2

Si construimos la tabla

f ( x, y ) 0 1 2 Total por
fila

0 3 28 9 28 3 28 15 28
y
1 6 28 6 28 12 28

2 1 28 1 28

Total por 10 28 15 28 3 28 1
columna

podemos ver que la suma de las probabilidades es uno.


Estadística 1 117

Definición 9. La función f ( x, y ) es una función de densidad


conjunta de las v.a continuas X y Y si

a. f ( x, y ) ≥ 0 ∀ ( x, y ) ,
∞ ∞
b. ∫ ∫ f (x, y )dxdy = 1 ,
−∞ −∞

c. Para cualquier región A en el plano xy , P[( X , Y ) ∈ A] = ∫ ∫ f ( x, y )dxdy .


A

Cuando X y Y son v.a continuas, f ( x, y ) es una superficie sobre el plano xy , y


P[( X , Y ) ∈ A] es igual al volumen del cilindro recto limitado por la base A y la
superficie.

Ejemplo 8. Una empresa distribuye bolsas de paquetes de café con


molido fino, molido grueso y oscuro tostado en forma natural y torrefacta. Para una
bolsa seleccionada al azar, sean X e Y, respectivamente, las proporciones de café de
tueste natural y torrefacta que son de molido fino y suponga que la función de
densidad conjunta es

4 x + y , 0 ≤ x ≤ 1, 0 ≤ y ≤ 1
f ( x, y ) =  .
 0, en cualquier otro caso

 1
P[( X , Y ) ∈ A] , estando A en la región ( x, y ) 0 < x < , < y <
1 1
Encuentre 
 2 4 2

Solución.

 1
P[( X , Y ) ∈ A] = P 0 < X < , < Y < 
1 1
 2 4 2

12 12

∫ ∫ (4 x + y )dxdy = ∫ (2 x )
1 21 2 12 12
1 y  y y2  11
= 2
+ xy dy = ∫  + dy =  +  =
1 4
140 14 0
2 2  2 4  1 4 64
Dada la distribución conjunta f ( x, y ) se pueden definir las distribuciones marginales
g ( x ) y h( y ) como:

Definición 10. Las distribuciones marginales de X sola y Y sola


son para el caso:

 discreto: g ( x ) = ∑ f ( x, y ) y h( y ) = ∑ f ( x, y )
y x

∞ ∞
 continuo: g ( x ) = ∫ f (x, y ) dy y h( y ) = ∫ f (x, y ) dx
−∞ −∞

Observación. El término marginal se usa porque en el caso discreto, los valores de


g ( x ) y h( y ) son los totales marginales de las columnas y filas respectivamente
cuando los valores de f ( x, y ) se muestran en una tabla rectangular. Vea la tabla
siguiente

Y y1 y2 ... yn Total
fila
X

x1 f ( x1 , y1 ) f ( x1 , y2 ) ... f ( x1 , yn ) g ( x1 )

x2 f ( x2 , y1 ) f ( x2 , y 2 ) ... f ( x2 , y n ) g ( x2 )

... … … ... … …

xn f ( xn , y1 ) f ( xn , y 2 ) ... f ( xn , y n ) g ( xn )

Total h( y1 ) h ( y2 ) ... h( y n )
columna
Estadística 1 119

Ejemplo 9. Muestre que los totales de filas y columnas de la tabla del


ejemplo 7 dan las distribuciones marginales de X sola y Y sola.

Solución.

Para la v.a Y :

2
P (Y = 0 ) = h(0 ) = ∑ f ( x,0 ) = f (0,0) + f (1,0 ) + f (2,0 ) =
3 6 1 10
+ + =
x =0 28 28 28 28

2
P (Y = 1) = h(1) = ∑ f ( x,1) = f (0,1) + f (1,1) + f (2,1) =
9 6 15
+ +0=
x=0 28 28 28

2
P (Y = 2 ) = h(2 ) = ∑ f (x,2 ) = f (0,2 ) + f (1,2 ) + f (2,2 ) =
3 3
+0+0=
x =0 28 28

Para la v.a X , compruébelo.

Ejemplo 10. Halle g ( x ) y h( y ) para la función de densidad conjunta


del ejemplo 8.

Solución.

∞ 1 y =1
 1 
g ( x ) = ∫ f ( x, y ) dy = ∫ (4 x + y )dy =  4 xy + y 2 
1
= 4x + , para 0 ≤ x ≤1 y
−∞ 0  2  y =0 2

g ( x ) = 0 en cualquier otro caso.

∫ f (x, y ) dy = ∫ (4 x + y ) dx = (2 x )
1
h( y ) = = 2 + y , para 0 ≤ y ≤ 1 y h( y ) = 0
x =1
2
+ xy
x =0
−∞ 0

en cualquier otro caso.


Definición 11. Sean X y Y v.a, discretas o continuas. La
distribución condicional de la v.a Y , dado que X = x , es

f ( x, y )
f (y x) = , g (x ) > 0 .
g (x )

Similarmente, la distribución condicional de la v.a X , dado que Y = y , es

f ( x, y )
f (x y ) = , h( y ) > 0 .
h( y )

Para calcular la probabilidad de que la v.a X caiga entre a y b :

 P (a < X < b | Y = y ) = ∑ f ( x | y ) ; ; (para v.a discretas)


x

b
 P(a < X < b | Y = y ) = ∫ f ( x | y ) dx ; (para v.a continuas)
a

Ejemplo 11. Del ejemplo 7, halle la distribución condicional de X , dado


que Y = 1 , y utilícela para determinar P( X = 0 | Y = 1) .

Solución.

( )
Hay que buscar f x y , donde y = 1 :

2
h(1) = ∑ f ( x,1) =
6 6 12 3
+ +0= =
x =0 28 28 28 14

Tenemos que

f ( x,1) 7
f ( x | 1) = = f ( x,1) , x = 0, 1, 2.
h(1) 3

Por tanto,
Estadística 1 121

f (0 | 1) = f (0, 1) =
7 7 3 1
= ,
3 3 14 2

f (1 | 1) = f (1, 1) =
7 7 3 1
= ,
3 3 14 2

f (2 | 1) = f (0, 1) = 0 = 0 ,
7 7
3 3

y la distribución condicional de X , dado que Y = 1 , es

x 0 1 2

f (x 1) 12 12 0

Con esta distribución calculamos:

P ( X = 0 | Y = 1) = f (0 | 1) =
1
.
2

De esta manera, si se conoce que una de las placas seleccionadas es de la marca B,


hay una probabilidad igual a 1 2 de que la otra placa no sea de la marca A.

Ejemplo 12. Dada la función de densidad conjunta

x2 + y2 , 0 < x < 1, 0 < y < 1


f ( x, y ) =  ,
 0, en cualquier otro caso

1 1
g ( x ) , h( y ) , f ( x | y ) , y evalúe P < X < | Y =  .
1
encuentre
4 2 2

Solución.

∫ f (x, y ) dy = ∫ (x )
1
g (x ) =
1
2
+ y 2 dy = x 2 + , 0 < x <1.
−∞ 0
3

∫ f (x, y ) dy = ∫ (x )
1
h( y ) =
1
2
+ y 2 dx = y 2 + , 0 < y < 1.
−∞ 0
3

Por tanto,

f ( x, y ) x 2 + y 2
f (x y ) = = , 0 < x <1, 0 < y <1
h( y ) y +
2 1
3

1 1 1
2 x2 + 2
1 1 1 4 dx = 12  x 2 + 1  dx = 19
P < X < | Y =  = ∫
4 2 2 1 1 1
+ 7 ∫1  4 112
4 4 3 4

VARIABLES ALEATORIAS INDEPENDIENTES

Definición 12. Sean X y Y dos v.a, discretas o continuas, con distribución


de probabilidad conjunta f ( x, y ) y distribuciones marginales g (x ) y h( y ) ,
respectivamente. Se dice que las v.a X y Y son estadísticamente independientes
si y sólo si

f ( x, y ) = g ( x ) h ( y )

∀ ( x, y ) dentro de sus rangos.

Ejemplo 13. Diga si las v.a del ejemplo 7 son independientes.

Solución. Según la definición 7, procedemos como indicamos a continuación:

f (0, 1) =
6
28
Estadística 1 123

2
g (0) = ∑ f (0, y ) =
3 6 1 10
+ + =
y =0 28 28 28 28

2
h(1) = ∑ f ( x, 1) =
6 6 12
+ +0=
x =0 28 28 28

Multiplicando, obtenemos:

f (0, 1) ≠ g (0) h(1) .

Como el producto de las funciones marginales no es igual a la función de


distribución de probabilidad conjunta, decimos que las v.a X e Y no son
estadísticamente independientes.

GENERALIZACIÓN A N VARABLES ALEATORIAS

Las definiciones anteriores se pueden generalizar al caso de varias v.a.


Sea f (x 1 , x 2 , ..., x n ) la función de probabilidad conjunta de las v.a

X 1 , X 2 , ..., X n .

Por ejemplo, tomemos la v.a X 1 , la distribución marginal de ésta es

 ∑ ⋅ ⋅ ⋅ ∑ f ( x1 , x2 , ..., xn ) (caso discreto)



g ( x1 ) =  ∞
x2 xn
.
 ∫ f ( x1 , x2 , ..., xn ) dx2 dx3 ⋅ ⋅ ⋅ dxn (caso continuo)
− ∞

Las distribuciones marginales conjuntas la definimos como:

 ∑ ⋅ ⋅ ⋅ ∑ f ( x1 , x2 , ..., xn ) (caso discreto)



φ ( x1 , x2 ) =  ∞
x3 xn
.
 ∫ f ( x1 , x2 , ..., xn ) dx3 dx4 ⋅ ⋅ ⋅ dxn (caso continuo)
− ∞
Para las distribuciones condicionales se pueden escoger numerosas casos. Si
deseamos la distribución condicional conjunta de X 1, X 2 y X 3 , con

X 4 = x4 , X 5 = x5 , ..., X n = xn , se escribe como:

f ( x1 , x2 , ..., xn )
f ( x1 , x2 , x3 | x4 , x5 , ..., xn ) = ,
g ( x4 , x5 , ..., xn )

donde g ( x4 , x5 , ..., xn ) es la distribución marginal conjunta de las v.a X 4 , X 5 , ..., X n .

Se dice que las v.a X 1 , X 2 , ..., X n son estadísticamente independientes mutuamente si y


sólo si

f ( x1 , x2 , ..., xn ) = f ( x1 ) f ( x2 ) ⋅ ⋅ ⋅ f ( xn )

∀ ( x1 , x2 , ..., xn ) dentro de su rango.

Ejemplo 14. El tiempo de vida en años, de un producto en conserva


embasado en recipientes plásticos, es una v.a cuya función de densidad de
probabilidad es

e −2 x , x>0
f (x ) =  .
 0, en cualquier otro caso

Si X 1 , X 2 y X 3 son los tiempos de vida para tres de estos recipientes plásticos que se
escogen de forma independiente: encuentre el valor de P ( X 1 < 1, 1 < X 2 < 2, X 3 > 1) .

Solución. Como los recipientes se escogen de forma independientes, suponemos


que las v.a X 1 , X 2 y X 3 son estadísticamente independientes y tienen densidad de
probabilidad conjunta

f ( x1 , x2 , x3 ) = f ( x1 ) f ( x2 ) f ( x3 ) = e −2 x1 e −2 x 2 e −2 x3 = e −2( x1 + x 2 + x3 ) ,

para
Estadística 1 125

x1 > 0 , x2 > 0 , x3 > 0 y f ( x1 , x2 , x3 ) = 0 en cualquier otro caso. Por tanto,

∞2 1
− 1 −2
P( X 1 < 1, 1 < X 2 < 2, X 3 > 1) = ∫ ∫∫ e − 2 ( x1 + x 2 + x3 )dx1 dx2 dx3 =
2 3
( )( )(
e − 1 e− 4 − e− 2 − e− 2 )
1 1 0

=
1
2 3
( )2
1 − e − 2 e − 4 = 1,7 × 10 − 3 .

ESPERANZA MATEMÁTICA

Resulta interesante saber las medidas de posición de las v.a.

Definición 13. Sea X una v.a con distribución de probabilidad f ( x ) . La


media o valor esperado de X es

 ∑ x f ( x ) si X es discreta
 x
µ = E(X ) =  ∞ .
∫ x f ( x ) dx si X es continua
- ∞

Ejemplo 15. Se tira una moneda tres veces. Halle el valor esperado o
esperanza matemática de obtener el número mayor de caras sucesivas si:

a. la moneda no está trucada.

b. la moneda está trucada.

Solución.

Sea X el número mayor de caras sucesivas.

a. . La distribución de X se muestra en el ejemplo 2. Con esta distribución


obtenemos:
E = E(X) = 0 x 1/8 + 1 x 4/8 + 2 x 2/8 + 3 x 1/8 = 11/8

es el mayor número esperado de caras sucesivas.

b. el peso de la moneda es tal que:

E = E (X) = 0 x 1/27 + 1 x 10/27 + 2 x 8/27 + 3 x 8/27 = 50/27

es el mayor valor esperado de sucesiva caras.

Si interpretamos el resultado vemos que en ambos casos es favorable la obtención


de un mayor número de caras sucesivas.

Ejemplo 16. Sea X la v.a que denota la vida en horas de un


dispositivo electrónico. La función de densidad de probabilidad viene dada por

 20000
 x > 100
f (x ) =  x3
,
.
 0, en cualquier otro caso

¿Cuál será la vida esperada del dispositivo?

Solución.

µ = E(X ) =
20000
∫x
100
x3
dx = 200 .

Se puede esperar que el dispositivo dure, en promedio, unas 200 horas.

En general, E(X) es la media ponderada de los posibles


valores de X, donde cada valor se pondera con su
probabilidad. Por tanto, E(X) es la media de la v.a X,

La esperanza en los juegos al azar: Si su valor es positivo


nos indica que el juego es favorable para el jugador y que
si juega un número grande de veces la ganancia que
obtenga será el valor de esa esperanza. Si su valor es
negativo lo que indica que el juego es desfavorable para el
jugador y el valor que tome será la pérdida que tendrá si
juega un gran número de veces. Si el valor de la
esperanza del juego es cero, el juego resultará empate.
Estadística 1 127

Consideremos una nueva v.a: g ( X ) , que depende de X .

Teorema 1. Sea X una v.a con distribución de probabilidad f ( x ) . La media o


valor esperado de la v.a g ( X ) es

 µ g ( X ) = E [g ( X )] = ∑ g ( x ) f (x ) si X es discreta, y


 µ g ( X ) = E [g ( X )] = ∫ g (x ) f (x ) dx si X es continua
−∞

Ejemplo 17. El número de cajas de leche que se vende al inicio de


semana entre las 09:00 y las 10:00 horas se le puede asignar una v.a X , la cual
tiene la siguiente distribución de probabilidad

x 10 11 12 13 14

P( X = x ) 18 14 18 14 14

Si la cantidad de euros que se le paga al dependiente por las ventas de las cajas se
puede representar por la v.a g ( X ) = X + 2 ¿Se espera que el dependiente tenga
ganancias en el intervalo de ventas?

Solución.

De acuerdo al teorema anterior, el valor esperado de lo que puede percibir el


dependiente es
14
E [g ( X )] = E ( X + 2) = ∑ (x + 2) f (x )
x =10

= (12 ) + (13) + (14 ) + (15) + (16 ) = 14,25 €


1 1 1 1 1
8 4 8 4 4

Como el valor es positivo, se espera que el dependiente tenga ganancias de 14,25 €


de promedio.
Ejemplo 18. Si X es una v.a con función de densidad

e − x , 0< x<2
f (x ) = 
 0, en cualquier otro caso ,

Encuentre el valor esperado de g ( X ) = X − 1 .

Solución. Por el teorema anterior, podemos plantear:


2 2
E [g ( X )] = E ( X − 1) = ∫ ( x − 1) f (x ) dx = ∫ ( x − 1) e − x dx = −2e − 2
0 0

¿Cómo generalizamos el concepto a dos v.a con distribución de probabilidad


conjunta f ( x, y ) ?

Definición 14. Sean X y Y v.a con distribución de probabilidad


conjunta f ( x, y ) . La media o valor esperado de la v.a g ( X , Y ) viene dada por:

 µ g ( X , Y ) = E [g ( X , Y )] = ∑∑ g ( x, y ) f ( x, y ) para v.a discretas


x y

∞ ∞
 µ g ( X , Y ) = E [g ( X , Y )] = ∫ ∫ g (x, y ) f (x, y ) dx dy para v.a continuas
-∞ −∞

Y 
Ejemplo 19. Halle E   para la función de densidad
X

 x y e − x , 0 < x < ∞, 0 < y < 1


f ( x, y ) =  .
 0, en cualquier otro caso

Solución. Por el teorema anterior, podemos plantear:


Estadística 1 129

1∞ 1
Y 
E [g ( X , Y )] = E   = ∫∫ x y e − x dx dy = ∫ y 2 dy = .
y 1
X 00 x 0
3

VARIANZA Y COVARIANZA

Definición 15. Sean X v.a con distribución de probabilidad f ( x ) con


media µ. La varianza de X es

[ 2
]
 σ 2 = E ( X − µ ) = ∑ (x − µ ) f (x )
2
para X discreta
x

[ ] ∫ (x − µ )

 σ = E (X − µ ) = f ( x ) dx
2 2 2
para X continua
-∞

La raíz cuadrada da la desviación típica o estándar de X .

Forma alternativa para calcular la varianza:

Teorema 2. La varianza de una v.a X es

σ 2 = E (X 2 ) − µ 2 .

Demuéstrelo.

La varianza y la desviación típica miden la dispersión ponderada de los valores de x


sobre la media µ.

Interpretación física:

1. la media representa el centro de masa de los puntos xi

2. desviación típica representa el momento de inercia del sistema de puntos

Teorema 3. Sea X una v.a con distribución de probabilidad f ( x ) . La varianza de la v.a


g ( X ) es

{[
 σ g2( X ) = E g ( X ) − µ g ( X ) ] }= ∑ [g ( X ) − µ ( ) ] f (x )
2
g X
2
para X discreta.
x
{[ ] }= ∫ [g ( X ) − µ ( ) ] f (x )

 σ = E g (X ) − µg (X )
2 2 2
g(X ) g X para X continua.
−∞

Definición 16. Sean X y Y v.a con distribución de probabilidad conjunta


f ( x, y ) . La covarianza de X y Y se expresa como:

 σ XY = E [( X − µ X )(Y − µY )] = ∑∑ ( x − µ X ) ( y − µ y ) f ( x, y ) si X y Y son
x y

discretas.
∞ ∞
 σ XY = E [( X − µ X )(Y − µY )] = ∫ ∫ ( x − µ ) ( y − µ ) f ( x, y )
−∞ −∞
X y X y Y son

continuas.

Teorema 4. La covarianza de dos v.a X y Y con medias µ X y µY , respectivamente,


está dada por

σ XY = E ( XY ) − µ X µY .

Demuéstrelo.

La covarianza entre dos v.a nos da información de la relación que hay entre ellas.
Sin embargo, la covarianza no indica nada sobre la fuerza de la relación ya que σ XY
depende de la escala (depende de las unidades que se miden para X y Y ).

La versión de la covarianza libre de la dificultad anterior es el coeficiente de


correlación:

Definición 17. Sean X y Y v.a con covarianza σ XY y desviaciones típicas

σX y σ Y , respectivamente. El coeficiente de correlación X y Y viene dado por:


Estadística 1 131

σ XY
ρ XY = .
σ X σY

Los ejemplos resueltos no se presentan en este apartado


porque su técnica resolutiva es similar al apartado
anterior. Igual consideración se hace con el apartado
siguiente.

MEDIAS Y VARIANZAS DE COMBINACIONES LINEALES DE VARIABLES


ALEATORIAS

Teorema 5. Sea X una v.a, a y b números reales. Entonces,


E (aX + b ) = a E ( X ) + b .

Compruébelo.

Teorema 6. Sean g ( X ) y h( X ) dos funciones de la v.a X . Entonces,

E [g ( X ) ± h( X )] = E [g ( X )] ± E [h( X )] .

Compruébelo.

Teorema 7. Sean g ( X ) y h(Y ) v.a de las v.a X y Y . Entonces,

E [g ( X , Y ) ± h( X , Y )] = E[g ( X , Y )] ± E[h( X , Y )] .

Compruébelo.

Teorema 8. Sea X y Y dos v.a independientes. Entonces, E ( X Y ) = E ( X ) E (Y ) .


Compruébelo.

Teorema 9. Si a y b son constantes, entonces σ aX


2
+b = a σ X = a σ .
2 2 2 2

Compruébelo.

Teorema 10. Si X e Y son v.a con distribución de probabilidad conjunta f ( x, y ) ,


entonces

σ aX
2
+ bY = a σ X + b σ Y + 2 abσ XY .
2 2 2 2

Compruébelo.

DESIGULADAD DE CHEYBYSHEV Y LA LEY DE LOS GRANDES NÚMEROS

Teorema 11. (Desigualdad de Cheybyshev). Sea X una v.a con media µ y


desviación típica σ. Entonces, ∀ k (positivo), la probabilidad de que un valor de

X ∈ [µ − kσ < X < µ + kσ ] es al menos 1 −


1
, i.e.
k2

P (µ − kσ < X < µ + kσ ) ≥ 1 −
1
k2

Demostración.

[ ] ∫ (x − µ )

σ = E (X − µ ) =
2 2 2
f ( x ) dx
−∞

µ − kσ µ + kσ ∞
= ∫ (x − µ ) f (x ) dx + ∫ (x − µ ) f (x ) dx + ∫ (x − µ ) f (x ) dx
2 2 2

−∞ µ − kσ µ + kσ

µ − kσ ∞
≥ ∫ (x − µ ) f (x ) dx + µ ∫ σ(x − µ ) f (x ) dx ,
2 2

−∞ +k
Estadística 1 133

ya que la segunda de las tres integrales es no negativa.

Como x − µ ≥ kσ ; ∀ x ≥ µ + kσ o x ≤ µ − kσ , (x − µ )2 ≥ k 2σ 2 en las integrales

restantes. Por tanto,

µ − kσ ∞
σ2 ≥ ∫ k σ f (x ) dx + ∫ k σ f (x ) dx
2 2 2 2

−∞ µ σ +k

µ − kσ ∞
f ( x ) dx + ∫ f (x ) dx ≤ k
1

−∞ µ σ
+k
2
.

De aquí
µ + kσ
P (µ − kσ < X < µ + kσ ) = f ( x ) dx ≥ 1 −
1

µ σ −k
k 2
,

l.q.q.d.

Ejemplo 20. Suponga que X es una v.a de media µ = 75 y desviación


típica σ =5.

a. ¿Qué información se puede sacar de X para k=2?

b. Determinar un [a, b] sobre la media para que la probabilidad de que X


pertenezca al mismo sea al menos del 99%.

Solución.

a. µ - k σ = 75-2(5)=65 y µ + k σ =85

Por la desigualdad de Cheybyshev: P (65 ≤ X ≤ 85) ≥ 1- (1/2)2 = ¾ (es la


probabilidad de caer en un intervalo de dos desviaciones típicas).

b. Sea 1 - 1/k2 =0,99. Si resolvemos obtenemos que k=10. Así, [75-10(5),


75+10(5)]= [25, 125].
Media muestral y ley de los grandes números

Sea X v.a de media µ, entonces el resultado numérico de cada prueba es una v.a
con la misma media que X. El valor medio de todos los resultados n es también una
v.a, X n , que se llama media muestral, i.e.

X1 + X 2 + ⋅ ⋅ ⋅ + X n
Xn =
n

La ley de los grandes números dice que, a medida que aumenta n, la probabilidad
de que la X n se aproxime a µ está cerca de 1.

Ejemplo 21. Se tira un dado cinco veces y los resultados son:

x1=3, x2=4, x3=6, x4=1, x5=4

3 + 4 + 6 +1+ 4
El valor correspondiente de la media muestral: X 5 = = 3,6
5

En un dado no trucado la media µ=3,5. La ley de los grandes números dice que, a
medida que aumenta n, hay posibilidades de que X n se aproxime a 3,5.

Teorema 12 (ley de los grandes números). ∀α (número positivo), se cumple que


lím P(µ − α ≤ X n ≤ µ + α ) → 1 .
n →∞

Bibliografía

Seymour Lipschutz, John Schiller, Introducción a la probabilidad y estadística, ed.


Mc Graw Hill, 2001.

Jay L. Devore, Probabilidad y estadística (para ingeniería y ciencias), sexta edición.


Ed. Thomson. 2005.

R. E. Walpole, R. H. Myers y S. L. Myers, Probabilidad y estadística (para


ingenieros), sexta edición, Ed. Pearson/Prentice Hall, 1998.
Estadística 1 135

Recomendaciones al estudio independiente

10. Estudiar las notas de clases del profesor.

11. Estudie los ejemplos resueltos que aparecen en el:

 S.Lipschutz Cáp. 5 (sección de problemas resueltos)

 J. L. Devore Cáp. 3 (3.1 al 3.3) y 4 (4.1 y 4.2)


12. Construya un mapa conceptual relativo a las v.a.

13. Elabore un sistema de apuntes personales que le permita


resolver problemas acerca del contenido de las v.a visto
hasta el momento.

14. Realice los ejercicios propuestos que aparecen más abajo.

15. Del Devore realice los ejercicios:

EJERCICIOS PROPUESTOS

Distribuciones discretas y continuas

1. El número total de horas, medidas en unidades de 100 horas, que una familia
utiliza una aspiradora en un período de un año es una v.a continua X que tiene la
función de densidad

 x, 0 < x <1

f ( x ) = 2 − x, 1≤ x < 2 .
 0, en cualquier otro caso

Encuentre la probabilidad de que en un período de un año, una familia utilice su


aspiradora

a. menos de 120 horas;

b. entre 50 y 100 horas.

R/ a. 0.68 b. 0.375
2. Un embarque de siete televisores contiene dos unidades defectuosas. Un hotel
hace una compra al azar de tres de los televisores. Si x es el número de unidades
defectuosas que compra el hotel, encuentre la distribución de probabilidad de X .
Exprese los resultados con el histograma de probabilidad.

R/

x 0 1 2

f (x ) 2/7 4/7 1/7

3. La distribución de probabilidad de X , el número de imperfecciones por 10


metros de una tela sintética en rollos continuos de ancho uniforme, está dada por

x 0 1 2 3 4

f (x ) 0.41 0.37 0.16 0.05 0.01

Construya la distribución acumulada de X .

R/

 0, x<0
 0.41, 0 ≤ x < 1

0.78, 1 ≤ x < 2
F (X ) = 
0.94, 2 ≤ x < 3
0.99, 3 ≤ x < 4

 1, x≥4 .

4. Una v.a continua X que puede tomar valores entre x = 1 y x = 3 tiene una
función dada por f ( x ) = 1 2 . Encuentre:

a. P(2 < X < 2.5)

b. P( X ≤ 1.6)
Estadística 1 137

R/ a. 1/4 b. 0.3

5. Considere la función de densidad

k x , 0 < x <1
f (x ) = 
 0, en cualquier otro caso

a. Evalúe k.

b. Encuentre F ( X ) y utilícela para evaluar P(0.3 < X < 0.6) .

3
R/ a. 3/2 b. F ( X ) = x 2 ; 0.3004

Distribuciones de probabilidad conjunta

6. De un costal de frutas que contiene tres naranjas, dos manzanas y tres plátanos
se selecciona una muestra aleatoria de cuatro frutas. Si X es el número de naranjas; y
Y , el de manzanas en la muestra, encuentre:

a. la distribución de probabilidad conjunta de X e Y.

b. P[( X , Y ) ∈ A] ; A es la región formada por {(x, y ) | x + y ≤ 2}.


R/

f ( x, y ) 0 1 2 3

0 3 70 9 70 3 70
y

1 2 70 18 70 18 70 2 70

2 3 70 9 70 3 70
b. 1/2

7. Sea X el tiempo de reacción, en segundos, a cierto estimulante e Y la temperatura


( F ) a la que cierta reacción comienza a suceder. Suponga que las v.a
o
X y Y tienen
densidad conjunta

4 xy, 0 < x < 1; 0 < y < 1


f ( x, y ) =  .
 0, en cualquier otro caso

Encuentre:

 1 1 1
a. P 0 ≤ X ≤ y ≤Y ≤ ;
 2 4 2

b. P( X < Y ) .

R/ a. 3/64 b. 1/2 .

8. La cantidad de queroseno, en miles de litros, que hay en un tanque al inicio de


mañana de cualquier día es una cantidad aleatoria Y de la que una cantidad aleatoria
X se vende durante el día. Si el tanque no se reabastece durante el día ( x ≤ y ) y
suponiendo que la función de densidad conjunta de las variables es

2, 0 < x < 1, 0 < y < 1,


f ( x, y ) = 
0, en cualquier otro caso

a. Determine si X e Y son independientes.

1 1 3
b. Encuentre P < X < | Y =  .
4 2 4

R/ a. Dependiente b. 1/3.

9. Sea X el número de veces que falla una máquina de control numérico: 1, 2 ó 3


veces en un día dado. Considere que Y es el número de veces que se llama a un
Estadística 1 139

técnico para una emergencia. Su distribución de probabilidad conjunta viene dada


por

f ( x, y ) x 1 2 3

1 0.05 0.05 0.1


y
2 0.05 0.1 0.35

3 0 0.2 0.1

a. Evalúe la distribución marginal de X .

b. Evalúe la distribución marginal de Y .

c. Encuentre P (Y = 3 | X = 2 ) .

R/

a.

x 1 2 3

g (x ) 0.10 0.35 0.55

b.

y 1 2 3

h( y ) 0.20 0.50 0.30

c. 0.2.
10. Un dado balanceado se lanza dos veces. Sean X y Y el número de cuatro y de
cinco que se obtienen en los dos lanzamientos, respectivamente. Halle:

a. la distribución de probabilidad conjunta de X y Y.

b. P[( X , Y ) ∈ A] ; A es la región {(x, y ) | 2 x + y < 3}.


R/

f ( x, y ) 0 1 2

0 16 36 8 36 1 36
y

1 8 36 2 36

2 1 36

b. 11/12

11. Dada la función de densidad conjunta

6-x-y, 0 < x < 2, 2 < y < 4


f ( x, y ) =  .
 0, en cualquier otro caso

Encuentre P (1 < Y < 3 | X = 2 ) .

R/ 3/4

12. Si X , Y y Z tiene la función de densidad de probabilidad conjunta

k x y 2 z , 0 < x < 1, 0 < y < 1, 0 < z < 2


f ( x, y , z ) =  .
 0, en cualquier otro caso

a. encuentre k .
Estadística 1 141

 1 1 
b. encuentre P X < , Y > , 1 < Z < 2  .
 4 2 

R/ a. 3 b. 21/512

Esperanza matemática

13. La función de densidad de las mediciones codificadas del diámetro de paso de


los hilos de un encaje es

 4
 0 < x <1
(
f (x ) = π 1 + x 2
,
) .
 0, en cualquier otro caso

Encuentre el valor esperado de X.

R/ ln 4 π .

14. Sea X una v.a con la siguiente distribución de probabilidad

x -3 6 9

f (x ) 1/6 1/2 1/3

Halle µ g ( X ) , donde g ( X ) = (2 X + 1) .
2

R/ 209.

15. Las v.a X y Y tienen la siguiente probabilidad de distribución conjunta


f ( x, y ) x : 2 4

1 0.10 0.15
y
3 0.20 0.30

5 0.10 0.15

a. Encuentre el valor esperado de g ( X , Y ) = XY 2

b. Encuentre µX y µY .

R/ a. 35.2 b. µ X = 3.20 ; c. µY = 3.00

Varianza y covarianza

16. Halle la desviación típica de la v.a g ( X ) = (2 X + 1) del ejercicio 14.


2

R/ 118.9

17. Encuentre la covarianza de las v.a X y Y del ejercicio 9.

R/ σ XY = 0.005

Medias y varianzas de combinaciones lineales de v.a

18. Una v.a X tiene una distribución de probabilidad:

x 0 1 2 3 4 5

f(x) 1/15 2/15 2/15 3/15 4/15 3/15

( ) [
Halle E ( X ) y E X 2 y luego evalúe E (2 X + 1) .
2
]
Estadística 1 143

R/ 209

[
19. Si una v.a X se define tal que E ( X − 1) = 10 y
2
] [ ]
E ( X − 2 ) = 6 . Halle µ y
2

σ2.

7 15
R/ µ= σ2 =
2 4

20. una v.a X tiene media µ = 12 , varianza σ 2 = 9 y una distribución de probabilidad


desconocida. Con el teorema de Cheybyshev, estime

a. P( X − 10 ≥ 3) ;

b. P( X − 10 < 3) ;

c. P(5 < X < 15) ;

d. el valor de la constante c tal que P( X − 10 ≥ c ) ≤ 0.04 .

R/ a. A lo más 4/9 c. Al menos 21/25

b. Al menos 5/9 d. 10

21. Considere que las v.a X y Y representan el número que ocurre cuando se lanza un
dado rojo y uno verde, respectivamente. Encuentre:

a. E(X + Y ) ;

b. E(X − Y );

c. E(X Y ).

R/ a. 7; b. 0; c. 12.25.

22. Si la función de densidad conjunta de X y Y está dada por


2
 ( x + 2 y ), 0 < x < 1, 1 < y < 2
f ( x, y ) =  7 .
 0, en cualquier otro caso

g(X , Y ) =
X
Encuentre el valor esperado de + X 2Y .
Y3

R/ 1.

8. DISTRIBUCIONES DE PROBABILIDAD DISCRETA

La distribución de probabilidad discreta describe el comportamiento de una v.a sin


importar la forma en que se presente la misma, i.e. tabular, histograma o fórmula.
En la práctica ocurre que diferentes experimentos estadísticos tienen el mismo
comportamiento. De ser así, las v.a discretas asociadas a estos experimentos
tendrían la misma función de distribución de probabilidad y por ende la misma
fórmula. Por tanto, sería consecuente estudiarlas y obtener sus propiedades
generales. Este escenario permite la disposición de un conjunto de funciones de
distribución de probabilidad que podríamos utilizar sin necesidad de aplicar los
procedimientos que hemos visto antes –identificamos la situación del experimento
estadístico y usamos la función de distribución con propiedades ya conocidas.
Estadística 1 145

DISTRIBUCIÓN UNIFORME DISCRETA

Proposición 1. Si la v.a X toma los valores x1 , x2 , ..., xk , con probabilidades


idénticas, entonces la distribución uniforme discreta está dada por

f ( x; k ) =
1
, x = x1 , x2 , ..., xk .
k

Teorema 1. La media y la varianza de la distribución uniforme discreta f ( x; k ) son


respectivamente
k k

∑x ∑ (x − µ)
2
i i
µ= i =1
y σ2 = i =1
.
k k

Demuéstrelo.

Ejemplo 1. En el lanzamiento de un dado no trucado, determine:

a. la función de distribución de probabilidad que caracteriza la ocurrencia de


una cara cualquiera.

b. La media y la varianza.

Solución. Cada elemento del espacio muestral S = {1, 2, 3, 4, 5, 6} tiene una


probabilidad de ocurrencia de 1/6. Por tanto, se puede emplear la distribución
uniforme discreta.

a.

f ( x;6 ) = ,
1
x = 1, 2, 3, 4, 5, 6 .
6

b.

1+ 2 + 3 + 4 + 5 + 6
µ= = 3 .5
6

σ2 =
(1 − 3.5)2 + (2 − 3.5)2 + (3 − 3.5)2 + (4 − 3.5)2 + (5 − 3.5)2 + (6 − 3.5)2 =
35
.
6 12
EXPERIMENTOS DE BERNOULLI. DISTRIBUCIÓN BINOMIAL

Definición 1. Los resultados sucesivos e independientes de una experiencia


dicotómica se llaman experimentos o pruebas de Bernoulli.

Propiedades del proceso de Bernoulli:

 Experimento con n pruebas que se repiten.

 Cada resultado de la prueba se puede clasificar como éxito o fracaso.


 La probabilidad del éxito en un experimento de Bernoulli se denota por p y
permanece constante en cada prueba.

 Las pruebas que se repiten son independientes.

Proposición 2. Un experimento de Bernoulli puede tener como resultado un éxito


con probabilidad p y un fracaso con probabilidad q = 1 − p . Entonces la distribución

de probabilidad de la v.a binomial X , el número de éxitos de n pruebas


independientes es

n
b( x; n, p ) =   p x q n − x x = 0, 1, 2, ... , n .
 x

Teorema 2. La probabilidad de que salga exactamente x éxitos en un


experimento binomial b( x; n, p ) viene dada por:

n
P ( x ) = P( x éxitos ) =   p x q n − x
 x

Observaciones:

1. La probabilidad de que salga uno o más éxitos es 1 − q n .

2. La probabilidad de obtener al menos x éxitos viene dado por:


P( x ) + P( x + 1) + P(x + 2) + ...P(n ) .
Estadística 1 147

Ejemplo 2. Se tira una moneda 6 veces. Hallar:

a. La probabilidad de que salgan exactamente dos caras.

b. La probabilidad de que al menos salgan cuatro caras.

c. La probabilidad de que no salga cara.

d. La probabilidad de que salgan una o más caras.

Experimento binomial. Sea cara: éxito. n = 6 y p = q = 1/2


2 4
 6  1   1 
P(2) =      =
15
a. ≈ 0,23
 2  2   2  64

4 2 5 6
 6  1   1   6  1   1   6  1  11
b. P(4) + P(5) + P(6) =      +      +    = ≈ 0.34
 4  2   2   5  2   2   6  2  34

6
1 1
c. q6 =   =
2 64

1 63
d. 1 − qn = 1 − = ≈ 0.98
64 64

Distribución binomial en forma tabular

x 0 1 2 … n

P(x) qn  n  n −1  n  n−2 2 … pn
 q p  q p
1  2

Teorema 3. Sea b( x; n, p ) una distribución binomial22. Entonces, la:

22
Son sus propiedades
 Media o número esperados de éxitos es µ = np .

 Varianza es σ 2 = npq .

 Desviación típica es σ = npq .

Observaciones

1. La distribución de Bernoulli suele usarse en


modelos físicos 0-1, i.e, fracaso- éxito, fallo-
funcionamiento.

2. La distribución Binomial suele usarse en control de


la calidad en diagramas de control por atributos y
muestreo por reemplazo. Es el modelo
probabilístico conveniente para muestrear una
población infinitamente grande, en el que p
representa la fracción de éxitos o fracasos en la
población.

DISTRIBUCIÓN MULTINOMIAL

Generalización de la distribución binomial: el experimento binomial se convierte en


multinomial si cada prueba tiene más de dos resultados posibles.

Proposición 3. Si una prueba puede conducir a los resultados E1 , E 2 , ..., E k con

probabilidades p1 , p 2 , ..., p k , entonces la distribución de probabilidad de las v.a

X 1 , X 2 , ..., X k , que representan el número de ocurrencias para E1 , E 2 , ..., E k en n


pruebas independientes es

 n  x1 x2
f ( x1 , x2 , ..., xk ; p1 , p2 , ..., pk , n ) = 
n!
 p1 p2 ⋅ ⋅ ⋅ pkxk = p1x1 p2x2 ⋅ ⋅ ⋅ pkxk
 x1 , x2 ,⋅ ⋅ ⋅xk  x1! x2 !⋅ ⋅ ⋅xk !
Estadística 1 149

k k
donde ∑ xi = n
i =1
y ∑p
i =1
i = 1.

Ejemplo 3. Se tira un dado ocho veces. Hallar la probabilidad de


obtener 5 y 6 exactamente dos veces y los otros números exactamente una vez.

Solución.
2 2
 1 1 1 1 1 1  8!  1   1   1  1  1  1  35
p = f  2, 2, 1, 1, 1, 1; , , , , , , 8  =          = ≈ 0,006
 6 6 6 6 6 6  2!⋅2!⋅1!⋅1!⋅1!⋅1!  6   6   6  6  6  6  5832

DISTRIBUCIÓN HIPERGEOMÉTRICA

Si bien la distribución binomial es el modelo de la probabilidad aproximado para el


muestreo con reemplazo a partir de una población dicótoma finita, la distribución
hipergeométrica es el modelo de probabilidad exacto para el número de éxitos en
la muestra.

En los tipos de aplicaciones, la distribución hipergeométrica es muy similar a la


distribución binomial. Estamos interesados en el cálculo de probabilidades para
el número de observaciones que caen en una categoría. En el caso de la binomial se
requiere independencia entre las pruebas –el muestreo se debe hacer con
reemplazo-. La distribución hipergeométrica no requiere independencia -el
muestreo que se hace sin reemplazo.

Las aplicaciones de la distribución hipergeométrica se encuentran en muestreo de


aceptación, pruebas electrónicas y garantía de calidad. En estos casos se destruye
el artículo de prueba; por eso se utiliza el muestreo sin reemplazo.

Condiciones del experimento hipergeométrico:

1. La población por muestrear tiene N individuos (población finita).


2. Cada individuo se caracteriza como un éxito ( S ) o fracaso ( F ), y hay M
éxitos en la población.

3. Se elige una muestra de n individuos sin reemplazo, de manera que cada


subconjunto de tamaño n tenga las mismas probabilidades de ser elegido.

La v.a. X = número de éxitos en la muestra. La distribución de probabilidad


P( X = x ) = h(x; n, M , N ) .

Proposición 4. Si X es el número de éxitos ( S ) en una muestra completamente


aleatoria de tamaño n extraídos de una población que consiste de M éxitos y ( N − M )
fracasos, entonces la distribución de probabilidad de X , denominada distribución
hipergeométrica, está dada por

 M  N − M 
  
 x  n − x 
P ( X = x ) = h(x; n, M , N ) = ; x = 0, 1, 2, ... , n , (1)
N
 
n

para un entero x que satisface máx(0, n − N + M ) ≤ x ≤ mín(n, M ) .

Teorema 4. Sea X la v.a. hipergeométrica con función de distribución h , entonces, la


media y la varianza vienen dadas por:

M  N −n M  M
µ = n⋅ y σ2 =  ⋅ n ⋅ ⋅ 1 −  .
N  N −1  N  N

Como M N es la proporción de éxitos en la población, entonces:

µ = n⋅ p ,
(2)
 N −n
σ =  ⋅ n ⋅ p ⋅ (1 − p ) .
2

 N −1 
Estadística 1 151

En la expresión anterior se observa que las medias de las v.a. binomial e


hipergeométrica coinciden; la varianza, no. A (N − n ) (N − 1) se le denomina factor de
corrección de población finita.

h( x; n, M , N ) y B(n, p ) son aproximadamente iguales siempre que p no esté demasiado


cerca de 0 ó 1. Dicho de otra forma, n << N .

Ejemplo 4. Varias cajas de 40 artículos cada una se consideran


aceptables si no contienen más de tres defectuosos. Para muestrear la caja se toma
cinco artículos al azar y se rechaza la caja si se encuentra un artículo defectuoso

a. ¿Cuál es la probabilidad de que se encuentre exactamente un


defectuoso en la muestra si hay tres defectuosos en toda la caja?

b. Encuentre la media y la varianza de la v.a.

c. Emplee el teorema de Chebyshev para interpretar el


intervalo µ ± 2σ .

Solución.

a. La distribución hipergeométrica con n = 5 , N = 40 , M = 3 y x = 1 permite


encontrar la probabilidad de un objeto defectuoso:

 3  40 − 3 
  
 1  5 − 1 
P ( X = 1) = h(1; 5, 3, 40 ) = = 0.3011
 40 
 
5

b. Según el teorema 4, tenemos:

5⋅3 40 − 5 3  3 
µ= = 0.375 y σ2 = 5 1 −  = 0.3113 .
40 39 40  40 

c. σ = 0.558 . Luego µ ± 2σ = 0.375 ± 2 ⋅ 0.3113 ⇒ [− 0.741, 1.491] . El


teorema de Chebyshev establece que el número de artículos defectuosos que se
obtienen al seleccionar cinco de una caja de 40 artículos de los que tres son
defectuosos tiene una probabilidad al menos de 3/4 de caer en el intervalo citado.
DISTRIBUCIÓN BINOMIAL NEGATIVA Y GEOMÉTRICA

La v.a. binomial X es el número de éxitos cuando se fija el número de ensayos, en


tanto que la distribución binomial negativa surge de fijar el número deseado de
éxitos y permitir que sea aleatorio el número de ensayos.

Condiciones del experimento binomial negativo:

1. Secuencia de ensayos independientes.

2. Cada ensayo produce ya sea un éxito ( S ) o un fracaso ( F ).

3. La probabilidad de éxito es constante de un ensayo a otro; i.e., .,

P(S en el ensayo i ) = p ; i = 1, 2, 3,...

4. El experimento continúa hasta que se observa un total de r éxitos; r es un


entero positivo especificado.

La v.a. X = número de fracasos que preceden al r -ésimo éxito. X es la v.a.


binomial negativa porque en contraste con la v.a. binomial, el número de
éxitos es fijo y el número de ensayos es aleatorio.

Proposición 5. Si X es la v.a. binomial negativa con r = número de éxitos (S) y


p = P(S ) , entonces, la función de distribución es

 x − 1 r
nb( x; r , p ) =   p (1 − p ) ;
x−r
x = k , k + 1, k + 2,... (3)
 r − 1

Teorema 5. Sea X la v.a. binomial negativa con función de distribución nb , entonces,


la media y la varianza vienen dadas por:

r (1 − p ) r (1 − p )
µ= y σ2 =
p p2
Estadística 1 153

Ejemplo 5. Se lanzan tres monedas. Halle:

a. la probabilidad de obtener sólo caras o sólo cruces por segunda vez en el


quinto lanzamiento.

b. la media y la varianza de la v.a.

Solución.

a. La distribución binomial negativa con x = 5 , r = 2 y p = 1 4 permite encontrar la


probabilidad de obtener sólo caras o sólo cruces por segunda vez en el quinto lanzamiento:

1   5 + 2 − 1 1   1 
2 3
 27
nb 5; 2,  =    1 −  = .
 4   2 − 1  4   4  256

 1  1
2 1 −  2 1 − 
µ= 
4
σ 2 =  2  = 24
4
b. =6 y
1 1
4  
4

Si en la distribución binomial negativa r = 1 , tenemos la distribución de probabilidad del


número de pruebas que se requieren para un solo éxito.

Con r = 1 , los términos sucesivos de la distribución binomial negativa forman una


progresión geométrica y por eso a esta nueva distribución se le llama distribución
geométrica y se denota por g ( x; p ) .

Proposición 6. Si la repetición de pruebas independientes puede tener como


resultado un éxito con probabilidad p y un fracaso con probabilidad q = 1 − p ,

entonces la distribución de probabilidad de la v.a X , el número de la prueba en el que


ocurre el primer éxito, es

g ( x; p ) = pq x −1 , x = 1,2,3,...
Teorema 6. Sea X la v.a. geométrica con función de distribución g ( x; p ) , entonces, la
media y la varianza vienen dadas por:

µ=
1
y σ2 =
(1 − p ) .
p p2

DISTRIBUCIÓN DE POISSON

Los experimentos que proporcionan valores numéricos de una v.a X , el número


que ocurre en un intervalo o región dada, se denominan experimentos de
Poisson.

Proceso de Poisson. Para tipo de eventos particulares con el tiempo. Ejemplo, los
relacionados con los impulsos. También se emplean en los fenómenos por unidad
de área, volumen, de tiempo, etc.

Propiedades de un proceso de Poisson

1. El número de resultados que ocurre en diferentes intervalos o regiones


espaciales son independientes entre si –proceso sin memoria.

2. La probabilidad de que ocurra un solo resultado durante un intervalo muy


corto o una pequeña región espacial es proporcional a la longitud del
intervalo o al tamaño de la región y es independiente de los resultados que
ocurren fuera de estos.

3. La probabilidad de ocurrencia de más de un resultado en un intervalo o


región pequeña es insignificante.

El número de resultados que ocurren durante un experimento de Poisson se llama


v.a de Poisson y su distribución de probabilidad se denomina distribución de
Poisson.

La v.a X tiene una distribución de Poisson con parámetro λ > 0 si la fmp de X


viene dada por
Estadística 1 155

p (x; λt ) = f ( x; λt ) =
(λt )x e − λt
, x = 0,1,2,...
x!

donde λ es el número promedio de resultados por unidad de tiempo o región y t es el


tiempo o región específica de interés.

Teorema 7. Sea p( x; λt ) una distribución de Poisson23. Entonces, la:

 Media o número esperados es µ = λt .

 Varianza es σ 2 = λt .

 Desviación típica es σ = λt .

Compruébelo.

No hay experimentos sencillos en los que se base la distribución de Poisson.

Teorema 8. Sea X una v.a binomial con fmp b( x; n, p ) . Si n → ∞ , p → 0 y


np → λ > 0 . Entonces, b( x; n, p ) → p( x; λt ) .

Demostración.

 n
b( x; n, p ) =   p x q n − x =
n!
p xqn− x
 x x!(n − x )!

n(n − 1) ⋅ ⋅ ⋅ (n − x + 1) x n(n − 1) ⋅ ⋅ ⋅ (n − x + 1)  µ   µ 
x n− x

p (1 − p ) =
n− x
=   1 − 
x! x! n  n

−x
 1   x −1 µ  µ   µ 
x n

= 11 −  ⋅ ⋅ ⋅ 1 −  1 −  1 −  .
 n  n  x!  n  n

Si n → ∞ mientras x y µ permanecen constantes, aplicamos límite a ambos lados y


obtenemos:

23
Son sus propiedades
−n µ −µ
µx  µ
n
µx  1   µx  
lím b( x; n, p ) = lím 1 −  = lím  1 +  = e − µ = p x; λ
{t  .
n →∞ x! n → ∞ n x! n → ∞  (− n ) µ   x!  µ
 

Por tanto, b( x; n, p ) → p( x; λt ) ;

l.q.q.d

Cuando en la distribución de Bernoulli la probabilidad de éxito es muy pequeña con


respecto a np, y nq muy pequeño con respecto a n, el cálculo resulta muy laborioso
y suele usarse la distribución de Poisson que se aproxima a la Binomial.

Ejemplo 6. Las 220 erratas de un libro de 200 páginas están


distribuidas aleatoriamente por el mismo. Hallar la probabilidad de que una página
cualquiera contenga:

a. Ninguna errata

b. Una errata

c. Dos erratas

d. 2 o más erratas

Solución.

Éxitos: número de erratas en experimentos de Bernoulli: : n = 220 .

1
Probabilidad de que salga una errata en una pág. Dada: p= .
200

Como p es pequeña, usamos la aproximación de Poisson a la distribución binomial con


λt = np = 1.1 :

P ( X = x ) = p ( x; λt ) =
(λt )x e−λt
x!

a. P (0 ) = p(0;1.1) =
(1.1)0 e−1.1 = 0.333
0!
Estadística 1 157

b. P (1) = p (1;1.1) =
(1.1) e −1.1
1
= 0.366
1!

c. P (2 ) = p (2;1.1) =
(1.1) e −1.1
2
= 0.201
2!

d. P( X ≥ 2) = 1 − P(0) − P(1) = 1 − 0.333 − 0.366 = 0.301

Bibliografía

Seymour Lipschutz, John Schiller, Introducción a la probabilidad y estadística, ed.


Mc Graw Hill, 2001.

Jay L. Devore, Probabilidad y estadística (para ingeniería y ciencias), sexta edición.


Ed. Thomson. 2005.

R. E. Walpole, R. H. Myers y S. L. Myers, Probabilidad y estadística (para


ingenieros), sexta edición, Ed. Pearson/Prentice Hall, 1998.

Recomendaciones al estudio independiente

16. Estudiar las notas de clases del profesor.

17. Estudie los ejemplos resueltos que aparecen en el:

 S.Lipschutz Cáp. 5 (sección de problemas resueltos)


 J. L. Devore Cáp. 3 (3.1 al 3.3) y 4 (4.1 y 4.2)

18. Construya un mapa conceptual relativo a las v.a.

19. Elabore un sistema de apuntes personales que le permita resolver problemas


acerca del contenido de las v.a visto hasta el momento.

20. Realice los ejercicios propuestos que aparecen más abajo.

21. Del Devore realice los ejercicios:

EJERCICIOS PROPUESTOS

1. Se lanza un dado de forma aleatoria.


a. Elabora el modelo de distribución para la variable aleatoria X ‘número
obtenido’

b. ¿Cuál es la probabilidad de obtener un número mayor de 4?

c. Calcula el valor esperado y la varianza de esta variable aleatoria.

d. ¿Qué probabilidad hay de que se obtenga un número entre 2 y 4, ambos


inclusive?

R/

a.

X ≡ Uniforme de seis puntos (especifique la v.a, la fmp y la función de distribución


acumulada)

b. 1/2

21 35
c. µX = , σ X2 =
6 12

d. 1/2

2. Un cierto lote de 26 componentes mecánicos contiene seis defectuosos. Se


extrae un elemento del lote al azar.

a. Elabora el modelo de distribución para la variable aleatoria X ‘elemento


defectuoso’

b. ¿Cuál es la probabilidad de que el componente extraído del lote sea no


defectuoso?

c. Calcula la esperanza y la desviación típica de esta variable aleatoria

R/

a. Bernouilli (especifique la v.a, la fmp y la función de distribución acumulada)

10
b.
13
3 30
c. µX = , σX =
13 13
Estadística 1 159

3. Un individuo responde a cuatro preguntas verdadero falso al azar.

a. Elabora el modelo de distribución para la variable aleatoria X ‘número de


aciertos’

b. ¿Cuál es la probabilidad de que acierte al menos 3 preguntas?

c. Calcula el valor esperado y la varianza de esta variable aleatoria.

d. ¿Cuál es la probabilidad de que como máximo se acierten dos preguntas.

e. ¿Qué probabilidad hay de que acierte entre 1 y 3 preguntas, ambas


inclusive?

f. ¿Cuál es la probabilidad de que acierte dos preguntas o más?

R/

a. Binomial (especifique la v.a, la fmp y la función de distribución acumulada)

b. probabilidad de que acierte al menos 3 preguntas

0.3125

c. µ X = 2 , σ X2 = 1

d. 0.6875

e. 0.875

f. 0.6875

4.

1) A un comercio llegan en promedio 13 clientes por hora con una distribución


de Poisson. El dueño debe salir durante 17 minutos a hacer un recado.

a. Elabora el modelo de distribución para la variable aleatoria X ‘número


de clientes perdidos’

b. Calcula el número esperado de clientes perdidos y la desviación típica


de esta variable aleatoria.

c. ¿Cuál es la probabilidad de que no pierda ningún cliente?


d. Encuentra la probabilidad de que pierda 3 clientes

e. Calcula la probabilidad de que pierda 3 o más clientes.

2) Un individuo responde a 60 preguntas con 11 opciones en las que sólo una


es verdadera al azar.

a. Elabora el modelo de distribución para la variable aleatoria X ‘número


de aciertos’

b. Calcula la probabilidad de que acierte al menos 3 preguntas

c. Calcula el valor esperado y la varianza de esta variable aleatoria.

R/

1)

a. Poisson (especifique la v.a, la fmp y la función de distribución acumulada)

b. µ X = 3.68 , σ X = 1.92

c. 0.025

d. 0.21

e. 0.714

2)

a. Binomial (especifique la v.a, la fmp y la función de distribución acumulada)


pero se puede usar Poisson.

b. 0.9

c. µ X = 5.45 , σ X = 2.23 (Bernouilli) σ X = 2.34 (Poisson)

5. Se lanza al aire una moneda trucada 8 veces, de tal manera que la probabilidad
de que aparezca cara es de 2/3, mientras que la probabilidad de que aparezca cruz
es de 1/3.

a. Elabora el modelo de distribución para la variable aleatoria X ‘número


de lanzamiento en el que aparece la primera cruz’
Estadística 1 161

b. Calcula la media y la varianza de esta variable aleatoria

c. ¿Cuál es la probabilidad de que la primera cruz aparezca entre el


tercer y sexto intento, ambos inclusive?

d. Determine la probabilidad de que en el último lanzamiento aparezca


una cruz, y la probabilidad de que no aparezca en ninguno de los
ocho intentos.

e. Determina la probabilidad de que en el tercer lanzamiento aparezca


la primera cara.

R/

a. Geométrica (especifique la v.a, la fmp y la función de distribución


acumulada)

b. µX = 3 , σ X2 = 6

c. 0.36

d. La probabilidad de que la primera cruz salga en el octavo intento será: 0.02.

La probabilidad de que la primera cruz no aparezca en las primeras ocho tiradas


será: 0.04

e. probabilidad de que en el tercer lanzamiento aparezca la primera


cara

En este caso la variable aleatoria ha cambiado ya que consideramos el como éxito


sacar cara, por tanto la variable aleatoria será el número de repeticiones del
experimento necesarias para que salga la primera y única cara. Sea Y la nueva
variable aleatoria.

p = probabilidad de que aparezca una cara = p( éxito) = 2/3

q = probabilidad de que aparezca un cruz = p(fracaso) = 1/3

Y ≡ G ( 2 / 3)

Soporte DY = {1, 2...}

pY ( y ) = P (Y = y ) = (1/ 3) ( 2 / 3) , y ∈ DY = {1, 2...}


y −1
Función de masa
0 si y < 1
Función de distribución FY ( y ) = P (Y ≤ y ) = 
1 − (1/ 3 ) si y ≥ 1
y

Entonces la probabilidad buscada sería;

3 −1
1  2
P (Y = 3) = pY (3) =     = 0.07
3  3

6. Disponemos de una moneda trucada con probabilidad de cara igual a p=0.25. La


lanzamos hasta que obtenemos 2 caras.

a. Elabora el modelo de distribución para la variable aleatoria X ‘número de


lanzamiento fallidos hasta obtener dos caras’

b. Calcula el número de fallos esperados hasta obtener el segundo éxito y la


desviación típica de la distribución de la variable aleatoria.

c. Describe la distribución del número de lanzamientos necesarios hasta


obtener dos caras.

d. Calcula el número esperado de lanzamientos hasta obtener el segundo éxito


y la desviación típica de la distribución de la variable aleatoria

e. Calcula la probabilidad de obtener dos caras antes del cuarto intento

f. Calcula la probabilidad de obtener dos caras entre el tercer y sexto intento.

R/

a. binomial negativa (especifique la v.a, la fmp y la función de distribución


acumulada)

b. µX = 6 , σX = 2 6

c.

En este caso la variable aleatoria será una Pascal, que en el mismo experimento que
la anterior lo que mide son el número de lanzamientos hasta el segundo éxito.

 i

Y : Ω = {0,1} → {0,1, 2,K , 60} ⊆ , ω → Y (ω = (ω1 , ω2 ,K) ) = min i,


∑ω
k =i
k = 2

Estadística 1 163

Soporte DY = {2,3, 4...}

 y − 1  2 y −2
Función de masa pY ( y ) = P (Y = y ) =   p q , y ∈ DX = {2,3, 4,...}
 y − 2

y
 k − 1  2 y−2
Función de distribución FY ( y ) = P (Y ≤ y ) = ∑  p q ,y≥2
k =0  k − 2 

d. Calcula el número esperado de lanzamientos hasta obtener el


segundo éxito y la desviación típica de la distribución de la variable
aleatoria

El número esperado de lanzamientos no es más que la media de la distribución de esta

variable aleatoria. Como sabemos que si X ≡ BN ( n, p ) entonces

Y = X + n ≡ Pascal ( n, p ) , tenemos que:

n·q 2·3 / 4
µY = E [Y ] = E [ X + n ] = E [ X ] + n = +n = + 2 = 6 + 2 = 8 será el número
p 1/ 4
esperado de lanzamientos que tendremos que realizar hasta obtener dos caras.

Para calcular la desviación típica, primero calculamos la varianza de Y a partir de la ya


calculada utilizando las propiedades de la varianza y luego calculamos su raíz:

n·q 2·3 / 4/
σ Y2 = V [Y ] = V [ X + n ] = V [ X ] = = = 24 ⇒ σ Y = 2 6
p 2 1/ 4 2/

e. Calcula la probabilidad de obtener dos caras antes del cuarto


intento

Para calcular esta probabilidad podemos utilizar cualquiera de las dos variables
aleatorias.

Considerando X , hemos de calcular la probabilidad de que el número de fracasos sea


≤ 2 , es decir:
 2 + 0 − 1 2 0  2 + 1 − 1  2 1  2 + 2 − 1 2 2
P ( X ≤ 2 ) = p X ( 0 ) + p X (1) + p X ( 2 ) =   p q +  p q + p q =
 0   1   2 
2 2 2 2
1 1   2 1   3   3 1   3 
=    +      +      =
0 4   1 4   4   2 4   4 
1 3 9 16 + 24 + 27 67
= + 2· + 3 = = 0.26
16 64 256 256 256
Considerando Y , hemos de calcular la probabilidad de que el número de intentos sea ≤ 4 ,
es decir:

 2 − 1  2 2 − 2  3 − 1  2 3− 2  4 − 1  2 4 − 2
P ( Y ≤ 4 ) = pY ( 2 ) + pY ( 3) + pY ( 4 ) =   p q + 3 − 2 p q +  4 − 2 p q =
 2 − 2    
2 2 2 2
1 1   2 1   3   3 1   3 
=    +      +      =
0 4  1 4   4  2 4   4 
1 3 9 16 + 24 + 27 67
= + 2· + 3 = = 0.26
16 64 256 256 256

f. Calcula la probabilidad de obtener dos caras entre el tercer y sexto


intento.

Para calcular esta probabilidad podemos utilizar cualquiera de las dos variables
aleatorias.

Considerando X , hemos de calcular la probabilidad de que el número de fracasos


esté entre 1 y 4, es decir:

P (1 ≤ X ≤ 4 ) = p X (1) + p X ( 2 ) + p X ( 3) + p X ( 4 ) =
 2 + 1 − 1 2 1  2 + 2 − 1 2 2  2 + 3 − 1 2 3  2 + 4 − 1  2 4
=  p q +  p q +  p q + p q +=
 1   2   3   4 
2 2 2 2 3 2 4
 2 1   3   3 1   3   4 1   3  5 1   3 
=      +      +      +      =
 1 4   4   2 4   4   3 4   4   4 4   4 
3 32 33 34 6·43 + 27·42 + 27·42 + 5·81 1653
= 2· 3 + 3 4 + 4· 5 + 5· 6 = = 0.40
4 4 4 4 46 4096
Estadística 1 165

Considerando Y , hemos de calcular la probabilidad de que el número de intentos esté


entre 3 y 6, es decir:

P ( 3 ≤ Y ≤ 6 ) = pY ( 3) + pY ( 4 ) + pY ( 5 ) + pY ( 6 ) =
 3 − 1  2 3− 2  4 − 1  2 4 − 2  5 − 1  2 5 − 2  6 − 1  2 6 − 2
=  p q +  4 − 2 p q + 5 − 2 p q +  6 − 2 p q =
3− 2      
2 2 2 2 3 2 4
 2 1   3   3 1   3   4 1   3   5 1   3 
=      +      +      +      =
1 4   4   2 4   4   3 4   4   4 4   4 
3 32 33 34 6·43 + 27·4 2 + 27·4 2 + 5·81 1653
= 2· 3 + 3 4 + 4· 5 + 5· 6 = = 0.40
4 4 4 4 46 4096
9. DISTRIBUCIONES DE PROBABILIDAD CONTINUA

DISTRIBUCIÓN UNIFORME CONTINUA

Definición 1. La función de densidad de la v.a uniforme continua X en el intervalo


[A, B] es

 1
 A≤ x≤ B
f ( x; A, B ) =  B − A
,
.
 0, en cualquier otro caso

Teorema 1. La media y la varianza de la distribución uniforme son

µ=
A+ B
y σ 2
=
( B − A)
2
.
2 12

Demuéstrelo.

DISTRIBUCIÓN NORMAL

La distribución normal es la más importante en toda la probabilidad y la estadística.

Definición 2. La v.a X tiene una distribución normal, si su función de


densidad viene dada por:

1  x−µ 
2
−  
f ( x; µ , σ ) =
1 2 σ 
e , −∞ < x < ∞ .
2π σ

La distribución normal se representa por: ( )


N µ ,σ 2 o N x; µ , σ 2 ( ) o N ( x; µ , σ )
Estadística 1 167

Teorema 2. Sea N (µ, σ2) una distribución normal24. Entonces, la:

 Media o número esperados de éxitos es µ .

 Varianza es σ 2 .

 Desviación típica es σ .

Distribución normal tipificada

X −µ
X sea cualquier N (µ, σ2). La v.a tipificada es Z = .
σ

Z es una distribución normal, con N (0, 1) tenemos:

z2
1 −2
φ (z ) = e

Evaluación de las probabilidades de la normal

Sabemos que:
b
P(a ≤ X ≤ b ) = ∫ f ( x )dx,
a

Si X es una distribución normal podemos calcular el valor de la integral sin realizar


el cálculo.

Evaluación de las probabilidades tipificadas

Se usan tablas25 (Apéndice del Lipschutz)

Ejemplo 1. Hallar:

a. φ (1,26 ) . Valor 0,3962

b. φ (0,34) . Valor 0,1331

24
Son sus propiedades
25
El procedimiento depende del formato de la tabla. En el Devore se hace algo diferente pero la esencia de
búsqueda obedece al conocimiento de propiedades.
c. φ (4,2) . ∀z ≥ 3,99 el valor es 0,5000

Con tabla y propiedades de simetría de la curva se puede hallar P ( z1 ≤ Z ≤ z2 )


como sigue:

Φ ( z2 ) + Φ ( z1 ) es z1 ≤ 0 ≤ z2

P( z1 ≤ Z ≤ z2 ) =  Φ ( z2 ) − Φ ( z1 ) es 0 ≤ z1 ≤ z2
Φ (z ) − Φ ( z ) es z ≤ z ≤ 0
 1 2 1 2

como el área bajo la curva es 1, es posible hallar:

 0,5000 + Φ( z1 ) es 0 ≤ z1
P(Z ≤ z1 ) = 
0,5000 − Φ( z1 ) es z1 ≤ 0
 0,5000 − Φ( z1 ) es 0 ≤ z1
P(Z ≥ z1 ) = 
0,5000 + Φ ( z1 ) es z1 ≤ 0

Ejemplo 2. Hallar:

a. P(− 0,5 ≤ Z ≤ 1,1)


Estadística 1 169

b. P(0,2 ≤ Z ≤ 1,4)

c. P(− 1,5 ≤ Z ≤ −0,7 )

d. P(Z ≥ 1,6)

a. P(− 0,5 ≤ Z ≤ 1,1) = Φ(1,1) + Φ(0,5) = 0,3643 + 0,1915 = 0,5558

b. P(0,2 ≤ Z ≤ 1,4) = Φ(1,4) − Φ(0,2) = 0,4192 − 0,0793 = 0,3399

c. P(− 1,5 ≤ Z ≤ −0,7 ) = Φ(1,5) − Φ(0,7 ) = 0,4332 − 0,2580 = 0,1752

d. P(Z ≥ 1,6) = 0,5 − Φ(1,6) = 0,5000 − 0,4452 = 0,0548

Evaluación de las probabilidades normales arbitrarias

Para evaluar P (a ≤ X ≤ b ) cambiamos a y b a unidades tipificadas:

a−µ b−µ
z1 = y z2 = . Entonces, P(a ≤ X ≤ b ) = P( z1 ≤ Z ≤ z2 ) que es la curva
σ σ
normal tipificada.

Ejemplo 3. Sea N (70, 4). Hallar:

a. P(68 ≤ X ≤ 74)

b. P(72 ≤ X ≤ 75)

c. P(63 ≤ X ≤ 68)

d. P( X ≥ 73)

68 − 70 74 − 70
z1 = = −1 , z 2 = =2
2 2
P(68 ≤ X ≤ 74) = P(− 1 ≤ Z ≤ 2) = Φ(2) + Φ(1) = 0,4772 + 0,3413 = 0,8184

y así procedemos con todos.

Aproximación normal a la distribución binomial

Cuando n aumenta la distribución binomial


resulta más difícil de calcular. Se puede
hacer una aproximación al caso normal.

Propiedad básica del histograma de


probabilidad de la distribución
binomial:

Para np ≥ 5 y nq ≥ 5 , el histograma de
B(n, p) es casi simétrico respecto a µ = np
sobre el [µ − 3σ , µ + 3σ ] , donde

σ = npq y fuera del intervalo P(k ) ≅ 0 .

Aproximación normal. Teorema Central del Límite

Para cualquier valor entero de k entre µ − 3σ y µ + 3σ , el área bajo la curva


normal entre k - 0,5 y k + 0,5 es igual a P (k), el área del rectángulo en k.

La probabilidad de la binomial P (k) para B(n, p) se puede aproximar por la


probabilidad de la normal P (k − 0,5 ≤ X ≤ k + 0,5) para N (np, npq) dados np ≥ 5 y
nq ≥ 5 .

Teorema 3. (Central del Límite) Sean X1, X2, X3,… una sucesión de v.a
independientes e idénticamente distribuidas, con media µ y varianza σ2. Sea
Xn − µ
Zn = . Entonces, para n grande y ∀ {a ≤ x ≤ b} ,
σ n
P(a ≤ Z n ≤ b ) ≈ P(a ≤ φ ≤ b )

siendo Φ la distribución normal tipificada.


Estadística 1 171

DISTRIBUCIÓN GAMMA. FAMILIAS

Cualquier función de distribución normal tiene forma de campana. Por tanto, es


simétrica. No obstante, la simetría no está presente en todos los casos, i.e., la
distribución está sesgada. Antes de utilizar una distribución que nos dé la posibilidad
de trabajar la asimetría necesitamos definir la función Gamma. Luego, presentamos
la distribución gamma, adecuada para modelizar el comportamiento de variables
aleatorias continuas con asimetría positiva.

Definición 3. La función Gamma Γ(α ) , ∀α > 0 , se define por


Γ(α ) = ∫ xα −1e − x dx . (4)
0

Propiedades:

1. ∀α > 1 , Γ(α ) = (α − 1) ⋅ Γ(α − 1) -se demuestra integrando por partes. Esto


permite obtener una fórmula recurrente.

2. ∀α = n entero positivo, Γ(n ) = (n − 1)! .

1
3. Γ  = π .
2

Compruébelo.

De la definición de función gamma, si:

 x α −1 e − x
 x≥0
Γ (α )
f (x ; α ) =  , (5)

 0 x<0


entonces f ( x; α ) ≥ 0 y ∫ f (x; α ) dx = 1 .
0
Por tanto, f ( x; α ) cumple con las

propiedades de una fdp.


Familia de distribuciones gamma

Definición 4. La v.a. continua X tiene una distribución Gamma si la fdp de X


es

 1 α −1

x
β
 α x e x≥0
f ( x ; α , β ) =  β Γ (α )

, (6)

 0 x<0

α > 0, β > 0 . La distribución Gamma estándar tiene β = 1 (vea la expresión


anterior).

Densidad Gamma

Densidad Gamma estándar


Teorema 4. Si la v.a. X tiene distribución gamma f ( x; α , β ) , entonces, la media y la

varianza vienen dadas por E ( X ) = µ = αβ y V ( X ) = σ 2 = αβ 2 , respectivamente.

Si X es una v.a. gamma estándar, la función de distribución acumulada de X es

yα −1e − y
x
F ( x;α ) = ∫ dy ; x > 0, (7)
0
Γ(α )

se llama función gamma incompleta26.

26
En ocasiones se refiere a la expresión anterior sin el término Γ (a ) .
Estadística 1 173

Teorema 5. Si X tiene distribución gamma con parámetros α y β , entonces, ∀x > 0 ,

la función de distribución acumulada de X está dada por

x 
P( X ≤ x ) = F ( x;α , β ) = F  ;α  .
β 

Nota: F (•;α ) es la función acumulada.

Distribución exponencial

La familia de distribuciones exponenciales proporciona modelos de probabilidad que


son muy utilizados en ingeniería y disciplinas científicas.

Definición 5. X tiene una distribución exponencial con parámetro λ > 0 si la


fdp de X es

λ e − λ x x ≥ 0

f ( x; λ ) =  (8)
 0 x<0

Nota. Caso particular de la función gamma con α =1 y

β = 1 λ . Entonces, la media y la varianza de X son

1
1. µ = αβ = ,
λ
1
2. σ 2 = αβ 2 =
λ2

Esta función de distribución exponencial es fácil de integrar.


Densidad de exponenciales
Particularmente, la función de distribución acumulada es

 0 x<0

F ( x; λ ) = 
1 − e − λ x x ≥ 0

Utilidades. Se usa:

1. como modelo en ocurrencia de eventos sucesivos (por la relación estrecha


que tiene con la distribución de Poisson). Ejemplos: las llamadas que entran
a un conmutador, los clientes que llegan a una estación de servicios.

2. para modelar la distribución de vida útil de componentes27. Se basa en la


falta de memoria de la distribución exponencial.

Distribución ji-cuadrada

Es importante porque es la base de varios procedimientos de inferencia


estadística28. Está muy relacionada con las distribuciones normales.

Definición 6. La v.a. X tiene distribución ji-cuadrada con parámetro ν (entero


positivo) si su f ( x; α , β ) tiene α = ν 2 y β = 2 . Así, la función de distribución de una
v.a. ji-cuadrada es

 1
ν
−1 − x

e 2 x≥0
2
 ν x
f ( x;ν ) =  2 2 Γ(ν 2 )

.

 x<0
 0
(9)

Nota. ν: número de grados de libertad de X . Por lo general se usa el símbolo χ 2 en


lugar de ji-cuadrada.

Teorema 6. Si X tiene distribución ji cuadrada, entonces la media y la varianza vienen


dadas por

µ =ν y σ 2 = 2ν .

27
Se verá que hay otras distribuciones que proporcionan modelos de vida útil más generales.
28
Veremos aplicaciones de ellas en la ingerencia estadística.
Estadística 1 175

Aplicaciones de las distribuciones exponencial y gamma

El parámetro β es la media de la distribución exponencial y es el recíproco en la


distribución de Poisson. La distribución de Poisson no tiene memoria (independencia en los
períodos sucesivos). El parámetro β importante es el tiempo medio entre los eventos. En
la teoría de la confiabilidad, en la cual la falla de equipos por lo general se ajusta a un
proceso de Poisson, β es el tiempo medio entre las fallas. Muchos desperfectos de
equipos obedecen a un proceso tipo Poisson y por eso se aplica la distribución
exponencial. Además, los tiempos de sobrevivencia en experimentos biomédicos y
tiempo de respuesta de computadoras son ejemplos de aplicaciones de la
distribución expoenencial.

Ejemplo 4. Un sistema tiene componentes cuyo tiempo de falla en años está dado
por T . Considere que la v.a T se modela bien con una distribución exponencial con tiempo
medio para la falla β = 5. Si se instalan cinco de estos componentes en diferentes

sistemas, ¿qué probabilidad hay de que al menos dos aún funcionen al final de ocho años?

Solución. La probabilidad de que un componente aún funciones después de ocho años es

∞ t
1 −5
P(T > 8) =
5 ∫8
e dt ≈ 0.2

Considere que X es el número de componentes que funcionan después de ocho años. Con
el uso de la distribución binomial

5 1
P( X ≥ 2 ) = ∑ b( x;5,0.2 ) = 1 − ∑ b( x;5,0.2 ) = 1 − 0.7373 = 0.2627 .
x=2 x=0

La función gamma es importante porque define una familia de distribuciones en las


que sus miembros son casos especiales. Además, tiene aplicaciones en tiempos de
espera y teoría de confiabilidad. Mientras que la distribución exponencial describe el
tiempo hasta la ocurrencia de un evento de Poisson (o el tiempo entre eventos de
Poisson), el tiempo (o espacio) que transcurre hasta que ocurre un número
específico de eventos de Poisson es una v.a cuya función de densidad se describe
por la función gamma. Este número específico de eventos es el parámetro α en la
función de densidad gamma. Cuando α = 1 , ocurre la distribución exponencial.
Ejemplo 5. A un conmutador llegan un promedio de cinco llamadas telefónicas por
minutos ¿Cuál es la probabilidad de que pase más de un minuto hasta que lleguen
dos llamadas?

Solución. El proceso de Poisson se aplica al tiempo que pasa hasta la ocurrencia de


dos eventos de Poisson que siguen una distribución gamma con β = 1 5 y α = 2.

Consideremos la v.a X el tiempo en minutos que transcurre antes de que lleguen dos
llamadas. La probabilidad se determina por

x x

P( X ≤ x ) = ∫
1 β
xe dx
0
β2

1
P( X ≤ 1) = 25∫ xe − 5 x dx = 0.96 .
0

Mientras el origen de la distribución gamma trata con el tiempo (espacio) hasta la


ocurrencia de α eventos de Poisson, existen casos en que la distribución ajusta
bien aunque no halla una estructura tipo Poisson clara –se observa en problemas de
tiempo de supervivencia.

Ejemplo 6. En el estudio del efecto de la dosis de un tóxico en el tiempo de


sobrevivencia de ratas, se determinó que este tiempo, en semanas, tiene una
distribución gamma con α = 5 y β = 10 ¿Cuál es la probabilidad de que una rata no
sobreviva más de 60 semanas?

Solución.

Sea la v.a X el tiempo de sobrevivencia. La probabilidad es

∞ −
x

P( X ≤ x ) = ∫ α
1
xα −1e β dx
( )
0 β Γ α

60 x
1 α −1 − β
P( X ≤ 60 ) =
1
5 ∫
x e dx
β 0 Γ(5)

Si hacemos el cambio y = x β , obtenemos la integral gamma incompleta, cuyo valor


se busca en una tabla estadística:
Estadística 1 177

60
P( X ≤ 60 ) = dx = F (6; 5) = 0.715
1 4 −y
∫ Γ(5) x e
0

OTRAS DISTRIBUCIONES CONTINUAS

Las familias de distribuciones normal, gamma y uniforme dan una variedad de


modelos de probabilidad para las variables continuas pero en algunas situaciones
ningún miembro de la familia no ajusta bien un conjunto de datos observados. Por
tanto, se han desarrollados otras familias que permiten hacerlo.

Distribución de Weibull

Al igual que la distribución gamma y exponencial, la distribución de Weibull se aplica


a problemas de confiabilidad y de prueba de vida como los tiempos de falla o
duración de la vida de componentes, que se mide en algún tiempo específico hasta
que falla.

Definición 7. La v.a. X tiene una distribución Weibull con parámetros α > 0 y


β >0 en la función de distribución de probabilidades dada por

  x α
 α −  
α −1  β 
βα x e x≥0
f ( x; α , β ) =  .

 x<0
 0

Observaciones

1. α = 1 , se reduce a la distribución exponencial con λ = 1 β .

2. Hay distribuciones gammas que no son de Weibull y viceversa


Teorema 7. Si X es una v.a. con distribución de Weibull, entonces, la media y la
varianza vienen dadas por:

 1    1    1  2 
µ = β Γ 1 +  y σ = β Γ1 +  − Γ1 +   .
2 2

 α    α    α  

La función de distribución acumulada:

 0 x<0

F ( x; α , β ) =   x
− 
α
 (10)
β
1 − e 
x≥0

Densidad de Weibull

Distribución logonormal

Esta distribución se aplica en casos donde una transformación de logaritmo natural


da como resultado una distribución normal.

Definición 8. La v.a. no negativa X tiene una distribución logonormal si la


v.a Y = ln X tiene una distribución normal con parámetros µ y σ viene dada por
Estadística 1 179

 1 −
[ln ( x )− µ ]
2

 , x≥0.
f ( x; µ , σ ) =  2π σx e
2σ 2

 x<0
 0,

donde µ y σ son la media y la desviación típica de ln X .

Curvas de densidad logonormal

Teorema 8. Si X es una v.a. con distribución logonormal, entonces su media y varianza


son:

( )
σ2
µ+
E(X ) = e V ( X ) = e 2 µ +σ eσ − 1 .
2 2
2
y

Como ln X tiene una distribución normal, la fda de X se puede expresar en términos de


la fda Φ( z ) de una variable normal tipificada Z . Para x ≥ 0 ,

 ln ( x ) − µ   ln ( x ) − µ 
F ( x; µ ,σ ) = P( X ≤ x ) = P(ln X ≤ ln x ) = P Z ≤  = Φ .
 σ   σ 

Distribución beta

Todas las familias de distribuciones continuas analizadas, salvo la uniforme, tienen


densidad positiva en un intervalo infinito. La distribución beta da densidad positiva
sólo para X en un intervalo de longitud finita.
Definición 9. La v.a. X tiene una distribución beta con parámetros α > 0 ,
β > 0, A y B si la fdp de X es

Γ(α + β )  x − A   B − x 
α −1 β −1
 1
 A≤ x≤ B
f ( x;α , β , A, B ) =  B − A Γ(α ) ⋅ Γ(β )  B − A   B − A 

 0 en cualquier otro caso

Si A = 0 , B = 1 da la distribución beta estándar.

La integración de la fdp es difícil, salvo que α y β sean enteros. Por tal motivo se
utiliza la tabla de la función beta incompleta.

Curvas de densidad beta estándar

Teorema 9. Si X es una v.a. con distribución beta, entonces su media y varianza son:

µ = A + (B − A)
α
y σ =
2 ( B − A) α β
2
.
α +β (α + β )2 (α + β + 1)
Estadística 1 181

Resumen

Hemos trabajado algunas funciones de distribución. Ahora conviene dar una idea
estructurada de las mismas. En todas interesa su soporte, la función de masa
(discreta) o densidad (continuas), la función de distribución y valores de análisis de
datos (esperanza, varianza y desviación típica). Lo importante es destacar cuando
seleccionarlas de forma conveniente.

Acorde a nuestro interés:

Distribuciones

Unidimensionales Multidimensionales Otras

Discretas Continuas Multinomial


Weibull

Uniforme n Uniformes Lognormal


puntos

Normal
Beta
Binomial
Gamma
T-student
Poisson

F de Fisher-
Hipergeométri Gamma Exponencial Ji-Cuadrado Snedecor
ca Incompleta

Binomial
negativa o de
Pascal
Bibliografía

Seymour Lipschutz, John Schiller, Introducción a la probabilidad y estadística, ed.


Mc Graw Hill, 2001.

Jay L. Devore, “Probabilidad y estadística” (para ingeniería y ciencias), sexta


edición. Ed. Thomson. 2005.

R. E. Walpole, R. H. Myers y S. L. Myers, Probabilidad y estadística (para


ingenieros), sexta edición, Ed. Pearson/Prentice Hall, 1998.

Orientaciones al estudio independiente

1. Hacer un resumen donde aparezcan las funciones de distribución estudiadas.


Redacte el mismo con fines utilitarios. Haga una ficha descriptiva con los
elementos principales de cada distribución.

2. Extienda la ficha descriptiva a las distribuciones la F de Fisher-Snedecor y la


T-student t n .

3. Conforme vayan apareciendo otras las incorporaremos a nuestro resumen.

4. El estudiante debe gestionar las tablas de las funciones de distribución.

5. Conforme sea necesario se buscará más información de estas funciones de


distribución. Consulte páginas web ofrecidas por el profesor en la guía
docente y la wikipedia.

EJERCICIOS PROPUESTOS

Distribución uniforme

1. La cantidad diaria de café, en litros, que sirve una máquina es una v.a X que
tiene una distribución continua uniforme con A = 7 y B = 10. Halle la probabilidad
de que en un día dado la cantidad de café que sirve la máquina sea:
Estadística 1 183

a. a lo más 8.8 litros;

b. más de 7.4 litros pero menos de 9.5 litros;

c. al menos 8.5 litros.

R/

a. 0.6; b. 0.7; c. 0.5.

Distribución normal

2. En una distribución normal estándar, determine el área bajo la curva que está:

a. a la izquierda de z = 1.43;

b. a la derecha de z = -0.89;

c. entre z = -2.16 y z = -0.65

d. a la izquierda de z = -1.39;

e. a la derecha de z = 1.96;

f. entre z = -0.48 y z = 1.74

R/

a. 0.9236

b. 0.8133

c. 0.2424

d. 0.0823

e. 0.0250

f. 0.6435

3. Para una distribución normal estándar, determine el valor de k tal que

a. P (Z < k ) = 0.0427 ;

b. P(Z > k ) = 0.2946

c. P(− 0.93 < Z < k ) = 0.7235

R/

a. -1.72; b. 0.54; c. 1.28


4. Si la v.a X está normalmente distribuida con media 18 y desviación estándar 2.5, halle:

a. P( X < 15) ;

b. el valor de k de manera que P( X < k ) = 0.2236 ;

c. el valor de k de manera que P( X > k ) = 0.1814 ;

d. P(17 < X < 21) .

R/

a. 0.1151; b. 16.1; c. 20.275; d. 0.5403

Aproximación de la normal a la binomial

5. Evalúe P (1 ≤ X ≤ 4 ) para una variable binomial con n = 15 y p = 0.2 con el uso de

a. tablas

b. la aproximación de la curva normal

R/

a. 0.8006; b. 0.7803

6. Un proceso para fabricar un componente electrónico tiene 1% de defectuosos.


Un plan de control de calidad es seleccionar 1% artículos del proceso, y si ninguno
está defectuoso el proceso continúa. Use la aproximación normal a la binomial para
encontrar:

a. la probabilidad de que el proceso continúe con el plan de muestreo que se


describe;

b. la probabilidad de que el proceso continúe aun si éste está mal (es decir, si la
frecuencia de componentes defectuosos cambia a 5.0 % de defectuosos).

R/

a. 0.1574; b. 0.0108
Estadística 1 185

7. Si un 20 % de los habitantes de una ciudad prefieren comprar en el mercado


productos ecológicos sobre cualquier otro tipo de producto, ¿cuál es la probabilidad
de que entre los siguientes 1000 productos entrantes al mercado:

a. entre 170 y 185 inclusive sean ecológicos?

b. al menos 210 pero no más de 225 sean ecológicos?

R/

a. 0.1171; b. 0.2049

Distribución gamma y otras

8. Si una v.a X tiene una distribución gamma con α = 2 y β = 1, encuentre la

probabilidad P(1.8 < X < 2.4) .

R/

2.8e −1.8 − 3.4e −2.4 = 0.1545

9. El consumo de agua en una ciudad sigue aproximadamente una distribución


gamma con α = 2 y β = 3 . La capacidad diaria de dicha ciudad es de 9 millones de
litros diarios de agua.

a. Halle la media y la varianza del consumo diario de agua en la ciudad.

b. Según el teorema de Cheybyshev, hay una probabilidad de 3/4 de que el


consumo de agua en cualquier día caiga dentro de qué intervalo.

R/

a. µ = 6 ; σ 2 = 18 ; b. de 0 a 14.485 millones de litros.

10. la magnitud de tiempo para que una persona sea atendido en una cafetería es
una v.a que tiene una distribución exponencial con una media de cuatro minutos
¿Cuál es la probabilidad de que una persona sea atendida en menos de tres minutos
en al menos cuatro de los siguientes seis días?

R/
x 6− x
6
 6  − 
3
 − 34 
∑  1 − e 
 
x = 4  x 
4 e 
  = 0.3968
  

11. Suponga que la vida de servicio, en años, de la batería de un aparato para


sordos es una v.a que tiene una distribución de Weibull con α = 1 2 y β = 2 .

a. ¿Qué tiempo puede durar esta batería?

b. ¿Cuál es la probabilidad de que esta batería esté en funcionamiento después de


dos años?

R/

a. π 2 = 1.2533; b. e −2 .

12. Las vidas de algunos sellos automovilísticos obedecen una distribución de

Weibull con tasa de falla Z (t ) = 1 t . Encuentre la probabilidad de que cierto sello


todavía esté después de cuatro años.

R/

e −4

13. El tiempo de respuesta de cierta computadora, obtenida de una investigación,


obedece una distribución exponencial con una media de tres segundos.

a. ¿Cuál es la probabilidad de que el tiempo de que el tiempo de respuesta exceda


cinco segundos?

b. ¿Cuál es la probabilidad de que el tiempo de que el tiempo de respuesta exceda


diez segundos?

R/

a. 0.1889; b. 0.357.
Estadística 1 187

14. Los porcentajes siguen a menudo una distribución logarítmica normal. S estudia
el uso promedio de potencia (dB por hora) para una compañía y se sabe que tiene
la distribución citada con parámetros µ = 4 y σ = 2 .

a. ¿Cuál es el uso de potencia media?

b. ¿Cuál es la varianza?

R/

(
a. e6 ; b. e12 e 4 − 1 )

15. El número de automóviles que llega a una intersección por minutos tiene una
distribución de Poisson con una media de 10. El interés se centra alrededor del
tiempo que transcurre antes de que 15 automóviles aparezcan en la intersección.

a. ¿Cuál es la probabilidad de que transcurra más de un minuto entre llegadas?

b. ¿Cuál es el número medio de minutos que transcurre entre llegadas?

R/

a. e −10 ; b. β = 0.10 .
10. INFERENCIA ESTADÍSTICA

La inferencia estadística es la parte de la Estadística que permite sacar


conclusiones sobre una población, a partir de la información que proporciona una
muestra representativa de la misma. Lo hace empleando un modelo de
probabilidad asignado a las variables aleatorias de la población y a partir de los
datos obtenidos por la estadística descriptiva.

conclusiones

Población Muestra

la

Inferencia estadística Si es representativa


Permite sacar conclusiones de la

Generalmente, la población suele ser “grande” y no es posible estudiarla en toda su


integridad en la mayor parte de los casos. Por tanto, las conclusiones obtenidas
deben basarse en el examen de sólo una parte de ella. Las ventajas de estudiar una
población a partir de sus muestras son principalmente que su coste es reducido, la
mayor rapidez en los análisis y brinda más posibilidades de estudio.

Toda inferencia estadística exacta es imposible pues se dispone de información


parcial, sin embargo es posible realizar inferencias inseguras y medir el grado de
inseguridad si el experimento se ha realizado de acuerdo con determinados
principios. Uno de los propósitos de la inferencia Estadística es el de conseguir
técnicas para hacer inferencias inductivas y medir el grado de incertidumbre de
tales inferencias. La medida de la incertidumbre se realiza en términos de
probabilidad.
Estadística 1 189

Sobre cada individuo medimos una o varias características –variables-. Por tanto, a
cada población le corresponde una variable aleatoria ( X ). De esta forma,
quedan identificadas población y variable aleatoria asociada. Así, en la Inferencia,
población es el conjunto de individuos a estudiar, pero también la variable aleatoria
asociada a la característica que medimos sobre los individuos.

En general, supondremos un modelo de distribución de probabilidad para la


variable aleatoria estudiada que resuma las características de la misma aunque
desconozcamos los parámetros que trataremos de estimar a partir de una muestra.
En determinadas situaciones no será necesario especificar tales distribuciones y las
inferencias se hacen sobre características de la distribución que no son
necesariamente parámetros.

Según el conocimiento sobre la distribución en la población, la inferencia


Estadística puede dividirse en:

1. Inferencia Paramétrica: Se conoce la forma de la distribución pero no


sus parámetros. Se efectúan inferencias sobre los parámetros
desconocidos de la distribución conocida.

2. Inferencia No Parámetrica: Se desconocen la forma y los parámetros.


Se realizan inferencias sobre características que no tienen que ser
parámetros de una distribución conocida (Mediana, Estadísticos de Orden).

Según la forma en que se estudian los parámetros o características


desconocidas, la inferencia puede dividirse en:

1. Estimación: Se intenta dar estimaciones de los parámetros desconocidos


sin hacer hipótesis previas sobre posibles valores de los mismos.

 Estimación puntual: Un único valor para cada parámetro.

 Estimación por intervalos: Intervalo de valores probables para el


parámetro.

2. Contraste de Hipótesis: Se realizan hipótesis sobre los parámetros


desconocidos y se desarrolla un procedimiento para comprobar la
verosimilitud de la hipótesis planteada. Entonces, las diferentes técnicas de
muestreo adquieren vital importancia.
DISTRIBUCIONES DE MUESTREO

La teoría del muestreo tiene por objetivo estudiar las relaciones existentes entre la
distribución de un carácter en una población y las distribuciones de dicho carácter
en todas sus muestras.

La representatividad de la muestra queda garantizada con la elección correcta del


método de muestreo. De éstos el más importante es el muestreo aleatorio. Sin
embargo, existen otros como el muestreo sistemático, estratificado y por
conglomerados.

Como las muestras aleatorias escogidas para un estudio son diferentes y por
consiguiente, dan estimaciones distintas, se necesita el conocimiento de la
variación de todas las posibles estimaciones derivadas de muestreos aleatorios para
llegar a conclusiones razonables.

El muestreo29 aleatorio se puede plantear bajo dos puntos de vista:

1. Sin reposición de los elementos; Se seleccionan n elementos de la


población mediante n extracciones sin reemplazamiento, asignando a cada
una de ellas probabilidades iguales a los elementos no seleccionados en los
anteriores (en el paso i − ésimo , la probabilidad que tiene un elemento de
1
ser seleccionado es N − i ). Siempre se verificará que n ≤ N .

2. Con reposición; Se seleccionan n elementos de la población mediante n


extracciones sucesivas con reemplazamiento, asignando a cada una de ellas
1
probabilidades iguales a todos los elementos de la población, N .

En ambos casos podemos considerar muestras ordenadas (importa el orden en que


hayan sido seleccionadas) o muestras sin ordenar (no importa el orden en que
hayan sido escogidas), sólo nos importa el conjunto total de elementos en la
muestra. A estas últimas se las denominará subpoblaciones.

Teorema 1. Si N es el tamaño de la población y n es el tamaño de la muestra,

= N ( N − 1) ⋅ ⋅ ⋅ ( N − n + 1)
N!
VN , n =
entonces hay (N − n)! diferentes posibles muestras

29
Llamaremos muestra de tamaño n a un subconjunto de tamaño n de la población (ver apuntes iniciales del
curso).
Estadística 1 191

VRN , n = N n
ordenadas diferentes sin reemplazamiento y diferentes posibles
muestras ordenadas con reemplazamiento.

Si se realiza un muestro aleatorio con reemplazamiento de tamaño n en una


población de N elementos, la probabilidad de que en esa muestra ordenada no
aparezca un elemento dos veces es:

VN , n N ( N − 1) ⋅ ⋅ ⋅ ( N − n + 1)
p= =
VRN , n Nn

Teorema 2. Si N es el tamaño de la población y n es el tamaño de la muestra,


N
C N , n =  
entonces hay  n  diferentes posibles subpoblaciones (muestras no
ordenadas) de tamaño n mediante muestreo sin reemplazamiento y
 N + n − 1
CRN , n =  
 n  diferentes posibles subpoblaciones de tamaño n mediante
muestreo con reemplazamiento.

La diferencia principal entre el muestreo30 con reemplazamiento y el muestreo sin


reemplazamiento es que en el primero los resultados individuales son
independientes y el segundo no. Por lo general, si el tamaño de la población es muy
“grande”, las diferencias son inexistentes y siempre podremos suponer la
independencia de los sucesos individuales.

OBSERVACIÓN. Cuando N >> n , se puede aplicar al proceso de muestreo un


modelo de probabilidad asumiendo los resultados individuales de cada muestra
como independientes -se hayan obtenido las muestras con o sin reemplazamiento.

A partir de ahora supondremos que las muestras que consideramos serán con
reemplazamiento. Se harán observaciones cuando los resultados para la muestra
con reemplazamiento difieran de los obtenidos.

30
Consulte esto en los apuntes del tema correspondiente
La distribución de probabilidad de una variable aleatoria (v.a) definida en un espacio
de v.a se llama distribución muestral.

Interesan los análisis de datos muestrales:

MEDIA MUESTRAL

Hagamos las siguientes consideraciones:

1. Sea X v.a. con media µ X y desviación típica σ X , definida en una


población.

2. Una muestra aleatoria de tamaño n nos da n posibles valores


x1 , x2 ,..., xn
independientes (muestra con reemplazamiento) para la variable
aleatoria X .

3. Podemos considerar estos valores como los de n variables aleatorias


X 1 , X 2 ,..., X n
independientes e idénticamente distribuidas a X ; es decir, de
media µ X = µ y desviación típica σ X = σ .

La media muestral se define como:

1 n
X = ∑ Xi
n i =1 X
; con reemplazamiento. Media muestral de las i .

Si no consideramos la reposición,

1 n
X = ∑ xi
n i =1 ; sin reemplazamiento. Media muestral de las xi .

Teorema 3. Sea X una v.a de media µ y desviación típica σ . Entonces, la media


muestral X , para muestras aleatorias de tamaño n con reemplazamiento (sin

reemplazamiento), tienen como media


µ X y desviación típica σ X , dadas por:

µX = µ 

σ 
σX =
n  con reemplazamiento.
Estadística 1 193

µX = µ 

σ N −n
σX = ⋅
n N − 1  sin reemplazamiento; (n < N )

Observación: Si X está aproximadamente distribuida como una normal; X ,


también.

La distribución muestral de X

Se presenta un teorema que dice que si la muestra es grande, entonces la media


muestral X está aproximadamente distribuida como una normal sin tener en
cuenta la distribución de X .

Teorema 4. (Teorema central del Límite) Sea X una variable aleatoria de


media µ y desviación típica σ definida en una población cualquiera. Si el tamaño
de la muestra es grande ( n ≥ 30 ), entonces, la media muestral X está
 σ 
X = N µ = µX , σ X = 
aproximadamente distribuida como una normal:  n  ; con
reemplazamiento,

 σ N −n
X = N  µ = µ X , σ X = ⋅ 

 n N − 1  ; sin reemplazamiento.

Observaciones:

• Si n ≥ 30 , X es normal sin importar la distribución de X .

• Si n < 30 , la distribución de X es normal si las distribuciones de X no


difiere mucho de la normal.

• Si la distribución de X es normal, la distribución de X es normal sin


importar el valor de n .

• Si el muestreo se hace sin reemplazamiento y N >> n (poblaciones


grandes), no hay que distinguir muestras con y sin reemplazamiento. Por
tanto, la distribución de la v.a se puede tomar igual. Esta condición se puede
N −n
≈1
observar con un N > 20 ⋅ n , de tal manera que N −1 .
PROPORCIÓN MUESTRAL

Existen ocasiones en las cuales no interesa la media muestral de una población, sino
alguna proporción de ella.

En general puede interesar la proporción p de una población que tiene una


característica determinada. Si se toma una muestra de esa población, la proporción
p̂ , en la muestra con la característica estudiada, se aproximará al valor
poblacional. Planteamos:

n o de elementos en la muestra con la característica


pˆ =
n (tamaño de la muestra )

El conjunto de todos los posibles valores que puede tomar p̂ forman la variable
aleatoria P̂ , llamada proporción muestral.

La distribución muestral de proporciones es la adecuada para dar respuesta a estas


situaciones.

Una población binomial está estrechamente relacionada con la distribución


muestral de proporciones y puede evaluarse usando la aproximación normal a
la binomial. Cualquier evento se puede convertir en una proporción si se divide el
número obtenido entre el número de intentos.

Teorema 5. Sea p la proporción de una población y se toman muestras aleatorias


de tamaño n . Entonces, P̂ tiene:

 media p

 y
desviación típica p(1 − p ) n
 ; con reemplazamiento y,

 media p

 y
desviación típica
 p(1 − p ) n ⋅ (N − n ) (N − 1) ; sin reemplazamiento.
Estadística 1 195

Teorema 6. (Teorema central del Límite -para proporciones muestrales).


Sea p la proporción poblacional. Si el tamaño de la muestra n es muy grande, la
proporción muestral P̂ estará aproximadamente distribuida como una normal

 p ( p − 1) 
Pˆ ≡ N  p, 

 n  ; con reemplazamiento,

 p( p − 1) N − n 
Pˆ ≡ N  p, 
 n N − 1 
; sin reemplazamiento.

Observaciones:

• Consideramos n muy grande cuando n ≥ 30 .

• N >> n (con N > 20 ⋅ n ), no es necesario distinguir el muestreo con o sin


reemplazamiento.

VARIANZA MUESTRAL

Sea X una variable aleatoria poblacional de media µ y desviación típica σ . Una


muestra aleatoria de tamaño n nos da n posibles valores independientes

(muestra con reemplazamiento o sin reemplazamiento con N >> n )


x1 , x2 ,..., xn
para la variable aleatoria X .

Los valores anteriores se pueden considerar como los de n variables aleatorias


X 1 , X 2 ,..., X n
independientes e idénticamente distribuidas a X , es decir de media
µ X = µ y desviación típica σ X = σ .

∑ (X − X)
n
2
i
S2 = i =1

La variable aleatoria n −1 , donde X es la media muestral, es la


varianza muestral

Distribución chi cuadrado

Debido al teorema Central del Límite, la distribución normal desempeña un papel


importante en la inferencia estadística. Pero no es la única.
Z1 , Z 2 ,..., Z k k
Definición: Sean v.a normales e independientes, cada una con
k
X 2 = ∑ Z i2
media 0 y desviación típica 1. Entonces, la v.a i =1 se llama v.a chi
cuadrado con k grados de libertad.

Nota:

• X 2 (0,1) ∀i .

• Al número k se le denomina grados de libertad de la variable aleatoria.

• Si n > 30 , esta distribución se aproxima a una normal de media n y

desviación típica 2n .

Teorema 7. Sea X una variable aleatoria distribuida normalmente con media µ y


desviación típica σ definida en una población y consideremos que N >> n ,
(n − 1)S 2
entonces la variable aleatoria σ2 se distribuye como una chi cuadrado con
(n − 1)S 2 ≡ Z n2−1
n − 1 grados de libertad, es decir σ2 .
Estadística 1 197

Teorema 8. Si las hipótesis del teorema 7 se cumplen, entonces, la media de


(n − 1)S 2
S 2 es µ = σ y la desviación típica de
2
σ2 es
2(n − 1)

2
y por tanto la desviación típica de S es

2(n − 1)σ 2 2
σ= = ⋅σ 2
n −1 n −1 .

Con reemplazamiento

Muestras aleatorias

Sin reemplazamiento

Por ser diferentes se necesita conocer

Variación de estimaciones muestreos aleatorios

que pueden ser

Media muestral Proporción muestral Varianza muestral

Si O Si Si

n ≥ 30 X es normal n ≥ 30 n ≥ 30 y N >> n

X ≈ Normal P̂ ≈ Normal (n − 1)S 2 ≈ Chi cuadrado


σ2

Si
Como No se necesita
Si

N >> n
distinguir entre
ESTIMACIÓN PUNTUAL

El objetivo de la estimación puntual es: dado un parámetro de interés de una


población (media poblacional µ o proporción p de la población), usar una muestra
para calcular un número que represente en cierto sentido una buena estimación del
valor real del parámetro. El número que resulta se llama estimación puntual.

PARÁMETROS Y ESTADÍSTICOS

En estadística en general:

Parámetro: cualquier característica numérica de una población.

Estadístico: cualquier cantidad calculada de una muestra (no depende de ningún


parámetro).

Ejemplo 1. Nota media de los estudiantes de una universidad es 6,1.


Nota media de un 30% de los estudiantes es 5,1. Parámetro: 6,1. Estadístico:
5,1.

Estimador es un estadístico usado para estimar un parámetro desconocido de la


población.

Ejemplo 2. Si se desea conocer el precio medio de un artículo


(parámetro desconocido) se recogerán observaciones del precio de dicho artículo en
diversos establecimientos (la muestra) y la media aritmética de las observaciones
puede utilizarse como estimador del precio medio.

Si consideramos la muestra como valores particulares de una variable aleatoria, un


estadístico no es más que una variable aleatoria y como tal se puede encontrar
una función de probabilidad que lo caracterice.
Estadística 1 199

Características de los estimadores

Para cada parámetro pueden existir varios estimadores. En general, se escoge el


estimador que posea mejores propiedades.

Definiciones:

Estimador insesgado (sesgado): su valor esperado (no) es igual al parámetro


que pretendemos estimar con él, es decir, cuando la esperanza de su distribución
de probabilidad (no) coincide con el valor del parámetro. Matemáticamente:
ˆ () ˆ ˆ ()
estimador insesgado de θ si E θ = θ ∀θ . Si θ no es insesgado, E θ − θ se
llama sesgo de θ .
ˆ

El insesgamiento significa que algunas muestras producirán sobreestimaciones y


otras subestimaciones del parámetro θ porque de otro modo θ no podría ser el
centro (punto de equilibrio) de la distribución θ .
ˆ

Principio de estimación insesgado: Al elegir entre varios estimadores de θ ,


seleccione uno que sea insesgado.

La media muestral, la varianza muestral y la proporción muestral son estimadores


insesgados para la media poblacional, la varianza poblacional y proporción
poblacional, respectivamente.
La desviación típica muestral es un estimador sesgado para la desviación típica
poblacional.

Estimador consistente: si la probabilidad de que el valor del estadístico sea


cercano al parámetro aumenta conforme aumentamos el tamaño de la muestra.

Estimador más eficiente: cuando su desviación típica es menor31.

(estimador insesgado)

(EIVM)

Estimador suficiente: cuando agota toda la información que hay en la muestra


para estimar el parámetro.

Estimador eficaz: cuando es insensible a los valores extremos que pueda tomar la
muestra.

Estimación puntual valor de un estadístico cuando estima un parámetro


poblacional.

Ejemplo 3. Determinada propiedad de una población se distribuye


como una normal de media y desviación típica desconocidas. Hallar las estimaciones
puntuales de la media, la varianza σ y la desviación típica σ , sabiendo que una
2

muestra de cinco elementos ha tomado los siguientes valores:

x1 = 19 , x2 = 17 , x3 = 18 , x4 = 20 , x5 = 16 .

Consideramos X variable aleatoria normal de media µ X y desviación típica σ X .

Tomar de esta forma una muestra de cinco elementos es como tomar cinco

variables aleatorias X 1 , X 2 , X 3 , X 4 , X 5 independientes e idénticamente

31
Esto significa que si tomamos el valor que nos proporciona el estimador para estimar el parámetro tendrá mayor
probabilidad de producir una estimación más cercana al parámetro. Se ha supuesto como principio que se ha
elegido el estimador insesgado de varianza mínima (EIVM).
Estadística 1 201

distribuidas a X y los valores particulares de la muestra serán los valores


particulares de las respectivas variables aleatorias.

Como la media muestral es un estimador insesgado para la media, se puede


aproximar el valor de la media poblacional por el de la media muestral:

1 n 1 5 17 + 18 + 19 + 20 + 16
µ= ∑
n i =1
X i = ∑ xi =
n = 5 5 i =1 5
= 18
X i = xi

y como la varianza muestral es un estimador para la varianza poblacional:

1 n
(X i − X i )2 n==5 1 ∑ (xi − 18)2 =
5
σ 2 = S2 = ∑
n i =1 5 i =1
X i = xi
X =18

=
(17 − 18) + (18 − 18) + (19 − 18) + (20 − 18)2 + (16 − 18)2
2 2 2
=2
5

Por tanto una estimación puntual para la desviación típica será la raíz cuadrada de
este valor

σ = 2 = 1.41

X 1 , ..., X n
Teorema 9. Sea una muestra aleatoria de una distribución normal con

parámetros µ y σ . Entonces el estimador µ̂ = X es el EIVM para µ .

Nota 1: El teorema no dice que al estimar la media poblacional µ , el estimador X


se debe usar sin tomar en cuenta la distribución que está siendo muestreada.

Nota 2: En algunas situaciones, es posible obtener un estimador con sesgo


pequeño que se preferiría para el mejor estimador insesgado.

La definición de insesgamiento no indica en general cómo se pueden obtener


estimadores insesgados.
Vistas las características de las condiciones que debe reunir un estimador para que
sea considerado aceptable, queda por resolver el problema de cómo proceder a la
determinación de la estimación puntual. Se necesitan métodos para la estimación
puntual. Los que más se conocen son: métodos de los momentos, los
estimadores de máxima verosimilitud (EMV), de estimación por mínimos
cuadrados y el método de Bayes se emplean con dicha finalidad.

Método de los momentos

El método de los momentos consiste en igualar las expresiones de los k


primeros momentos (en relación al origen) tanto de la variable representativa
poblacional como de la muestra; como resultado, se obtiene un sistema que permite
obtener, como raíces, los estimadores buscados.

una muestra aleatoria de una fmp o fdp f ( x ) . Para


X 1 , ..., X n
Definición. Sea
k = 1,2,..., el k − ésimo momento poblacional, o k − ésimo momento de la
1 n k
( ) ∑ Xi
distribución f ( x ) , es E X . El k − ésimo momento muestral es n i =1
k
.

X 1 , ..., X n
Definición. Sea una muestra aleatoria de una fmp o fdp
f ( x;θ1 ,θ 2 ,⋅ ⋅ ⋅,θ m ) θ1 ,θ 2 ,⋅ ⋅ ⋅,θ m son parámetros cuyos valores se desconocen.
, donde

Los estimadores de momento 1


θˆ ,θˆ ,⋅ ⋅ ⋅,θˆ
2 m se obtienen igualando los primeros m
momentos poblacionales con los primeros m momentos muestrales

correspondientes y resolviendo para


θ1 ,θ 2 ,⋅ ⋅ ⋅,θ m .

X , ..., X
Ejemplo 4. 1 n es una muestra aleatoria de tiempos de
respuesta de n peticiones de una central de control. Suponiendo que la distribución
es exponencial con parámetro λ , determine el estimador de momento.

Solución. Hay un solo parámetro por estimar. El estimador se obtiene igualando


E ( X ) con X .
Estadística 1 203

E(X ) =
1 1 1
=X λ=
En la distribución exponencial λ , con lo cual λ o X .

1
λˆ =
El estimador de momento de λ es X .

X 1 , ..., X n
Ejemplo 5. es una muestra aleatoria cuya distribución tiene
forma de campana asimétrica con parámetros α y β , determine los estimadores
de momento.

Solución. Suponga una distribución Gamma con los parámetros α y β . Como


Γ(α + 2 )
E ( X ) = αβ y
( )
E X2 = β2
Γ(α )
= β 2 (α + 1)α
, los estimadores de momento de
α y β se obtienen igualando los primeros momentos poblacionales con los
muestrales, i.e.,

X = αβ

X i2 = β 2 (α + 1)α
1
n

.

1
∑ X i2 = X 2 + β 2α
Luego se resuelven ambas ecuaciones: X = α β ,
2 2 2
n . Divida
esta ecuación con la primera ecuación de momento, se obtiene que
2
1 X
∑ X i2 − X 2 αˆ =
1
β̂ = n
X n
∑ X i2 − X 2
. Luego, .

Observación. Advierta la importancia capital de las funciones de distribución


cuando se buscan los estimadores.

Método de estimadores de máxima verosimilitud

El método de EMV se basa en el principio lógico de que es habitual que suceda lo


más probable. Así, los estimadores de los parámetros son aquellos que hacen
máxima la función de verosimilitud (función de probabilidad de la muestra
F ( X 1 , X 2 ,⋅ ⋅ ⋅, X n ;θ1 ,θ 2 ,⋅ ⋅ ⋅,θ m )
que depende de los parámetros a estimar).

X 1 , ..., X n
Definición. Sea una muestra aleatoria de una fmp o fdp conjunta
f ( x1 , x2 ,...xn ;θ1 ,θ 2 ,⋅ ⋅ ⋅,θ m ) θ1 ,θ 2 ,⋅ ⋅ ⋅,θ m son parámetros cuyos valores se
, donde
x1 , x2 ,...xn
desconocen. Cuando son los valores muestrales observados y f es

considerada como una función de


θ1 ,θ 2 ,⋅ ⋅ ⋅,θ m , se llama función de verosimilitud.

Las emv
θˆ1 ,θˆ2 ,⋅ ⋅ ⋅,θˆm son los valores de i que maximizan la función de θˆ

verosimilitud. Por tanto,


( )
f x1 , x2 ,...xn ;θˆ1 ,θˆ2 ,⋅ ⋅ ⋅,θˆm ≥ f ( x1 , x2 ,...xn ;θ1 ,θ 2 ,⋅ ⋅ ⋅,θ m )

∀ θ1 ,θ 2 ,⋅ ⋅ ⋅,θ m .

Xi xi
Cuando las se sustituyen en lugar de las , resultan estimadores de máxima
verosimilitud.

X 1 , ..., X n
Ejemplo 6. es una muestra aleatoria de una distribución
exponencial con parámetro λ . La función de verosimilitud es un producto de fdp

( ) (
f ( x1 , x2 ,...xn ; λ ) = λe − λx1 ⋅ ⋅ ⋅ λe − λxn = λn e ∑ i
−λ x
)
ln[ f ( x1 , x2 ,...xn ; λ )] = n ln (λ ) − λ ∑ xi
.

Ahora derivamos el logaritmo respecto a λ e igualamos a cero y obtenemos:

n 1
n
− ∑ xi = 0 λ= =
λ o ∑x i x
.

1
λˆ =
El estimador de probabilidad máxima es X . Observe que es idéntico al método
 1 1 
 E   ≠ 
de los momentos; sin embargo, no es un estimador insesgado   X  E ( X ) .

X , ..., X
n es una muestra aleatoria de una distribución
Ejemplo 7. 1

normal. La función de verosimilitud es


Estadística 1 205

( x1 −µ )2 ( xn − µ )2
n n
( xi − µ )2
 1 2 −∑
( ) 1 − 1 −
2σ 2
f x1 , x2 ,...xn ; µ , σ 2 = 2σ
⋅⋅⋅ 2σ
=
2 2

2 
e e e i =1
2π σ 2 2π σ 2  2 π σ 

Así,

[(
ln f x1 , x2 ,...xn ; µ , σ 2 =)] n
2
( 1 n
2σ =
)
ln 2 π σ 2 − 2 ∑ ( xi − µ )
2

i 1 .

Para encontrar los valores µ y σ que maximizan la función de verosimilitud, se


2

deben tomar las derivadas parciales de ln f con respecto a µ y σ , igualar a cero


2

(X − X)
=∑
2

σˆ 2 i

y resolver las ecuaciones resultantes. Las emv son µ̂ = X y n .

La emv de σ no es un estimador insesgado. Así, dos principios de estimación


2

distintos (emv e insesgamiento) dan dos estimadores distintos.

X 1 , ..., X n
Ejemplo 8. es una muestra aleatoria de una fdp de Weibull

  x α
 α −  
α −1  β 
βα x e x≥0
f ( x; α , β ) = 

 x<0
 0

Se halla la verosimilitud y luego se el logaritmo de ella. A este último se le calculan


las derivadas parciales con respecto a α y β y se igualan a cero. Se obtienen:
1
−1
 xα ⋅ ln ( x ) ln ( xi ) 
α = ∑ i α i − ∑ β =  ∑ i
 xα α
 
 ∑ xi  
n
y  n  .

Las ecuaciones no pueden resolverse de forma explícita con el fin de obtener

fórmulas generales para las emv α̂ y β̂ . Sin embargo, para cada muestra
x1 , x2 ,...xn
, las ecuaciones se resuelven por procedimiento numérico iterativo. Los
procedimiento de determinación de momento pares de α y β son complicados.
¿Cómo estimar funciones de parámetros?

Principio de invarianza. Sean


θˆ1 ,θˆ2 ,⋅ ⋅ ⋅,θˆm los emv de los parámetros θ1 ,θ 2 ,⋅ ⋅ ⋅,θ m .
h(θ1 ,θ 2 ,⋅ ⋅ ⋅,θ m )
Entonces la emv de cualquier función de estos parámetros es la

función
( )
h θˆ1 ,θˆ2 ,⋅ ⋅ ⋅,θˆm de las emv.

Ejemplo 9. Con la distribución normal, la emv de µ y σ son µ̂ = X


2

σˆ 2 =
1
∑ (X i − X )2 ( )
. Para conseguir la emv de la función h µ , σ = σ = σ , se
2 2
y n
sustituye la emv en la función:
1

σˆ = σ =  ∑ ( X i − X ) 
12 22

n 

La emv de σ no es la desviación estándar muestral S , aunque están cerca de


menos que n sea muy pequeña.

Ejemplo 10. El valor promedio de la v.a. X con una distribución de


 1
µ = β ⋅ Γ1 + 
Weibull es  α .

1 
µˆ = βˆΓ1 +

Así, la emv de µ es αˆ  . α̂ y β̂ son las emv de α y β . X no es la

emv de µ , aunque es un estimador insesgado. Para un n grande, µ̂ es un mejor


estimador que X .

¿Cómo se comportan los emv con muestras grandes?

Proposición. Si el tamaño de la muestra es grande, con condiciones muy generales


en la distribución conjunta de la muestra, el emv de cualquier parámetro θ es

aproximadamente insesgado E θ ≈ θ
ˆ ( ( ) ) y tiene varianza que es casi tan pequeña
Estadística 1 207

como se pueda lograr mediante cualquier estimador, i.e., la emv de θ es


ˆ

aproximadamente el EIVM de θ .

El método de estimación por mínimos cuadrados calcula las estimaciones de


los parámetros minimizando la función de distancia cuadrática entre los valores
estimados y los verdaderos valores de los parámetros.

El método de Bayes calcula la estimación de los parámetros minimizando la


función de riesgo medio, la cual mide la pérdida media que se produce cuando se
usan los valores estimados como verdaderos valores de los parámetros.

Los estimadores puntuales más comunes son:

 Para una población binomial, la proporción muestral del número de éxitos es


un estimador consistente, suficiente, insesgado y de varianza mínima para el
parámetro poblacional p .

 Para una población de Poisson, la media muestral es un estimador


consistente, suficiente, insesgado, eficiente y de varianza mínima para el
parámetro poblacional λ .

 Para una población normal, la media muestral es un estimador consistente,


suficiente, insesgado, eficiente y de varianza mínima para el parámetro
poblacional µ . Además, la covarianza muestral es un estimador insesgado,
suficiente, consistente y de mínima varianza para el parámetro poblacional
σ2.

Bibliografía

Seymour Lipschutz, John Schiller, Introducción a la probabilidad y estadística, ed.


Mc Graw Hill, 2001.

Jay L. Devore, Probabilidad y estadística (para ingeniería y ciencias), sexta edición.


Ed. Thomson. 2005.
Recomendaciones al estudio individual

1. Estudie los ejemplos resueltos donde aparecen los


métodos de inferencia puntual. A continuación
proceda a resolver los ejercicios propuestos

2. Puede ampliar en el segundo texto recomendado.

PROBLEMAS PROPUESTOS

Muestreo

Ejercicio 1. ¿Cuál será la composición más probable de un comité de 3 miembros


elegidos al azar entre un conjunto de 13 hombres y 9 mujeres?

Ejercicio 2.

a. Determina el número de muestras aleatorias de tamaño 5 que se


pueden obtener sin reemplazamiento en una población de 5 gatos, 3
perros y 2 ratones.

b. ¿Cuántas muestras posibles de sólo dos animales son posibles?

c. De entre las anteriores ¿Cuál es la más probable?

Ejercicio 3. ¿Cuál es la probabilidad de que en una muestra con reemplazamiento


de tamaño 10 en una población de 300 habitantes no tenga elementos repetidos?

S = {2,3, 4}
Ejercicio 4. Sea . Un espacio equiprobable

a. Calcula la media y la varianza de la población


Estadística 1 209

b. Halla la distribución de probabilidad para la media muestral de


muestras aleatorias de tamaño 2 obtenidas con reemplazamiento.

c. Calcula la media y la varianza de X

S = {1,5, 6,8}
Ejercicio 5. Sea .

a. Halla la distribución de probabilidad de la media muestral para


muestras aleatorias de tamaño 2 obtenidas sin reemplazamiento y
para muestras con reemplazamiento. Compara los valores de la
media y desviación típica poblacionales con los de la media.

b. Halla la distribución de la varianza muestral para muestras aleatorias


de tamaño 3 obtenidas sin reemplazamiento. Calcula su media y su
varianza.

Ejercicio 6. La proporción de hombres calvos de edades comprendidas entre 40 y


60 años es de 2/3. Se toman muestras aleatorias de tamaño 25 con
reemplazamiento de hombres en esa franja de edad en una ciudad de 10000
habitantes. ¿Cuál es la media y la desviación típica del estimador proporción para
esas muestras?

Ejercicio 7. Si una población está formada por 10 elementos, ¿cuál es el tamaño


de la muestra para el cual hay el mayor número de muestras distintas obtenidas?

a. Con reemplazamiento

b. Sin reemplazamiento

c. ¿Y en una población de tamaño N arbitrario?

Ejercicio 8. El 37% de alumnos de una universidad compatibilizan sus estudios con


un trabajo ¿Cuál es la media y la desviación típica de la proporción de alumnos
trabajadores, para todas las muestras de tamaño 40, obtenidas con
reemplazamiento, de la población de alumnos?

a. Con reemplazamiento

b. Sin reemplazamiento
Ejercicio 9. Se toman muestras de tamaño 20 sin reemplazamiento
correspondientes a una variable aleatoria X de una población. La variable aleatoria

se distribuye como una normal de media X


µ = 45
y desviación típica
σX = 3.
Calcula la media y la desviación típica de la varianza muestral.

Estimadores insesgados

Ejercicio 10. Sea X una v.a. binomial con parámetros n y p . Demuestre que la
proporción muestral pˆ = X n es un estimador insesgado de p .

X 1 , X 2 , ..., X n
Ejercicio 12. Sea una muestra aleatoria de una distribución con

∑ (X − X)
2

σˆ = Sˆ 2 =
2 i

media µ y varianza σ . Demuestre que el estimador n −1


2
es un
estimador insesgado de σ .
2

Ejercicio 13. Al medir la resistencia a la flexión en MPa de vigas de concreto se


obtuvieron los siguientes resultados:

5,9 7,2 7,3 6,3 8,1 6,8 7,0 7,6 6,8 6,5 7,0
6,3 7,9 9,0 8,2

8,7 7,8 9,7 7,4 7,7 9,7 7,8 7,7 11,6 11,3 11,8
10,7

Diga qué estimador usó y calcule una estimación puntual:

a. del valor medio de resistencia para la población conceptual de todas


las vigas fabricadas.

b. del valor de resistencia que separa el 50% más débil de las vigas del
50% más fuerte.

c. del valor promedio de las dos resistencias extremas.

d. de la desviación estándar poblacional σ .


Estadística 1 211

e. de la proporción de las vigas cuya resistencia a la flexión es mayor


que 10 MPa . Sugerencia: considere una observación un éxito si
pasa de 10.

f. del coeficiente poblacional σ µ .

Métodos de estimación puntual

X , ..., X
n es una muestra aleatoria cuya distribución se corresponde
Ejercicio 14. 1
con un número de éxitos fijo y un número de ensayos aleatorios con
parámetros r y p . Determine:

a. Los estimadores de momento.

b. Las estimaciones correspondientes si aplicamos el modelo anterior al


número de goles por juego que se hacen en una liga según se
muestra en la siguiente tabla:

goles 0 1 2 3 4 5 6 7 8 9 10

frecuencia 29 71 82 89 65 45 24 7 4 1 3

X 1 , ..., X n
Ejercicio 15. es una muestra aleatoria de una distribución Gamma con
parámetros α y β .

a. Deduzca las ecuaciones cuya solución produce los emv de α y β . ¿Se


puede resolver de manera explícita?

b. Demuestre que la emv de µ = αβ es µˆ = X̂ .

En el texto: “Jay L. Devore, Probabilidad y estadística (para ingeniería y ciencias),


sexta edición. Ed. Thomson. 2005” pág. 277, resuelva los ejercicios 21 y 22.
11. INTERVALOS DE CONFIANZA PARA UNA ÚNICA POBLACIÓN

La estimación puntual, debido a que es sólo un número, por si misma no


proporciona información acerca de la precisión y confiabilidad de una
estimación. Por la variabilidad del muestreo, por ejemplo, casi nunca se da el caso
de que x = µ . La estimación puntual no indica nada en relación con cuán cerca
podría estar de µ .

Para informar un solo valor sensible del parámetro que está siendo estimado,
alternativamente, se calcula e informa un intervalo completo de valores posibles,
una estimación de intervalo o intervalo de confianza (IC).

El IC se calcula primero al seleccionar un nivel de confianza, que es una medida del


grado de confiabilidad del intervalo. Ejemplo, un nivel de confianza del 95%
significa que el 95% de las muestras darían un intervalo que incluye el parámetro
que se está estimando, y sólo el 5% de las muestras producirían un intervalo
erróneo. Mientras mayor sea el nivel de confianza, se está más convencido de que
el parámetro que se está estimando se ubica dentro del intervalo.

Si el nivel de confianza es alto y el intervalo resultante es bastante reducido, el


conocimiento del valor del parámetro es razonablemente preciso. Un IC muy amplio
señala que hay gran cantidad de incertidumbre con respecto a lo que se está
estimando.

Supongamos que el parámetro a estimar es θ y que θ es un estimador insesgado


ˆ
para ese parámetro.

INTERVALOS DE CONFIANZA

Conviene que el estimador se encuentre en un intervalo de forma que la


probabilidad de que el parámetro pertenezca al intervalo sea bastante alta y éste no
sea demasiado amplio.

Ejemplo 1. P(µ − E ≤ X ≤ µ + E ) = 0.95 ⇔


P (X − E ≤ µ ≤ X + E ) = 0.95

µ se puede determinar con un 95% de confianza. A [X − E , X + E ] se le llama


intervalo de confianza aleatorio con un nivel de confianza del 95% para µ , y
a E se le llama margen de error.
Estadística 1 213

Precisemos estos conceptos:

Un intervalo de confianza para el parámetro θ , es un intervalo real de la forma


[a, b] ⊂ R , [ˆ ]
muchas veces de la forma θ − E ,θ + E ⊂ R , de forma que la
ˆ

probabilidad de que el parámetro pertenezca a ese intervalo sea bastante alta:


P(θ ∈ [a, b]) = 1 − α , con α ≈ 0 .

El nivel de confianza o coeficiente de confianza, denotado por 1 − α , es la


probabilidad de que el parámetro pertenezca al intervalo.

Generalmente a α se le denomina nivel de significación del intervalo de


confianza.

En general hablaremos de intervalo de confianza a nivel 1 − α para cierto


parámetro θ .

Cuando hablamos de error al utilizar IC nos referimos al error máximo que


podemos cometer al tomar como verdadero valor del parámetro el centro del
intervalo considerando cierto que el parámetro pertenece al intervalo.

Por tanto, el error es la mitad de la amplitud del IC, es decir, si el intervalo de


b−a
E=
confianza tiene la forma
[ a, b ] , el error tomará la forma 2 .

En general, la expresión del error dependerá del tamaño de la muestra y de algún


parámetro adicional que utilicemos.

Esto último es muy útil cuando queremos calcular el tamaño mínimo de la muestra
para que el error no exceda cierta cantidad.

En general, el IC dependerá de la
distribución muestral del estadístico.

Por tanto, buscaremos valores de la abscisa Figura 1


en la distribución correspondiente, de forma
que el área encerrada por la función de
densidad entre esos valores coincida con el
nivel de confianza del intervalo.

Cuando las abscisas que buscamos son

− zα 2 zα 2
simétricas respecto de la media de la distribución en cuestión, un valor crítico es
el valor de la abscisa en una determinada distribución que deja a su derecha un
área igual a α 2 o a su izquierda un valor 1 − α 2 . Aquí, 1 − α es el nivel de
confianza.

* z
En general se representa por z o α 2 , si Z es el nombre de la v.a utilizada para
calcular el intervalo.

Normalmente, las distribuciones que utilizaremos están tabuladas y los valores


críticos pueden calcularse fácilmente utilizando las tablas adecuadas.

Ejemplo 2. Sea X una v.a normal de media µ (con valor desconocido)


y desviación típica σ = 2 . De una muestra aleatoria (con reemplazamiento) de 25
valores de X obtenemos una media muestral x = 10 . Halle el margen de error E
para un IC del 95% para µ y determine el correspondiente IC. Interprete el
resultado.

x1 , x2 ,..., x25
Solución. Las observaciones muestrales reales son el resultado de una
X 1 , X 2 ,..., X 25
muestra aleatoria de una distribución normal. Como X es normal, lo
es también X .

(
El margen de error, E , satisface la ecuación P µ − E ≤ X ≤ µ + E = 0.95 . )
Tipifiquemos la variable X :

 
 
 
 µ−E−µ X −µ µ+E−µ
P ≤ ≤
 σ σ σ 
 n 
12n3 n
P(µ − E ≤ X ≤ µ + E ) = 
 
Z 

 
−E E −E E 
= P ≤ Z ≤  = P ≤Z≤  = 0.95
 2 2  0.4 0.4 
 
 5 5 .
Estadística 1 215

Como X es normal, también lo es Z . Como Z es una v.a tipificada, de las tablas,


hallamos que

P(0 ≤ Z ≤ 1.96 ) =
0.95
= 0.475
P(− 1.96 ≤ Z ≤ 1.96) = 0.95 ⇔ 2 .

Es decir, 1.96 es el valor crítico de Z correspondiente a una probabilidad de 0.95.


E
= 1.96
Así, 0.4 ⇒ E = 0.4 × 1.96 = 0.784 .

El IC del 95% es [x − E , x + E ] = [10 − 0.784, 10 + 0.784] = [9.216, 10.784] .

Tenemos una confianza del 95% de que la media µ de X es algún valor de ese
intervalo, lo que significa que a medida que x toma todos los posibles valores de
X , el 95% de todos los intervalos [x − 0.784, x + 0.784] contendrán a µ . Aunque
las diferentes muestras aleatorias de tamaño 25 puedan dar valores diferentes de
x , el valor de E , para cada muestra, es el mismo.

Los intervalos pueden tener diferentes formas y obtenerse por diferentes métodos.
El objetivo de este tema es estudiar algunos de los IC más utilizados para estimar
los parámetros más comunes de una población, media proporción y desviación
típica. Daremos reglas para determinar el IC.

INTERVALO DE CONFIANZA PARA LAS MEDIAS

Sea X la v.a poblacional y su media µ una incógnita. Además, x el valor de la


media muestral obtenida de una muestra aleatoria de tamaño n . Un intervalo de
z *σ
E=
confianza para µ es [x − E , x + E ] y el error se calcula con n .

Los intervalos de confianza para µ requieren que la media muestral esté distribuida
aproximadamente como una normal.

REGLA 1 (Intervalo de confianza para µ cuando σ es conocida)


Requisitos: X tiene desviación típica σ conocida y X está aproximadamente
distribuida como una normal.

Sean: 1 − α = γ el nivel de confianza y x el valor obtenido de la media muestral X


de una muestra aleatoria de tamaño n . Entonces, se pueden aplicar los siguientes
pasos:

1. Hallar el valor crítico Z : se halla z* de la v.a normal tipificada Z en la que


γ
( )
P − z* ≤ Z ≤ z* = γ ⇔
( )
P 0 ≤ Z ≤ z* =
2

z *σ
E=
2. Calcular: n

3. Determinar el intervalo de confianza

Figura 2

Ejemplo 3. En un río se realizan mediciones para determinar la


concentración de zinc en el agua. En una muestra de mediciones de concentración
del Zn en 36 sitios diferentes dio como resultado una concentración promedio de
2,6 g ml . Si la desviación estándar poblacional es 0,3. Determine los IC del 95% y
99% para la concentración media de Zn en el río.

Solución.

La v.a X poblacional tiene media µ desconocida y desviación típica conocida


( σ = 0,3 ). Como la muestra tiene tamaño n = 36 ≥ 30 , entonces, X está
distribuida aproximadamente como una normal. Con el nivel de confianza del 95% y
teniendo en cuenta que la estimación puntual de µ nos da que x = 26 , entonces,
podemos aplicar la regla 1:
Estadística 1 217

P(− zα 2 ≤ Z ≤ zα 2 ) = 0,95 = 1 − α
1. Como el intervalo de confianza es del 95%, .
z =z
Por tanto, α = 0,5 y el valor crítico, α 2
*
, que deja un área de 0,025 a su
zα 2 = z * = 1,96
derecha es (se busca con una tabla o programa informático).

Nota: la determinación anterior es equivalente a proceder como se hizo en el


γ 0,95
P − z *
≤(Z ≤ z *
= γ ⇔ )
P 0 ≤ Z ≤ z* = =
2 2
( = 0,475 )
ejemplo 2: . Con una

tabla32, veremos igualmente que z = 1,96 .


*

z *σ 1,96 ⋅ 0,3
E= = = 0,098
2. El error es n 36 .

3. El IC sería [2.6 − 0.098, 2,6 + 0.098] = [2.50, 2.70] .

Por tanto, el intervalo del 95% es aquel para el cual la media poblacional está en el
intervalo 2.50 < µ < 2.70 . Así, un 95% de muestras que se hubieran realizado
aportarían una concentración media de Zn en el intervalo reportado.

Haga usted el mismo análisis para un IC del 99%. En ese caso 2.47 < µ < 2.73 .

¿Qué cree usted acerca del uso del IC del 95% y el 99%?

Antes de continuar convienen recordar la distribución t.

32
Se debe tener cuidado a la hora de usar las tablas porque para calcular lo mismo emplean diferentes formas.
Definición. Sea Z la v.a normal tipificada, y χ la v.a chi cuadrado con k grados
2

y χ son independientes. Entonces, la v.a


2
de libertad. Suponiendo que Z
Z
t=
χ2 k
se llama v.a t con k grados de libertad.
Observe la analogía de la distribución t
con la normal, pero se diferencia de ésta
en que es más dispersa. Cuanto mayor
es el grado de libertad de la distribución
t más se aproxima a la distribución
normal.

Figura 3

Teorema 1. Sea X v.a que tiene como media µ . Sea X la media muestral
correspondiente a muestras aleatorias de tamaño n , y S la correspondiente
X −µ
t=
desviación típica. Si X está normalmente distribuida, entonces la v.a S n
tiene distribución t con k − 1 grados de libertad.

REGLA 2 (Intervalo de confianza para µ cuando σ es desconocida)

Requisito: X distribuida aproximadamente como una normal.

Sean: γ el nivel de confianza y 1 2


x , x ,..., x
n los valores de la v.a X que se obtienen

de una muestra aleatoria de tamaño n . Primero, se calculan los estadísticos de la

x=
1
∑ xi s=
1
∑ (xi − x )2
muestra n y n −1 , luego se siguen los siguientes
pasos:

t * = tα 2
1. Hallar el valor crítico de t , , de la v.a t con n − 1 grados de libertad
γ
( ) ( )
P 0 ≤ t ≤ t* =
que satisfaga P − t ≤ t ≤ t = γ
* *
⇔ 2

t *s
E=
2. Calcular n

3. Determinar el IC
Figura 4
Estadística 1 219

Nota: la distribución t se necesita principalmente para muestras pequeñas pero


X debe ser aproximadamente normal.

Ejemplo 4. Los valores de temperatura determinados en siete sistemas


termodinámicos son los siguientes: 10.4, 9.6, 10.2, 10.2, 9.8, 10.0 y 9.8 oC.
Obtenga un IC del 95% para la media de todos los sistemas termodinámicos si se
supone una distribución aproximadamente normal.

Solución.

Se nos pide un IC para µ y σ es desconocida. X está distribuida


aproximadamente como una normal.

x = 10.2 x4 = 10.2 x5 = 9.8 x6 = 10.0 x7 = 9.8


Sean x1 = 10.4 , x2 = 9.6 , 3 , , , , . Si
1 n 1 7
x= ∑ i 7∑
n i=1
x =
i =1
xi = 10
calculamos los estadísticos: y
n 7
s=
1
∑ (xi − x )2 = 1 ∑ (xi − x )2 = 0.283
n − 1 i =1 7 − 1 i =1 , entonces, podemos aplicar la
regla 2:

1. El valor crítico de la v.a t con 6 grados de libertad que satisface


( )
P − t * ≤ t ≤ t * = 0.95 se busca en una tabla o programa informático. Como α = 0,5 ,
t * = tα 2
el valor crítico , que deja un área de 0,025 a su derecha es
t0.025 = 2,447 ≈ 2,45
.

(
0.95
)
P 0 ≤ t ≤ t* =
2
= 0.475
Equivalentemente, . Si buscamos en una tabla la
probabilidad correspondiente a 6 grados de libertad t ≈ 2.45 .
*

t *s 2.45 ⋅ 0.283
E= = = 0.26
2. El error, n 7
 t *s t *s 
 x − , x +  = [10 − 0.26, 10 + 0.26] = [9.74, 10.26]
3. El IC:  n n

El IC del 95% para la media de temperatura es 9.74 < µ < 10.26 .

INTERVALO DE CONFIANZA PARA LAS PROPORCIONES

La población se divide en dos grupos; uno de ellos, se llama exitoso. Sea p la


proporción de desconocida de éxitos en la población. El IC lo definimos:
[ pˆ − E , pˆ + E ] , donde p̂ es la proporción de éxitos en la muestra aleatoria.

REGLA 3 (Intervalo de confianza para la proporción poblacional p )

Requisito: el tamaño de la muestra es grande ( n ≥ 30 ).

Sean: γ el nivel de confianza y p̂ la proporción de éxitos que se obtienen en una


muestra aleatoria de tamaño n ≥ 30 . Se siguen los siguientes pasos:
*
1. Hallar, mediante una tabla o programa informático, el valor crítico z de la

v.a normal tipificada Z que satisface que ( )


P − z* ≤ Z ≤ z* = γ ⇔
γ
(
P 0 ≤ Z ≤ z* = ) 2

pˆ (1 − p )
E = z*
2. Calcular: n

3. Determinar el [ pˆ − E , pˆ + E ]

Ejemplo 5. En una muestra aleatoria de 1000 científicos de una


comunidad, el 60% prefiere aplicar una técnica experimental para medir con
fiabilidad la dureza de un material. Determine un IC para la proporción de todos los
científicos que prefieren el uso de la técnica experimental con un nivel de confianza
del 90%.
Estadística 1 221

Solución. El grupo de científicos se divide en los que desean aplicar la técnica y los
que no. La proporción p de éxitos en la población se desconoce. Como el tamaño
de la muestra es grande ( 1000 ≥ 30 ) y hacemos p = 0.60 , podemos aplicar la regla
ˆ
3:

1. Teniendo en cuenta que el nivel de significación es del 90%, buscamos el valor

(
P 0 ≤ Z ≤ z* =) 0.90
= 0.45
. En este caso z = 1.65
*
crítico que satisface 2

pˆ (1 − p ) 0.60 ⋅ (1 − 0.60)
E = z* = 1.65 ≈ 0.03
2. n 1000

3. [ pˆ − E , pˆ + E ] = [0.60 − 0.03, 0.60 + 0.03] = [0.57, 0.63]

El IC para la proporción de todos los científicos que prefieren el uso de la técnica


experimental con un nivel de confianza del 90% es 0.57 < p < 0.63 ¿Qué significa
esto?

INTERVALO DE CONFIANZA PARA LAS VARIANZAS

Las inferencias con relación a una varianza poblacional son de menor interés que las
anteriores. No obstante, en determinadas situaciones es necesaria su utilización.

Intervalo de confianza para σ cuando µ es desconocida


2

REGLA 4 (Intervalo de confianza para σ cuando µ es desconocida)


2

Requisito: X está aproximadamente distribuida como una normal.

γ : Nivel de confianza especificado. Suponga que los valores x1 , x2 ,..., xn de X se


obtienen de una muestra aleatoria de tamaño n . Se calculan primero los valores de

x=
1
∑ xi s2 =
1
∑ (xi − x )2
la muestra n y n −1 . Se siguen los pasos:

1. Hallar los χ valores críticos: con tablas o programa informático se hallan


2

los valores de a y b de la v.a chi cuadrado con n − 1 grados de libertad que


1− γ 1+ γ
(
P χ2 ≤ a = ) 2
(
, P χ2 ≤ b = )2
.
satisfacen
 (n − 1)s 2 (n − 1)s 2 
 b ,
 a 
2. Determinar el intervalo de confianza .

Intervalos de confianza para la desviación típica

 (n − 1)s 2 , (n − 1)s 2 
 
 b a 

Bibliografía

Seymour Lipschutz, John Schiller, Introducción a la probabilidad y estadística, ed.


Mc Graw Hill, 2001.

Jay L. Devore, Probabilidad y estadística (para ingeniería y ciencias), sexta edición.


Ed. Thomson. 2005.

Recomendaciones al estudio individual

Después de estudiar los apuntes se debe revisar en la


bibliografía recomendada ejemplos y problemas resueltos.
Posteriormente, se deben realizar los ejercicios propuestos
que aparecen a continuación.

EJERCICIOS PROPUESTOS

Ejercicio 1. Calcula en intervalo de confianza a nivel 0.85 de una variable aleatoria


de media desconocida y desviación típica 25 si en una muestra aleatoria de 50
elementos hemos obtenido una media de 112. ¿Cuántos elementos debería tener la
muestra para que el error fuera menor o igual a 2,5?
Estadística 1 223

Ejercicio 2. En una muestra aleatoria de tamaño 10 de una población


normalmente distribuida se obtiene una media de 124 y una varianza de 21. Calcula
el intervalo de confianza del 90% para la media poblacional.

Ejercicio 3. En una muestra de 200 alumnos de segundo curso en una universidad


de Madrid el 35% afirmaron que pretendían trabajar de 16 a 20 horas semanales
para ganar dinero extra. Calcula el intervalo de confianza del 95% para la
proporción de todos los alumnos de ese curso que tiene las mismas pretensiones de
dedicación a un trabajo para ganar dinero.

Ejercicio 4. Una muestra aleatoria para los tipos de en los préstamos personales
cargados por un banco es de 12.8%, 12,2%, 13,4%, 11,9% y 13%. Considerando
que los tipos de interés están normalmente distribuidos con una desviación típica
del 0.9%, calcula en intervalo de confianza del 90% para la media de tipos de
interés.

Ejercicio 5. En una muestra aleatoria de 100 ordenadores, 92 cumplían las


especificaciones del fabricante. Calcula el intervalo de confianza del 99.5% para la
proporción de ordenadores que realmente cumplen las especificaciones del
fabricante.

Ejercicio 6. Se comprueba en una muestra de 20 pastillas de analgésicos el


contenido en paracetamol, obteniéndose una media de 22mg y una desviación típica
de 4mg. Encuentra un intervalo de confianza a nivel del 95% para la media de la
variable, suponiendo que la distribución de la variable en la población es normal.

Ejercicio 7. El intervalo de confianza al 95% para la media poblacional de una

variable aleatoria normalmente distribuida con varianza conocida es


[126.4,132.8]
.
Calcula un intervalo de confianza a nivel 98% para la media basado en la misma
muestra.

Ejercicio 8. Una muestra aleatoria de 28 valores de una variable aleatoria


normalmente distribuida tiene una desviación típica de 6. Calcula el intervalo de
confianza para la desviación típica poblacional a nivel 0.98.
Ejercicio 9. Se sabe que la distribución de puntuaciones en un test sigue una ley
normal con media 48 y desviación típica 10. Si extraemos 100 muestras de 25
individuos cada una ¿Entre qué dos valores se encontrará el 95% de las muestras
obtenidas?

Ejercicio 10. Se sospecha que el número de unidades que contiene cada dosis de
una vacuna no llega a las 10000 unidades que se indica en los envases. El
laboratorio que la fabrica afirma que ese es su contenido medio. Para comprobarlo,
se toman al azar 100 dosis y se determina el número de unidades de cada una,
obteniéndose una media de 9940 unidades y una desviación típica de 120 unidades.
Suponiendo que la distribución del número de unidades en cada dosis se distribuye
como una normal, ¿Qué podemos decir acerca de la información del laboratorio
para un nivel de confianza del 99%?

Ejercicio 11. Queremos analizar la desviación típica del nivel de benzocaína por
cápsula en cierto medicamento. Su distribución sigue una normal. Tomamos una
muestra de 16 cápsulas y nos da un contenido medio de benzocaína de 2.8
unidades por gramo y una desviación de 0.4 unidades por gramo. Obtén los
intervalos de confianza par ala desviación típica de niveles 95% y 99%.

Ejercicio 12. ¿Cuál debe ser el tamaño de una muestra para obtener un intervalo
de confianza del 95% para una proporción poblacional con un margen de error
máximo de 0.04?

Ejercicio 13. Con una determinada encuesta se quiere determinar un intervalo de


confianza del 95% para la proporción de ciudadanos a favor del carné por puntos
con un margen de error menor que el 2%. ¿Cuál debe ser el tamaño de la muestra?
Estadística 1 225

12. CONTRASTE DE HIPÓTESIS

Hemos visto que un parámetro poblacional se puede determinar a partir de una


muestra mediante un número (estimación puntual) y un intervalo completo de
valores posibles (IC). Suele ocurrir que en ocasiones no interesa estimar un
parámetro, sino más bien la determinación de un procedimiento de decisión que se
base en los datos que pueda producir una conclusión acerca de algún sistema
científico. Entonces, se debe decidir cuál de dos afirmaciones de contradictorias
acerca de un parámetro es correcta. Para hacer esto se llevan a cabo pruebas de
hipótesis o contraste de hipótesis estadísticas.

Una hipótesis estadística es una afirmación o conjetura con respecto a una o


más poblaciones. Su veracidad o falsedad nunca se sabe con absoluta certidumbre,
salvo que se haga la prueba con toda la población. Esto último no tiene sentido
práctico en muchas situaciones. Por eso se toma una muestra aleatoria de la
población y se utilizan los datos contenidos en la muestra para proporcionar
evidencia que apoye o no la hipótesis. La evidencia de la muestra que es
inconsistente con la hipótesis que se establece conduce al rechazo de ésta; la
evidencia que la apoya, a su aceptación.

El diseño de un procedimiento de decisión se debe hacer con la idea en la mente de


la probabilidad de una conclusión errónea. La aceptación de una hipótesis implica
que los datos no dan suficiente evidencia para rechazarla. Por otra parte, el rechazo
implica que la evidencia muestral la refuta, es decir, hay una pequeña probabilidad
de obtener la información muestral observada cuando, de hecho, la hipótesis es
verdadera.

Para la realización de un contraste se utiliza un estadístico cuya distribución en el


muestreo se conoce si la hipótesis que hemos hecho es verdadera. Al extraer la
muestra, el estadístico toma un cierto valor que nos puede llevar a sospechar que la
hipótesis no es razonable y debe ser rechazada, o contrariamente, puede
considerarse justificación de la hipótesis. Sin embargo, tanto en un caso como en
otro podemos equivocarnos, esto es, podemos rechazar una hipótesis siendo
verdadera o bien aceptarla siendo falsa.

Existen test de hipótesis paramétricos, en los que las hipótesis que consideramos
hacen referencia a parámetros de la población y test no paramétricos, donde la
hipótesis hace referencia a la distribución de determinada población. Presentamos
los test paramétricos.
CONCEPTOS PREVIOS

Hipótesis nula e hipótesis alternativa

Los contrastes se caracterizan por la presencia de una hipótesis sobre la distribución


H
poblacional a la que llamaremos hipótesis nula ( 0 ), que queremos contrastar
con otra hipótesis que agrupa todos los casos en los que no se verifica la hipótesis
Ha
nula, esta otra hipótesis se denomina hipótesis alternativa ( ). Ambas
hipótesis son complementarias.

H
En ocasiones a a se le denomina hipótesis del investigador pues refleja la

aseveración que a éste le gustaría validar. La palabra nula significa de ningún valor,
H
efecto o consecuencia. Por tanto, 0 da una idea que debe estar asociada a la idea
de ningún cambio, ninguna mejoría o diferencia, etcétera con respecto a la opinión
actual.

H0
Por lo general, los contrastes de hipótesis no tiene un carácter imparcial frene a
Ha
y , en general no se trata de ver, a la luz de la muestra, cual de ambas hipótesis
H
es más verosímil, en realidad se favorece a 0 y se intenta descubrir si los datos
obtenidos por la muestra dan evidencias suficientes para rechazarla, en cuyo caso
se aceptaría la hipótesis alternativa.

Hipótesis simples y compuestas

Una hipótesis simple es aquella que determina totalmente la distribución


poblacional, hacen referencia a un único posible valor para el parámetro (en test
paramétricos) o a una única función de distribución (en test no paramétricos). Una
hipótesis compuesta es aquella en la que se hace referencia a más de un valor
posible para el parámetro o a más de una función de distribución para la población.

Supongamos que θ es el parámetro cuyo valor queremos contrastar y sea Θ el


conjunto de todos los posibles valores que puede tomar. La forma que tomaría una
hipótesis
Estadística 1 227

H 0 : θ = θ0

H : θ = θ1 Θ = {θ 0 ,θ1}
Simple sería:  a y en este caso .

 H 0 : θ ≤ θ0

H : θ > θ 0 θ ,θ 0 ∈ Θ
Compuesta podría ser:  a , .

En este test las hipótesis son unilaterales, es decir de la forma


θ < θi ó θ ≥ θi .

Ambos tipos de hipótesis se pueden combinar en un mismo test, por ejemplo que la
hipótesis nula sea simple y la alternativa compuesta.

Ejemplo 1.

 H 0 : θ = θ0

H a : θ ≠ θ0 ,
θ ,θ0 ∈ Θ = [− 3,9] .

En este test la hipótesis alternativa además de ser compuesta es bilateral es decir

de la forma
θ ≠ θ i ⇔ θ > θi ∨ θ < θi .

Observación: Podemos dividir el espacio de parámetros Θ en dos conjuntos


Θ0
disjuntos: , el conjunto de valores del parámetro que verifican la hipótesis nula y
Θ1 , el conjunto de parámetros que verifican la hipótesis alternativa. De este modo
un test de hipótesis puede representarse de la forma:

H 0 : θ ∈ Θ0

 H a : θ ∈ Θ1

Clasificación de los resultados de un test

El siguiente cuadro muestra las diferentes situaciones que nos podemos encontrar a
la hora de realizar un test de hipótesis:
Lo que puede pasar

H0 H0
Cierta Falsa

H0 ERROR DE TIPO I CORRECTO


Rechazar
Resultado
del test
H0 CORRECTO ERROR DE TIPO II
Aceptar

Tabla 1

Error de tipo I es el que se comete cuando se rechaza la hipótesis nula siendo


cierta.

Error de tipo II es el que se comete cuando se acepta la hipótesis nula siendo


falsa.

Los mejores tests son aquellos en los que la probabilidad de cometer alguno de
estos errores es mínima.

En general, cuando se disminuye la probabilidad de uno de los errores, se aumenta


la del otro. No es posible minimizar ambos errores al mismo tiempo.

Diseño general de un test de hipótesis

Tipos de test

H0 Ha
Sea X una población donde consideramos hipótesis nula y la hipótesis
x1 , x2, ..., xn
alternativa. Sea una muestra aleatoria simple. El resultado del test será
H0
aceptar o rechazar .

Un test No aleatorizado es cualquier partición del espacio muestral en dos


c
regiones C y su complementario C que llamaremos respectivamente región
c
( )
crítica (C ) y región de aceptación C , de modo que si 1 2 ,
x , x ..., xn ∈ C
se

rechaza
H0
y si
(x , x
1 2, ..., xn )∈ C c
se acepta
H0
.
Estadística 1 229

Un test aleatorizado consiste en dar una función del espacio muestral


ψ : X → [ 0,1]
(población X ) en el intervalo [0,1] , a la que llamaremos función
ψ ( x1 , x2 ,..., xn )
crítica del test. En este caso será la probabilidad de rechazar la
H0 x1 , x2 ,...xn
hipótesis nula cuando es la muestra.

Un ejemplo de funcionamiento de una función crítica sería:

1 si ( x1 , x2 ,..., xn ) ∈ C

ψ ( x1 , x2 ,..., xn ) = γ si ( x1 , x2 ,..., xn ) ∈ C '

0 si ( x1 , x2 ,..., xn ) ∈ ( C ∪ C ')
c

En este caso C ' es un espacio intermedio, y en el caso de que la muestra esté en él


se hace un sorteo, por ejemplo lanzar una moneda cargada, con probabilidad de

cara igual a γ , si sale cara se rechaza 0 y en caso contrario se acepta.


H

Observa que podríamos considerar los test no aleatorizados como casos particulares
de un test aleatorizado tomando la siguiente función crítica:

1 si ( x1 , x2 ,..., xn ) ∈ C
ψ ( x1 , x2 ,..., xn ) = 
0 si ( x1 , x2 ,..., xn ) ∈ C
c

Nosotros sólo estudiaremos test no aleatorizados.

Estadístico de contraste

Después de haber determinado la hipótesis nula y alternativa, y haber tomado una


muestra nos ayudaremos de determinados estadísticos sobre la muestra para
decidir la pertenencia o no de la misma a la región crítica. El estadístico que
elegimos para cada contraste lo denominaremos estadístico de contraste.

De esta forma si T es el estadístico de contraste, la región crítica podría tomar la

forma:
{
C = (x , x ..., x ) ∈ X n , T (x , x ..., x ) ≤ c ∈ R
1 2, n 1 2, n } o definida a partir de cualquier
otra condición del estadístico sobre la muestra.
Diseño de un test

Para diseñar el mejor test para realizar un contraste se sigue el siguiente


procedimiento:

1. Se determina una cota superior a la probabilidad de cometer el error de tipo


H0
I (Rechazar siendo cierta). A esta cota la llamaremos nivel de

significación del test:


P ( Error de tipo I ) = P ( rechazar H 0 siendo cierta ) ≤ α ∈ [ 0,1] .
2. Desechar todos los test cuya probabilidad de cometer el error de tipo I sea
mayor que el nivel de significación.

3. Del resto de test nos quedaremos con aquel cuyo error de tipo II sea menor.

Observaciones:

Las hipótesis no son intercambiables: Es fundamental fijar de antemano quién es la


H0 Ha
hipótesis nula y quién la alternativa .

El nivel de significación que tomemos marcará la imparcialidad del test con respecto
a la hipótesis nula. En general α toma valores bastante pequeños
( α = 0.001, 0.01, 0.05 ).

Función de potencia, nivel de significación y tamaño de un test

H0 Ha
Para contrastar la hipótesis frente a , se utiliza la función de potencia de

un test, la cual es la función que va del espacio de parámetros Θ al intervalo


[ 0,1] ,
β : Θ → [ 0,1] : θ → β (θ ) β (θ )
, donde es la probabilidad de rechazar la hipótesis
nula siendo θ el verdadero valor del parámetro.

β (θ ) = P (θ ∈ C )
En los test no aleatorizados .

α ∈ [ 0,1]
Diremos que un test paramétrico tiene nivel de significación si
β (θ ) ≤ α ∀θ ∈ Θ0
.
Estadística 1 231

Se llama tamaño de un test al supremo de los valores de la función de potencia


sup β (θ ) ≡ Tamaño del test =β
en el conjunto de los posibles parámetros θ ∈Θ

Observaciones:

Si θ verifica a y es el verdadero valor del parámetro, se verificará que:


H


β (θ ) = P (θ ∈ C ) = 1 − P (θ ∈ C c ) = 1 − P ( error de tipo II )
.

P ( error de tipo II ) = 1 − β (θ )
 Por tanto, .

 Es decir, minimizar la probabilidad de error de tipo II habiendo fijado un


nivel de significación, equivale a maximizar la función de potencia.

 Por tanto, para elegir un test lo que se hace es tomar aquellos cuyo tamaño
sea igual a α (nivel de significación) y de éstos elegir el que tenga
uniformemente más potencia, es decir cuya función de potencia sea mayor en
los valores del parámetro de la hipótesis alternativa.

 Definidos el nivel de significación y la potencia de un test podemos recoger


sus significados en la tabla 1:

Lo que puede pasar

H0 H0
Cierta Falsa

ERROR DE TIPO I CORRECTO


Rechazar
H0
P ( Rechazar H0 / H0 cierta ) = α P ( aceptar H0 / H0 cierta ) = 1 − α
Resultado
del test
CORRECTO ERROR DE TIPO II
Aceptar
H0
P ( No aceptar H0 / H0 falsa ) = 1 − β P ( No rechazar H0 / H0 falsa ) = β

Tabla 2
CONTRASTE DE HIPÓTESIS PARA LA MEDIA POBLACIONAL

Sea X la v.a poblacional con media µ X y desviación típica σ X .

En los contrastes para la media poblacional, como estadístico, utilizamos la media


muestral tipificada. Habíamos visto que la distribución de la media muestral,

conocida
σ X y verificándose las condiciones del teorema central del límite, era
( )
X ≡ N µ X , σ X n . Por tanto, si utilizamos la media muestral tipificada como
X − µX
Z= ≡ N (0,1)
estadístico, tendremos que: σ X n .

Cuando se desconoce
σ X , la media muestral con ciertos ajustes se distribuye según
X − µX
≡ tn −1
una T- de student con n − 1 grados de libertad: S/ n ; siendo
n
1
S2 = ∑ ( X i − X )2
n − 1 i =1 la varianza muestral, X la media muestral, n el tamaño de

la muestra y
µ X la media poblacional. En este caso ya estamos utilizando un el
X − µX
T= ≡ tn −1
estadístico tipificado S/ n .

Regla 1. (Contraste de hipótesis del valor P para µ siendo σ conocida)

Requisitos: X tiene desviación típica conocida σ , y la media muestral X está


aproximadamente distribuida como una normal.

Sea α el nivel de significación para el contraste y supongamos que un valor x de


la media muestral X se ha obtenido en una muestra aleatoria de tamaño n .
Hacemos el siguiente procedimiento:

H 0 : µ X = µ0 Ha
1. Plantear la hipótesis nula y la alternativa .
Estadística 1 233

H0
2. Cálculo del estadístico de contraste: Si es cierta; entonces,
 σ 
X ≡ N  µ0 , X 
X ≡ N ( µ0 , σ X )  n  , es decir que tipificando
y por tanto
X − µ0
Z= ≡ N ( 0,1)
σX
obtendríamos que la media muestral tipificada n es el
estadístico de contraste. Su valor, sobre la muestra bajo la hipótesis nula, es
x − µ0
z=
σX
n ; donde hemos considerado a µ0 el valor de la media poblacional
1 n
x = ∑ xi
y n i =1 .

3. Determinación del valor de P : Con una tabla normal tipificada o un


programa informático hallamos el valor de P del contraste correspondiente
Ha
a :

 Para H a : µ X < µ0 , el valor de P es P(Z ≤ z ) .

 Para H a : µ X > µ0 , el valor de P es P(Z ≥ z ) .

H a : µ X ≠ µ0 P P(Z ≤ − z ) + P(Z ≥ z )
 Para , el valor de es o
2 P(Z ≥ z )
equivalentemente .

4. Establecer una conclusión: Si el valor P ≤ α , entonces, z y x son

estadísticamente representativo a nivel α , y rechazamos


H0
. Si el valor
P > α , entonces ni z ni x son estadísticamente representativo a nivel α ,
H0
y no rechazamos .

Una versión alternativa de la regla 1 sería:

Regla 1a. (Región crítica, contraste de hipótesis para µ y σ conocida)

Hasta el paso 2, todo es similar a la regla 1.


3. Determinación de la región crítica: Con una tabla normal tipificada o un
Ha
programa informático hallamos la región crítica correspondiente a y
α para:

H a : µ X < µ0 z ≤ zα 2
 , la región crítica está formada por los valores , donde
zα 2 < 0 P(Z ≤ zα 2 ) = α
es valor que satisface .

z ≥ zα 2
 H a : µ X > µ0 , la región crítica está formada por los valores , donde
zα 2 > 0 P(Z ≥ zα 2 ) = α
es valor que satisface .

z ≤ − zα 2
 H a : µ X ≠ µ0 , la región crítica está formada por los valores o
z ≥ zα 2 zα 2 > 0
, donde es valor que satisface
P(Z ≤ − zα 2 ) + P(Z ≥ zα 2 ) = α P (Z ≥ zα 2 ) = α 2
o equivalentemente .

4. Establecer una conclusión: Si el valor de la muestra z del estadístico de


contraste, está en la región crítica, entonces z y x son estadísticamente

significativo al nivel α , y rechazamos 0 . Si z no está en la región crítica,


H
entonces z y x no son estadísticamente significativos al nivel α , y no
H0
rechazamos .

La figura 1, nos muestra, para el caso de un contraste bilateral, las regiones de


rechazo o de aceptación de la hipótesis nula.

C c = {( x1 , x2 ,..., xn ) , − zα / 2 ≤ z ≤ zα / 2 }
Para el contraste bilateral con nivel de significación α,
y siendo zα / 2 tal que:

α
P ( Z ≥ zα / 2 ) = P ( − zα / 2 ≤ z ≤ zα / 2 ) = 1 −
2
la región crítica es C y la de aceptación Cc

Región crítica

C = {( x1 , x2 ,..., xn ) , z < − zα / 2 ∨ z > zα / 2 } = {( x1 , x2 ,..., xn ) , z < − zα / 2 } ∪ {( x1 , x2 ,..., xn ) , z > zα / 2 }

Figura 1
Estadística 1 235

Regla 2. (Valor de P para contraste de hipótesis para µ siendo σ


desconocida)

Requisito: La media muestral X está aproximadamente distribuida como una


normal.

Sea α el nivel de significación para el contraste y supongamos que los valores


x1 , x2 , ..., xn X n.
de se obtienen de una muestra aleatoria de tamaño
1 n
x= ∑ xi
n i =1
Primeramente, calculamos los estadísticos de la muestra: y

s=
1
∑ (xi − x )2
n −1 . Hacemos el siguiente procedimiento:

H 0 : µ X = µ0 Ha
1. Plantear la hipótesis nula y la alternativa .

X ≡ N ( µ0 , σ X )
2. Cálculo del estadístico de contraste: Si de desviación típica
X − µ0
T= ≡ tn −1
H S/ n
desconocida y 0 es cierta; entonces, , es decir el
estimador del contraste bajo la hipótesis nula se distribuye como una t de
student con n − 1 grados de libertad. Su valor, sobre la muestra bajo la
x − µ0
t= ≡ tn −1
hipótesis nula, es s/ n ; donde hemos considerado a
µ0 el valor
de la media poblacional.

3. Determinación del valor de P : Con una tabla de t o un programa


informático, para la v.a t con n − 1 grados de libertad, hallamos el valor de
P del contraste correspondiente a H a :

 Para H a : µ X < µ0 , el valor de P es P(t ≤ t ) .


ˆ

 Para H a : µ X > µ0 , el valor de P es P(t ≥ t ) .


ˆ

 Para H a : µ X ≠ µ0
, el valor de P es
( ) (
P t ≤ − tˆ + P t ≥ tˆ ) o

equivalentemente
(
2 P t ≥ tˆ ).
4. Establecer una conclusión: Si el valor P ≤ α , entonces, tˆ y x son

estadísticamente representativo a nivel α , y rechazamos


H0
. Si el valor
P > α , entonces ni tˆ ni x son estadísticamente representativo a nivel α ,
H0
y no rechazamos .

Una versión alternativa de la regla 2 sería:

Regla 2a. (Región crítica, contraste de hipótesis para µ y σ desconocida)

Hasta el paso 2, todo es similar a la regla 2.

3. Determinación de la región crítica: Con una tabla normal tipificada o un


Ha
programa informático hallamos la región crítica correspondiente a y
α para:

H a : µ X < µ0 t ≤ tα 2
 , la región crítica está formada por los valores , donde
tα 2 < 0 P (t ≤ tα 2 ) = α
es valor que satisface .

H a : µ X > µ0 t ≥ tα 2
 , la región crítica está formada por los valores , donde
tα 2 > 0 P (t ≥ tα 2 ) = α
es valor que satisface .

H a : µ X ≠ µ0
 , la región crítica está formada por los valores de tˆ , donde
tα 2 > 0 P(t ≤ −tα 2 ) + P(t ≥ tα 2 ) = α
es valor que satisface o
P(t ≥ tα 2 ) = α 2
equivalentemente .

4. Establecer una conclusión: Si el valor de la muestra tˆ , del estadístico de


contraste, está en la región crítica, entonces tˆ y x son estadísticamente

significativo al nivel α , y rechazamos 0 . Si tˆ no está en la región crítica,


H

entonces tˆ y x no son estadísticamente significativo al nivel α , y no


H0
rechazamos .
Estadística 1 237

La figura 2, nos muestra, para el caso de un contraste bilateral, las regiones de


rechazo o de aceptación de la hipótesis nula.

C c = {( x1 , x2 ,..., xn ) , − tα / 2 ≤ t ≤ tα / 2 }
Para el contraste bilateral con nivel de significación α,
y siendo tα / 2 tal que:

α
P ( tn −1 ≥ tα / 2 ) = P ( −tα / 2 ≤ tn−1 ≤ tα / 2 ) = 1 − α
2
la región crítica es C y la de aceptación Cc

Región crítica

C = {( x1 , x2 ,..., xn ) , t < −tα / 2 ∨ t > tα / 2 } = {( x1 , x2 ,..., xn ) , t < −tα / 2 } ∪ {( x1 , x2 ,..., xn ) , t > tα / 2 }

Figura 2

CONTRASTE DE HIPÓTESIS PARA LAS PROPORCIONES

Como hemos visto en temas anteriores un buen estimador para la proporción


poblacional p era la proporción muestral P̂ y que su distribución, si se verificaban
 p (1 − p ) 
Pˆ ≡ N  p, 
 n 
las condiciones del teorema central del límite, era   ; siendo p
la proporción poblacional y n el tamaño de la muestra. Tipificando el estimador
anterior obtendremos el estimador de contraste para la proporción muestral
Pˆ − p
Z= ≡ N ( 0,1)
p (1 − p )
n .

Regla 3. (Contraste de hipótesis del valor P para µ siendo σ conocida)

Requisito: El tamaño de la muestral tiene que ser grande n ≥ 30 .


Sea α el nivel de significación para el contraste y supongamos que p̂ es la
proporción de éxitos obtenidos en un muestreo aleatorio de tamaño n ≥ 30 .
Hacemos el siguiente procedimiento:

H 0 : p = p0 Ha
1. Plantear la hipótesis nula y la alternativa .

H0
2. Cálculo del estadístico de contraste: Si es cierta; entonces, el estadístico
Pˆ − p0
Z= ≡ N ( 0,1)
p0 (1 − p0 )
de contraste es la proporción muestral tipificada . n
Su valor, sobre la muestra bajo la hipótesis nula, es z, es decir
Pˆ − p0
pˆ =
p0 (1 − p0 )
n .

3. Determinación del valor de P : Con una tabla normal tipificada o un


programa informático hallamos el valor de P del contraste correspondiente
Ha
a :

, el valor de P es P (Z ≤ z ) .
H a : p < p0
 Para

 Para H a : p > p0 , el valor de P es P(Z ≥ z ) .

H a : p ≠ p0 P P(Z ≤ − z ) + P(Z ≥ z )
 Para , el valor de es o
2 P(Z ≥ z )
equivalentemente .

4. Establecer una conclusión: Si el valor P ≤α , entonces, z es

estadísticamente representativo a nivel α , y rechazamos


H0
. Si el valor
P > α , entonces ni z ni p̂ son estadísticamente representativo a nivel α ,
H0
y no rechazamos .

Una versión alternativa de la regla 3 sería:

Regla 3a. (Región crítica, contraste de hipótesis para µ y σ conocida)

Hasta el paso 2, todo es similar a la regla 3.


Estadística 1 239

3. Determinación de la región crítica: Con una tabla normal tipificada o un


Ha
programa informático hallamos la región crítica correspondiente a y
α para:

H a : µ X < µ0 z ≤ zα 2
 , la región crítica está formada por los valores , donde
zα 2 < 0 P(Z ≤ zα 2 ) = α
es valor que satisface .

z ≥ zα 2
 H a : µ X > µ0 , la región crítica está formada por los valores , donde
zα 2 > 0 P(Z ≥ zα 2 ) = α
es valor que satisface .

z ≤ − zα 2
 H a : µ X ≠ µ0 , la región crítica está formada por los valores o
z ≥ zα 2 zα 2 > 0
, donde es valor que satisface
P(Z ≤ − zα 2 ) + P(Z ≥ zα 2 ) = α P (Z ≥ zα 2 ) = α 2
o equivalentemente .

4. Establecer una conclusión: Si el valor de la muestra z de la proporción


muestral, p̂ , está en la región crítica, entonces z y p̂ son

estadísticamente significativo al nivel α H0


, y rechazamos . Si z no está en
la región crítica, entonces z y p̂ no son estadísticamente significativo al

nivel α , y no rechazamos 0 .
H

CONTRASTE DE HIPÓTESIS PARA LAS VARIANZAS

Sea X una población que se distribuye como una normal de media y varianza
x1 , x2 ,...xn
desconocida y sea una muestra aleatoria simple sobre la población.

Sabemos que un buen estimador para la varianza poblacional es la varianza


n

∑(X i − X )2
S2 = i =1

muestral n −1 , donde X es la media muestral, y que su distribución,


siempre que el tamaño de la muestra sea suficientemente grande o que la muestra
perteneciera a una población distribuida como una normal, es una Chi cuadrado con
( n − 1) S 2 ≡ χ 2
n −1
n − 1 grados de libertad, es decir σX 2
.
Por tanto, el estadístico de contraste que utilizamos en esta ocasión es:
( n − 1) S 2 ≡ χ 2
n −1
σX2
.

Regla 4. (Contraste de hipótesis del valor P para σ


2
siendo µ
desconocida)

Requisito: X está aproximadamente distribuida como una normal.

Sea α el nivel de significación para el contraste y supongamos que los valores


x1 , x2 , ..., xn X n.
de se obtienen de una muestra aleatoria de tamaño
1 n
x= ∑ xi
n i =1
Primeramente, calculamos los estadísticos de la muestra: y

s2 =
1
∑ (xi − x )2
n −1 . Hacemos el siguiente procedimiento:

H 0 : σ X2 = σ 02 Ha
1. Plantear la hipótesis nula y la alternativa .

H0
2. Cálculo del estadístico de contraste: Si es cierta; entonces, el estadístico
( n − 1) S 2 ≡ χ 2
n −1
de contraste es 0 σ 2
, el cual es una v.a chi cuadrado con n − 1
grados de libertad. Su valor, sobre la muestra bajo la hipótesis nula, es

χˆ n2−1 =
(n − 1)s 2
σ 02 .

3. Determinación del valor de P : Con una tabla de chi cuadrado con n − 1


grados de libertad, o un programa informático, hallamos el valor de P del
Ha
contraste correspondiente a :

 Para H a : σ X < σ 0 , el valor de P es P(χ n −1 ≤ χ n −1 ) .


2 2 2
ˆ2

 Para H a : σ X > σ 0 , el valor de P es P(χ n −1 ≥ χ n −1 ) .


2 2 2
ˆ2

(
2 P χ n2−1 ≤ χˆ n2−1 , s 2 < σ 02 )
 Para
H a : σ X2 ≠ σ 02
, el valor de P

es 
(
2 P χ n2−1 ≥ χˆ n2−1 , s 2 > σ 02
.
)
Estadística 1 241

χˆ 2
4. Establecer una conclusión: Si el valor P ≤ α , entonces, n −1 y s son
2

estadísticamente representativo a nivel α , y rechazamos


H0
. Si el valor
P > α , entonces ni χˆ n −1 ni s 2 son estadísticamente representativo a nivel
2

α , y no rechazamos
H0
.

Una versión alternativa de la regla 4 sería:

Regla 4a. (Región crítica, contraste de hipótesis para σ siendo µ


2

desconocida)

Hasta el paso 2, todo es similar a la regla 4.

3. Determinación de la región crítica: Con una tabla de chi cuadrado con n − 1


grados de libertad, o un programa informático, hallamos la región crítica

y α para:
Ha
correspondiente a

χˆ 2 ≤ χ1−α 2
 H a : σ X < σ 0 , la región crítica está formada por los valores n −1
2 2
,
χ1−α 2 < 0 P(χ n −1 ≤ χˆ n −1 ) = α
2 2
donde es valor que satisface .

H a : σ X2 > σ 02 χˆ n2−1 ≥ χ1−α 2


 , la región crítica está formada por los valores ,
χ1−α 2 > 0 P (χ 2
n −1 ≥ χˆ 2
n −1 )= α .
donde es valor que satisface

χˆ 2 ≤ χ1−α 2
 H a : σ X ≠ σ 0 , la región crítica está formada por los valores n −1
2 2
o
χˆ n −1 ≥ χα 2
2
χ
, donde 1−α 2
>0
es valor que satisface
P χ n −1 ≤ χ1−α = α 2
2
y
( )
χα 2 > 0 P (χ n2−1 ≤ χˆ n2−1 ) = α 2
es valor que satisface .

4. Establecer una conclusión: Si el valor de la muestra


χˆ n2−1 del estadístico de

contraste está en la región crítica, entonces


χˆ n2−1 y s 2 son estadísticamente

significativo al nivel α , y rechazamos


H0 χˆ 2
. Si n −1 no está en la región
χˆ 2
crítica, entonces n −1 y s no son estadísticamente significativo al nivel α ,
2

H0
y no rechazamos .
EJERCICIOS PROPUESTOS

Ejercicio 1. Conocemos que las alturas de los individuos de una ciudad se


distribuyen según una normal. Deseamos contrastar con un nivel de significación
α = 0.05 si la altura media es diferente de 174 cm , para ello seleccionamos una
muestra de tamaño 25 obteniendo que x = 170cm y que la desviación típica
muestral toma el valor de s = 10cm . Determina qué tipo de contraste vamos a
realizar, su región crítica y si finalmente rechazamos o no la hipótesis nula.

Ejercicio 2. Conocemos que las alturas de los individuos de una ciudad se


distribuyen según una normal. Deseamos contrastar con un nivel de significación
α = 0.05 si la altura media es menor de 174 cm , para ello seleccionamos una
muestra de tamaño 25 obteniendo que x = 170cm y que la desviación típica
muestral toma el valor de s = 10cm . Determina qué tipo de contraste vamos a
realizar, su región crítica y si finalmente rechazamos o no la hipótesis nula.

Ejercicio 3. La vida útil de una pila de 1,5 voltios es una variable aleatoria
normalmente distribuida con media 40 horas y desviación típica 4 horas. Se
introduce un nuevo compuesto químico para que la producción de pilas sea más
eficaz. La empresa quiere saber si la vida útil de las pilas se verá afectada por este
cambio. Para ello se asume que la desviación típica se mantiene en 4 horas y se
toma una muestra de 100 pilas para realizar el contraste, obteniéndose una vida útil
media de 39.1 horas.

d. ¿Se puede decir que la vida media de las pilas no ha cambiado con
un grado de confianza del 95%? ¿Y del 99%?

e. ¿Qué nivel de confianza estaríamos utilizando si rechazamos la


hipótesis nula cuando el valor del estadístico bajo la hipótesis nula no

pertenece al intervalo
[39.5, 40,5] ?
Estadística 1 243

Ejercicio 4. Una importante firma de coches ha diseñado un nuevo sistema


parachoques que se supone disminuirá el riesgo de los daños en colisiones a
velocidades mayores de 10km/h. En un contraste a 12 coches, la velocidad media
para esa disminución fue de 8Km/h con una desviación típica muestral de 1,5Km/h.

a. Realiza el contraste apropiado sobre la afirmación a un nivel de


significación 0.05?

b. ¿Hay evidencia significativa para rechazar la afirmación de que a


velocidades de hasta 10Km/h el riesgo de colisión disminuye?

Ejercicio 5. En una muestra aleatoria de 125 consumidores de cerveza, 68


afirmaron que distinguen sin dificultad la cerveza sin alcohol de la normal. Se quiere
estudiar si el 50% de los consumidores de cerveza distinguen entre sin y normal,
contra la alternativa de que ese porcentaje es bajo con un nivel de significación de
0.05.

a. ¿Hay evidencias estadísticas para rechazar la hipótesis nula?

b. ¿Y si consideramos la hipótesis alternativa contraria?

c. Sin realizar el contraste bilateral, ¿podrías prever el resultado?

Ejercicio 6. Una noticia del periódico afirma que en ninguna facultad el número de
los alumnos becados es mayor o igual al 50%. En la facultad de bellas artes afirman
que en su facultad el número de alumnos becados si es mayor o igual al de la
mitad. Para refutar la afirmación de la universidad se toma una muestra aleatoria de
25 alumnos y se comprueba que 17 de ellos están becados.

a. Realiza el contraste apropiado e indica si la afirmación de la


universidad se puede refutar con un nivel de significación 0.05.

b. Es el valor del estadístico significativo a un nivel 0.01. En caso


contrario que tamaño muestral necesitaríamos para que lo fuera.
Justifica tu respuesta.

Ejercicio 7. Las notas de álgebra de una universidad se distribuyen normalmente


con media 73 y desviación típica 9. Se introducen algunos cambios en la docencia
para reducir la variación y se quiere hacer un estudio de su efectividad. Se toma
una muestra aleatoria de 51 alumnos que siguen el nuevo programa y se calcula
una desviación típica de 7.4.
a. Realiza el contraste que consideres más oportuno para demostrar
que el nuevo programa funciona, es decir que la desviación típica ha
disminuido, con un nivel de significación de 0.05

b. ¿El resultado sigue siendo el mismo a un nivel de significación de


0.01?

Ejercicio 8. Las regulaciones del mercado de agua mineral exigen que cierta
botella contenga, en promedio, 333 mililitros con una desviación típica menor de 3
ml. Se toma una muestra de 50 botellas de cierta marca de agua, recogiéndose los
resultados de la capacidad obteniéndose una media de 333.682 ml y una desviación
típica de 3.069 ml. Realiza los contrastes que consideres oportuno sobre la siguiente
muestra para verificar que se cumplen las especificaciones propuestas por el
mercado.
Estadística 1 245

13. INFERENCIA ESTADÍSTICA DE DOS POBLACIONES

Hemos visto la inferencia por intervalos de confianza y por contraste de hipótesis.


Básicamente, los procedimientos se pueden resumir como indicamos a
continuación:

Permiten con la
Intervalos de confianza sacar

Muestras y Una Población


Inferencia por conclusiones

¿Cómo?

Estableciendo los
mediante
X

Fundamentos de la Inferencia Reglas  Pˆ
 Sˆ
la aplicación de 

GENERALIZACIÓN A DOS POBLACIONES

La idea es la misma con algunas diferencias que aparecen como consecuencia de


ser dos poblaciones.

Población 1
Permiten con la
Intervalos de confianza sacar
y
Muestras y
Inferencia por conclusiones

Población 2

¿Cómo?

Reglas
Estableciendo los mediante
 X −Y
ˆ
 PX − PˆY
Fundamentos de la Inferencia Sˆ 2 − Sˆ 2
 X Y
la aplicación de
Como observamos del esquema, las reglas, se expresan mediante las diferencias de
los datos muestrales.

INTERVALO DE CONFIANZA Y CONTRASTE DE HIPÓTESIS PARA LA


DIFERENCIA DE LA MEDIA POBLACIONAL

Sean X e Y las v.a poblacionales con media µ X y µY , y desviación típica σ X y


σ Y respectivamente. Para determinar el IC para µ X − µY , se toman muestras
aleatorias de tamaño m y n de las distribuciones X e Y respectivamente. Se
consideran los casos en los cuales se conocen o no a σ X y σ Y .

Ahora, µ X − µY es la media de la v.a X − Y . Por tanto, podemos utilizar los


procedimientos que conocemos para una v.a. Además, como X e Y son v.a
independientes, también lo son X e Y , y por ende la varianza de X − Y es la
σ X2 σ Y2
σ X2 −Y = +
suma de las varianzas de X e Y : m n . Aquí hemos supuesto que son
conocidas las varianzas, luego señalamos las generalidades si éstas no son
conocidas.

REGLA 1 (Intervalo de confianza para µ X − µY ; cuando σ X y σ Y son conocidas)

Requisitos: X e Y son v.a independientes con desviaciones típicas conocidas σ X


y σ Y respectivamente, y X e Y están aproximadamente distribuida como una
normal.

Sean: 1 − α = γ el nivel de confianza y los valores 1 2


x , x ,..., xm y , y ,..., yn
de X y 1 2
de Y se obtienen de muestras aleatorias de tamaño m y n , respectivamente.
1 1
x=
m
∑ xi y=
n
∑ yi
Primero, se calculan los valores muestrales e . Entonces,
se pueden aplicar los siguientes pasos:

4. Hallar el valor crítico Z : se halla z* de la v.a normal tipificada Z en la que


γ
P(0 ≤ Z ≤ z * ) =
(
P −z ≤Z ≤ z =γ ⇔
* *
) 2
Estadística 1 247

σ X2 σ Y2
E = z* +
5. Calcular: m n

6. Determinar el intervalo de confianza para µ X − µY : [x − y − E , x − y + E ]

Nota: Observe las analogías y diferencias que hay con la estimación por IC de una
población.

¿Qué ocurre cuando no se conocen las desviaciones típicas?

Cuando se desconocen
σ X y σ Y , podemos asumir dos situaciones: las desviaciones
típicas

1. son iguales

2. no son necesariamente iguales

Sp =
(m − 1)S X2 + (n − 1)SY2
Primera situación: el estadístico m+n−2 , donde

S X2 =
1
∑ (X i − X )2 SY2 = 1 ∑ (Yi − Y )2
m −1 y n −1 , se llama estimador conjunto de la
desviación típica común de X e Y . Si X e Y tienen v.a normales e
X − Y − (µ X − µY )
t=
1 1
Sp +
independientes, se puede demostrar que la v.a m n tiene una
distribución t con m + n − 2 grados de libertad.

REGLA 2 (Intervalo de confianza para µ X − µY ; cuando σ X y σY son


desconocidas pero iguales)

Requisitos: X e Y son v.a independientes, X e Y están aproximadamente


distribuida como una normal. Las desviaciones típicas σ X y σ Y son desconocidas
pero iguales.
Sean: 1 − α = γ el nivel de confianza y los valores 1 2
x , x ,..., xm y , y ,..., yn
de X y 1 2
de Y se obtienen de muestras aleatorias de tamaño n y m , respectivamente.
1 1
x=
m
∑ xi y=
n
∑ yi
Primero, se calculan los valores muestrales , ,
(m − 1)s X2 + (n − 1)sY2
s =
2 1
∑ (xi − x )2 s =
2 1
∑ ( yi − y )2 sp =
X
m −1 ,
Y
n −1 y m+n−2 .
Entonces, se pueden aplicar los siguientes pasos:

t * = tα 2
4. Hallar el valor crítico de t , , de la v.a t con m + n − 2 grados de
(
libertad que satisfaga P − t ≤ t ≤ t = γ
* *
)
1 1
E = t *s p +
5. Calcular m n

6. Determinar el IC para µ X − µY : [x − y − E , x − y + E ]

Segunda situación: Si no se puede asumir que las desviaciones típicas


desconocidas sean iguales, tenemos dos posibilidades

 Muestras pequeñas. En lugar de t, se puede usar la v.a


X − Y − (µ X − µY )
τ=
S X2 SY2
+
m n .

τ no tiene distribución t pero si m ≥ 5 y n ≥ 5 (son moderados), y X e Y se


distribuyen normalmente, entonces se puede aproximar por una v.a t . El números
de grados de libertad, lo determina el mayor número entero ( [k ] ) tal que [k ] ≤ k ,
2
 s X2 sY2 
 + 
k= m n
2 2
1  s X2  1  sY2 
  +  
valor que determinamos con
m − 1  m  n − 1 n .
Estadística 1 249

El IC lo calculamos como en la regla 2 pero el error se determina mediante


s X2 sY2
E = t* +
m n , siendo t * el valor de la v.a t con [k ] grados de libertad que
(
satisface que P − t ≤ t ≤ t = γ
* *
)
 Muestras grandes ( m ≥ 30 y n ≥ 30 ): la v.a τ es aproximadamente la v.a
normal tipificada Z , y el error se calcula mediante la expresión
s X2 sY2
E = z* +
m n ; donde z * es el valor de Z que satisface que
( )
P − z* ≤ Z ≤ z* = γ .

Regla 3 (Contraste de hipótesis del valor P para µ X − µY cuando σ X y σ Y son


conocidas)

Requisitos: X e Y son v.a independientes con desviaciones típicas conocidas σ X


y σ Y respectivamente, y X e Y están aproximadamente distribuida como una
normal.

Sean: α el nivel de significación y x e y valores de X e Y que se obtienen de


muestras aleatorias de tamaño m y n , respectivamente. Entonces, se pueden
aplicar los siguientes pasos:

H 0 : µ X = µ0 Ha
5. Plantear la hipótesis nula y la alternativa .

H0
6. Cálculo del estadístico de contraste: Si es cierta; el estadístico de
X −Y
Z=
σ X2 σ Y2
+
contraste m n es aproximadamente la v.a normal tipificada cuyo
x−y
z=
σ X2 σ Y2
+
valor de contraste es m n .

7. Determinación del valor de P : Con una tabla normal tipificada o un


programa informático hallamos el valor de P del contraste correspondiente
Ha
a para:

 H a : µ X − µY < 0 ⇔ H a : µ X < µY , el valor de P es P(Z ≤ z ) .


 H a : µ X − µY < 0 ⇔ H a : µ X < µY , el valor de P es P(Z ≥ z ) .

P(Z ≤ − z ) + P(Z ≥ z )
 H a : µ X − µY ≠ 0 ⇔ H a : µ X ≠ µY , el valor de P es
2 P(Z ≥ z )
o equivalentemente .

8. Establecer una conclusión: Si el valor P ≤ α , entonces, z y x − y son

estadísticamente significativo al nivel α , y rechazamos


H0
. Si el valor
P > α , entonces ni z ni x − y son estadísticamente significativo al nivel α ,
H0
y no rechazamos .

Regla 3a. (Región crítica, contraste de hipótesis para µ X − µY cuando σ X y


σ Y son conocidas)

Hasta el paso 2, todo es similar a la regla 3.

5. Determinación de la región crítica: Con una tabla normal tipificada o un


Ha
programa informático hallamos la región crítica correspondiente a y
α para:

z ≤ zα 2
 H a : µ X < µY , la región crítica está formada por los valores , donde
zα 2 < 0 P(Z ≤ zα 2 ) = α
es valor que satisface .

z ≥ zα 2
 H a : µ X > µY , la región crítica está formada por los valores , donde
zα 2 > 0 P(Z ≥ zα 2 ) = α
es valor que satisface .

z ≤ − zα 2
 H a : µ X ≠ µY , la región crítica está formada por los valores o
z ≥ zα 2 zα 2 > 0
, donde es valor que satisface
P(Z ≤ − zα 2 ) + P(Z ≥ zα 2 ) = α P (Z ≥ zα 2 ) = α 2
o equivalentemente .

6. Establecer una conclusión: Si el valor de la muestra z del estadístico de


contraste, está en la región crítica, entonces z y x−y son

estadísticamente significativos al nivel α , y rechazamos 0 . Si z no está


H

en la región crítica, entonces z y x−y no son estadísticamente

significativo al nivel α , y no rechazamos 0 .


H
Estadística 1 251

Regla 4. (Valor de P para contraste de hipótesis para µ X − µY siendo σ X y


σ Y desconocidas)

Requisitos: X e Y son v.a independientes con desviaciones típicas desconocidas


pero iguales. X e Y están aproximadamente distribuidas como una normal.

Sea α el nivel de significación para el contraste y supongamos que los valores


x1 , x2 , ..., xm y , y ,..., yn
de X e 1 2 de Y , se obtienen de una muestra aleatoria de
tamaño m y n respectivamente. Primeramente, calculamos los estadísticos de la

x=
1

1
xi y = ∑ yi s X2 =
1
∑ (xi − x )2 sY2 = 1 ∑ ( yi − y )2
muestra: m , n , m −1 , n −1 y

sp =
(m − 1)s X2 + (n − 1)sY2
m+n−2 . Hacemos el siguiente procedimiento:

H 0 : µ X = µY Ha
5. Plantear la hipótesis nula y la alternativa .

H0
6. Cálculo del estadístico de contraste: Si es cierta; entonces, el estadístico
X −Y
t=
1 1
Sp +
de contraste m n , es aproximadamente la v.a. t con m + n − 2
x−y
tˆ =
1 1
sp +
grados de libertad cuyo valor del contraste es m n .

7. Determinación del valor de P : Con una tabla de t o un programa


informático, para la v.a t con m + n − 2 grados de libertad, hallamos el valor
H
de P del contraste correspondiente a a para:

 H a : µ X < µY , el valor de P es P(t ≤ t ) .


ˆ

 H a : µ X > µY , el valor de P es P(t ≥ t ) .


ˆ

 H a : µ X ≠ µY , el valor de P es
(
P t ≤ − tˆ + P t ≥ tˆ ) ( ) o equivalentemente
(
2 P t ≥ tˆ ).
8. Establecer una conclusión: Si el valor P ≤ α , entonces, tˆ y x − y son

estadísticamente representativos a nivel α , y rechazamos


H0
. Si el valor
P > α , entonces ni tˆ ni x − y son estadísticamente representativos a nivel
α , y no rechazamos
H0
.

Regla 4a. (Región crítica, contraste de hipótesis para µ X − µY siendo σ X y


σ Y desconocidas)

Hasta el paso 2, todo es similar a la regla 2.

5. Determinación de la región crítica: Con una tabla normal tipificada o un


Ha
programa informático hallamos la región crítica correspondiente a y
α para:

t ≤ tα 2
 H a : µ X < µY , la región crítica está formada por los valores , donde
tα 2 < 0 P (t ≤ tα 2 ) = α
es valor que satisface .

t ≥ tα 2
 H a : µ X > µY , la región crítica está formada por los valores , donde
tα 2 > 0 P (t ≥ tα 2 ) = α
es valor que satisface .

 H a : µ X ≠ µY , la región crítica está formada por los valores de tˆ , donde


tα 2 > 0 P(t ≤ −tα 2 ) + P(t ≥ tα 2 ) = α
es valor que satisface o
P(t ≥ tα 2 ) = α 2
equivalentemente .

6. Establecer una conclusión: Si el valor de la muestra tˆ , del estadístico de


contraste, está en la región crítica, entonces tˆ y x − y son estadísticamente

significativos al nivel α , y rechazamos 0 . Si tˆ no está en la región crítica,


H

entonces tˆ y x − y no son estadísticamente significativos al nivel α , y no


H0
rechazamos .

INTERVALOS DE CONFIANZA Y CONTRASTE DE HIPÓTESIS PARA LA


DIFERENCIA DE PROPORCIONES DE DOS POBLACIONES

En este caso, los éxitos se pueden representar por modelos de experimentos

binomiales independientes B (n1 , p1 ) y B (n2 , p2 ) , en las que los i (donde i = 1, 2 )


p

pruebas que forman los i − ésimos


ni
son las probabilidades de éxitos en las
Estadística 1 253

ni
experimentos. El conjunto de todas las posibles proporciones de éxitos en las (en

el cual i = 1,2 ) de cada experimento define la v.a i con media i y varianza


P̂ p

pi (1 − pi ) ni µ ˆ ˆ = p1 − p2
. Así, la media de P1 − P2 es P1 − P2
ˆ ˆ
y teniendo en cuenta la
pˆ1 (1 − pˆ1 ) pˆ 2 (1 − pˆ 2 )
σ2 = +
independencia, la varianza de P1 − P2 es
ˆ ˆ Pˆ1 − Pˆ2
n1 n2 p̂
. Los i son

los valores muestrales de los i que se obtienen muestras aleatorias grandes e
independientes de las poblacionales binomiales.

H : p − p =0
En los contrastes de hipótesis, a diferencia de los IC, donde 0 1 2 , se
combinan datos muestrales con el fin de obtener una proporción muestral conjunta
p̂ , que en términos de valores muestrales p̂i , se puede calcular como una media,
n pˆ + n pˆ
pˆ = 1 1 2 2
n
ponderada según los valores i :
n1 + n2 .

Si los tamaños de las muestras son iguales, la media ponderada se simplifica.


Sustituyendo p1 y p2 por p̂ en la expresión para la varianza de la diferencia
1 1
σ2 = pˆ (1 − pˆ ) + 
Pˆ1 − Pˆ2 , se puede estimar con Pˆ1 − Pˆ2
 n1 n2  .

REGLA 5 (Intervalo de confianza para p1 − p2 )

Requisitos: Los tamaños de las muestras son grandes: n1 ≥ 30 y n2 ≥ 30 .

Sean: γ el nivel de confianza y que un valor i de i (siendo i = 1, 2 ) se obtiene


p̂ P̂
ni ≥ 30
de una muestra aleatoria de tamaño . Entonces, se pueden aplicar los
siguientes pasos:

z = z*
1. Hallar el valor crítico Z : se halla α 2 de la v.a normal tipificada Z en
γ
P(0 ≤ Z ≤ z * ) =
(
la que P − z ≤ Z ≤ z = γ ⇔
* *
) 2
pˆ1 (1 − pˆ1 ) pˆ 2 (1 − pˆ 2 )
E = z* +
n1 n2
2. Calcular:

3. Determinar el intervalo de confianza para p1 − p2 : [ p1 − p2 − E , p1 − p2 + E ] .


ˆ ˆ ˆ ˆ

REGLA 6 (Valor P , contraste de hipótesis para p1 − p2 )


ˆ ˆ

Requisitos: Los tamaños de las muestras son grandes: n1 ≥ 30 y n2 ≥ 30 .

Sean: α el nivel de significación y que un valor i de i (siendo i = 1, 2 ) se


p̂ P̂
ni ≥ 30
obtiene de una muestra aleatoria de tamaño . Primeramente, calculamos
n1 pˆ1 + n2 pˆ 2
pˆ =
n1 + n2 . Entonces, se pueden aplicar los siguientes pasos:

H 0 : p1 − p2 = 0 Ha
1. Plantear la hipótesis nula y la alternativa .

H0
2. Cálculo del estadístico de contraste: Si es cierta; entonces, el estadístico
Pˆ1 − Pˆ2
Z=
1 1
pˆ (1 − pˆ )  + 
de contraste  n1 n2  , es aproximadamente la v.a.
pˆ1 − pˆ 2
z=
1 1
pˆ (1 − pˆ )  + 
tipificada. El valor del contraste es  n1 n2  .

3. Determinación del valor de P : Con una tabla normal tipificada o un


programa informático, hallamos el valor de P del contraste correspondiente
Ha
a para:

 H a : p1 < p2 , el valor de P es P(Z ≤ z ) .

 H a : p1 > p2 , el valor de P es P(Z ≥ z ) .

P(Z ≤ − z ) + P(Z ≥ z )
 H a : p1 ≠ p2 , el valor de P es o equivalentemente
2 P(Z ≥ z )
.
Estadística 1 255

4. Establecer una conclusión: Si el valor P ≤ α , entonces, z y p1 − p2 son


ˆ ˆ

estadísticamente significativos al nivel α , y rechazamos


H0
. Si el valor
P > α , entonces ni z ni pˆ1 − pˆ 2 son estadísticamente representativos al

nivelα H0
, y no rechazamos .

REGLA 6a. (Región crítica, contraste de hipótesis para p1 − p2 )


ˆ ˆ

Hasta el paso 2, todo es similar a la regla 6.

3. Determinación de la región crítica: Con una tabla normal tipificada o un

y α
Ha
programa informático hallamos la región crítica correspondiente a
para:

z ≤ zα 2 = z *
 H a : p1 < p2 , la región crítica está formada por los valores ,
zα 2 < 0 P(Z ≤ zα 2 ) = α
donde es valor que satisface .

H a : p1 > p2 z ≥ zα 2
 , la región crítica está formada por los valores , donde
zα 2 > 0 P(Z ≥ zα 2 ) = α
es valor que satisface .

z ≤ − zα 2
 H a : p1 ≠ p2 , la región crítica está formada por los valores o
z ≥ zα 2 zα 2 > 0
, donde es valor que satisface
P(Z ≤ − zα 2 ) + P(Z ≥ zα 2 ) = α P (Z ≥ zα 2 ) = α 2
o equivalentemente .

4. Establecer una conclusión: Si el valor de la muestra z del estadístico de


contraste, está en la región crítica, entonces z y pˆ1 − pˆ 2 son

estadísticamente significativos al nivel α , y rechazamos 0 . Si z no está


H

en la región crítica, entonces z pˆ1 − pˆ 2 no son estadísticamente


y

significativo al nivel α , y no rechazamos 0 .


H

INTERVALOS DE CONFIANZA Y CONTRASTE DE HIPÓTESIS PARA LOS


RATIOS DE VARIANZA DE DOS POBLACIONES

De la misma manera que hemos hecho en los casos anteriores, podemos definir la

v.a que sea la diferencia de σ X y σ Y . Sin embargo, la distribución de probabilidad


2 2
de σ X − σ Y es complicada. En su lugar, utilizamos otra distribución menos
2 2

complicada que nos puede dar información acerca de dos poblaciones cuando
interese el trabajo con la v.a de la varianza.

REGLA 7 (Intervalos de confianza para σ X2 σ Y2 cuando µ X y µY


desconocidas)

Requisitos: Las v.a X e Y son independientes y están aproximadamente


distribuidas como una normal.

Sean: 1 − α = γ el nivel de confianza y los valores 1 2


x , x ,..., xm y , y ,..., yn
de X y 1 2
de Y se obtienen de muestras aleatorias independientes de tamaño n y m ,
1
x=
m
∑ xi
respectivamente. Primero, se calculan los valores muestrales ,

y=
1
∑ yi s X2 =
1
∑ (xi − x )2 sY2 =
1
∑ ( yi − y )
2

n , m − 1 , y n − 1 . Entonces, se pueden
aplicar los siguientes pasos:
* *
1. Hallar los valores críticos de F : Hallar los valores de F1 y F2 que cumplan
1+ γ 1+ γ
[ ]
P F (m − 1, n − 1) ≤ F1* =
2 y
[ ]
P F (n − 1, m − 1) ≤ F2* =
2

 1 s X2 1 s X2 
 F * × s2 , F * × s2 
2. Determinar el IC  1 Y 2 Y 
.

REGLA 8 (Valor P del contraste de hipótesis para σ X σ Y cuando µ X y µY


2 2

desconocidas)

Requisito: X e Y están aproximadamente distribuidas como una normal.

Sean: 1 − α = γ el nivel de confianza y los valores 1 2


x , x ,..., xm y , y ,..., yn
de X y 1 2
de Y se obtienen de muestras aleatorias independientes de tamaño n y m ,
1
x=
m
∑ xi
respectivamente. Primero, se calculan los valores muestrales ,

y=
1
∑ yi s X2 =
1
∑ (xi − x )2 sY2 =
1
∑ ( yi − y )2
n , m −1 , y n −1 . Entonces, se pueden
aplicar los siguientes pasos:
Estadística 1 257

H0 : σ X = σY Ha
1. Plantear la hipótesis nula y la alternativa .

H0
2. Cálculo del estadístico de contraste: Si es cierta; el estadístico de
2
S X

es aproximadamente la v.a F (m − 1, n − 1) cuyo valor de


2
contraste
S Y

s X2
s2
contraste es Y .

3. Determinación del valor de P : Con una tabla F o un programa informático,


H
hallamos el valor de P del contraste correspondiente a a para:

σ X2  s X2 
< P  F (m − 1, n − 1) ≤
sY2 
Ha : 1
σ Y2 ⇔ H a : σ X < σ Y , el valor de P es 
2 2
 .

σ X2  s X2 
Ha : 2 > 1 P  F (m − 1, n − 1) ≥ 2 
σ ⇔ H a : σ X2 > σ Y2 sY 
 Y , el valor de P es  .

σ X2
Ha : ≠1
σ Y2 ⇔ Ha :σ X ≠ σY ,
2 2
 el valor es
  s X2  s X2
2 P  F (m − 1, n − 1) ≤ , si <1
  sY2  sY2

2 P  F (m − 1, n − 1) ≥ s X2 
, si
s X2
>1
  sY2  sY2
.

4. Establecer una conclusión: Si el valor P ≤ α , entonces, el contraste es

estadísticamente significativo al nivel α , y rechazamos


H0
. Si el valor
P > α , entonces el contraste no es estadísticamente significativo al nivel α ,
H0
y no rechazamos .

REGLA 8a. (Región crítica, contraste de hipótesis para σ X σ Y cuando µ X y


2 2

µY desconocidas)

Hasta el paso 2, todo es similar a la regla 8.


3. Determinación de la región crítica: Con una tabla normal tipificada o un

y α
Ha
programa informático hallamos la región crítica correspondiente a
para:

H a : σ X2 < σ Y2
 , la región crítica está formada por todos los valores muestrales
2
sY
2
≥ F*
sX , donde F* es el valor de F que cumple
[
P F (n − 1, m − 1) ≤ F = 1 − α .
*
]
 H a : σ X < σ Y , la región crítica está formada por todos los valores muestrales
2 2

sY2
2
≥ F*
sX , donde F* es el valor de F que cumple
[
P F (n − 1, m − 1) ≤ F = 1 − α .
*
]
H a : σ X2 < σ Y2
 , la región crítica está formada por todos los valores muestrales
2
sY
2
≥ F*
sX , donde F* es el valor de F que cumple
[
P F (n − 1, m − 1) ≤ F = 1 − α .
*
]
4. Establecer una conclusión: Si el valor de la muestra z del estadístico de
contraste, está en la región crítica, entonces z y pˆ1 − pˆ 2 son

estadísticamente significativos al nivel α , y rechazamos 0 . Si z no está


H

en la región crítica, entonces z pˆ1 − pˆ 2 no son estadísticamente


y

significativo al nivel α , y no rechazamos 0 .


H

Bibliografía

S.Lipschutz y J. Schiller, “Introducción a la probabilidad y estadística”. Ed. Mc Graw


Hill, 2000.

Orientaciones al estudio individual

Estudiar la teoría del capítulo 10 del texto citado. Observará la similitud y diferencias
que tiene la inferencia de dos poblaciones con el caso de una población. Las reglas
que se utilizan lo evidencian.

Los esquemas que se presentan arriba tienen la función de orientarlo a que se está
haciendo lo mismo. Desde luego, se deben observar matices.
Estadística 1 259

14. ANALISIS DE VARIANZA

CONTRASTE CHI CUADRADO

Existen multitud de situaciones en las que un investigador está interesado en saber


cómo se aproximan los datos experimentales a los valores esperados en un modelo
de probabilidad. En tales propósitos se utilizan los contrastes asociados con el

estadístico χ . En general, este tipo de test consiste en tomar una muestra y


2

observar si hay diferencia significativa entre las frecuencias observadas y las


especificadas por la ley teórica del modelo que se contrasta, también denominadas
“frecuencias esperadas”.

Además del uso de este tipo de test con el estadístico χ , el mismo se puede
2

emplear en contraste de

 homogeneidad de muestras cualitativas


 independencia de variables cualitativas

CONTRASTE CHI CUADRADO DE BONDAD DE AJUSTE

Hemos trabajado las pruebas de hipótesis estadísticas de los parámetros de una


sola población. Ahora, nos interesa una prueba para determinar si una población
tiene una distribución teórica específica.

El contraste proporciona una herramienta técnica que permite comparar el número


esperado de resultados de un experimento con el número real de resultados que se
obtienen al realizarlo.

ai (i = 1,2,..., k )
Teorema 1. Sean los resultados posibles de un experimento con
pi
sus respectivas probabilidades y para cada realización de n pruebas
npi ai
independientes de un experimento, es el número esperado de que salga ,
k

∑f i =n
np ≥ 5
donde i =1 . Entonces, para grandes valores de n ( i ), la v.a
χ =∑
2
k
( fi − npi )2
i =1 npi

se aproxima a una chi cuadrado con k − 1 grados de libertad.

Hipótesis nula y estadístico de contraste

p
Se debe tener en cuenta que al aplicar el teorema 1, las i son desconocidas pero
podemos hacer conjeturas de sus valores con un modelo de probabilidad. La
hipótesis nula es

H 0 = P(a1 ) = p1 , P(a2 ) = p2 , P(ak ) = pk


…,

Se recogen los datos del experimento y se calcula un valor χ̂ del estadístico de


2

contraste χ . Si χ = 0 entonces, los datos del experimento son exactamente


2
ˆ2

iguales a los valores esperados supuestos. Por tanto, cuanto más pequeño sea χ̂ ,
2

hay más aceptación de la hipótesis nula; en caso contrario, menos aceptación tiene
la hipótesis nula.

Variable aleatoria multinomial

Aquí se realizan n experimentos independientes (con las mismas probabilidades)

que tienen k posibles resultados i (i = 1,2,..., k ) . La v.a i es el número de veces


a X
ai X , X ,..., X k
que sale en las n pruebas, y las v.a 1 2 , tomadas en conjunto se
denominan v.a multinomial ( X ). Estas v.a no son independientes.

Contraste: valor P y región crítica

Elementos a tener en cuenta:

 Realizar un experimento con n pruebas independientes y determinar las


k

ai ∑f
i =1
i =n
frecuencias de los resultados , / .

 Calcular el valor del contraste χ̂ de la anterior χ .


2 2
Estadística 1 261

( )
 El valor de P del contraste es P χ ≥ χ̂ , si la hipótesis nula fuera cierta.
2 2

Se ha asumido que hay k − 1 grados de libertad.

 Si P ≤ α , H 0 se rechaza; en caso contrario, se acepta.

EQUIVALENTEMENTE

 La región crítica la componen todos los valores


χ 2 ≥ χ * = χ crítico que

satisfacen P χ ≥ χ = α
2 *
( )
 H 0 se rechaza si χ̂ está en la región crítica; en caso contrario, se acepta.
2

H a : P(ai ) ≠ pi
Nota: es multidireccional en términos de las k probabilidades
P(ai ) Ha ⇔
. No obstante, el contraste es unilateral en la v.a chi cuadrado ( a la

hipótesis
χ ≥ χ = χ crítico )
2 *

Ejemplo 1. Se lanza un dado 120 veces y se registra cada resultado


como se indica en la tabla:

Cara 1 2 3 4 5 6

fj 20 22 17 18 19 24
Frecuencia ( )

Se quiere saber si el dado está trucado. Considere un contraste con un nivel de


significación de 0,05.

Solución.

H
Se asume que el dado no está trucado ( 0 ). Asumimos un contraste chi cuadrado
de bondad de ajuste al nivel de significación.

1 1
pi = npi = 120 × = 20 ≥ 5
Si el dado no está trucado, 6 . El número esperado es 6
(muestra grande). El valor del contraste es
χ =∑
2
6
( f i − npi )2 = (20 − 20)2 + (22 − 20)2 + (17 − 20 )2 + (18 − 20)2 + (19 − 20)2 + (24 − 20)2 = 1,7
i =1 npi 20 20 20 20 20 20

Con una tabla, para 5 grados de libertad, encontramos que el valor crítico es
χ 02, 05 = 11,070 H0
. Como 1,7<11,070; entonces, no se rechaza . Hay suficiente
evidencia de que el dado no está trucado.

Nota. La tabla anterior se puede sustituir por una de frecuencias observadas y


esperadas.

Ejemplo 2 (otra aplicación). Se quiere averiguar si la hipótesis de que


la distribución de frecuencias, de la duración de resistencias eléctricas sometidas a
un calentamiento se distribuye según una relación normal con media µ = 3,5 y
desviación estándar σ = 0,7 . Las frecuencias observadas se presentan en la
siguiente tabla:

Límite de clases fi

1.45 - 1.95 2
1.95 - 2.45 
17
2.45 - 2.95 4

2.95-3.45 15

3.45-3.95 10

3.95 - 4.45 5
8
4.45 - 4.95 3
Estadística 1 263

Solución. Para aplicar el teorema 1, debemos determinar los valores esperados.


Resulta conveniente determinar las frecuencias esperadas y expresarlos en una
tabla.

H
Si tomamos como 0 : que la distribución de la duración es normal, entonces las
probabilidades las determinamos tipificando la v.a y los valores límites de clase. Por
ejemplo, elegimos los límites de la quinta clase:

Área bajo la curva = P( z1 < Z < z2 )

donde

3,45 − 3,5 3,95 − 3,5


z1 = = −0,07 z2 = = 0,64
0,7 y 0,7 .

P( z1 < Z < z2 ) = P(− 0.07 < Z ) + P(Z < 0,64) = 0,0279 + 0,2389 = 0,2668

f esp = 0,2668 × 40 ≈ 10,7


Por tanto, la frecuencia esperada para la quinta clase es

¿Cómo usted calcula los otros valores de frecuencias esperadas? Compruebe que
estos valores son los que se muestran en la tabla siguiente:

Límite de clases fi f esp

1.45 - 1.95 2 0,5


1.95 - 2.45  
17 2,18,5
2.45 - 2.95 4 5,9

2.95-3.45 15 10,3

3.45-3.95 10 10,7

3.95 - 4.45 5 7,0


8 10,5
4.45 - 4.95 3 3,5 
Debido a la existencia de frecuencias esperadas menores que 5, se combinan las
clases adyacentes y de siete la reducimos a cuatro, con lo cual escribimos:

χ =∑
2
4 (f i − f i −esp )
2

=
(7 − 8,5)2 + (15 − 10,3)2 + (10 − 10,7 )2 + (8 − 10,5)2 = 3,05
i =1 f i−esp 8,5 10,3 10,7 10,5

χ 02, 05 = 7,815
Para 3 grados de libertad, el valor crítico es , el cual es mayor que el

valor calculado χ = 3,05 . Luego, no tenemos razón para rechazar 0 y podemos


2
H

concluir que la distribución normal con media µ = 3,5 y desviación estándar


σ = 0,7 hace un buen ajuste a la duración de las resistencias eléctricas sometidas
al calentamiento.

PRUEBA DE INDEPENDENCIA (DATOS CATEGÓRICOS)

Otra aplicación de la χ la encontramos en la prueba de la hipótesis de


2

independencia de dos variables de clasificación. Veamos un ejemplo para su mejor


entendimiento:

Ejemplo 3. Se implementa una tecnología para fabricar dispositivos con


más rendimiento de trabajo. Si se toma una muestra aleatoria de 1000 técnicos,
observamos que se clasifican según la valoración que hacen del rendimiento en alto,
medio y bajo, y si manifiestan preferencia o discrepancia en la implementación de la
tecnología. Se ha elaborado una tabla de contingencia 2 × 3 para las frecuencias
observadas:

Tabla de contingencia 2 × 3

Nivel de rendimiento
Frecuencia marginal
Cambio de tecnología Alto Medio Bajo
Total

Personas que prefieren 210 217 170 597


Estadística 1 265

Personas que discrepan 100 143 160 403

Total 310 360 330 1000

Frecuencia marginal

¿Es la opinión de un técnico independiente respecto al nivel de rendimiento y la


tecnología de fabricación implementada?

H :
Solución. Sea 0 independencia entre la opinión de un técnico con respecto a la
tecnología implementada y el nivel de rendimiento de los dispositivos.
Seleccionemos un nivel de significación α = 0,05 .

H
La aceptación o no de 0 depende del buen ajuste entre los valores de frecuencias
observados y esperados.

La aplicación del teorema 1 requiere el conocimiento de la frecuencia esperada.


Entonces, se definen los eventos acordes:

 al nivel de rendimiento del dispositivo:

 A : Persona seleccionada que lo considera alto

 M : Persona seleccionada que considere medio

 B : Persona seleccionada que considere bajo

 a la implementación de la tecnología

 P : Persona seleccionada que la prefiere

 D : Persona seleccionada que discrepa

Las estimaciones de probabilidad se pueden calcular con las frecuencias marginales


P ( A) = P(M ) = P (B ) = P (P ) = P (D ) =
310 360 330 597 403
1000 , 1000 , 1000 , 1000 , 1000

H0
Si es verdadera y las dos variables son independientes, se debe tener:

P( A ∩ P ) = P( A)P(P ) =
310 597
1000 1000 ,

P( A ∩ D ) = P( A)P(P ) =
310 403
1000 1000 ,

P(M ∩ P ) = P(M )P(P ) =


360 597
1000 1000 ,

P(M ∩ D ) = P(M )P(D ) =


360 403
1000 1000 ,

P(B ∩ P ) = P(B )P(P ) =


330 597
1000 1000 ,

P(B ∩ D ) = P(B )P(D ) =


330 403
1000 1000 .

Para obtener las frecuencias esperadas, multiplicamos las probabilidades por el


310 597
f esp = 1000 ≈ 185.1
número total de observaciones. Por ejemplo: 1000 1000

Podemos señalar que la expresión para calcular la frecuencia esperada es

f esp =
(total de la columna ) × (total de la fila )
gran total

Así, planteamos la tabla anterior con las frecuencias esperadas calculadas

Frecuencias observadas (esperadas)


Estadística 1 267

Nivel de rendimiento

Cambio de tecnología Alto Medio Bajo


Total

f (f ) esp f (f )
esp f (f ) esp

Personas que 210 (185,1) 217 170 597


prefieren (215,0) (197,0)

Personas que 100 (125,0) 143 160 403


discrepan (145,1) (133,0)

Total 310 360 330 1000

La determinación del número de grados de libertad se calcula con

grados de libertad = (r − 1)(c − 1)

donde r y c representan el número de filas y columnas respectivamente. En este


caso hay 2 grados de libertad.

χ =∑
2
(f i − f i −esp )
2

H0 i f i−esp
La prueba de independencia la hacemos con . La suma se

extiende a todas las celdas rc de la tabla de contingencia r × c . Si


χ 2 > χα2 con
grados de libertad = (r − 1)(c − 1) , se rechaza H 0 al nivel de significación α ; en
caso contrario se acepta. Así,

χ2 =
(210 − 185,1)2 + (217 − 215,0)2 + (170 − 197,0 )2 + (100 − 125,0)2
185,1 215,0 197,0 125,0

+
(143 − 145,1) (160 − 133,0 )
2
+
2
≈ 17,6
145,1 133,0

Con una tabla, teniendo en cuenta que hay 2 grados de libertad, encontramos que
χ 02, 05 = 5,991 χ2 > χ2
0 , 05 H
. Como , se rechaza 0 . Entonces, se concluye que la

opinión de un técnico no es independiente respecto al nivel de rendimiento y la


tecnología de fabricación implementada.
Nota. Hemos utilizado la distribución χ discreta. La continua aproxima muy bien a
2

esta última porque el número de grados de libertad es mayor que 1. En una tabla
de contingencia de 2 × 2 se aplica la corrección de Yates para continuidad:

χ2 = ∑
(f − f
i i −esp − 0,5 )
2

i f i−esp
.

Cuando las frecuencias de las celdas esperadas:

 Son grandes, los resultados corregidos y sin corregir son los mismos.
 Están entre 5 y 10 se debe usar la corrección de Yates.

 Son menores que 5 se utiliza la prueba de exacta de Fisher-Irwin –no la


veremos en el curso.

CONTRASTE CHI CUADRADO DE DISTRIBUCIONES HOMOGÉNEAS

Hemos usado la v.a chi cuadrado para contrastar si los datos de un experimento
estaban de acuerdo con una hipotética distribución de probabilidad. Además, es
posible usarla también para contrastar si dos o más v.a independientes
multinomiales con los mismos resultados tienen las mismas distribuciones de
probabilidad.

Ejemplo 4.

Las categorías de un deporte determinado constan de 250 hombres y 210 mujeres y


se distribuyen como se indica en la tabla siguiente:

Categoría

Primera Segunda Tercera Cuarta Quinta Totales


(P) (S) (T) (C) (Q)

Género Hombres 35 42 85 48 40 250

Mujeres 28 50 77 35 20 210
Estadística 1 269

Utilice la v.a chi cuadrado, al nivel de significación del 0,05, para contrastar que la
distribución de las categorías es la misma.

Solución.

Con las frecuencias conjuntas de los m = 250 hombres y n = 210 mujeres en cada
categoría, se obtienen las estimaciones de las probabilidades:

p̂P =

ANÁLISIS DE VARIANZAS

Al igual que el contraste χ generalizaba el contraste de dos proporciones, es


2

necesario definir un nuevo contraste de hipótesis que sea aplicable en situaciones


en las que el número de medias que se quiera comparar sea superior a dos. El
análisis de la varianza (ANOVA) surge como una generalización del contraste
para dos medias de la t de Student, cuando el número de muestras a contrastar es
mayor que dos.

El ANOVA es una colección de situaciones experimentales y procedimientos


estadísticos para el análisis de respuestas cuantitativas de unidades experimentales
(individuos u objetos). El problema ANOVA más simple se conoce como ANOVA de
un solo factor y está relacionada con el análisis de datos muestreados de más de
dos poblaciones numéricas (distribuciones) o de datos de experimentos en los que
se han usado más de dos tratamientos. La característica distintiva de los
tratamientos o poblaciones entre sí se conocen como el factor bajo estudio y los
diferentes tratamientos o poblaciones son conocidos como niveles del factor.

ANOVA de un solo factor

Se denomina modelo factorial con un factor o ANOVA con un factor al modelo


(lineal) en el que la variable analizada la hacemos depender de un solo factor de tal
manera que las causas de su variabilidad se engloban en una componente aleatoria
que se denomina error experimental:

X = factor ± error
Éste análisis se centra en la comparación de más de dos medias poblacionales o
tratamiento.

µ
Consideremos a I el número de poblaciones o tratamientos que se comparan y i
la media de la población i o la respuesta promedio real cuando se aplica el
tratamiento i ; donde i = 1, 2, ..., I .

Las hipótesis son

H 0 = µ1 = µ 2 = ⋅ ⋅ ⋅ = µ I

Ha :
Por lo menos dos
µi son diferentes

Una prueba de estas hipótesis necesita la disponibilidad de una muestra aleatoria de


cada población o tratamiento.

Ejemplo 1.

Solución.

Se necesita un procedimiento de prueba formal.

Das könnte Ihnen auch gefallen