Sie sind auf Seite 1von 185

APUNTES DE MÉTODOS ESTADÍSTICOS 1

ÍNDICE

Tema 1. Fenómenos aleatorios..................................................................................................... 6


CAPÍTULO I:.................................................................................................................................. 7
Fenómenos Aleatorios .................................................................................................................. 7
I.1.- FENÓMENO ALEATORIO. CONCEPTO........................................................................... 8
I.1.1.- Impredecibilidad de los resultados .............................................................................. 8
I.1.2.- Repetitividad del fenómeno. Enfoques clásico y bayesiano...................................... 10
I.1.3.- Definición de fenómeno aleatorio .............................................................................. 11
I.1.4. - Regularidad Estadística ............................................................................................ 11
I.2. - LA ESTADÍSTICA............................................................................................................ 12
Tema 2. Conceptos de probabilidad ........................................................................................... 14
CAPÍTULO II:............................................................................................................................... 15
Concepto de Probabilidad ........................................................................................................... 15
II.1.- INTRODUCCIÓN............................................................................................................. 16
II.2.- PROBABILIDAD .............................................................................................................. 17
II.2.1.- Probabilidad frecuencialista...................................................................................... 17
II.2.2.- Probabilidad objetiva o lógica. .................................................................................. 17
II.2.3.- Probabilidad subjetiva o bayesiana .......................................................................... 18
II.3.- ESPACIOS DE PROBABILIDADES................................................................................ 18
II.3.1.- Espacio Muestral .......................................................................................................... 19
II.3.2.- Definición axiomática de probabilidad.......................................................................... 20
II.3.3.- Definición de Espacio de Probabilidades ................................................................. 22
II.4.- PROBABILIZACIÓN DE ESPACIOS MUESTRALES..................................................... 22
II.4.1.- Espacios Muestrales finitos ...................................................................................... 22
II.4.2.- Espacios Muestrales infinitos numerables................................................................ 23
II.4.3.- Espacios Muestrales de la potencia del continuo..................................................... 24
Tema 3. Probabilidad condicional ............................................................................................... 25
CAPITULO III............................................................................................................................... 26
Probabilidad Condicional............................................................................................................. 26
III.1.- INTRODUCCION............................................................................................................ 27
III.2.- PROBABILIDAD CONDICIONAL................................................................................... 27
III.2.1.- Definición ................................................................................................................. 29
III.2.2.- Propiedades............................................................................................................. 29
III.3. - TEOREMA DE LA INTERSECCION ............................................................................. 30
III.4.- TEOREMA DE LA PARTICIÓN O DE LA PROBABILIDAD TOTAL .............................. 31
III.5.- SUCESOS INDEPENDIENTES ..................................................................................... 33
III.5.1. - Definición ................................................................................................................ 33
III.5.2. - Propiedades............................................................................................................ 34
III.6. - TEOREMA DE BAYES.................................................................................................. 34
Tema 4. Variables aleatorias....................................................................................................... 37
CAPÍTULO IV: ............................................................................................................................. 38
Variables Aleatorias Unidimensionales....................................................................................... 38
IV.1.- CONCEPTO DE VARIABLE ALEATORIA UNIDIMENSIONAL..................................... 39
IV.1.1.-Definición de variable aleatoria unidimensional ....................................................... 39
IV.1.2.- Función de distribución ........................................................................................... 40
IV.1.3.- Analogía mecánica .................................................................................................. 41
IV.1.4.- Variables discretas .................................................................................................. 41
IV.1.5.- Variables continuas ................................................................................................. 43
IV.2. FUNCIONES DE VARIABLES ALEATORIAS ................................................................ 44
IV.3.- ESPERANZA MATEMÁTICA......................................................................................... 46
IV.3.1.- Introducción ............................................................................................................. 46
IV.3.2.- Concepto ................................................................................................................. 47
IV.3.3.- Propiedades ............................................................................................................ 48
IV.4.- MOMENTOS .................................................................................................................. 50
IV.4.1.- Concepto ................................................................................................................. 50
IV.4.2.- Propiedades ............................................................................................................ 50
IV.5.- VARIANZA ..................................................................................................................... 51
IV.5.1.- Concepto ................................................................................................................. 51
IV.5.2.- Propiedades ............................................................................................................ 51
IV.6.- TEOREMA DE TCHEBYCHEFF.................................................................................... 53
IV.7.- PARÁMETROS DE UNA DISTRIBUCIÓN. ................................................................... 54
IV.7.1.- Parámetros de posición........................................................................................... 54
IV.7.2.- Parámetros de dispersión ....................................................................................... 55
IV.7.3.- Parámetros de asimetría ......................................................................................... 55
IV.7.4.- Parámetros de apuntamiento .................................................................................. 56
Tema 5.Variables aleatorias discretas ........................................................................................ 57
CAPITULO V: .............................................................................................................................. 58
Principales Distribuciones Discretas ........................................................................................... 58
V.1.- VARIABLE DICOTÓMICA............................................................................................... 59
V.1.1.- Definición.................................................................................................................. 59
V.1.2.- Valor medio .............................................................................................................. 59
V.1.3.- Varianza ................................................................................................................... 59
V.2.- VARIABLE BINOMIAL .................................................................................................... 59
V.2.1.- Definición.................................................................................................................. 59
V.2.2.- Ley de probabilidades .............................................................................................. 60
V.2.3.- Media ........................................................................................................................ 62
V.2.4.- Varianza ................................................................................................................... 62
V.2.5.- Adición ...................................................................................................................... 63
V.3.- TEOREMA DE BERNOUILLI.......................................................................................... 63
V.4.- DISTRIBUCION DE POISSON....................................................................................... 65
V.4.1.- Definición.................................................................................................................. 65
V.4.2.- Ley de probabilidades .............................................................................................. 65
V.4.3.- Media ........................................................................................................................ 67
V.4.4.- Varianza ................................................................................................................... 67
V.4.5.- Adición ...................................................................................................................... 68
V.5.- VARIABLE HIPERGEOMÉTRICA .................................................................................. 68
V.5.1.- Definición.................................................................................................................. 68
V.5.2.- Ley de probabilidades .............................................................................................. 69
V.5.3.- Convergencia ........................................................................................................... 70
V.6.- VARIABLE BINOMIAL NEGATIVA ................................................................................. 70
V.6.1.- Definición.................................................................................................................. 70
V.6.2.- Ley de probabilidades .............................................................................................. 70
V.6.3.- Media y Varianza...................................................................................................... 71
V.7.- VARIABLE K-ARIA.......................................................................................................... 72
V.7.1.- Definición.................................................................................................................. 72
V.7.2.- Vector de medias y Matriz de varianzas-covarianzas.............................................. 73
V.8.- VARIABLE MULTINOMIAL ............................................................................................. 73
V.8.1.- Definición.................................................................................................................. 73
V.8.2.- Ley de probabilidades .............................................................................................. 74
V.8.3.- Vector de medias y Matriz de varianzas-covarianzas.............................................. 74
Tema 6. Variables aleatorias continuas unidimensionales ......................................................... 76
CAPITULO VI: ............................................................................................................................. 77
Principales distribuciones continuas. .......................................................................................... 77
VI.1.- INTRODUCCION ........................................................................................................... 78
VI.2.- VARIABLE NORMAL TIPIFICADA ................................................................................ 78
VI.2.1.- Definición................................................................................................................. 78
VI.2.2.- Representación gráfica de fZ(z)............................................................................... 78
VI.2.3.- Media y Varianza..................................................................................................... 80
VI.2.5.- Manejo de tablas ..................................................................................................... 80
VI.2.6.- Nomenclatura .......................................................................................................... 80
VI.3.- DISTRIBUCION NORMAL GENERAL........................................................................... 80
VI.3.1.- Definición................................................................................................................. 81
VI.3.2.- Función de densidad ............................................................................................... 81
VI.3.3.- Adición..................................................................................................................... 82
VI.3.5.- Manejo de tablas ..................................................................................................... 82
VI.4.- TEOREMA CENTRAL DEL LIMITE............................................................................... 83
VI.4.1.- Teorema de Lindenberg-Levy ................................................................................. 83
VI.5.- APROXIMACIONES DE VARIABLES ALEATORIAS ................................................... 83
VI.6.- OTRAS VARIABLES CONTINUAS ............................................................................... 86
VI.6.1.- Distribución Uniforme .............................................................................................. 86
VI.6.2.- Distribución Exponencial ......................................................................................... 87
VI.7.- DISTRIBUCIONES DERIVADAS DE LA NORMAL....................................................... 89
VI.7.1.- Variable Chi-Cuadrado de Pearson ........................................................................ 89
VI.7.2.- Distribucion F de Snedecor ..................................................................................... 93
VI.7.3.- Variable t de Student ............................................................................................... 94
Tema 7. Variables aleatorias bidimensionales............................................................................ 97
CAPITULO VII: ............................................................................................................................ 98
Variables Aleatorias Bidimensionales ......................................................................................... 98
VII.1.- DEFINICIÓN ................................................................................................................. 99
VII.2.- FUNCIÓN DE DISTRIBUCIÓN..................................................................................... 99
VII.2.1.- Definición................................................................................................................ 99
VII.2.2.- Propiedades ........................................................................................................... 99
VII.3.- VARIABLES ALEATORIAS BIDIMENSIONALES DISCRETAS Y CONTINUAS....... 100
VII.4.- DISTRIBUCIONES MARGINALES............................................................................. 101
VII.5.- DISTRIBUCIONES CONDICIONALES....................................................................... 103
VII.5.1. Definición ............................................................................................................... 103
VII.5.2.- Función de distribución condicional ..................................................................... 103
VII.5.2.- Función de densidad y ley de probabilidades condicionales ............................... 104
VII.5.3. -Teorema de Bayes ............................................................................................... 105
VII.6.- VARIABLES INDEPENDIENTES ............................................................................... 106
VII.7.- MOMENTOS ............................................................................................................... 107
VII.8.- MATRIZ DE VARIANZAS COVARIANZAS ................................................................ 108
VII.8.1.- Definición.............................................................................................................. 108
VII.8.2.- Propiedades ......................................................................................................... 108
VII.9.- COEFICIENTE DE CORRELACIÓN .......................................................................... 108
VII.9.1.- Definición.............................................................................................................. 108
VII.9.2.- Propiedades ......................................................................................................... 109
VII.10.- REGRESIÓN............................................................................................................. 109
VII.10.1.- Regresión condicional ........................................................................................ 109
VII.10.2.- Regresión lineal mínimo cuadrática ................................................................... 110
VII.11.- VARIABLES ALEATORIAS n-DIMENSIONALES .................................................... 115
CAPITULO VII: .......................................................................................................................... 118
Variable Aleatoria Normal ......................................................................................................... 118
Bidimensional ............................................................................................................................ 118
VII.1.1.- Variable normal bidimensional tipificada .............................................................. 120
VII.1.2.- Variable normal bidimensional general ................................................................ 121
VII.2.- VECTOR DE VALORES MEDIOS.............................................................................. 123
VII.3.- MATRIZ DE VARIANZAS COVARIANZAS ................................................................ 124
VII.3.1.- Definición.............................................................................................................. 124
VII.3.2.- Propiedades ......................................................................................................... 124
VII.4.- COEFICIENTE DE CORRELACIÓN .......................................................................... 125
VII.4.1.- Definición.............................................................................................................. 125
VII.4.2.- Propiedades ......................................................................................................... 125
VII.5.- INDEPENDENCIA DE VARIABLES ALEATORIAS.................................................... 125
VII.6.- DISTRIBUCIÓN MARGINAL ...................................................................................... 127
VII.7.- DISTRIBUCIÓN CONDICIONAL ................................................................................ 127
Tema 8. Muestreo ..................................................................................................................... 129
CAPITULO VIII: ......................................................................................................................... 130
Distribuciones en el Muestreo ................................................................................................... 130
VIII.1.- INTRODUCCIÓN ....................................................................................................... 131
VIII.2.- POBLACIÓN, MUESTREO Y MUESTRA.................................................................. 132
VIII.3.- ESTADÍSTICOS......................................................................................................... 133
VIII.4.- DISTRIBUCIONES EN EL MUESTREO.................................................................... 134
VIII.4.1.- Distribución de la media muestral. ...................................................................... 135
VIII.4.2.- Distribución de la varianza muestral. .................................................................. 136
VIII.4.3.- Distribución de la proporción muestral. ............................................................... 138
VIII.5.- MUESTREO EN POBLACIONES NORMALES. ....................................................... 138
VIII.5.1.- Distribución de la media muestral. ...................................................................... 139
VIII.5.2.- Distribución de la varianza muestral. .................................................................. 140
VIII.5.3.- Distribución conjunta de x y sn-1 ........................................................................ 140
Tema 9. Inferencia .................................................................................................................... 141
CAPÍTULO IX: ........................................................................................................................... 142
Introducción a la Inferencia Estadística .................................................................................... 142
IX.1.- INTRODUCCIÓN ......................................................................................................... 144
IX.2.- ESTIMACIÓN DE PARÁMETROS. ............................................................................. 145
IX.2.1.- Estimación puntual ................................................................................................ 145
IX.2.2.- Estimación por intervalos de confianza................................................................. 147
IX.3.- TEST DE HIPÓTESIS.................................................................................................. 150
IX.3.1.- Errores de 1ª y 2ª especie..................................................................................... 151
IX.3.2.- Test de hipótesis paramétricos y no paramétricos................................................ 151
IX.3.3.- Tests de hipótesis paramétricos............................................................................ 151
IX.3.4.- Tests de hipótesis no paramétricos....................................................................... 162
9.4. Análisis de la varianza (I). Un factor controlado................................................................. 171
9.4.1.- GENERALIDADES......................................................................................................... 172
9.4.2.- MODELO TEÓRICO. HIPÓTESIS DEL MODELO ........................................................ 173
9.4.3.- HIPÓTESIS NULA ......................................................................................................... 175
9.4.5.- TEST F ........................................................................................................................... 176
9.4.6.- COMPARACIÓN DE MEDIAS. TEST L.S.D. (diferencia mínima significativa) ............. 176
9.5.1.- INTRODUCCIÓN. PLANES FACTORIALES................................................................. 179
9.5.2.- ANOVA PARA DOS FACTORES CON REPETICIONES ............................................. 179
9.5.2.1.- Concepto de Interacción ............................................................................................. 179
9.5.2.2.- Modelo y supuestos teóricos ...................................................................................... 181
9.5.2.3.- Hipótesis Nulas ........................................................................................................... 182
9.5.2.4.- Descomposición de las Sumas de Cuadrados. Test F............................................... 182
9.5.2.5.- Comparación de Medias. Test L.S.D. ......................................................................... 182
Interpretación de Resultados .................................................................................................... 184
Tema 1. Fenómenos aleatorios
CAPÍTULO I:
Fenómenos Aleatorios
Capítulo I: Fenómenos aleatorios

I.1.- FENÓMENO ALEATORIO. CONCEPTO

El objeto central del cálculo de probabilidades y de la Estadística, lo constituyen los llamados


fenómenos aleatorios. Parece, pues, lógico que comencemos por analizar a éstos aunque sólo
sea someramente.

Los fenómenos aleatorios, en contraposición con los fenómenos regidos por leyes
deterministas, son aquellos fenómenos reales que se caracterizan por la impredecibilidad de
sus resultados y por la llamada regularidad estadística.

En los fenómenos deterministas, cuando se conocen las condiciones en que ocurre el


fenómeno y la ley que lo rige, en general, se puede conocer unívocamente el resultado que se
presentará en una realización concreta del mismo. Así, por ejemplo, si conocemos la situación
inicial e0 de un cuerpo que se mueve en línea recta con velocidad constante v, podemos
predecir con absoluta certeza que su posición, respecto a la referencia tomada, después de un
tiempo t será:
e=eo+v·t

Por el contrario, es completamente imposible predecir con exactitud cual será el número de
accidentes que ocurrirán en las carreteras españolas el próximo fin de semana o los litros de
agua de lluvia que se recogerán por m2 en un determinado observatorio meteorológico a lo
largo del próximo año.

I.1.1.- Impredecibilidad de los resultados

El número obtenido al lanzar un dado, la duración de una bombilla o la longitud de un tornillo


recién fabricado, son resultados impredecibles y, por tanto, realizaciones de fenómenos
aleatorios.

Ahora bien, no parece descabellado pensar que es posible, analizando la distribución de masas
y los impulsos a los que está sometido el lanzamiento de un dado, desarrollar un modelo
mecánico que permita conocer de antemano cual va a ser el resultado del lanzamiento de ese
dado.

En el sentido contrario, es evidente que, según la definición que hemos establecido de


fenómeno aleatorio, los eclipses de sol serían resultados de un fenómeno aleatorio si no
conociéramos las leyes que rigen el movimiento de la Tierra alrededor del Sol y de la Luna
alrededor de la Tierra, pues aquéllos serían impredecibles.
En consecuencia, y desde este punto de vista, los fenómenos aleatorios podrían ser producto
de nuestra ignorancia.

Surge, por tanto, la primera pregunta respecto a la impredecibilidad de los fenómenos


aleatorios: ¿Son impredecibles porque no podemos o porque no sabemos predecir sus
resultados?. El llamado azar ¿no será una forma de justificar nuestra ignorancia o
desconocimiento del fenómeno en cuestión?

En 1927 Heisemberg, estableció el llamado Principio de Indeterminación o de


Incertidumbre que establece que es imposible una determinación unívoca de la posición y de

I.8
Capítulo I: Fenómenos aleatorios

la cantidad de movimiento de una partícula atómica. Si se representa por Δp a la imprecisión


en la determinación de la posición de una partícula y mediante Δq a la imprecisión en la
determinación de la cantidad de movimiento de la misma partícula, Heisemberg demostró
que:
h
Δp ⋅ Δq ≥

en la que h es la constante de Planck ( h=6.26x10-27 ergios· seg-1).

Las relaciones de incertidumbre de Heisemberg imponen en la microfísica la sustitución de


las leyes deterministas por predicciones estadísticas.

Por último, consideremos la integral:

∫ f (x) ⋅ dx
b

Llamaremos k1 y k2, respectivamente, a la cota inferior y a la cota superior de f(x) en el


intervalo [a,b].

Llamaremos A al área comprendida entre las rectas x=a y x=b y situada entre y=k1 y la
función. Llamaremos B al área delimitada por x=a, x=b, y=k2 y la función (Figura I.1).

Si extraemos puntos al azar (equiprobables) del recinto delimitado por x=a, x=b, y=k2 e y=k1,
la probabilidad de que ocurra cualquier suceso de este recinto es proporcional a su área. En
consecuencia se cumplirá que:

P(A)+P(B)=1
Area( A ) Area( A )
p= =
Area( A ) + Area(B) (b − a)(k 2 − k1 )

k2
B y=f(x)

A
k1

a b x

Figura I.1.

En consecuencia:

∫ f (x) ⋅ dx = (b − a) ⋅ k + p ⋅ (b − a) ⋅ (k
b
I= 1 2 − k1 )
a

Si extraemos al azar n puntos del recinto A∪B y ν es el número de veces que ocurre A, y
llamamos:

I.9
Capítulo I: Fenómenos aleatorios

ν
f=
n
el teorema de Bernouilli, que será expuesto más adelante, permite estimar I mediante:
I* =(b -a)·k1+f·(b -a)·(k2 -k1)
restando I - I* y tomando valores absolutos.
⎪I -I*⎪ =⎪p -f⎪·(b -a)·(k2 -k1)

Por los Teoremas de Bernouilli y de Tchebycheff, tal y como se explica en capítulos


posteriores, podemos escribir:
∀ ε ∈ ℜ+ ; P [ f −p ≥ ε ≤ ] 1
4 ⋅ ε2 ⋅ n
en consecuencia:
[ ] [
P I − I * ≥ ε = P p − f ⋅ (b − a ) ⋅ (k 2 − k 1 ) ≥ ε ]
es decir:
⎡ ⎤
[ ]
P I − I * ≥ ε = P⎢ p − f ≥
ε
(b − a) ⋅ (k 2 − k1 )⎥⎦

de donde, por el teorema de Bernouilli:

[ ] (b − a4) ⋅ ⋅n(k⋅ ε − k )
2 2
P I−I* ≥ ε ≤ 2
2
1
≤α

Fijando α y ε, y conocidos a, b, k1 y k2, podemos calcular n mediante:

n≥
(b − a)2 ⋅ (k 2 − k1 )2
4 ⋅ ε2 ⋅ α

Ejemplo I.1:

La integral
5

∫ x ⋅ dx = 4.5
4

Si α=10 y ε=10 , con a-b = k1-k2 = 1 entonces es n≥2500. Lo cual significa que si
-2 -1

extraemos al azar 2500 puntos del recinto A∪B y calculamos la frecuencia relativa con que
ocurre A, mediante I* podemos calcular aproximadamente I, cometiendo un error menor que
0.1 con una probabilidad mayor del 99 por ciento.

En los párrafos anteriores, hemos visto que la impredecibilidad de un fenómeno aleatorio


puede ser debida a que no sabemos (caso del dado), no podemos (caso de la microfísica) o,
simplemente no queremos (caso de la integral) predecir sus resultados.

I.1.2.- Repetitividad del fenómeno. Enfoques clásico y bayesiano

La impredecibilidad de los resultados implica la posibilidad de repetir el fenómeno o, al


menos, la posibilidad de efectuar una realización del mismo. Esto permite hablar de la
probabilidad de que al realizarse el fenómeno aleatorio ocurra un determinado suceso.

I.10
Capítulo I: Fenómenos aleatorios

Actualmente, es posible hablar de la probabilidad de que, por ejemplo, exista vida en Marte,
aunque es evidente que ello no es el resultado de la realización de un fenómeno aleatorio y, en
general, es posible hablar de la probabilidad de que sea verdadera cualquier proposición (en el
sentido de la lógica matemática).
El primer enfoque es el clásico o frecuencialista que necesita de la posibilidad de repetición
del fenómeno aleatorio. El segundo enfoque es el bayesiano, mediante el que se puede hablar
de probabilidad o grado de veracidad de ciertas proposiciones.

En el enfoque bayesiano, la probabilidad puede asimilarse al grado de verdad o de creencia


que un determinado individuo tiene sobre una cierta proposición, por lo que a este enfoque
también se le llama subjetivista.

En el enfoque clásico, la probabilidad puede asimilarse, de la forma que será precisada más
adelante, a la frecuencia con la que ocurre un determinado suceso.

Debemos hacer notar que si el fenómeno es repetitivo y medimos nuestro grado de creencia o
de verdad a través de la frecuencia con que hemos observado la realización de un
determinado suceso, estamos probabilizando un suceso frecuencialista de forma subjetiva y,
por tanto, dando un enfoque bayesiano a nuestro problema. Desde esta óptica, la probabilidad
frecuencialista puede ser contemplada como un caso particular de la probabilidad bayesiana.

En resumen, aunque tradicionalmente los fenómenos aleatorios eran el objeto del estudio de la
Estadística, como acabamos de ver:

Existen fenómenos repetitivos cuyos resultados no se pueden predecir, otros que


no sabemos predecir y otros que aunque podemos y sabemos renunciamos
voluntariamente a su predicción y, a todos ellos, se les aplica fértilmente las leyes
de la Estadística. Pero además, mediante la Estadística bayesiana, también es
posible estudiar eficazmente los grados de veracidad o de creencia personal de
cualquier proposición lógica.

En consecuencia:

I.1.3.- Definición de fenómeno aleatorio

Bajo la denominación de fenómenos aleatorios designaremos a cualquier


fenómeno que pueda ser objeto de estudio probabilístico o de inferencia
estadística.

I.1.4. - Regularidad Estadística

Cuando realizamos varias repeticiones “independientes” de un fenómeno aleatorio bajo las


“mismas condiciones”, en general, no se obtiene el mismo resultado. Ello es debido a que, o
bien son numerosas las causas que influyen en el resultado y no es posible mantener
constantes a todas ellas, o bien hay pocas causas que influyen en el resultado pero que
pequeñas variaciones en las mismas producen grandes modificaciones en éste.

I.11
Capítulo I: Fenómenos aleatorios

Sobre la duración de una bombilla influyen numerosas causas como: características


constructivas, calidad de los materiales empleados, condiciones de uso, condiciones
ambientales, etc., que determinan la duración de la misma.

El ángulo que forma la aguja de una ruleta con una determinada dirección al detenerse, está
influido por el impulso comunicado de manera que pequeñas variaciones en este impulso
pueden dar lugar a resultados diametralmente opuestos.

Si llamamos n al número de repeticiones de un experimento aleatorio, ν a la frecuencia


absoluta, es decir, al número de veces que ocurre un determinado suceso A asociado a dicho
experimento, y fr a la frecuencia relativa de A, o sea:
ν
fr =
n

Por definición de fenómeno aleatorio, cuando n crece, fr “tiende” a estabilizarse alrededor de


un cierto número. Pues bien:

I.1.4.1. - Definición de Regularidad Estadística

Cuando la frecuencia relativa de cada uno de los posibles resultados de un


fenómeno aleatorio “tiende” a estabilizarse alrededor de un cierto valor, cuando
el número de repeticiones crece indefinidamente, diremos que el fenómeno en
cuestión posee regularidad estadística.

Esta propiedad es fundamental para definir el concepto de probabilidad en el enfoque


frecuencialista.

Las palabras entrecomilladas (“independientes”, “mismas condiciones” y “tienden”) tienen


aquí un cierto carácter ambiguo que será precisado más adelante.

I.2. - LA ESTADÍSTICA

Esta ciencia se ha formado de la conjunción de otras dos que en el tiempo evolucionaron


independientemente: La Teoría de las Probabilidades y la Inferencia Estadística.

El desarrollo científico y tecnológico se realiza recorriendo dos caminos posibles: la


deducción y la inducción.

En el primer caso, el investigador parte de una serie de proposiciones aceptadas como


verdaderas y que constituyen el llamado Sistema Axiomático. Estos axiomas se construyen
extrayéndolos de las regularidades que se observan en el fenómeno sobre el que estamos
desarrollando una teoría. A partir de estos axiomas y mediante la aplicación de una lógica
deductiva, el científico llega a demostrar determinadas proposiciones que son verdaderas en el
contexto de la teoría, es decir, en la medida en que los axiomas son ciertos y en la medida en
que las deducciones han sido realizadas correctamente. De esta forma, es posible desarrollar
una teoría científica sobre un fenómeno real. Sin embargo, no basta con desarrollar una teoría,
sino que, además, es necesario validarla, es decir, contrastarla con la realidad. Si las
proposiciones demostradas son realmente propiedades encontradas en el fenómeno estudiado,
la teoría se muestra como correcta y es utilizable. Si, por el contrario, existen discrepancias

I.12
Capítulo I: Fenómenos aleatorios

entre los hechos reales y los teóricos, el sistema axiomático debería ser revisado,
modificándolo o, simplemente, completándolo.

Precisamente, la Estadística juega un importante papel como interfase entre la teoría y la


realidad, pues permite contrastar las proposiciones deducidas con las observaciones del
fenómeno y permite, así mismo, contrastar los axiomas. En este sentido diremos que:

La Estadística puede considerase como la Tecnología del Método Científico (S. Ríos 1952).

El Cálculo de Probabilidades es un modelo teórico que se elabora a partir de un sistema


axiomático (completo, no redundante y no contradictorio) desarrollado por Kolmogoroff.

Pero no siempre es posible proceder de esta elegante forma deductiva. En las ciencias
experimentales, no se suele pasar de lo general (axiomas) a lo particular (teoremas) mediante
un proceso deductivo, sino que se procede en sentido contrario, es decir, de forma inductiva,
pasando de lo particular a lo general.

No es posible deducir cual es el número de tornillos de un lote que resistirán a un determinado


esfuerzo de rotura por cizallamiento. Tampoco es posible deducir cuantos kilómetros
recorrerá, por termino medio, un determinado tipo de neumáticos hasta que sufran un
determinado desgaste.

La Inferencia Estadística, se ocupa, precisamente, de la inducción. Permite, por ejemplo,


que, mediante el estudio de una muestra de tornillos, podamos inferir al total de la partida la
proporción de ellos que son defectuosos.

Es indudable que el paso de lo particular a lo general está sometido a un riesgo de error. La


Inferencia Estadística permite cuantificar en términos de probabilidad ese riesgo de error.

Las dos partes de que consta la Estadística recorren caminos opuestos: El Cálculo de
Probabilidades (o mejor, la Teoría de Probabilidades) es deductivo; la Inferencia Estadística
es inductiva.

I.13
Capítulo I: Fenómenos aleatorios

Tema 2. Conceptos de probabilidad

I.14
CAPÍTULO II:
Concepto de Probabilidad
Capítulo II: Concepto de Probabilidad

II.1.- INTRODUCCIÓN

En el capítulo anterior, hemos estudiado el tipo de fenómenos que eran objeto de la


Estadística. Vimos que existen fenómenos, experimentos, proposiciones, etc. en las que no
podemos, no sabemos, o, simplemente no queremos predecir cuál será su resultado.

Es cierto que en éstas situaciones la incertidumbre existe, pero puede que ésta no sea total, es
decir, que, en general, tendremos alguna información, bien extraída de nuestra experiencia
pasada, o bien extrayéndola experimentando con el fenómeno en estudio. Esta información
hace que nuestra incertidumbre sobre el resultado del fenómeno aleatorio no sea total.

El objeto del Cálculo de Probabilidades consiste, precisamente, en medir el grado de


certidumbre de algunos sucesos, de tal forma que un suceso cierto tiene una probabilidad
igual a 1 y un suceso imposible tiene una probabilidad nula; probabilidades intermedias
representan grados de certidumbre intermedios.

Según el tipo de enfoque que se adopte, los conceptos de probabilidad y de incertidumbre


podrán tener diferentes interpretaciones.

Antes de entrar en estas interpretaciones vamos a exponer un ejemplo que nos introduzca en
esta problemática:

Una empresa fabricante de automóviles, adquiere a un cierto proveedor, partidas de una


pieza determinada para ser montada en los automóviles de un cierto modelo. Las piezas
deben cumplir unas especificaciones de calidad, de tal forma que cada una de ellas puede ser
clasificada como buena o como defectuosa. Supongamos también que los ensayos para
clasificar a una pieza son destructivos o, simplemente caros y que, en consecuencia, una
inspección de todas las piezas de la partida no es posible o no es conveniente por su elevado
costo.

El comprador quisiera que en cada partida no hubiera ninguna pieza defectuosa; no


obstante, partidas con unas pocas piezas defectuosas podrían ser aceptadas, pero desearía
rechazar las partidas que tuvieran un número de piezas defectuosas superior a un cierto
umbral. El vendedor, por su parte, quisiera que las partidas con ninguna o pocas piezas
defectuosas no fueran rechazadas.

Ante una partida concreta caben una serie de actitudes:

a) El comprador, por su experiencia pasada, confía en la calidad que le suministra


habitualmente el proveedor y, por tanto, acepta, sin más, cualquier lote que le suministre
el vendedor.
b) El comprador y el vendedor acuerdan mediante contrato, analizar un pequeño número de
piezas; para fijar ideas supongamos que 20 piezas. Si de ellas 1 o más son defectuosas,
se rechazará la partida. Si las 20 piezas muestreadas son correctas se aceptará la
partida.

II.16
Capítulo II: Concepto de Probabilidad

En el caso a), el comprador, consciente o inconscientemente, utiliza su experiencia pasada


para determinar que es muy probable que el lote concreto que le está presentando el
vendedor sea de un nivel de calidad aceptable.

En el caso b), el Cálculo de Probabilidades nos dice que si un lote de gran tamaño tiene un 5
por mil o menos de unidades defectuosas, la probabilidad de que al extraer 20 piezas al azar
todas ellas sean correctas es igual o superior al 99%, y que si el lote tiene un 10.9% o más de
defectuosas, la probabilidad de rechazar el lote, es decir, de que aparezcan, al menos, una
pieza defectuosa de entre las 20 muestreadas, es superior o igual al 90%.

En el primer caso, se ha hecho uso de una probabilidad subjetiva. En el segundo caso, la


probabilidad es objetiva o frecuencialista.

II.2.- PROBABILIDAD

Aunque hoy en día hay un acuerdo total sobre las propiedades matemáticas que debe reunir el
ente abstracto que denominamos “probabilidad”, existe sin embargo, un profundo desacuerdo
respecto a lo que el término “probabilidad” significa en cuanto a su aplicación a los problemas
reales y concretamente a la Inferencia Estadística.

II.2.1.- Probabilidad frecuencialista

La concepción clásica de la probabilidad dada por Laplace, como cociente entre casos
favorables y casos posibles presenta problemas bien conocidos, entre ellos el de no
aplicabilidad a una amplia gama de problemas reales.
En 1866, Venn definió la probabilidad de un suceso como:

“El valor alrededor del cual se estabiliza la frecuencia relativa de un suceso


cuando el número de repeticiones independientes de la experiencia a la que va
asociado crece indefinidamente”.

En 1928, Von Mises formalizó rigurosamente esta concepción frecuencialista de la


probabilidad.

Sin embargo, aparte de otras posibles criticas, esta concepción frecuencialista, reduce el
ámbito de aplicación de la probabilidad exclusivamente a fenómenos o experiencias
repetitivas, dejando fuera del mismo numerosas áreas en las que se presentan realmente
situaciones de incertidumbre que deberían poder ser cuantificadas y tratadas en el contexto de
la ciencia estadística.

II.2.2.- Probabilidad objetiva o lógica.

En el año 1921, el matemático inglés John Maynard Keynes, más conocido en el campo de la
teoría económica, en su tesis doctoral propone una nueva concepción de la probabilidad, la
concepción lógica también denominada objetiva. En esta concepción, se define la
probabilidad como

II.17
Capítulo II: Concepto de Probabilidad

“el grado de evidencia de una proposición cualquiera”

lo que permite abarcar situaciones mucho más generales que las contempladas en los enfoques
clásicos o frecuencialistas.

La concepción lógica de Keynes admitía la posible existencia de probabilidades que fueran


solo parcialmente ordenables, lo que significa que no todos los grados de evidencia son
numéricamente medibles.

Esta concepción fue desarrollada posteriormente por Jeffreys, compañero de Keynes en


Cambridge para quien sus probabilidades expresan también grados de evidencia pero son
siempre ordenables y tienen carácter numérico.

II.2.3.- Probabilidad subjetiva o bayesiana

Mientras que en la concepción lógica la probabilidad tiene un carácter objetivo, como algo
intrínseco de la proposición a que se refiere, en la concepción subjetiva, cuyo principal
exponente es De Finetti, la probabilidad se define como

“el grado de creencia personal en la veracidad de una proposición”

y puede variar de un sujeto a otro. El valor que cada sujeto asigne a esta medida de
incertidumbre, dependerá de la información de que disponga de manera que dos personas con
información distinta asignarán probabilidades distintas a un mismo suceso. Por ello, también
se define la probabilidad subjetiva como

“aquélla que se determina en base a la experiencia personal de quien la


establece”.

Esta concepción subjetiva de la probabilidad, es también denominada Bayesiana debido al


papel clave que tiene el teorema de Bayes en esta teoría.

Esta probabilidad que puede parecer poco científica, no es tal, pues permite estudiar aquellos
fenómenos a los que no es de aplicación la probabilidad frecuencialista. Pero, además,
presenta la ventaja de que si el fenómeno es susceptible de repetición, mediante el Teorema
de Bayes (que será estudiado más adelante) se puede incorporar a la probabilidad subjetiva “a
priori” la información extraída de las repeticiones del fenómeno, para transformarla en
probabilidad “a posteriori”. Las cosas ocurren de tal forma, que, a medida que se va
obteniendo más información objetiva, la información subjetiva “a priori” va pesando menos,
con lo que dos individuos que partieran de probabilidades subjetivas “a priori” diferentes, y
que utilizaran la misma información objetiva, a medida que ésta última es mayor, las
probabilidades “a posteriori” irían siendo cada vez más próximas, porque cada vez es menor
el peso relativo de la información “a priori”.

II.3.- ESPACIOS DE PROBABILIDADES

II.18
Capítulo II: Concepto de Probabilidad

En este apartado vamos a formalizar el concepto matemático y, por tanto, abstracto, de


probabilidad, aplicable a cualquiera que sea la concepción que de ésta se tenga. Seguiremos el
sistema axiomático establecido por Kolmogoroff en 1933.

Previamente, definiremos los elementos que intervienen en esta definición.

II.3.1.- Espacio Muestral

El primer elemento a considerar es el de los posibles resultados del fenómeno en estudio ó el


conjunto de las posibles hipótesis a establecer sobre nuestras proposiciones.

II.3.1.1.- Definición

Llamaremos Espacio Muestral de un fenómeno aleatorio, al conjunto de sus


posibles resultados.

II.3.1.2.- Clasificación

Los Espacios Muestrales pueden ser: finitos, infinitos numerables e infinitos no numerables ó
de la potencia del continuo.

Si la experiencia consiste en lanzar un dado y el resultado es el número de puntos que


obtenemos, el Espacio Muestral es finito y consta de 6 elementos.

Si la experiencia consiste en lanzar una moneda al aire y el resultado es el número de veces


que es necesario lanzarla hasta obtener por primera vez cara, el Espacio Muestral es infinito
numerable.

Si la experiencia consiste en extraer al azar una pieza recién fabricada y medir una de sus
dimensiones, el Espacio Muestral es infinito no numerable.

Al Espacio Muestral lo designaremos por E.

II.3.1.3.- Sucesos

Denominaremos suceso a todo subconjunto del Espacio Muestral E, es decir:


{A es un suceso} ↔ {A ∈ P(E)}
en la que P(E) es el conjunto de las partes de E.

Llamaremos suceso elemental al constituido por un sólo elemento de E y suceso compuesto a


cualquier subconjunto de E constituido por más de un elemento.

Diremos que ha ocurrido el suceso A si el resultado es un elemento de A. Por ejemplo, si la


experiencia consiste en lanzar un dado y el suceso A está constituido por los números pares
es:
A={2,4,6}

Si al lanzar el dado sale el número 4, ha ocurrido A y, lógicamente, también todos los sucesos
que contienen al número 4.

II.19
Capítulo II: Concepto de Probabilidad

El suceso cierto, es decir, el suceso que siempre ocurre es, lógicamente, el Espacio Muestral
E.

El suceso imposible, es decir, el suceso que nunca puede ocurrir es, lógicamente, el conjunto
vacío ∅.

Si el Espacio Muestral E es finito y tiene n sucesos elementales, el número de sucesos es 2n.

II.3.1.4.- Estructura de la clase de sucesos

Es conocido que la cuaterna { P(E), ∪, ∩, ¯} tiene estructura de Álgebra de Boole.

Sin embargo, por razones que serán expuestas más adelante, no siempre es posible
probabilizar a todos los elementos de P(E), pero es conveniente que la clase de los sucesos
probabilizables, que designaremos por F, siga teniendo estructura de Álgebra de Boole. Para
ello, basta que se cumplan las dos siguientes condiciones:
a) {∀ (A1, A2) ∈ F } → {(A1∪A2) ∈ F }

b) {∀ A ∈ F } → { A ∈ F }

Si la primera condición se cumple para todo conjunto numerable de sucesos es decir:


a’) {∀ (A1, A2, ..., An, ...) ∈ F } → ⎧⎨U A i ∈ F⎫⎬

⎩ i =1 ⎭
entonces F tiene estructura de σ-álgebra.

II.3.2.- Definición axiomática de probabilidad

II.3.2.1.- Axiomas

Dado un Espacio Muestral E y una σ-álgebra F, diremos que la aplicación P:F → ℜ es una
probabilidad, si cumple los tres siguientes axiomas, establecidos por Kolmogoroff :

A1) ∀ A ∈ F es P(A)≥0
A2) P(E)=1
A3) ∀ (A1, A2, ..., An, ...) ∈ F; A i I A j = ∅ es P ⎛⎜ U A i ⎞⎟ = ∑ P( A i )
i≠ j ⎝ i ⎠ i

II.3.2.2.- Propiedades

a) Probabilidad del suceso contrario


Como A ∪ A =E y A ∩ A =∅, por los axiomas A2 y A3:
P(A)+P( A )=P(E)=1
de donde:
P( A ) = 1 − P( A )

II.20
Capítulo II: Concepto de Probabilidad

b) Como corolario:
P(∅ ) = 1 − P(E) = 0

c) Si {B⊃A}→{P(B)≥P(A)}
Gráficamente:
E
A∩B

A B

Figura II.1.
En efecto, es:
B=A∪( A ∩B) y A∩( A ∩B)=∅
por el axioma A3:
P(B)=P(A)+P( A ∩B)
por el axioma A1 es:
P( A ∩B)≥0
de donde:
{ B ⊃ A} → { P(B) ≥ P( A )}

d) Como corolario, por ser ∅ ⊂ A ⊂ E y por el axioma A2 y la propiedad b):

∀A ∈F 0 ≤ P(A) ≤ 1

e) Probabilidad de la reunión

E
B A∩B
A

A∩B

Figura II.2.

Consideremos dos sucesos A y B. Se cumple:


A∪B=A∪( A ∩B) y A∩( A ∩B)=∅
por el axioma A3:
P(A∪B)=P(A)+P( A ∩B)

II.21
Capítulo II: Concepto de Probabilidad

como, por otra parte es:


B=(A∩B)∪( A ∩B) y (A∩B)∩( A ∩B)=∅
por el axioma A3:
P(B)=P(A∩B)+P( A ∩B)
de donde:
P( A ∩B)=P(B)-P(A∩B)
sustituyendo:
P( A ∪ B) = P( A ) + P(B) − P( A ∪ B)

Aplicando esta ecuación al suceso A∪B∪C, se obtiene:

P( A ∪ B∪ C) = P( A ) + P(B) + P(C) − P( A ∩ B) − P( A ∩ C) − P(B ∩ C) + P( A ∩ B∩ C)

Generalizando esta propiedad:

P ⎛⎜ U A i ⎞⎟ = ∑ P( A i ) − ∑ ∑ P( A i ∩ A j ) + ... + ( −1)n +1 ⋅ P ⎛⎜ I A i ⎞⎟
n n n −1 n n

⎝ i =1 ⎠ i =1 i =1 j = i + 1 ⎝ i =1 ⎠

Debemos hacer notar que si el suceso es cierto su probabilidad es 1, y que si el suceso es


imposible su probabilidad es nula, pero que sus recíprocos no son ciertos. Bastará con que
encontremos un ejemplo en el que la probabilidad de un suceso sea nula y, sin embargo, el
suceso no sea imposible.

Si lanzamos un dado perfectamente equilibrado, la probabilidad de que salga una de sus caras
prefijada a priori es 1/6. Si en lugar de lanzar un dado (que es un cubo) lanzáramos un
icosaedro, (poliedro regular de 20 caras) la probabilidad anterior es ahora 1/20. Si lanzamos
ahora una esfera, la probabilidad de que se apoye en un punto concreto es 1/∞ = 0. La
probabilidad es nula y el suceso no es imposible.

II.3.3.- Definición de Espacio de Probabilidades

A la terna {E, F, P } se denomina Espacio de Probabilidades.

II.4.- PROBABILIZACIÓN DE ESPACIOS MUESTRALES

II.4.1.- Espacios Muestrales finitos

En este tipo de Espacios Muestrales, bastará con hacer corresponder a cada suceso elemental
una probabilidad. Entonces, la probabilidad de cualquier suceso compuesto será la suma de
las probabilidades de los sucesos elementales que lo constituyen. Se deberá respetar la
condición de que la suma de las probabilidades de los sucesos elementales sea igual a la
unidad.

P(E) = P ⎛⎜ U a ⎞⎟ = ∑ P(a) = 1
⎝ a∈E ⎠ a∈E

II.22
Capítulo II: Concepto de Probabilidad

Si todos los sucesos elementales son igualmente probables, y el número de elementos de E es


n, como P(E)=1, la probabilidad de un suceso elemental será 1/n y si el suceso A tiene υ
elementos, será P(A)=υ/n, es decir, casos favorables dividido por casos posibles, lo que
constituye la conocida Regla de Laplace.

Si analizamos el experimento consistente en lanzar un dado perfectamente equilibrado y


observar el número de puntos que aparecen en la cara superior, el espacio muestral es:
E={1, 2, 3, 4, 5, 6}

Como todos los resultados son igualmente probables, la probabilidad de cada uno de ellos
será 1/6.

Si consideramos el suceso A= tirada par, A={2, 4, 6} la probabilidad de A será:

P(A)=P(2)+P (4)+P(6)=1/6+1/6+1/6=3/6=1/2

Del mismo modo podría obtenerse la probabilidad de cualquier otro suceso asociado a la
experiencia aleatoria descrita.

II.4.2.- Espacios Muestrales infinitos numerables

La probabilización de este tipo de Espacios se efectúa de la misma forma que en el apartado


anterior. El cálculo de las probabilidades de algunos sucesos requerirá la suma de una serie.
Evidentemente, en este caso el Espacio Muestral no puede ser simétrico ó de elementos
equiprobables, y, por tanto no es de aplicación la Regla de Laplace.

Por ejemplo, supongamos que realizamos una experiencia cuyo resultado es el número de
veces que hay que lanzar al aire una moneda hasta obtener por primera vez una cara. El
Espacio Muestral es:
E= { 1, 2, 3, ..., n, ...}
Designemos genéricamente por X a un elemento de E. Las probabilidades elementales serán:
1
P(X = υ ) =

Obsérvese que las probabilidades elementales, lógicamente, no son iguales entre sí y, por
tanto, no es de aplicación la Regla de Laplace.

Calculemos algunas probabilidades:


∑2
1 1/ 2
P(E) = = =1
i =1
υ
1− 1 / 2

Si el suceso A es obtener una cara por primera vez en una tirada par, al lanzar una moneda:
A={2, 4,..., 2·n,...}
entonces
1 1 1 1/ 4 1
P( A ) = + + L + 2n + L = =
22 2 4 2 1− 1/ 4 3

Y para suceso contrario, obtener una cara por primera vez en una tirada impar:

II.23
Capítulo II: Concepto de Probabilidad

A ={1, 3,..., 2·n-1,...}


será:
1 1 1 1/ 2 2
P( A ) = + 3 + L + 2n −1 + L = =
21
2 2 1 − 1/ 4 3

II.4.3.- Espacios Muestrales de la potencia del continuo

La única forma mediante la que probabilizaremos estos Espacios Muestrales, consistirá en la


definición de una función de distribución. Esta función será estudiada en un capítulo
posterior.

II.24
Capítulo II: Concepto de Probabilidad

Tema 3. Probabilidad condicional

II.25
CAPITULO III
Probabilidad Condicional
Capítulo III: Probabilidad Condicional

III.1.- INTRODUCCION

El conocimiento total o parcial del resultado que ha ocurrido en una realización de un


fenómeno aleatorio, puede modificar la probabilidad de cualquier suceso de ese fenómeno
aleatorio.

Por ejemplo, si el fenómeno consiste en lanzar un dado perfectamente equilibrado, la


probabilidad de cualquiera de los seis sucesos elementales es de 1/6. Si sabemos que el
resultado de la tirada ha sido un número par, es decir, si sabemos que ha ocurrido el suceso:
A ={ 2, 4, 6}

sabemos que ha ocurrido uno de los tres números pares, cada uno de ellos con la misma
probabilidad, luego se cumplirá que cualquiera de los tres sucesos elementales 2, 4, 6,
cuando sabemos que ha ocurrido A, pasan a tener una probabilidad de 1/3 y que cualquiera
de los sucesos elementales 1, 3, 5, pasan a tener una probabilidad nula, pues es imposible
que ocurra cualquiera de ellos si ha ocurrido A.

Nótese, por tanto, que aunque no conozcamos más que parcialmente el resultado de la
realización del fenómeno aleatorio, la información que suministra este conocimiento puede
suponer una modificación de las probabilidades de determinados sucesos.

Analicemos otro ejemplo en el que la información parcial del resultado del fenómeno
aleatorio no modifica la probabilidad de determinados sucesos:

Supongamos, ahora, que la experiencia consiste en extraer al azar una carta de una baraja
de 40 cartas. La probabilidad de extraer un rey es de 4/40=1/10. Supongamos que sabemos
que la carta extraída es una copa. Evidentemente, algunos sucesos modifican su probabilidad
bajo esta información parcial, por ejemplo, la probabilidad de que la carta extraída sea el
rey de oros ha pasado de valer 1/40 a valer 0. Sin embargo, otros sucesos no modifican su
probabilidad, por lo que la información suministrada no aporta nada nuevo para el mejor
conocimiento de estos sucesos. Por ejemplo, la probabilidad de que haya ocurrido el suceso
“rey”, cuando sabemos que ha salido una copa, es 1/10, es decir, la misma que si no
supiéramos nada respecto al resultado de la extracción (4/40).

En este capítulo, vamos a estudiar, precisamente, cómo se calcula la nueva probabilidad de


cualquier suceso de la σ-álgebra, cuando tenemos la información de que ha ocurrido un
determinado suceso A de la misma.

A esta probabilidad se le llamará probabilidad condicional.

III.2.- PROBABILIDAD CONDICIONAL

Sea {E, F, P} el espacio de probabilidades de un cierto fenómeno aleatorio. Supongamos que


sabemos que ha ocurrido el suceso A ∈ F. Esta información transforma, inmediatamente, a A
en un nuevo espacio muestral, pues el conjunto de los posibles resultados del fenómeno
aleatorio ha pasado de ser E a ser A. La modificación del espacio muestral implica la del
Espacio de Probabilidades y, por tanto, la de la definición de la nueva σ-álgebra y la de la

III.27
Capítulo III: Probabilidad Condicional

nueva probabilidad. Designaremos al nuevo Espacio de Probabilidades mediante: {A, FA,


PA}.

E
A
C A

B
B

Espacio Muestral inicial E Nuevo Espacio Muestral A

Figura III.1.- Cambio de Espacio Muestral

Si llamamos genéricamente C a cualquier suceso de F, y B a cualquier suceso de FA,


definiremos a FA mediante:
FA ={B/ ∃ C ∈ F; B=C∩A}
es decir:
{B ∈ FA } ↔ {∃ C ∈ F; B =C∩ A }

Puede demostrarse que FA cumple las dos condiciones para ser una σ-álgebra:
a) ∀ (B1, B2, ...) ∈ FA se cumple que U Bi ∈ FA
i

b) ∀ B ∈ FA → CAB ∈ FA

En el ejemplo del dado de la introducción, nótese que las probabilidades de los sucesos de A
se obtienen sin más que dividir su probabilidad inicial por la del suceso A, así:
P(2) 1 / 6 1
PA (2)= = =
P( A ) 1 / 2 3
De la misma forma:
P( A )
PA ( A )= =1
P( A )

En general, si sabemos que ha ocurrido el suceso A, tal que P(A)≠0, definiremos a PA,
mediante:
P(B)
∀ B ∈ FA ; PA (B)=
P( A )

Se demuestra fácilmente que PA cumple los axiomas de probabilidad.

Como quedó dicho más arriba, conocido que ha ocurrido el suceso A, el Espacio Muestral E
se transforma en el A y PA se aplica a los sucesos de FA. Sin embargo, podemos extender la
probabilidad condicional PA a toda la σ-álgebra F. Nótese que la σ-álgebra FA está contenida
en F, es decir, que todo suceso B de FA pertenece también a F, pues B es intersección de dos
sucesos de F y, por tanto, pertenece a F. Si hacemos corresponder a cualquier suceso C de F la
probabilidad:

III.28
Capítulo III: Probabilidad Condicional

PA(C)=PA(C ∩ A)
lo que estamos haciendo es:
PA(C ∩ A )=0
pues:
C=(C ∩ A) ∪ (C ∩ A )
con:
(C ∩ A) ∩ (C ∩ A )=∅

De esta forma, el Espacio de Probabilidades es {E, F, PA} . La probabilidad PA puede


escribirse ahora así:
P(C ∩ A )
∀ C ∈ F ; PA (C) = P(C / A ) =
P( A )

En la que P(C/A) se lee probabilidad de C “dado” A, o bien “sabiendo que ha ocurrido” A, o


bien probabilidad de que ocurra C “condicionada a” A.

III.2.1.- Definición

La terna (E, F, PA) es un Espacio de probabilidades en el que PA es una


probabilidad condicional definida por:
P(C ∩ A)
PA (C)= P(C/A) =
P(A)
con P(A)≠0.

III.2.2.- Propiedades

La probabilidad condicional reúne todas las propiedades de cualquier probabilidad


establecidas en apartado II.3.2.2 del capitulo II, es decir:

a) ∀ C ∈ F es P( C / A) =1-P(C / A)

b) P(∅ / A)=0

c) {C1 ⊂ C2} → P(C1 / A) ≤ P(C2 / A)

d) ∀ C ∈ F es 0 ≤ P(C / A) ≤ 1

e) P(C1 ∪C2 / A) = P(C1 / A)+P(C2 / A) - P(C1 ∩ C2 / A)


y su generalización a n sucesos.

f) La definición de probabilidad condicional se puede aplicar a la propia probabilidad


condicional, así:

III.29
Capítulo III: Probabilidad Condicional

PA (C ∩ B) P( A ∩ B ∩ C) / P( A ) P( A ∩ B ∩ C)
PA (C / B) = = =
PA (B) P( A ∩ B) / P( A ) P( A ∩ B)
de donde:
PA (C / B) = P [(C / B) / A ] = P [(C /( A ∩ B)]
luego:
P [(C / B) / A ] = P [C /( A ∩ B)]

Gráficamente:

A C

Figura III.2.- Generalización de la Probabilidad Condicional

III.3. - TEOREMA DE LA INTERSECCION

De la definición de probabilidad condicional se deduce que:

P( A ∩ B) = P( A ) ⋅ P(B / A ) = P(B) ⋅ P( A / B)

ecuación que se conoce como el Teorema de la Intersección.

Este teorema es de aplicación a cualquier tipo de probabilidad, luego lo es a la probabilidad


condicional:
PA (B ∩ C) = PA (B) ⋅ PA (C / B) = PA (C) ⋅ PA (B / C)

que puede escribirse:


P [(B ∩ C) / A ] = P(B / A ) ⋅ P [(C / B) / A ] = P(B / A ) ⋅ P [C /( A ∩ B)]

Esta última ecuación nos permitirá establecer el teorema de la intersección para tres sucesos:
P(A ∩ B ∩ C) = P[A ∩ (B ∩ C)] = P(A)·P[(B ∩ C) / A]
que, por lo que acabamos de ver, será:

P( A ∩ B ∩ C) = P( A ) ⋅ P(B / A ) ⋅ P [C /( A ∩ B)]

III.30
Capítulo III: Probabilidad Condicional

E
A

Figura III.3.- Intersección de los sucesos A, B y C

lo que constituye el Teorema de la Intersección para tres sucesos.

Este teorema resulta fácilmente generalizable, así para cuatro sucesos es:
P(A ∩ B ∩ C ∩ D) = P(A)·P(B / A)·P[C / (A ∩ B)]·P[D / (A ∩ B ∩ C)]

En general, para n sucesos es:

P( A1 ∩ A 2 ∩ L ∩ A n ) = P( A1 ) ⋅ P( A 2 / A1 ) ⋅ L ⋅ P [A n /( A1 ∩ A 2 ∩ L ∩ A n −1 )]

Ejemplo III.1:

Consideremos un lote de 10 piezas en el que la mitad no superan el nivel de calidad


establecido. Si de dicho lote tomamos al azar y sin reposición tres piezas ¿Cual es la
probabilidad de que todas sean correctas?

Si llamamos Ai al suceso “la pieza extraída en lugar i es correcta”, la probabilidad pedida


será:

P(A1 ∩ A2 ∩ A3) = P(A1)·P(A2 / A1)·P[A3 / (A1 ∩ A2)] = 5/10·4/9·3/8 = 60/720

III.4.- TEOREMA DE LA PARTICIÓN O DE LA PROBABILIDAD TOTAL

Sea A1, A2, ···, An una partición de E con Ai ∈ F. Sea B un suceso de F. Se cumple que:
n
B = U (B ∩ A i )
i =1

y para i≠j:
(B ∩ Ai) ∩ (B ∩ Aj)=∅

Por tanto, aplicando el axioma tercero de la definición de probabilidad:

n n
P(B) = ∑ P(B ∩ A i ) = ∑ P( A i ) ⋅ P(B / A i )
i =1 i =1

III.31
Capítulo III: Probabilidad Condicional

ecuación que se conoce como el Teorema de la Partición.

E
A2 ···
A1
An

Figura III.4.- Ejemplo de partición de E

Los elementos Ai de la partición de E pueden considerarse como las causas que motivan el
suceso B o las circunstancias bajo las cuales puede ocurrir el suceso B.

Ejemplo III.2:

En un colectivo están presentes mujeres (A1) y hombres (A2). Consideramos el experimento


aleatorio “seleccionar una persona al azar” y en él el suceso (B) que “la persona
seleccionada sea fumador”. Si en el colectivo hay un 60% de mujeres y sabemos además que
son fumadores el 10% de las mujeres y el 25% de los hombres, tendremos las siguientes
probabilidades:
P(A1)=0.60 P(A2)=0.40 P(B/A1)=0.10 P(B/A2) = 0.25

En nuestro caso la partición es del estilo del de la figura III.5.

E
A1 A2

Figura III.5.- Partición de E del ejemplo III.2

En consecuencia:

P(B)=P(A1)·P(B/A1)+P(A2)·P(B/A2)=0.60·0.10+0.40·0.25=0.16

Como se ha visto, la probabilidad de que la persona seleccionada sea fumador es diferente


según se dé la circunstancia de que se produzca la elección entre las mujeres (A1) o entre los
hombres (A2) del colectivo. La probabilidad total de que sea fumador, independientemente de
que la persona elegida al azar sea hombre o mujer es la dada por la expresión del teorema aquí
estudiado.

III.32
Capítulo III: Probabilidad Condicional

III.5.- SUCESOS INDEPENDIENTES

III.5.1. - Definición

Dados los sucesos A y B, diremos que son independientes si el conocimiento de


que ha ocurrido uno de ellos no modifica la probabilidad del otro.

{A y B son independie ntes} ↔ {P( A / B) = P( A )}

Es fácil demostrar que:


{P(A/B)=P(A)} ↔ {P(B/A)=P(B)}
pues sí:
P( A ∩ B)
P( A / B) = = P( A )
P(B)
se cumple que:
P(A ∩ B)=P(A)·P(B)
en consecuencia:
P( A ∩ B) P( A ) ⋅ P(B)
P(B / A ) = = = P(B)
P( A ) P( A )

Cambiando A por B queda demostrado el recíproco.

De todo lo anterior, se desprende que:

{A y B son independie ntes} ↔ {P( A ∩ B) = P( A ) ⋅ P(B)}

lo que constituye otra definición, equivalente a la anterior, de sucesos independientes.

Podemos realizar la generalización de la siguiente forma:

Diremos que los sucesos {A1, A2, ..., An } ∈ F son mutuamente independientes si
∀ K; 2 ≤ K≤ n ∀(B1, B2, ..., BK) ⊂ { A1, A2, ..., An}
se cumple que:
P(B1 ∩ B2 ∩ ... ∩ BK) = P(B1)·P(B2 )·...·P(BK)

Así, para que A1, A2 y A3 sean mutuamente independientes se deben cumplir las siguientes
condiciones:

a) P(A1 ∩ A2) = P(A1)·P(A2)


b) P(A1 ∩ A3) = P(A1)·P(A3)
c) P(A2 ∩ A3) = P(A2)·P(A3)
d) P(A1 ∩ A2 ∩ A3) = P(A1)·P(A2)·P(A3)

III.33
Capítulo III: Probabilidad Condicional

III.5.2. - Propiedades

a) Si A y B son independientes, también lo son A y B

En efecto, por definición de probabilidad condicional:


P(A ∩ B ) = P(A)·P( B / A)
Por una propiedad de la probabilidad condicional:
P(A ∩ B ) = P(A)·[1 - P(B / A)]
Como, por hipótesis, A y B son independientes:
P(A ∩ B ) = P(A)·[1 - P(B)]
es decir:
P(A ∩ B ) = P(A)·P( B )

{Si A y B son independientes} → { A y B son independientes}

b) Si A y B son independientes A y B también lo son:


P( A ∩ B ) = P( A )·P( B / A ) = P( A ∩ B ) = P( A )·[1 - P(B / A )]

Por la propiedad anterior si A y B son independientes, también lo son B y A , por lo que


P(B/ A )=P(B), luego:
P( A ∩ B ) = P( A )·[1 - P(B)] = P( A )·P( B )

{Si A y B son independientes} → { A y B son independientes}

c) Generalizando las dos propiedades anteriores, se puede demostrar que si A1, A2, ..., An
son sucesos mutuamente independientes, también lo son cualquier conjunto de sucesos
que resulte de cambiar uno, varios o todos los sucesos Ai por sus complementarios.

III.6. - TEOREMA DE BAYES

Este teorema fue desarrollado por Thomas Bayes (1702-1761). El enfoque bayesiano de la
Estadística se fundamenta en este teorema, lo que pone de manifiesto su gran importancia
teórica. Su enunciado es el siguiente:

Sea A1, A2, ..., An una partición de E, es decir:


n
E= U Ai y para i ≠ j Ai ∩ Aj = ∅
i =1

Sea B un determinado suceso de F tal que P(B)≠0. Entonces se cumple que:


P ( Ai ∩ B )
P ( Ai / B ) =
P( B )

Por el teorema de la intersección:

III.34
Capítulo III: Probabilidad Condicional

P(Ai ∩ B)=P(Ai )·P(B / Ai )


Por el teorema de la partición:
n
P ( B ) = ∑ P( Ai ) ⋅ P ( B / Ai )
i =1

Con lo que queda demostrado que

P ( Ai ) ⋅ P( B / Ai )
P ( Ai / B ) = n
∑ P( Ai ) ⋅ P( B / Ai )
i =1

En alguna ocasión, a los sucesos Ai se les ha llamado causas y a B efecto. Con ésta
nomenclatura, el teorema de Bayes permite calcular la probabilidad de que cuando se ha dado
el efecto B la causa haya sido Ai, en función de las probabilidades de las causas y la de los
efectos dadas las causas.

Ejemplo III.3:
Supongamos que las partidas de tornillos que suministran tres proveedores A1, A2 y A3 tienen
respectivamente, 1%, 2% y 3% de unidades defectuosas. En un almacén hay 10.000 unidades
fabricadas por A1, 15.000 fabricadas por A2 y 20.000 por A3. Cada tornillo puede ser
clasificado como defectuoso (B) o como no defectuoso. Se extrae un tornillo al azar que
resulta ser defectuoso. ¿Cuál es la probabilidad de que el tornillo hubiera sido fabricado por
A3?.

Las probabilidades de las causas son:


10000 10
P( A1 ) = = = 0.22
10000 + 15000 + 20000 45
15
P( A ) = = 0.33
2 45
20
P( A ) = = 0.44
3 45

Las probabilidades del efecto dada la causa son:


P(B / A1) = 0.01 P(B / A2) = 0.02 P(B / A3) = 0.03

La probabilidad buscada es:


P ( A3 ) ⋅ P ( B / A3 )
P ( A3 / B ) =
P ( A1 ) ⋅ P( B / A1 ) + P( A2 ) ⋅ P ( B / A2 ) + P ( A3 ) ⋅ P ( B / A3 )

es decir:
0.44 ⋅ 0.03
P ( A3 / B ) = = 0.60
0.22 ⋅ 0.01 + 0.33 ⋅ 0.02 + 0.44 ⋅ 0.033

La probabilidad de la causa A3 era igual a 0.44 y pasa a ser, después de conocer que el
tornillo extraído es defectuoso, 0.60.

III.35
Capítulo III: Probabilidad Condicional

Desde el punto de vista bayesiano, a P(Ai) se le llama probabilidad “a priori” del suceso Ai,
que tras observar el resultado B se transforma en la probabilidad “a posteriori” P(Ai/B).

Ejemplo III.4:
Los expertos de una cierta empresa, han calculado que ésta controla el 10%, el 20% o el
30% del mercado con probabilidades respectivas de 0.2, 0.25 y 0.55. Si al encuestar al azar a
un consumidor resulta que éste adquiere el producto de la empresa en cuestión. ¿Cuales son
las probabilidades “a posteriori”?.

Si llamamos A1 a la proposición “ la empresa controla el 10% del mercado”, A2 a la


proposición “la empresa controla el 20% del mercado” y A3 a la proposición “la empresa
controla el 30% del mercado”, las probabilidades “a priori” serán:
P(A1) = 0.2 P(A2) = 0.25 P(A3) = 0.55.

Si llamamos B a la proposición “el encuestado es cliente de la empresa”, será:

P(B/A1) = 0.1 P(B/A2) = 0.2 P(B/A3) =0.3

Las probabilidades “a posteriori” serán:


P ( AK ).P ( B / AK )
P( AK / B ) = n
∑ P( Ai ).P( B / Ai )
i =1

El denominador de esta expresión es:


n
∑ P( Ai ).P( B / Ai ) = 0.2·0.1+0.25·0.2+0.55·0.3 = 0.235
i =1

luego,
0 .2 ⋅ 0 .1
P ( A1 / B ) = = 0.085
0.235
0.25 ⋅ 0.2
P ( A2 / B ) = = 0.213
0.235
0.55 ⋅ 0.3
P ( A3 / B ) = = 0.702
0.235

III.36
Capítulo III: Probabilidad Condicional

Tema 4. Variables aleatorias

III.37
CAPÍTULO IV:
Variables Aleatorias Unidimensionales
Capítulo IV: Variables Aleatorias

IV.1.- CONCEPTO DE VARIABLE ALEATORIA UNIDIMENSIONAL

De forma intuitiva puede considerarse como una variable aleatoria unidimensional a cualquier
magnitud que puede tomar valores en un determinado dominio de forma impredecible influida
por el azar.

El número de puntos obtenidos al lanzar un dado, la duración de un componente electrónico,


la resistencia a la rotura de una probeta de hormigón, el peso de un fruto, etc. son ejemplos de
magnitudes que cumplen los requisitos de una variable aleatoria unidimensional.

En esencia, lo que determina que una magnitud pueda ser considerada como una variable
aleatoria es la impredecibilidad de sus valores en situaciones concretas y la posibilidad de
probabilizar el Espacio Muestral definido por ℜ.

El concepto establecido para las variables aleatorias unidimensionales puede extenderse al


caso en que en cada observación se evalúen varias magnitudes simultáneamente, dando lugar
al concepto de variable aleatoria multidimensional.

El peso, estatura y perímetro torácico de un individuo; la longitud, diámetro y peso de un


cilindro torneado; etc. pueden ser tomados como ejemplos de variables aleatorias
multidimensionales.

A pesar de lo sencillos e intuitivos que son los conceptos anteriormente expuestos, debemos
formalizar el concepto de variable aleatoria de cara a su aplicación en el campo de la Teoría
de la Probabilidad y de la Inferencia Estadística.

IV.1.1.-Definición de variable aleatoria unidimensional

Dado un Espacio de Probabilidades (E, F, P) diremos que la aplicación X:E→ℜ es una


variable aleatoria unidimensional, si y sólo si, la antiimagen de cualquier intervalo Ix=]-∞,x]
pertenece a la σ-álgebra F.

En resumen, definiremos a una variable aleatoria unidimensional, mediante:


(X: E→ℜ es V.A.) ↔ {∀ x ∈ ℜ; O(Ix) ∈ F}
Entonces:
P(I x ) = P( X ∈ I x ) = P [O x (I x )] = P [X(e) ≤ x ] = P( X ≤ x )

E F x
O(Ix) ∈ F

Ix
e X

X(e)

Figura IV.1.- Definición de variable aleatoria unimendional

IV.39
Capítulo IV: Variables Aleatorias

IV.1.2.- Función de distribución

IV.1.2.1.- Definición

Dada una variable aleatoria X, se llama función de distribución de esta variable


a la función FX(x) definida como sigue:

∀x∈ℜ FX(x) = P(Ix) = P(X(e)≤x) = P(X≤x)

IV.1.2.2.- Propiedades

La función de distribución tiene las siguientes propiedades:

a) ∀ x ∈ ℜ es 0 ≤ FX(x) ≤ 1, pues FX(x) es una probabilidad.

b) El lim FX ( x ) = 1 pues:
x →∞

lim FX ( x ) = lim P( X ≤ x ) = P( X ≤ ∞ ) = P(ℜ) = 1


x →∞ x →∞

c) El lim FX ( x ) = 0 pues:
x → −∞

lim FX ( x ) = lim P( X ≤ x ) = P( X ≤ −∞ ) = P(∅ ) = 0


x → −∞ x → −∞

d) La P(X ∈ ]a,b]) = FX(b) - FX(a).

En efecto, si a<b se cumple que:


]-∞, b] = ]-∞, a] ∪ ]a,b]
y que
]-∞, a] ∩ ]a,b] = ∅

Por el axioma tercero de la definición de probabilidad


P( ]-∞, b] ) = P( ]-∞, a] ) + P( ]a,b] )
es decir:
P(X≤b) = P(X≤a) + P(a<X≤b)
de donde, por la definición de función de distribución:
FX(b) = FX(a) + P(a<X≤b)
por tanto:
( )
P X ∈ ] a, b] = FX (b) − FX (a)

e) La función de distribución es no decreciente, pues como acabamos de ver, si a<b es


FX(b)=FX(a)+P(a<X≤b). Por ser P(a<X≤b) ≥ 0 será FX(b) ≥ FX(a).

f) Continuidad:
La función de distribución es continua por la derecha en cualquier punto de la recta real y
continua por la izquierda en todo punto de probabilidad nula, siendo discontinua por la

IV.40
Capítulo IV: Variables Aleatorias

izquierda en todo punto de probabilidad no nula con salto igual a la probabilidad de dicho
punto. En consecuencia, FX(x) es continua en todo punto de probabilidad nula y
discontinua en todo punto de probabilidad no nula.

FX(x)

FX(a)
P(X=a)

a
X

Figura IV.2.- Continuidad de la función de distribución

IV.1.3.- Analogía mecánica

En determinadas ocasiones resulta útil identificar el concepto de probabilidad con el de masa,


de esta forma a cada variable aleatoria le corresponde una determinada distribución de masa a
lo largo del eje de abscisas. Así, por ejemplo, para a<b, FX(b)-FX(a) es la masa de
probabilidad que se encuentra en el intervalo ]a, b], y FX(x) será la masa contenida en el
intervalo ]+∞, x]=IX. Lógicamente, la masa total contenida en todo el eje de las x vale la
unidad.

IV.1.4.- Variables discretas

Diremos que la variable aleatoria X es discreta si el conjunto imagen de la aplicación X:E→ℜ


es discreto. En la analogía mecánica expuesta en el apartado anterior, una variable aleatoria
discreta tiene la masa de probabilidad concentrada en un conjunto discreto de puntos, es decir,
es algo así como un rosario de puntos con masa distinta de cero. Por ejemplo, si la experiencia
aleatoria consiste en lanzar un dado y X(e) es el número que obtenemos en el lanzamiento, X
es una variable aleatoria que tiene distribuida la masa de probabilidad en 6 puntos
conteniendo cada uno de ellos una masa igual a 1/6.

x1 x2 ... xi ...

m1=P(x1) mi=P(xi)

Figura IV.3.- Variable aleatoria discreta

La función de distribución se calculará mediante:


FX ( x ) = P( X ≤ x ) = P( X ∈ Ix ) = ∑ P( X = xi ) = ∑ PX ( xi )
x i ∈I x x i ∈I x

IV.41
Capítulo IV: Variables Aleatorias

en la que Ix = ]+∞, x], xi son los puntos de Ix que tienen una probabilidad no nula y PX(x) es la
función de probabilidad de la variable aleatoria X.

El aspecto típico de la representación gráfica de la función de distribución de una variable


aleatoria discreta es el de una curva en escalera como el de la figura IV.4, en la que en cada
punto con probabilidad no nula se produce un salto igual a esta probabilidad. Recuérdese que
la función de distribución es continua por la derecha y discontinua por la izquierda en todo
punto de probabilidad no nula, por lo que el valor de FX(x) en éstos puntos de probabilidad no
nula es el de la parte superior de cada salto.

FX(x)

FX(x4)
P(X=x4)

x1 x2 x3 x4 X

Figura IV.4.- Función de distribución de la variable discreta

Ejemplo IV.1:
Si consideramos la variable aleatoria X, número de veces que hay que lanzar una moneda
hasta obtener cara por primera vez, el campo de existencia de esta variable es:
E = {1, 2, 3, 4,..., n}

Teniendo en cuenta que el resultado obtenido en cada lanzamiento es independiente de los


resultados obtenidos en los demás lanzamientos, la probabilidad de cada valor de X será:
1
P ( X = 1 ) = P ( Cara1 ) =
2
( 1 1 1
P ( X = 2 ) = P Cara1 ∩ Cara2 = ⋅ =
2 2 4
)
( 1 1 1 1
P ( X = 3 ) = P Cara1 ∩ Cara2 ∩ Cara3 = ⋅ ⋅ =
2 2 2 8
)
M
( 1
2
1 1
2 2 2
1
P ( X = n ) = P Cara1 ∩ L ∩ Caran −1 ∩ Caran = ⋅ L ⋅ ⋅ = n )
Aplicando el concepto de función de distribución:
1 1 1 1 1 1
FX (1 ) = FX ( 2 ) = + ··· FX ( n ) = + +L+ n
2 2 4 2 4 2

Gráficamente:

IV.42
Capítulo IV: Variables Aleatorias

FX(x)

1
···
0.75

0.5

0 1 2 3 4 X

Figura IV.5.- Función de distribución del ejemplo IV.1

IV.1.5.- Variables continuas

Para que una variable aleatoria sea continua, no basta que su función de distribución sea
continua en todos sus puntos, sino que por razones de tipo práctico hay que definirlas de
distinta forma:

Diremos que la variable aleatoria es absolutamente continua o simplemente


continua, si existe una función fX(x) no negativa, llamada función de densidad,
que para todo x real cumple la condición de que
x
FX (x) =
∫ −∞
f X (x) ⋅ dx

La definición anterior, es equivalente a la siguiente definición basada en las características de


la función de distribución:

La variable aleatoria es continua, si su función de distribución es continua para


todo x real y, además, es derivable con derivada continua excepto a lo sumo en
un conjunto de puntos tales que todo intervalo finito contiene un número finito de
ellos.

a) Teniendo en cuenta la definición de FX(x), será:


x
dFX ( x ) d
= fX ( x ) ⋅ dx = fX ( x )
dx dx −∞

por tanto:
dFX ( x )
fX ( x ) =
dx
como:
dFX ( x ) F ( x + Δx ) − FX ( x ) P( x < X ≤ x + Δx )
fX ( x ) = = lim X = lim
dx Δx → 0 Δx Δx → 0 Δx

Queda justificado el nombre de función de densidad, pues P(x<X≤x+Δx) es la masa de


probabilidad contenida en el intervalo ]x,x+Δx] y, por tanto,

IV.43
Capítulo IV: Variables Aleatorias

P(x < X ≤ x + Δx )
Δx

es la masa por unidad de longitud en ese intervalo. El límite de este cociente cuando Δx
tiende a cero, es la densidad de masa en el punto x.

b) Nótese que en una variable continua, por ser su función de distribución continua, y de
acuerdo con lo establecido en el apartado correspondiente a las propiedades de la función
de distribución, la probabilidad de cada uno de sus puntos es cero, es decir, ∀ x ∈ ℜ
P(X=x)=0.

Siguiendo la analogía mecánica, en cada punto de una variable continua, no hay masa
pero si hay densidad de masa variable con x e igual a fX(x).

c) La masa de probabilidad contenida en un segmento diferencial dx es fX(x)·dx. La masa de


probabilidad contenida en [a,b], es:

P (X ∈ [a, b]) =

b
f ( x ) ⋅ dx
a

A la misma conclusión llegamos aplicando la regla de Barrow:

fX ( x ) ⋅ dx = FX (b) − FX (a) = P (X ∈ ] a, b]) = P (X ∈ [a, b])



b

La última igualdad se cumple porque al ser X continua es P(X=a)=0.

En consecuencia, la P(X ∈ [a, b]) coincide con el área limitada por las rectas x=a, x=b, el
eje de abscisas y la función de densidad.

IV.2. FUNCIONES DE VARIABLES ALEATORIAS

Si X es una variable aleatoria y g(x) una función uniforme, la variable Y=g(x) será una
variable aleatoria si ∀ y ∈ ℜ; Og(IY) pertenece a la σ-álgebra de X.

Si g(x) establece una correspondencia biunívoca entre X e Y, (es decir, si g(x) es monótona
creciente o monótona decreciente) y X e Y son variables continuas y designamos por g-1(y) a
la función inversa de g, entonces podemos calcular Fy(y) y fy(y) mediante:

a) Si g(x) es creciente:

IV.44
Capítulo IV: Variables Aleatorias

Y
Y=g(X)
y=g(x)

-1
x=g (y) X

Figura IV.13.- Función g(x) creciente

La función de distribución de Y es
FY(y)=P(Y≤y)=P(g(X)≤y)=P(X≤g-1(y))=FX(g-1(y))

derivando respecto de y obtendremos la función de densidad:


dFY ( y ) dFX (g−1( y )) dFX (g−1( y )) d(g−1( y ))
fY ( y ) = = = ⋅
dy dy d(g−1( y )) dy

de donde:
dx
fY ( y ) = fX (g−1( y )) ⋅
dy
dx
Nótese que ≥0.
dy

b) Si g(x) es decreciente:

y=g(x)

Y=g(X)

-1
x=g (y) X

Figura IV.14.- Función g(x) decreciente

La Función de distribución de Y es:

FY(y)=P(Y≤y)=P(g(X)≤y)=P(X>g-1(y))=1-FX(g-1(y))

derivando respecto de y:

IV.45
Capítulo IV: Variables Aleatorias

dFY ( y ) dF (g−1( y )) dF (g−1( y )) d(g−1( y ))


fY ( y ) = =− X = − X −1 ⋅
dy dy d(g ( y )) dy

de donde:
dx
fY ( y ) = −fX (g−1( y )) ⋅
dy
dx
En la que ≤0
dy

Ambos casos pueden ser escritos mediante la ecuación única:

dx
fY ( y ) = fX (g−1( y )) ⋅
dy

Ejemplo IV.2
La duración X de unos componentes electrónicos puede asumirse que es una variable
aleatoria exponencial (EXP(θ)) con función de densidad:
f(x)=θ e-θx ∀x≥0

Un determinado cambio en el diseño permite duplicar la duración de dichos componentes.


¿Cuál será la función de densidad de la variable que describe la duración de los nuevos
componentes?

Si llamamos Y a esta nueva variable, será:


Y=2·X
entonces
y
x=g-1(y)=
2

por lo que
dx 1
=
dy 2

Finalmente, sustituyendo se obtiene:


y θ
−θ ⋅ 1 θ − 2 ⋅y
fY ( y ) = θ ⋅ e 2
⋅ = ⋅e con y≥0
2 2

con lo que resulta otra exponencial EXP(θ/2).

IV.3.- ESPERANZA MATEMÁTICA

IV.3.1.- Introducción

IV.46
Capítulo IV: Variables Aleatorias

A lo largo de este capítulo se van a manejar conceptos relativos a la teoría de la medida o


integración generalizada que el lector puede no poseer. Por ello los contenidos del capítulo se
exponen de manera que puedan ser asimilados sin disponer de un conocimiento profundo de
dicha teoría.

IV.3.2.- Concepto

Dada la variable aleatoria X de función de distribución FX(x) y la función uniforme g(x),


llamaremos Esperanza Matemática de g(x) a:

E [g( x )] =
∫ g(x) ⋅ dF (x)

X

Para variables discretas es:

E [g( x )] = ∑ g( xi ) ⋅ PX (xi )
i

en la que xi son los valores de la variable X de probabilidad no nula (PX(xi)≠0).

Y para variables continuas es:

+∞
E [g( x )] =
∫ g(x) ⋅ f (x) ⋅ dx
-∞
X

Nótese que, según esta definición, la esperanza matemática no existe si la serie o la integral
(según corresponda) no es convergente.

Ejemplo IV.3 (Variables discretas)


Un juego consiste en lanzar un dado y determinar la diferencia entre el número de puntos
obtenidos y el número 3. Si la diferencia es no negativa se ganan 100 Ptas. por cada punto de
diferencia. ¿Con cuántas pesetas debe penalizarse cada punto de diferencia negativa si
queremos que el valor medio de la ganancia del jugador sea de 10 ptas.?

La variable X=“diferencia entre el número de puntos obtenido y el número 3”, tiene como
campo de existencia X= (-2, -1, 0, 1, 2, 3) y todos sus valores tienen la misma probabilidad
PX(xi) = 1/6.

La ganancia G(x) tiene la expresión:

G(x)= 100·x si x≥0


G(x)= C·x si x<0

donde C es la penalización que debe imponerse por cada punto de diferencia negativa
obtenido.

IV.47
Capítulo IV: Variables Aleatorias

Calculando el valor medio de la ganancia e igualando a 10 pts.:


6

E ( g ( x )) = ∑ g( x ) ⋅ P ( x ) = 10
i =1
i X i

C·(-2)·1/6 +C·(-1)·1/6 +100·1·1/6 +100·2·1/6 +100·3·1/6 =10

Con lo que se obtiene que C=180 pts. de penalización.

En particular, se denomina Esperanza Matemática de una variable aleatoria X a:

E( X) =
∫ x ⋅ dF(x)

que se designará, también por μX o, cuando no se preste a la confusión, simplemente por μ.

El concepto de esperanza matemática de una función de variable aleatoria n-dimensional, se


obtiene fácilmente generalizando el de una variable unidimensional:
E [g( X1,..., Xn )] =
∫ ℜn
g( x1,..., x n ) ⋅ dFXr ( x1,..., xn )

o también:
[ ] ∫
r
E g( X) =
ℜ n
r r
g( x ) ⋅ dFXr ( x )

IV.3.3.- Propiedades

a) La esperanza matemática es un operador lineal, es decir:


E(X1+X2) = E(X1) + E(X2)
E(k⋅X) = k⋅E(X)

En efecto, teniendo en cuenta las propiedades de la integral de Stieljes:

E( X1 + X2 ) =
∫ ℜ2
( x1 + x 2 ) ⋅ dF(x1, x 2 ) =
∫ ℜ2
x1 ⋅ dF(x1, x 2 ) +
∫ ℜ2
x 2 ⋅ dF(x1, x 2 )

y que además
∫ ℜ2
x1 ⋅ dF(x1, x 2 ) =
∫ x ⋅ dF(x )

1 1

obtenemos que
E( X1 + X2 ) =
∫ x ⋅ dF(x ) + ∫ x

1 1

2 ⋅ dF( x 2 )

es decir,
E( X1 + X2 ) = E( X1 ) + E( X2 )

Así mismo
E(k ⋅ X) =
∫ k ⋅ x ⋅ dF(x) = k ⋅ ∫ x ⋅ dF(x)
ℜ ℜ

por lo tanto

IV.48
Capítulo IV: Variables Aleatorias

E(k ⋅ X) = k ⋅ E(X)

b) Si las variables aleatorias X e Y son independientes, entonces:


E(X·Y) = E(X)·E(Y)

En efecto:
E( X ⋅ Y ) =
∫ ℜ2
x ⋅ y ⋅ dF( x, y ) =
∫ x ⋅ dF(x) ⋅ ∫ y ⋅ dF(y) = E( X) ⋅ E(Y)
ℜ ℜ

Se cumple entonces que

{ X e Y son independientes} ⇒ { E( X ⋅ Y ) = E( X) ⋅ E( Y )}

c) Por una propiedad de la Integral de Stieljes, se cumple que:

E X [g( x, t )] =
∫ g(x, t) ⋅ dF(x) = ∫
d d d g(x, t)
⋅ dF(x)
dt dt ℜ ℜ dt

de donde:
⎡ d g(x, t) ⎤
E X [g( x, t )] = E X ⎢
d

dt ⎣ dt ⎦

Ecuación que será utilizada en la función característica.

Ejemplo IV.4 (Variables continuas)


La carga que tiene que transportar una carretilla en cada movimiento es una variable
aleatoria X con distribución uniforme entre 300 y 400 Kg. El coste de cada movimiento
expresado en pesetas, es una función de la carga dada por la expresión
g(x) = 100 + 0.25·x

Calcular el coste medio por movimiento sabiendo que la función de densidad de una
distribución uniforme en el intervalo [a,b] es:
1
f X (x) = con x ∈ [a,b]
b−a

SOLUCIÓN:
La función de densidad de la variable carga será:
1 1
f X (x) = = con x ∈ [300,400]
400 − 300 100

Por lo tanto, el valor medio del coste por movimiento es:


400
1
E [g(X)] =
∫ X
g(x) ⋅ f X (x) ⋅ dx =
∫ 300
(100 + 0.25 ⋅ x) ⋅
100
⋅ dx = 187.5 pts

IV.49
Capítulo IV: Variables Aleatorias

IV.4.- MOMENTOS

IV.4.1.- Concepto

Se denomina momento de orden ν respecto al origen de la variable aleatoria X a

∫x
ν
αν = ⋅ dFX ( x )

Si X es discreta, teniendo en cuenta una propiedad de la Integral de Stieljes, la definición


anterior es:
α ν = ∑ x iν ⋅ dPX ( x i )

en la que por xi se designa genéricamente a los valores de X cuya probabilidad es no nula.

Si X es continua, la definición de momento de orden ν respecto al origen se escribirá:


+∞
αν =
∫ -∞
x ν ⋅ fX ( x ) ⋅ dx

en la que f(x) es la función de densidad de la variable aleatoria X.

En particular, α1 es la esperanza matemática o valor medio de X, y lo designaremos por μX o,


simplemente por μ.

Denominaremos momento central de orden ν de la variable aleatoria X a:

[
μ ν = E ( X − α1 ) ν = ] ∫ ℜ
( x − α1 )ν ⋅ dFX ( x )

Si X es discreta, la definición anterior se escribirá:


μ ν = ∑ ( x i − α1 )ν ⋅ PX ( x i )
i

Si X es continua, el momento central de orden ν de la variable aleatoria X será:


+∞
μν =
∫ −∞
( x − α1 )ν ⋅ fX ( x ) ⋅ dx

IV.4.2.- Propiedades

a) El momento central de primer orden es siempre nulo, pues


μ1=E(X-α1)=E(X)-E(α1)=E(X)-E(μX)=μX-μX=0
b) El momento central μν se puede obtener en función de los momentos respecto al origen
fácilmente sin más que desarrollar el binomio (x-α1)ν y aplicar las propiedades del
operador E. Así, por ejemplo:

IV.50
Capítulo IV: Variables Aleatorias

[ ]
μ 2 = E ( x − α1 )2 = E( x 2 + α1 − 2 ⋅ x ⋅ α1 ) = α 2 + α12 − 2 ⋅ α12
2

μ2 = α 2 − α12

De la misma forma se deduce que:


μ 3 = α 3 − 3 ⋅ α1 ⋅ α 2 + 2α13

IV.5.- VARIANZA

IV.5.1.- Concepto

Al momento central de orden dos μ2, se le denomina varianza y también se le designa por σx2
y por D2(X).

En el caso de X discreta se calcula mediante:

σ2X = D2 ( X) = ∑ ( x i − μ X )2 ⋅ P( X = x i )
i

en la que los xi son los valores de X con probabilidad no nula.

En el caso continuo, σ2 se calcula mediante:

+∞
σ2X = D2 ( X) =
∫ −∞
( x − μ X )2 ⋅ fX ( x ) ⋅ dx

en la que fX(x) es la función de densidad de X.

IV.5.2.- Propiedades

Ayudará a la comprensión de las propiedades que se exponen a continuación, la aplicación de


la analogía mecánica, expuesta en un tema anterior, a las definiciones de media y varianza.
La media no es más que la suma de los productos de los elementos diferenciales de masa de
probabilidad multiplicados por su distancia al origen. Como la masa total es la unidad, la
media no es más que el centro de gravedad de la masa de probabilidad. Indica “por donde”
se encuentra situada la masa de probabilidad.

En la varianza, los elementos diferenciales de masa de probabilidad no se multiplican por su


distancia al origen, sino por su distancia al centro de gravedad elevada al cuadrado.
Representa, por lo tanto, el momento de inercia de la masa de probabilidad y es una medida
del grado de dispersión de está masa.

Las propiedades de la varianza son:

a) La varianza de una constante es cero, pues su masa de probabilidad está concentrada en


un punto, su centro de gravedad está en ese punto y las distancias de los puntos con masa

IV.51
Capítulo IV: Variables Aleatorias

al centro de gravedad son nulas y, por tanto, el momento de inercia también lo es:

D2 (k ) =
∫ (k − k ) ⋅ dFX ( x )
2

D 2 (k ) = 0

b) D2(k·X) = k2·D2(X)
En efecto, el valor medio de k·X es:
E(k·X) = k·E(X) = k·μX
Por lo tanto:
D2(k·X) = E[(k·X - k·μX)2] = E[k2·(X - μX)2] = k2·E[(X - μX)2]
es decir:
D2 (k ⋅ X) = k 2 ⋅ D2 ( X)

c) La varianza de a·X+b es a2·D2(X)


En efecto, como
E(a·X+b) = a·μX+b
es:
[ ] [
D2 (a ⋅ X + b) = E ((a ⋅ X + b) - (a ⋅ μ X + b)) = E a2 ⋅ ( X − μ X )2
2
]
por tanto:
D2 (a ⋅ X + b) = a2 ⋅ D2 ( X)

d) Varianza de la combinación lineal de dos variables:


Como
E(a1·X1+a2·X2)=a1·μ1+a2·μ2
entonces
D2(a1·X1+a2·X2) = E ( [(a1 ⋅ X1 + a2 ⋅ X2 ) − (a1 ⋅ μ1 + a2 ⋅ μ 2 )] 2 )
de donde:
D2(a1·X1+a2·X2) = E ( [(a1 ⋅ ( X1 − μ1 ) + a2 ⋅ ( X2 − μ 2 )] 2 )

elevando al cuadrado y aplicando las propiedades del operador E:

D2(a1·X1+a2·X2) = a12 ⋅ D2 ( X1 ) + a22 ⋅ D2 ( X2 ) + 2 ⋅ a1 ⋅ a2 ⋅ E [( X1 − μ1) ⋅ ( X2 − μ 2 )]

A la expresión:
E[( X1 − μ1 ) ⋅ ( X2 − μ 2 )]

se le denomina covarianza de X1 y X2 y se le representa por cov(X1,X2). Por tanto:

D2 (a1 ⋅ X1 + a2 ⋅ X2 ) = a12 ⋅ D2 ( X1 ) + a22 ⋅ D2 ( X2 ) + 2 ⋅ a1 ⋅ a2 ⋅ cov( X1, X2 )

IV.52
Capítulo IV: Variables Aleatorias

En general:

⎛ n ⎞ n n −1 n
D2 ⎜⎜ ∑ ai ⋅ Xi ⎟⎟ = ∑ ai2 ⋅ D2 ( Xi ) + 2 ⋅ ∑ ∑ ai ⋅ a j ⋅ cov( Xi , X j )
⎝ i =1 ⎠ i =1 i =1 i +1

e) Si dos variables aleatorias son independientes, la varianza de la suma es la suma de las


varianzas.
En efecto, si las variables X1 y X2 son independientes, el término cov(X1,X2) es decir, la
covarianza de X1 y X2, es nulo, pues por ser las dos variables independientes se cumple
que:
E[( X1 − μ1 ) ⋅ ( X2 − μ 2 )] = E( X1 − μ1 ) ⋅ E( X2 − μ 2 ) = (μ1 − μ1 ) ⋅ (μ 2 − μ 2 ) = 0

por tanto, sustituyendo en la ecuación anterior:

{X1 y X2 son independientes} → {D2 ( X1 + X2 ) = D2 ( X1) + D2 ( X2 )}

es inmediato que:

{X1 y X2 son independientes} → {D2 ( X1 - X2 ) = D2 ( X1) + D2 ( X2 )}

IV.6.- TEOREMA DE TCHEBYCHEFF.

Si g(X) es una función no negativa de la variable aleatoria X, se cumple que ∀ h ∈


ℜ+:
E [g( X)]
P [g( X) ≥ h] ≤
h

Sea Ah el conjunto de los valores de X que satisfacen a g(x)≥h, es decir


A h = { x ∈ ℜ; g(x) ≥ h}

Gráficamente:

g(X)

X
Ah

Figura IV.15.- Valores de X que satisfacen que g(X)≥h

Por ser Ah ⊂ ℜ (en sentido amplio):

IV.53
Capítulo IV: Variables Aleatorias

E [g( x )] =
∫ g(x) ⋅ dF (x) ≥ ∫ g(x) ⋅ dF (x)

X
Ah
X

Por ser g(x)≥h para todo x∈Ah:

∫ g(x) ⋅ dF (x) ≥ h ⋅ ∫ dF (x) = h ⋅ P( X ∈ A ) = h ⋅ P [g( X) ≥ h]


Ah
X
Ah
X h

En consecuencia:
E [g( X)]
P [g( X) ≥ h] ≤
h

Es fácil comprobar que la demostración es la misma si sustituimos la variable aleatoria


unidimensional X por la variable aleatoria n-dimensional.
r
X = ( X1, X2,..., Xn )

Por otra parte, si g(x)=(x-μX)2, y h=k2⋅σ2, la ecuación anterior se escribe:

[
P ( X − μ X )2 ≥ k 2 ⋅ σ2 ≤ ] σ2
k 2 ⋅ σ2
de donde:

[
P X − μX ≥ k ⋅ σ ≤ ] 1
k2

Ecuación que es conocida como la desigualdad de Bienaymé-Tchebycheff.

IV.7.- PARÁMETROS DE UNA DISTRIBUCIÓN.

Aunque la distribución de una variable aleatoria queda perfectamente caracterizada por su


función de distribución o bien por su función de densidad (en variables continuas) o por su ley
de probabilidades (en variables discretas), con el fin de describir determinados aspectos de la
distribución de masa de probabilidad de una variable aleatoria, se utilizan ciertos parámetros
que indican la posición, dispersión, asimetría y curtosis (o apuntamiento) de la masa de
probabilidad. Describiremos los más usuales.

IV.7.1.- Parámetros de posición

Estos parámetros indican por donde se encuentra situada la masa de probabilidad a lo largo
del eje de abscisas.

El más frecuentemente utilizado es el valor medio o esperanza matemática, que, como


sabemos, representa el centro de gravedad de la masa de probabilidad. Sin embargo, la media
puede no existir, o bien puede ocurrir que, por ser muy asimétrica la distribución de la masa
de probabilidad, la media represente mal a la posición de la masa, en cuyo caso se utilizan
otros parámetros de posición.

IV.54
Capítulo IV: Variables Aleatorias

La mediana es la abscisa del punto de intersección de la función de distribución con la recta


FX(x)=0.5. En el caso de que ésta intersección no sea un punto sino un segmento, se toma
como mediana la abscisa del punto medio de este segmento. La mediana tiene un 50% de
masa de probabilidad a su izquierda y otro 50% de masa a su derecha.

La moda corresponde a un máximo relativo de la función de densidad o de la ley de


probabilidades. Una misma variable puede tener más de una moda.

Evidentemente, en distribuciones simétricas unimodales, la media, la mediana y la moda


coinciden.

En distribuciones asimétricas, la posición relativa de estos parámetros es la que se muestra en


la figura IV.16.

fX(x) fX(x)

mediana mediana

moda media X media moda X

Figura IV.16.- Parámetros de posición en distribuciones asimétricas

IV.7.2.- Parámetros de dispersión

Estos parámetros tratan de medir el mayor o menor grado de concentración o de dispersión de


la masa de probabilidad.

El parámetro más utilizado es la varianza σ2 que, como sabemos, representa al momento de


inercia de la masa de probabilidad y puesto que ésta es constante e igual a la unidad, σ2
aumenta a medida que la masa de probabilidad se dispersa.
Sin embargo, las unidades de σ2 son las de la variable aleatoria X elevadas al cuadrado. Por
esta razón se utiliza con mucha frecuencia a la desviación típica, que se define como la raíz
cuadrada positiva de la varianza y se representa por σ. Tiene las mismas unidades que la
variable x.

Otro parámetro de dispersión lo constituye el coeficiente de variación, que se define como el


cociente entre la desviación típica y la media. Es un parámetro adimensional.

IV.7.3.- Parámetros de asimetría

Si la masa de probabilidad se distribuye simétricamente, los momentos respecto al origen de


orden impar (si existen) son siempre nulos. Como, por otra parte, μ1 siempre es nulo, se
puede utilizar μ3 como una medida de asimetría. Con el fin de utilizar un parámetro
adimensional, se utiliza como medida de asimetría a:

IV.55
Capítulo IV: Variables Aleatorias

μ3
γ1 =
σ3

En una función de densidad unimodal con una rama larga a la derecha y otra corta a la
izquierda, los cubos de las desviaciones positivas respecto de la media serán mayores que los
cubos de las desviaciones negativas y, por tanto γ1 es positivo; en este caso diremos que la
asimetría es positiva. De forma análoga se define asimetría negativa.

IV.7.4.- Parámetros de apuntamiento

El coeficiente de apuntamiento o curtosis, trata de medir el grado de apuntamiento de la


distribución en las proximidades de su media y se define por:
μ4
γ2 = −3
σ4

En función de los valores que tome este parámetro, las distribucciones se clasifican en:

γ2<0 planicúrticas
γ2=0 mesocúrticas
γ2>0 leptocúrticas

Las distribuciones mesocúrticas tienen un apuntamiento como el de la distribución Normal


que veremos en capítulos posteriores.

IV.56
Capítulo IV: Variables Aleatorias

Tema 5.Variables aleatorias discretas

IV.57
CAPITULO V:
Principales Distribuciones Discretas

IV.58
Capítulo V: Principales Distribuciones Discretas

V.1.- VARIABLE DICOTÓMICA

V.1.1.- Definición

Diremos que la variable aleatoria X es una variable dicotómica de parámetro p y


la representaremos por X≡D(p) si toma únicamente dos valores:
X=1 con probabilidad p
X=0 con probabilidad q=1-p

V.1.2.- Valor medio

Por tratarse de una variable discreta, la esperanza matemática será:


2
μ X = E(X ) = ∑ xi ⋅ P( x i ) = 0 ⋅ q + 1⋅ p = p
i =1

es decir:
E( X) = p

V.1.3.- Varianza

La varianza de X se calculará:

[ ]
2
σ2X = E ( x − μ )2 = ∑ (x i − μ ) ⋅ PX (xi ) = (0 − p)2 ⋅ q + (1 − p)2 ⋅ p = p2 ⋅ q + q2 ⋅ p
2

i =1

es decir:
σ2X = p ⋅ q ⋅ (p + q) = p ⋅ q

por tanto:
D2 ( X) = p ⋅ q

La desviación típica será:

σX = + p ⋅ q

V.2.- VARIABLE BINOMIAL

V.2.1.- Definición

Sea A un suceso de probabilidad p asociado a una experiencia aleatoria. Repitamos n veces la


realización del fenómeno aleatorio o de la experiencia de que se trate. En cada repetición
observemos si ha ocurrido el suceso A o su complementario.

Supongamos además, que después de cada repetición el fenómeno queda en la misma


situación probabilística que antes de realizar dicha repetición y, en consecuencia, la

V.59
Capítulo V: Principales Distribuciones Discretas

probabilidad condicional de A, en cada repetición, coincide con su correspondiente


probabilidad inicial. Pues bien,

Si designamos por X a la variable “número de veces que ocurre el suceso A, de


probabilidad P(A)=p, cuando efectuamos n repeticiones independientes del
fenómeno al que va asociado”, entonces X es una variable binomial de
parámetros n y p y la representaremos por X≡B(n,p).

La definición anterior es equivalente a la siguiente basada en el concepto de variable


dicotómica: si por Yi designamos a la variable que expresa el resultado de la repetición
número i y, más concretamente, Yi toma el valor 1 si en la repetición número i ocurre el
suceso A y toma el valor 0 si no ocurre, entonces, Yi es una variable dicotómica de parámetro
p. Si, además, llamamos X a
n
∑ Yi = X
i =1

entonces X≡B(n,p) cuando las Yi son independientes. Es decir, que:

Una variable aleatoria Binomial X≡B(n,p) es la suma de n variables dicotómicas


independientes de parámetro p.
{ X ≡ B(n, p)} ⇔ ⎧⎨ X = ∑ Yi ; ⎫
n
Yi ≡ D(p) independie ntes ⎬
⎩ i =1 ⎭

V.2.2.- Ley de probabilidades

Supongamos que efectuamos 4 repeticiones independientes de un experimento aleatorio, que


tiene asociado un suceso A de probabilidad P(A)=p, y obtenemos el resultado A1, A 2 , A3, A 4
(el subíndice indica el número de la repetición), su probabilidad es:
( ) ( ) ( )
P A1 ∩ A 2 ∩ A 3 ∩ A 4 = P(A1 ) ⋅ P A 2 ⋅ P(A 3 ) ⋅ P A 3 = p2 ⋅ q2

por ser las repeticiones independientes. La misma probabilidad tendrá cualquier combinación
en la que el suceso A ocurra dos veces.

El suceso A ocurrirá dos veces si ocurre uno de los siguientes sucesos:


B1 = A1 ∩ A 2 ∩ A 3 ∩ A 4 con probabilidad p2·q2
B2 = A1 ∩ A 2 ∩ A 3 ∩ A 4 con probabilidad p2·q2
B3 = A1 ∩ A 2 ∩ A 3 ∩ A 4 con probabilidad p2·q2
B4 = A1 ∩ A 2 ∩ A 3 ∩ A 4 con probabilidad p2·q2
B5 = A 1 ∩ A 2 ∩ A 3 ∩ A 4 con probabilidad p2·q2
B6 = A1 ∩ A 2 ∩ A 3 ∩ A 4 con probabilidad p2·q2

Si designamos por X a la variable binomial “número de veces que ocurre A al efectuar 4


repeticiones independientes”, entonces:
⎛6 ⎞
P( X = 2) = P ⎜⎜ U Bi ⎟⎟ = 6 ⋅ p2 ⋅ q2
⎝ i =1 ⎠

V.60
Capítulo V: Principales Distribuciones Discretas

donde el número 6 es el número de combinaciones al tomar 4 elementos de dos en dos.

En general, si hacemos n repeticiones independientes, la probabilidad de que ocurra X=ν


veces el suceso A, será la probabilidad de que ocurra uno de los
⎛n⎞
⎜⎜ ⎟⎟
⎝ν⎠

sucesos Bi, cada uno de ellos con una probabilidad igual a pν⋅qn-ν, es decir:

⎛n⎞
P( X = ν ) = ⎜⎜ ⎟⎟ ⋅ pν ⋅ qn − ν
⎝ν⎠

La representación gráfica de la ley de probabilidades tiene la forma de la figura V.1.

PX(x)

0,3

0,2

0,1

0
0 1 2 3 4 5 6 7 8 9 10 X

Figura V.1.- Función de Probabilidad de una B(10,0.2)

Nótese que la suma de las probabilidades es 1, pues el desarrollo del binomio de Newton da,
precisamente, cada una de las probabilidades anteriores. Este hecho es el que da nombre a la
variable aleatoria binomial:
⎛n⎞
n

∑ ⎜⎜⎝ ν ⎟⎟⎠ p ⋅ q
ν =0
ν n−ν
= (p + q)n = 1n = 1

Ejemplo V.1:
En un almacén de repuestos se recibe un lote con miles de remaches de los que un 1% son
defectuosos.

a) ¿Cuál es la probabilidad de que al tomar al azar de ese lote una muestra de 50 remaches
contenga 2 remaches defectuosos?

b) Para la aceptación de los lotes recepcionados se aplica un plan de control de calidad


consistente en muestrear aleatoriamente 50 remaches y aceptar el lote si aparecen como
máximo 2 remaches defectuosos. ¿Cuál es la probabilidad de aceptar con este plan de
control el lote anteriormente referido?

c) Si aceptamos el lote solo cuando todos los remaches de la muestra son correctos ¿Cual
debería ser el número de remaches que debemos inspeccionar si pretendemos aceptar
con una probabilidad menor que 0.10 aquellos lotes que contengan un 5% de remaches

V.61
Capítulo V: Principales Distribuciones Discretas

defectuosos?

SOLUCIÓN:

a) El número de remaches defectuosos en la muestra referida será una variable X≡B(50,


0.01), y la probabilidad pedida es:
⎛ 50 ⎞
P(X = 2) = ⎜⎜ ⎟⎟ ⋅ 0.012 ⋅ 0.99 48 = 0.076
⎝2⎠

En términos de frecuencia, la probabilidad obtenida indica que el 7’6% de las muestras


de 50 remaches que pudiéramos obtener al azar del lote propuesto tendrían exactamente
dos remaches defectuosos.

b) El número de remaches defectuosos en la muestra sería la misma variable del apartado


anterior y la probabilidad de aceptar al lote sería:
Pa=P(X≤2)=P(X=0)+P(X=1)+P(X=2)

⎛ 50 ⎞ ⎛ 50 ⎞ ⎛ 50 ⎞
Pa = ⎜⎜ ⎟⎟ ⋅ 0.010 ⋅ 0.99 50 + ⎜⎜ ⎟⎟ ⋅ 0.011 ⋅ 0.99 49 + ⎜⎜ ⎟⎟ ⋅ 0.012 ⋅ 0.99 48 = 0.980
⎝0 ⎠ ⎝1 ⎠ ⎝2⎠

Es decir, el 98% de los lotes serán aceptados.

c) Si los remaches defectuosos en el lote son un 5% y seleccionamos al azar n remaches, la


variable que representa los remaches defectuosos será Y=B(n,0.05). Deberemos
seleccionar n de manera que se cumpla que P(Y=0)≤0.10, es decir:
⎛n⎞
P(Y = 0) = ⎜⎜ ⎟⎟ ⋅ 0.05 0 ⋅ 0.95 50 ≤ 0.10
⎝0 ⎠

operando obtenemos:
n≥45 remaches

V.2.3.- Media

Por ser X≡B(n,p) suma de n variables dicotómicas, Yi, su esperanza matemática será:
⎡n ⎤ n
E( X) = E ⎢∑ Yi ⎥ = ∑ E( Yi ) = n ⋅ p
⎣ i =1 ⎦ i =1

E( X) = n ⋅ p

V.2.4.- Varianza

Como en el apartado anterior, la varianza de una variable binomial, es la suma de las


varianzas de las variables dicotómicas que la definen, pues éstas son independientes, por ello:

V.62
Capítulo V: Principales Distribuciones Discretas

⎡n ⎤ n
D2 ( X) = D2 ⎢∑ Y i⎥ = ∑ D2 ( Yi )
⎣ i =1 ⎦ i =1
por lo tanto:
D2 ( X) = n ⋅ p ⋅ q

y la desviación típica es:


σX = n ⋅ p ⋅ q

V.2.5.- Adición

Si X1 y X2 son variables Binomiales independientes con idéntico parámetro p, su


suma es otra variable Binomial con el mismo parámetro p.

En efecto, sea X1≡B(n1,p) y X2 ≡B(n2,p), las funciones características son, respectivamente:


(
ϕ X1 ( t ) = p ⋅ eit + q )
n1
(
ϕ X 2 ( t ) = p ⋅ eit + q )
n2

por ser X1 y X2 independientes, la función característica de la suma es el producto de las


funciones características:
(
ϕ X1 + X 2 ( t ) = p ⋅ eit + q )
n1 + n 2

que es la función característica de una variable Binomial de parámetros n1+n2 y p.

En consecuencia, y teniendo en cuenta la correspondencia biunívoca entre función de


distribución y función característica establecida por el teorema de la inversión, se cumple que:
{ Si X1≡ B(n1, p) y X2 ≡ B(n2 , p) independientes} ⇒ { X1 + X2 ≡ B(n1 + n2 , p)}

V.3.- TEOREMA DE BERNOUILLI

Este teorema que fue publicado y demostrado (aunque de forma diferente a la que aquí se
expone) por primera vez por J. Bernouilli en su obra póstuma Ars Conjectandi en 1713, se
enuncia así:

La frecuencia relativa con que se presenta un suceso A de probabilidad p al


efectuar n repeticiones independientes del experimento al que va asociado
converge en probabilidad a p. (Anexo I).

Si X es la frecuencia absoluta con que ocurre el suceso A de probabilidad P(A)=p al efectuar


n repeticiones independientes de un cierto fenómeno aleatorio, X es una variable aleatoria
binomial de parámetros n y p. En consecuencia, la frecuencia relativa:
X
fr =
n

es una variable aleatoria cuya media es:


n⋅p
E(fr ) = =p
n

V.63
Capítulo V: Principales Distribuciones Discretas

y cuya varianza y desviación típica son:


p⋅q p⋅q
D2 (fr ) = D(fr ) =
1
2
n⋅p ⋅q =
n n n

Por el teorema de Bienaymé-Tchebycheff:


⎡ p⋅q⎤ 1
P ⎢ fr − p ≥ k ⋅ ⎥≤
⎣⎢ n ⎦⎥ k 2
llamando ε a:
p⋅q
ε =k⋅
n
tendremos que
[
P fr − p ≥ ε ≤ ] p⋅q
ε2 ⋅ n

Teniendo en cuenta que el valor máximo de p·q es 1/4, puesto que si llamamos
z=p·q=p·(1-p)=p-p2
derivando z respecto de p e igualando a 0:
dz 1
= 1 − 2p = 0 ⇒ p=
dp 2
con
d2 z
= −2 < 0
dp2
entonces,
1
p⋅q ≤
4

Obtendremos que

[
P fr − p ≥ ε ≤ ] 1
4 ⋅ n ⋅ ε2
Para un ε ∈ ℜ+ se cumple que:
[
lim P fr − p ≥ ε = 0
n→∞
]
es decir:
f r ⎯⎯→
P
p

La interpretación práctica de este teorema es muy clara, pues establece que haciendo un
número suficientemente grande de repeticiones, es tan poco probable como queramos que
la frecuencia relativa con que ocurre el suceso A difiera de la probabilidad de A, en valor
absoluto, más de una cierta cantidad prefijada. Es decir que:

Si tomamos fr como estimación de p, al realizar un número n grande de


repeticiones, es casi seguro que el error que cometeremos es menor que ε, siendo
ε un número arbitrariamente pequeño.

V.64
Capítulo V: Principales Distribuciones Discretas

Si hacemos
1
δ≥
4nε2
entonces
[
P fr − p ≥ ε ≤ δ ]
de donde obtenemos que
1
n≥
4 ⋅ δ ⋅ ε2

lo que permite calcular n, una vez fijado el error máximo ε que aceptamos cometer con una
probabilidad menor o igual que δ.

Por ejemplo, si deseamos que la probabilidad de cometer un error mayor que ε=0.1 sea de
δ≤0.01, tendremos que:
1
n≥ = 2500
4 ⋅ 0.01 ⋅ 0.12

en consecuencia, si efectuamos 2500 repeticiones del experimento aleatorio, al estimar p


mediante fr, cometeremos un error menor que 0.1 en más del 99% de los casos en el que se
efectúe tal estimación.

V.4.- DISTRIBUCION DE POISSON

V.4.1.- Definición

Sea X una variable Binomial de parámetros n y p. Hagamos tender n a infinito, manteniendo


el valor medio de X constante, es decir, hagamos
λ=n·p
en la que λ se mantiene constante cuando n crece indefinidamente. Como
λ
p=
n

p tenderá a cero cuando n tienda a infinito. Pues bien:

Una variable de Poisson es una variable Binomial de parámetros n y p, cuando n


tiende a infinito y simultáneamente p tiende a cero, manteniéndose constante el
valor medio λ=n·p. La designaremos por X≡PS(λ).

V.4.2.- Ley de probabilidades

Si X≡B(n,p), su ley de probabilidades, para 0≤ν≤n, será


⎛n⎞
P( X = ν ) = ⎜⎜ ⎟⎟ ⋅ pν ⋅ (1 − p)n − ν
⎝ν⎠

que puede escribirse como

V.65
Capítulo V: Principales Distribuciones Discretas

n ⋅ (n − 1)...(n − ν + 1) ν
P( X = ν ) = ⋅ p ⋅ (1 − p)n − ν
ν!

Multiplicando y dividiendo por nν :


⎡ 1 ⎤ ⎡ ν − 1⎤
1⋅ ⎢1 − ⎥ ⋅ ⋅ ⋅ ⎢1 −
n ⎥⎦
P( X = ν ) = ⎣
n⎦ ⎣
⋅ (n ⋅ p)ν ⋅ (1 − p)n − ν
ν!

y teniendo en cuenta que λ=n·p


⎡ 1⎤ ⎡ ν − 1⎤
1 ⋅ ⎢1 − ⋅ ⋅ ⋅ ⎢1 −
n ⎥⎦ n ⎥⎦ ν
n
⎡ λ⎤
P( X = ν ) = ⎣ ⎣ λ ⋅ ⎢1 − ⎥ ⋅ q− ν
ν! ⎣ n⎦

tomando límites cuando n tiende a infinito y teniendo en cuenta que p tiende a cero (q→1)
e − λ ⋅ λν
lim P( X = ν ) =
n→∞ ν!

Luego si X es una variable de Poisson, X es discreta y toma los valores X = 0, 1, 2, 3, ... con
probabilidades:

e − λ ⋅ λν
P( X = ν ) =
ν!

obsérvese que:
∞ ∞
e − λ ⋅ λν ∞
λν
∑ P( X = ν ) = ∑ ν !
= e−λ ∑
ν!
= e − λ ⋅ eλ = 1
ν =0 ν =0 ν =0

PX(x)

0,3

0,2

0,1

0
0 1 2 3 4 5 6 7 8 9 10 X

Figura V.2.- Función de probabilidad de una Ps(2)

Ejemplo V.2
El número de defectos de pintura en la carcasa de una lavadora puede asumirse que es una
variable aleatoria con distribución de Poisson de promedio λ=2 defectos/unidad.

a) Determinar la probabilidad de que al seleccionar al azar una carcasa de esa fabricación

V.66
Capítulo V: Principales Distribuciones Discretas

aparezcan en ella exactamente 3 defectos.

b) Para controlar la calidad del proceso de fabricación de las carcasas, se toma al azar una
de las carcasas fabricadas y se acepta que el proceso es correcto si en ella encontramos 2
o menos defectos. ¿Cuál es la probabilidad de aceptar como correcto con este control un
proceso en el que se producen, en promedio 5 defectos por unidad fabricada?

SOLUCIÓN:

a) La probabilidad pedida es:


e −2 ⋅ 2 3
P(X = 3) = = 0.18
3!

en términos de frecuencia, la probabilidad anterior equivale a decir que el 18% de las


carcasas fabricadas presentan exactamente 3 defectos.

b) En este caso, el número de defectos en cada carcasa será una variable con distribución
X=Ps(5) y la probabilidad de aceptar el proceso como correcto:
P ( aceptar) = P( Ps(5)≤2) = 0.125

V.4.3.- Media

Si derivamos la función característica respecto de t y hacemos t=0, podemos calcular α1 =μ :


dϕ X (t )
= eλ (e −1) ⋅ λ ⋅ eit ⋅ i
it

dt

de donde:
⎡ dϕ X ( t ) ⎤
⎢ dt ⎥ = λ ⋅ i =α1·i
⎣ ⎦ t =0

por tanto:
E( X) = λ

V.4.4.- Varianza

Derivando nuevamente la función característica:

dt 2 dt
e [
d2ϕ X (t ) d λ (eit −1)
= ⋅ λ ⋅ eit ⋅ i ]
d2ϕ X (t )
= eλ (e −1) ⋅ λ2 ⋅ e2it ⋅ i2 + λ ⋅ eit ⋅ i2 ⋅ eλ (e −1)
it it

2
dt

haciendo t=0:

V.67
Capítulo V: Principales Distribuciones Discretas

⎡ d2ϕ X ( t ) ⎤
⎢ 2
2
(
⎥ = λ + λ ⋅i
2
)
⎣ dt ⎦ t = 0

de donde :
α 2 = λ2 + λ

Como σ 2 = α 2 − α 12 , será:
σ2 = λ2 + λ − λ2 = λ

es decir:
D2 ( X ) = λ

V.4.5.- Adición

La suma de dos variables de Poisson independientes es otra variable de Poisson


cuyo parámetro es la suma de los parámetros de las variables sumadas.

En efecto, si X1≡PS(λ1) y X2≡PS(λ2), sus funciones características son, respectivamente:


ϕX1 ( t ) = eλ1 (e −1) y ϕX 2 ( t ) = eλ 2 (e −1)
it it

por ser independientes, la función característica de la suma es:


ϕ X1 + X 2 ( t ) = e(λ1 + λ 2 )(e
it
−1 )

que es la función característica de una variable de Poisson de parámetro λ1+λ2.

Por tanto:

{ Si X1 ≡ PS(λ1 ) y X 2 ≡ PS(λ 2 ) independientes} ⇒ { X1 + X2 ≡ PS(λ1 + λ 2 )}

V.5.- VARIABLE HIPERGEOMÉTRICA

V.5.1.- Definición

Supongamos que un lote contiene N piezas y que de ellas p·N=N1 son defectuosas y que
q·N=N2 son correctas. Lógicamente se cumple que p+q=1 y N1+N2=N. Extraigamos sin
reemplazamiento n piezas del lote de tal forma que todas las piezas tengan la misma
probabilidad de formar parte de las n piezas extraídas (n≤p·N y n≤q·N). Llamemos n1 a las
piezas defectuosas que hemos extraído y n2 a las piezas correctas. Lógicamente se cumple que
n1+n2=n. Pues bien, el número de piezas defectuosas n1 se distribuye según una variable
hipergeométrica.

Sea E una población finita cuyos elementos son de dos tipos: A y A . El número de
elementos de A que resultan al extraer al azar y sin reemplazamiento n elementos
de E, es una variable hipergeométrica y la designaremos por X≡H(N,n,p).

V.68
Capítulo V: Principales Distribuciones Discretas

La variable Hipergeométrica es discreta y toma los valores X=0, 1, 2 .., n.

V.5.2.- Ley de probabilidades

Recordemos que el número de subconjuntos de tamaño n que se pueden formar de un


conjunto de tamaño N es:
⎛ N⎞
⎜⎜ ⎟⎟
⎝n⎠

éste será, por tanto, el número de posibles extracciones, todas ellas con la misma
probabilidad.

El número de subconjuntos de n1 elementos de un conjunto de N1 elementos es:


⎛ N1 ⎞
⎜⎜ ⎟⎟
⎝ n1 ⎠

El número de subconjuntos de n2 elementos que se pueden extraer de un conjunto de N2


elementos es:
⎛ N2 ⎞
⎜⎜ ⎟⎟
⎝ n2 ⎠

El número de subconjuntos de n elementos que tienen n1 en A y n2 en A es:


⎛ N1 ⎞ ⎛ N2 ⎞
⎜⎜ ⎟⎟ · ⎜⎜ ⎟⎟
⎝ n 1 ⎠ ⎝ n2 ⎠

En consecuencia, la probabilidad de que al extraer n unidades sin reemplazamiento de ellas n1


pertenezcan a A y n2 pertenezcan a A es:
⎛ N1 ⎞ ⎛ N2 ⎞
⎜⎜ ⎟⎟ ⋅ ⎜⎜ ⎟⎟
⎝ n1 ⎠ ⎝ n2 ⎠
⎛ N⎞
⎜⎜ ⎟⎟
⎝n⎠

Teniendo en cuenta que N1=p·N, que N2=q·N, que n1+n2=n, y llamando ν=n1, si X≡H(N,n,p),
entonces:

⎛N ⋅ p ⎞ ⎛ N ⋅ q ⎞
⎜⎜ ⎟⋅⎜ ⎟
⎝ ν ⎟⎠ ⎜⎝ n − ν ⎟⎠
P( X = ν ) =
⎛ N⎞
⎜⎜ ⎟⎟
⎝n⎠

El valor medio y la varianza de esta variable son:

E( X) = n ⋅ p

V.69
Capítulo V: Principales Distribuciones Discretas

N−n
D2 ( X ) = n ⋅ p ⋅ q ⋅
N −1

V.5.3.- Convergencia

Cuando N es grande en comparación con n, después de extraer cada una de las n unidades, la
composición de población prácticamente no se modifica, y todo ocurre como si las
extracciones fueran con reemplazamiento y, por tanto, la variable X=H(N,n,p) pasa a ser
X=B(n,p). Más exactamente, la variable hipergeométrica converge en distribución a una
variable binomial cuando N crece manteniendo n y p constantes.

Ejemplo V-3
Calcular la probabilidad de obtener 4 aciertos al realizar una única apuesta en la loteria
primitiva.

SOLUCIÓN:

En la lotería primitiva existen N=49 números diferentes de los cuales Np=6 son premiados y
Nq=43 no lo son. Al realizar una apuesta se seleccionan (sin reemplazamiento) 6 números
diferentes. Con este planteamiento, el número de aciertos obtenidos en una apuesta es una
variable hipergeométrica X = H(49, 6, 6/49).

Entonces
⎛ 6 ⎞ ⎛ 43 ⎞
⎜⎜ ⎟⎟ ⋅ ⎜⎜ ⎟⎟
4 2
P(X = 4) = ⎝ ⎠ ⎝ ⎠ = 9.68 ⋅10 − 4
⎛ 49 ⎞
⎜⎜ ⎟⎟
⎝6 ⎠

V.6.- VARIABLE BINOMIAL NEGATIVA

V.6.1.- Definición

Consideremos un suceso A de probabilidad p=P(A). Efectuemos repeticiones independientes


hasta que ocurra “r” veces el suceso A. Pues bien:
El número de repeticiones independientes que hay que efectuar hasta que ocurra
exactamente “r” veces el suceso A de probabilidad p, es una variable aleatoria
Binomial Negativa y la representaremos mediante X≡BN(r,p)

La variable BN(r,p) es discreta, infinito numerable y toma los valores r, r+1,r+2,...

V.6.2.- Ley de probabilidades

V.70
Capítulo V: Principales Distribuciones Discretas

La variable aleatoria X≡BN(r,p) toma el valor ν, si y sólo si en las ν-1 primeras repeticiones
el suceso A ocurre r-1 veces y en la repetición ν-ésima ocurre el suceso A. La probabilidad de
que en ν-1 repeticiones independientes ocurra r-1 veces el suceso A de probabilidad p es:
⎛ ν − 1⎞ r −1
⎜⎜ ⎟⎟ ⋅ p ⋅ (1 − p)ν −r
⎝ r − 1⎠

en consecuencia:
⎛ ν − 1⎞ r
P( X = ν ) = ⎜⎜ ⎟⎟ ⋅ p ⋅ (1 − p)ν − r
⎝ r − 1 ⎠

V.6.3.- Media y Varianza

Por derivación de ϕX(t) respecto de t obtenemos los momentos respecto al origen de primero y
segundo orden. A partir de estos momentos obtenemos:
r
E( X) =
p

y
r⋅q
D2 ( X ) =
p2

Ejemplo V.4
En la centralita de teléfonos de una empresa se reciben, de modo aleatorio, un 20% de
llamadas del extranjero.

a) Determinar la probabilidad de que se reciban 10 llamadas hasta registrar la segunda


procedente del extranjero.

b) ¿Cuál es el promedio de llamadas recibidas hasta totalizar 5 procedentes del extranjero?

SOLUCIÓN:

a) La variable "número de llamadas recibidas hasta obtener la segunda procedente del


extranjero" será, según los datos del enunciado, X=BN(2,0.20). Entonces,
⎛10 − 1 ⎞
P(X = 10) = ⎜⎜ ⎟⎟ ⋅ 0.2 2 ⋅ 0.8 8 = 0.06
⎝ 2 −1 ⎠

b) En este caso la variable es X=BN(5,0.20). Entonces,


r 5
E(X) = = = 25 llamadas
p 0.20

V.71
Capítulo V: Principales Distribuciones Discretas

V.7.- VARIABLE K-ARIA

V.7.1.- Definición

En las variables estudiadas hasta ahora, se efectuaba una partición del Espacio Muestral E en
dos sucesos que denominábamos A y A . Bajo distintos supuestos (extracciones sin
reemplazamiento, repeticiones independientes, límite cuando n→∞ y p→0, etc), las diferentes
variables indicaban las veces que ocurría el suceso A.

En este apartado y en el siguiente, consideraremos que se efectúa una partición de E en k


sucesos denominados A1, A2,…,Ak. Observaremos, ahora, el número de veces que ocurre
cada uno de estos k sucesos al efectuar n repeticiones del fenómeno aleatorio.

La variable aleatoria k-dimensional que indica en cada repetición cuál de los k


sucesos ha ocurrido, se denomina variable k-aria. Es, por tanto, una variable
discreta que toma los valores que a continuación se expresan con las
probabilidades que se indican:
(1,0,0,…,0) con probabilidad p1=P(A1)
(0,1,0,…,0) con probabilidad p2=P(A2)
(0,0,1,…,0) con probabilidad p3=P(A3)
M
(0,0,0,…,1) con probabilidad pk=P(Ak)
r
La variable X = ( X1, X2,..., Xk )' indica el suceso que ha ocurrido. Así, por ejemplo, si ha
ocurrido el
r
suceso A2 tomará el valor (0,1,0,…,0) y, en general, si ha ocurrido el suceso Ai la
variable X toma un valor que tiene un 1 en la componente número i y 0 en el resto.

Aunque la variable k-aria tiene k componentes (variables marginales), como se cumple que:
k
∑ Xi =1
i =1

la masa de probabilidad se encuentra en un hiperplano de dimensión k-1 y, por tanto, la


característica o rango de la matriz de varianzas covarianzas es r=k-1.

En la figura V.3 se ha representado a la variable binaria. Obsérvese que la masa de


probabilidad se encuentra concentrada en dos puntos cuyas coordenadas satisfacen a
X1+X2=1.

Cada una de las variables marginales de una k-aria es una variable dicotómica de parámetro
pi .

La variable k-dimensional discreta, una de cuyas componentes toma el valor 1 y


el resto son todo 0 y que sirve para indicar el suceso que ha ocurrido de los k
sucesos en que se ha particionado E, se llama variable k-aria.

V.72
Capítulo V: Principales Distribuciones Discretas

X2

(0,1) p2
p1

(1,0)

X1

Figura V.3.- Variable binaria (k=2)

La expresión de la función caracteristica de esta variable es:

k
ϕn (t1, t 2 ,...t k ,) = ∑ p j ⋅ e
it j

j =1

V.7.2.- Vector de medias y Matriz de varianzas-covarianzas

Esta variable k-dimensional tiene como vector de medias:


r
μ′ = (p1, p2 , p3 ,..., pk )

y como matriz de varianzas-covarianzas:

⎡ p1q1 − p1q2 L − p1qk ⎤


⎢ ⎥
−p q p2q2 L − p2qk ⎥
V=⎢ 2 1
⎢ L L L L ⎥
⎢ ⎥
⎣ − pk q1 − pk q2 L pk qk ⎦

V.8.- VARIABLE MULTINOMIAL

V.8.1.- Definición

Sea A1, A2,…,Ak, una partición del espacio muestral E, es decir:


U Ai = E y Ai I A j = ∅
i i≠ j

Sea pi=P(Ai). Evidentemente:


k
∑ pi = 1
i =1

Efectuemos n repeticiones independientes del fenómeno


r
aleatorio, y llamemos Xi al número
de veces que ocurre Ai. La variable k-dimensional X = ( X1, X2 ,..., Xk )′ se denomina variable
multinomial.

V.73
Capítulo V: Principales Distribuciones Discretas

Si llamamos Yi a la variable aleatoria k-aria que indica el resultado de la repetición número i,


es:
n
X = ∑ Yi
i =1

por tratarse de repeticiones independientes, las variables Yi son independientes entre sí.

A la variable multinomial la representaremos mediante X≡MN(n,p1,p2,...,pk)

V.8.2.- Ley de probabilidades

Con el fin de fijar ideas, supongamos que k=3 y que n=6, es decir, que tenemos 3 sucesos A1,
A2 y A3, y hemos realizado 6 repeticiones del fenómeno aleatorio. Supongamos también que
se ha obtenido el siguiente suceso:
B= A1, A2, A1, A3, A1, A2
la probabilidad de este suceso es:
P(B) = p13 ⋅ p22 ⋅ p3

Ocurrirá 3 veces A1, 2 veces A2 y 1 vez A3, si ocurre cualquiera de los sucesos que se pueden
obtener del B mediante las permutaciones con repetición de 6 elementos de los que 3 son de
un tipo 2 de otro y 1 de otro. Todos ellos tienen la misma probabilidad, luego:

P(X1 =3, X2 = 2, X3 =1) =


6!
p13 ⋅ p22 ⋅ p3
3!⋅2!⋅1!

y en general:

P(X1 = ν1, X2 = ν 2,..., Xk = νk ) =


n!
p1ν1 ⋅ pν22 ⋅ ... ⋅ pkν k
ν1!⋅ν 2!⋅... ⋅ νk !

k k
con ∑ νi = n y ∑ pi = 1 .
i =1 i =1

V.8.3.- Vector de medias y Matriz de varianzas-covarianzas

El vector de medias de esta variable k-dimensional es:


r
μ′ = (n ⋅ p1, n ⋅ p2 , n ⋅ p3 , L , n ⋅ pk )

y la matriz de varianzas-covarianzas es:

⎡ np1q1 − np1q2 L − np1qk ⎤


⎢ ⎥
− np2q1 np 2q2 L − np 2qk ⎥
V=⎢
⎢ L L L L ⎥
⎢ ⎥
⎣ − np q
k 1 − np k q2 L npk qk ⎦

V.74
Capítulo V: Principales Distribuciones Discretas

Ejemplo V.5
Una línea de estampación de piezas metálicas trabaja con tres prensas diferentes cuya
producción se recoge en el mismo contenedor. La primera prensa A1, produce el 40% del
total de piezas, la segunda prensa A2, produce el 25% de las piezas y la tercera prensa A3, el
resto. Cuando el contenedor está lleno se seleccionan de forma aleatoria 6 piezas del mismo.
Calcular la probabilidad de que en la muestra se encuentren 2 piezas fabricadas por la
prensa A1, 3 piezas fabricadas por la prensa A2 y 1 fabricada por A3.

SOLUCIÓN:

La variable “número de piezas de cada prensa en la muestra” es una variable con


distribución r
X ≡ MN(6, 0.4, 0.25, 0.35)

La probabilidad pedida será:


6!
P(X1 = 2, X 2 = 3, X 3 = 1) = ⋅ 0.40 2 ⋅ 0.25 3 ⋅ 0.351 = 0.0525
2!.3!.1!

V.75
Capítulo V: Principales Distribuciones Discretas

Tema 6. Variables aleatorias continuas


unidimensionales

V.76
CAPITULO VI:
Principales distribuciones continuas.

V.77
Capítulo VI: Principales Distribuciones Continuas

VI.1.- INTRODUCCION

La variable aleatoria Normal (también conocida como variable de Gauss) es, sin duda, la
más importante de las variables aleatorias continuas, pues se usa eficazmente en el estudio de
numerosos fenómenos reales. Los errores de medidas de magnitudes físicas o astronómicas,
ciertas distribuciones demográficas, el consumo de energía eléctrica de una determinada
compañía, las características de calidad de numerosos productos industriales, los test de
inteligencia o de personalidad, los beneficios o pérdidas de una compañía de seguros, las
producciones agrícolas por unidad de superficie cultivada, etc. son algunos de los ejemplos en
los que la variable Normal ha sido utilizada con gran utilidad.

En 1733, De Moivre, en su Miscellanea Analytica, encontró por primera vez ésta variable en
relación con el teorema que lleva su nombre y que estudia la distribución límite de la variable
binomial. Mucho tiempo después fue redescubierta por Gauss al estudiar la teoría de los
errores en 1809. Laplace publicó en 1812 en su obra Theorie analytique des probabilites,
aunque de forma incompleta, por primera vez, el importante Teorema Central del Límite.
Bajo esta denominación, se engloban, actualmente, a una colección de teoremas cuyo objetivo
fundamental consiste en determinar las condiciones bajo las cuales una suma de variables
aleatorias converge en distribución a una variable Normal.

De forma simplificada y general, el Teorema Central del Límite, establece que cuando un
efecto es consecuencia de numerosas causas que actúan sumando sus efectos, de tal forma que
es poco probable que cualquiera de ellos tenga un efecto individual significativamente más
importante que el resto, aquel efecto sigue prácticamente una distribución Normal.

Al ser muchos los fenómenos reales que cumplen las condiciones enunciadas en el párrafo
anterior, el teorema central del límite, justifica la gran importancia científica y práctica de la
variable Normal.

VI.2.- VARIABLE NORMAL TIPIFICADA

VI.2.1.- Definición

La variable aleatoria continua cuyo campo de existencia es ℜ y cuya función de


densidad es:
z2
1 −
fZ (z) = e 2

2 ⋅π

se denomina variable aleatoria Normal Tipificada y se representa por Z≡N(0,1).

VI.2.2.- Representación gráfica de fZ(z)

a) Asíntotas:
lim fZ ( z ) = 0
z → −∞
y zlim fZ ( z ) = 0
→∞

VI.78
Capítulo VI: Principales Distribuciones Continuas

El eje de las x es asíntota.

b) Simetría:
fZ(z)=fZ(-z)

El eje de ordenadas es eje de simetría.

c) Derivadas:
z2
−z −
fZ ( z)′ = e 2

2⋅π

fZ ( z )′′ =
−1
⋅e

z2
2
+
−z
⋅e

z2
2
⋅ (− z ) =
(z 2
−1 )⋅e −
z2
2

2⋅π 2⋅π 2⋅π

d) Máximos y mínimos:
f Z ( z )′ = 0 ↔ z = 0 ⎫
⎬ ⇒ máximo en z = 0
f Z (0)′′ < 0 ⎭

e) Crecimientos y decrecimientos:
{f Z (z)′ > 0 ↔ z < 0} ⇒ {creciente en z < 0}
{f Z (z)′ < 0 ↔ z > 0} ⇒ {decreciente en z > 0}

f) Puntos de inflexión, concavidad y convexidad:


{ f Z (z)′′ = 0 ↔ z = −1; z = +1 } ⇒ {ptos. de inflex. en z = −1 y z = +1 }
{f Z } {
( z )′′ > 0 ↔ z > 1 ⇒ cóncava en z > 1 }
{f Z ( z )′′ < 0 ↔ z < 1 } ⇒ {convexa en z < 1 }

De todo lo anterior se deduce que la forma de la función de densidad de una variable Normal
Tipificada es la de la conocida campana de Gauss, que se representa en la figura VI.1.

fZ(z)

0 Z

Figura VI.1.- Función de densidad de la variable Normal Tipificada.

VI.79
Capítulo VI: Principales Distribuciones Continuas

VI.2.3.- Media y Varianza

μ Z = E( Z ) = 0 y σ 2Z = D 2 ( Z ) = 1

VI.2.5.- Manejo de tablas

En la tabla más usada se representan, para distintos valores de z, la probabilidad de que una
variable Normal Tipificada tome un valor menor o igual a ese z, es decir el valor de la función
de distribución FZ(z).

VI.2.6.- Nomenclatura

Para la variable Normal Tipificada reservaremos una notación específica. Designaremos a la


variable mediante la letra Z y a sus valores por z; a la función de distribución la
representaremos mediante φ. De esta forma escribiremos:

P( Z ≤ z) = φ( z )

Mediante zα designaremos el valor de una variable Normal Tipificada que a su derecha tiene,
bajo la función de densidad, un área igual a α, es decir, el valor de z que tiene una
probabilidad α de ser superado.
P(Z ≥ z α ) = α

Fácilmente se obtiene que:


φ(zα)=1-α

fZ(z)

φ(z)
α

z 0 zα Z

Figura VI.2.- Distribución de una N(0,1). Nomenclatura.

VI.3.- DISTRIBUCION NORMAL GENERAL

VI.80
Capítulo VI: Principales Distribuciones Continuas

VI.3.1.- Definición

Llamaremos variable aleatoria Normal Unidimensional General a toda transformada lineal de


una variable aleatoria Normal Tipificada. Por tanto, si Z≡N(0,1), la variable:
X=aZ+b
en la que a y b son constantes, es una variable Normal General.

Si μX=E(X) y σX=D(X), utilizaremos la nomenclatura X≡N(μX,σX) para designar a una


variable aleatoria con distribución Normal.

VI.3.2.- Función de densidad

Teniendo en cuenta que entre Z y X existe una correspondencia biunívoca se cumple que:
fX ( x ) = fZ [z( x )] ⋅
dz
dx
como:
1 2
fZ ( z) = e− z 2

2⋅π
y
dz 1
=
dx a
entonces:
2
1 ⎡ x −b ⎤
− ⎢ ⎥
1 1
fX ( x ) = ⋅e 2⎣ a ⎦

2π a

Como:
E(X)=a.E(Z)+b=a·0+b=b
es:
μX=E(X)=b
y
D2(X)=a2·D2(Z)
de donde:
σ2X = a2 y σX = a

Por lo tanto, la función de densidad de la variable Normal General será:

(x − μ X )2

1 2⋅σ 2X
fX ( x ) = e
σ X ⋅ 2π

que depende de los parámetros μX y σX, lo que justifica el que designemos e esta variable
mediante X≡N(μX, σX). Con el fin de simplificar la escritura, y siempre que no haya lugar a
confusión, designaremos por μ a μX y por σ a σX.

VI.81
Capítulo VI: Principales Distribuciones Continuas

VI.3.3.- Adición

Cualquier combinación lineal de variables aleatorias Normales independientes es


una variable aleatoria Normal.

Sea X1≡N(μ1,σ1) y X2≡N(μ2,σ2) y hagamos Y=a·X1+b·X2, entonces

Y ≡ N ⎛⎜ a ⋅ μ1 + b ⋅ μ 2 ; a2 ⋅ σ12 + b2 ⋅ σ22 ⎞⎟
⎝ ⎠

VI.3.5.- Manejo de tablas

Para tabular la función de distribución de una variable Normal General, sería necesario
elaborar una tabla para cada par de valores reales μ y σ, lo que, además de imposible, sería
innecesario, pues a partir de la función de distribución de una Normal Tipificada es posible
deducir la de cualquier variable Normal General.
En efecto, sea X≡N(m,σ), por definición, la variable
X−μ
σ

se distribuye según una Normal Tipificada, es decir,


X−μ
Z= = N(0,1)
σ

La función de distribución de X será:


⎛ X−μ x−μ⎞ ⎛ x−μ⎞ ⎛ x−μ⎞
FX ( x ) = P( X ≤ x ) = P ⎜ ≤ ⎟ = P ⎜Z ≤ ⎟ = φ⎜ ⎟
⎝ σ σ ⎠ ⎝ σ ⎠ ⎝ σ ⎠

es decir:
⎛ x−μ⎞
FX ( x ) = φ ⎜ ⎟
⎝ σ ⎠

Ejemplo VI.1
La distancia, expresada en cm, entre los centros de dos taladros realizados en una pieza
metálica es una variable aleatoria con distribución X≡N(5,0.1). Para que la pieza pueda ser
utilizada, la referida distancia debe estar comprendida entre 4.80 cm y 5.25 cm. Determinar
la proporción de piezas que no cumplen los requisitos de la especificación.

SOLUCIÓN:

No cumplirán los requisitos establecidos aquellas piezas en las que la distancia entre centros
sea menor que 4.80 cm o mayor que 5.25 cm. La proporción de piezas defectuosas obtenidas
coincidirá con:
p= P(X<4.80)+P(X>5.25)
Por ser X continua:

VI.82
Capítulo VI: Principales Distribuciones Continuas

p= P(X≤4.80)+P(X>5.25)= P(X≤4.80)+[1-P(X≤5.25)]

Tipificando y mirando en tablas se obtiene que:

⎛ 4.80 − 5 ⎞ ⎛ 5.25 − 5 ⎞
p =φ⎜ ⎟ +1 − φ ⎜ ⎟ = 0.0228 + 1 − 0.9798 = 0.043
⎝ 0.1 ⎠ ⎝ 0.1 ⎠

es decir, el 4.3% de las piezas no cumplen los requisitos de especificación.

VI.4.- TEOREMA CENTRAL DEL LIMITE

Bajo esta denominación se engloban una serie de teoremas cuyo objetivo final consiste en
determinar las condiciones bajo las cuales una sucesión de variables aleatorias converge en
distribución a una variable Normal.

Por su generalidad e importancia enunciaremos sin demostrarlo el de Lindenberg-Levy.

VI.4.1.- Teorema de Lindenberg-Levy

Si X1,X2,…,Xn,… es una sucesión de variables aleatorias, todas ellas con la misma


distribución e independientes, su suma tipificada es, a su vez, una sucesión de
variables aleatorias que converge en distribución a una variable Normal
Tipificada cuando n tiende a infinito.

El Teorema de De Moivre es un caso particular del teorema de Lindenberg-Levy, y establece


que la variable binomial tipificada converge en distribución a una variable Normal
tipificada cuando n tiende a infinito. En efecto, si X≡B(n,p) es X=ΣYi en la que Yi≡D(p) e
independientes, y, por tanto, si tipificamos X estamos tipificando la suma de n variables
aleatorias todas ellas con la misma distribución e independientes, es decir, se cumplen las
hipótesis del teorema de Lindenberg-Levy.

De forma análoga, si X es una variable de Poisson de parámetro λ, y hacemos crecer


indefinidamente a este parámetro dándole valores naturales, podemos considerar que X es
suma de λ variables de Poisson de parámetro unidad independientes entre sí. Por tanto, se
cumplen las hipótesis del teorema de Lindenberg-Levy y, en consecuencia, la variable de
Poisson tipificada converge en distribución a una variable Normal Tipificada cuando λ
tiende a infinito.

VI.5.- APROXIMACIONES DE VARIABLES ALEATORIAS

Tanto en este capítulo como en el anterior, hemos visto que, bajo determinadas condiciones,
unas variables tienden en distribución a otras. Para fines prácticos, sería conveniente conocer
cuándo la distribución de una variable aleatoria puede ser sustituida por la de otra sin que se
cometan errores importantes en el cálculo de probabilidades.

VI.83
Capítulo VI: Principales Distribuciones Continuas

a) En el tema anterior, vimos que cuando la fracción de muestreo sin reemplazamiento es


pequeña en comparación con el tamaño de la población, la correspondiente variable
Hipergeométrica se puede aproximar por una variable Binomial. En concreto, y para fines
prácticos, si N/n≥10, la aproximación es adecuada.

⎧N ⎫
⎨ ≥ 10 ⎬ ⇒ { H(N, n, p) ≅ B(n, p)}
⎩ n ⎭

b) Según el teorema de Moivre, no estudiado un este obra, la variable Binomial tipificada,


converge en distribución a una variable Normal Tipificada.
Si X es una variable Binomial de parámetros n y p se cumplirá:
⎛ X − np a − np ⎞ ⎛ ⎞
P( X ≤ a) = P ⎜ ≤ ⎟ ≅ P ⎜ Z ≤ a − np ⎟
⎜ npq npq ⎟⎠ ⎜ npq ⎟⎠
⎝ ⎝

de donde:
( )
P( X ≤ a) ≅ P Z ⋅ npq + np ≤ a = P( Y ≤ a)

en la que Y, por ser una transformada lineal de una Normal Tipificada, es, a su vez, una
variable Normal de media np y desviación típica npq . Luego si n es grande, la
distribución de una variable Binomial puede ser aproximada por la de una variable
Normal. En concreto, si np≥18 la aproximación es aceptable.
{np ≥ 18} ⇒ { X ≡ B(n, p) ≅ N (np, npq )}

c) En el capítulo anterior, se definió a la variable de Poisson como la variable límite de una


Binomial cuando n tiende a infinito y p a cero, permaneciendo constante el producto
np=λ. En la práctica, si n≥50 y p≤0.1, la aproximación es adecuada.
{ n ≥ 50, p ≤ 0.1 } ⇒ { X ≡ B(n, p) ≅ PS(λ = np) }

d) Utilizando la función característica se puede poner de manifiesto que la variable de


Poisson tipificada converge en distribución a una variable Normal Tipificada. En
consecuencia si X≡PS(λ) es:
⎡X − λ a − λ⎤ ⎡ a −λ⎤
P( X ≤ a) = P ⎢ ≤ ⎥ ≅ P ⎢Z ≤ ⎥
⎣ λ λ ⎦ ⎣ λ ⎦
de donde:
( )
P( X ≤ a) = P Z λ + λ ≤ a = P( Y ≤ a)

en la que Y, por ser una transformada lineal de una Normal Tipificada, es, a su vez, una
variable Normal de media λ y desviación típica λ . Luego si λ es grande, la distribución
de una variable de Poisson puede ser aproximada por la de una variable Normal. En
concreto, si λ≥18 la aproximación es aceptable.

VI.84
Capítulo VI: Principales Distribuciones Continuas

{ λ ≥ 18 } ⇒ { X ≡ PS(λ ) ≅ N ( λ, λ )}
En la figura VI.2, se resumen las aproximaciones expuestas en este apartado.

H(N,n,p)

N/n≥10
n≥50
p≤0.1
B(n,p) Ps(np)
Ps(λ)
n·p≥15

n·p≥15
N(np, npq )
λ≥15
N(λ, λ )

Figura VI.2.- Aproximaciones entre distribuciones

Para ilustrar estos conceptos, en la figura VI.3 se ha representado la función de probabilidad


de una variable binomial con p=0.1 y valores de n crecientes.

PX(x)

0,4

0,3

0,2

0,1

0
0 1 2 3 4 5 6 7 8 9 10 X

Figura VI.3a. Representación de una B(10,0.1)

PX(x)

0,2

0,16
0,12
0,08
0,04

0
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 X

Figura VI.3b. Representación de una B(50,0.1)

VI.85
Capítulo VI: Principales Distribuciones Continuas

PX(x)

0,15

0,12
0,09
0,06
0,03

0
0 1 2 3 4 5 6 7 8 9 10111213141516 171819 20 2122232425 X

Figura VI.3c. Representación de una B(100,0.1)

VI.6.- OTRAS VARIABLES CONTINUAS

VI.6.1.- Distribución Uniforme

La distribución que tiene una variable continua que toma valores en el intervalo
[a, b] con densidad de probabilidad constante en todos sus puntos, se denomina
distribución uniforme y se representa como X≡U[a,b].

Dado que su función de densidad es constante, fX(x)=c, puede calcularse a partir de:

∫ ∫ c ⋅ dx = 1
b
fX ( x ) ⋅ dx =
X a

de donde:
⎧ 1
⎪ para a ≤ x ≤ b
fX ( x ) = ⎨ b − a

⎩0 en el resto

La función de distribución la obtenemos por integración de la función de densidad:


⎧0 x<a

⎪x − a
FX ( x ) = ⎨ a≤x≤b
⎪b − a
⎪1 x>b

La representación grafica de su función de densidad y su función de distribución se muestran


en la figura VI.4.

fX(x) FX(x)

1
1/(b-a)

a b X a b X

Figura VI.4.- Función de densidad y de distribución de una variable U[a,b]

VI.86
Capítulo VI: Principales Distribuciones Continuas

La media y la varianza de esta distribución son:

a+b (b − a)2
E( X) = D2 ( X) =
2 12

Ejemplo VI.2
De una estación de autobuses sale un vehículo cada 10 minutos. Si un viajero llega al punto
de salida en un momento al azar, calcular:

a) La probabilidad de que tenga que esperar 3 minutos como máximo.

b) El tiempo medio de espera.

SOLUCIÓN:

El tiempo de espera del viajero puede modelizarse como una variable con distribución
uniforme entre 0 (cuando el viajero llega justo antes de la salida) y 10 minutos (cuando llega
justo después de la salida del último autobús), es decir, X=U[0,10].

a) La probabilidad de que tenga que esperar como máximo 3 minutos es


3 −0
P(X ≤ 3) = FX (3) = = 0.30
10 − 0

b) El tiempo medio de espera será:


0 + 10
E(X) = = 5 min.
2

VI.6.2.- Distribución Exponencial

Se denomina distribución exponencial a la distribución de una variable continua cuya función


de densidad es:
⎧λ ⋅ e−λ⋅x para x ≥ 0
fX ( x ) = ⎨
⎩0 para x < 0

Dicha variable se representa como X≡EXP(λ).

La función de distribución es:

FX ( x ) = 0 para x<0


x
FX ( x ) = λ ⋅ e − λ ⋅ x ⋅ dx = 1 − e − λ ⋅ x para x≥0
0

VI.87
Capítulo VI: Principales Distribuciones Continuas

En la figura VI.5 se muestran la función de densidad y la función de distribución de esta


variable.

fX(x) FX(x)
1

X X

Figura VI.5.- Función de densidad y de distribución de una variable EXP(λ)

La variable exponencial modeliza adecuadamente la duración aleatoria de componentes


eléctricos, electrónicos o mecánicos en su periodo de vida útil. Del mismo modo, esta variable
modeliza el tiempo entre dos fallos en un sistema de múltiples componentes en el periodo de
vida útil. En este caso, el parámetro λ recibe el nombre de tasa de fallos del sistema y mide el
número de fallos por unidad de tiempo.

La media y varianza de esta distribución son respectivamente:

1 1
E( X) = D2 ( X) =
λ λ2

El tiempo medio hasta que se produce el fallo de un componente o un sistema complejo recibe
el nombre de MTTF (Mean Time To Failure) y vale 1/λ, donde λ es la tasa de fallos, si el
sistema es reparable, la media recibe el nombre de tiempo medio de buen funcionamiento
MTBF (Mean Time Between Failures) con el referido valor 1/λ.
Si establecemos que la fiabilidad de una componente para una misión de duración x=t
unidades de tiempo es la probabilidad de que la duración de dicha componente supere el
tiempo t, la expresión de dicha probabilidad será:
P( X > t ) = 1 − FX ( t ) = e − λ ⋅t con t≥0

Una característica importante de esta distribución es que “carece de memoria”. Es decir, la


probabilidad de que la duración de una componente supere un tiempo t+s sabiendo que la
componente ya ha sido operativa durante el tiempo t, depende solo de la diferencia de tiempos
s y no del instante inicial t considerado.

En efecto:
P (X > t + s ∩ X > t ) P (X > t + s) e − λ ⋅( t + s )
P (X > t + s X > t ) = = = = e − λ ⋅s
P( X > t ) P( X > t ) e− λ⋅t

Luego
P (X > t + s X > t ) = P( X > s)

VI.88
Capítulo VI: Principales Distribuciones Continuas

Ejemplo VI.3
La duración de ciertas lámparas de incandescencia puede considerarse como una variable
exponencial de media 1000 horas de funcionamiento.

a) Calcular la probabilidad de que una lámpara nueva elegida al azar tenga una duración
superior a 500 horas.

b) Se elige al azar una lámpara que lleva 100 horas de funcionamiento. Calcular la
probabilidad de que funcione mas de 600 horas en total.

SOLUCIÓN:

a) La duración de las lámparas tiene una distribución X=EXP(1/1000). La probabilidad de


que su duración supere 500 horas es:
1
− ⋅500
P(X > 500) = e 1000
= 0.607

b) Recordando la propiedad expuesta anteriormente:


P(X > 600/X > 100) = P(X > 600 − 100) = P(X > 500) = 0.607

VI.7.- DISTRIBUCIONES DERIVADAS DE LA NORMAL

La variable Normal es la variable aleatoria continua más importante. De ella derivan otras
variables aleatorias, como la Chi-cuadrado de Pearson (χ2), la F de Snedecor y la t de Student,
que se utilizarán en el muestreo en poblaciones Normales y que serán de uso frecuente y de
gran importancia en la Inferencia Estadística. Precisamente, en este capítulo se estudian
dichas Variables Derivadas de la Normal.

VI.7.1.- Variable Chi-Cuadrado de Pearson

VI.7.1.1.- Definición

Si Z1, Z2, ..., Zn son variables aleatorias Normales Tipificadas Independientes, a


la variable:
χ 2n = Z12 + Z22 + L + Zn2
se le denomina χ2 (chi-cuadrado) con n grados de libertad y se le representa
mediante χ n2 .

VI.7.1.2.- Algunos aspectos de la G(λ,a)

Para el estudio de la variable χ2, analizaremos, en los puntos que ahora nos son necesarios, a
la variable Gamma, G(λ, a).

VI.89
Capítulo VI: Principales Distribuciones Continuas

Definición

Si por Γ(a) designamos a la Gamma de Euler, que es:



Γ(a) =
∫ 0
e − x ⋅ x a −1 ⋅ dx ∀ a>0
y recordando que:
Γ(½) = π
podemos definir a la variable aleatoria Gamma de la siguiente forma:

⎧ −λ x
⋅ (λ ⋅x )a − 1⋅ λ ⎫⎪
{ X ≡ G(λ, a) } ↔ ⎪⎨∀ x ≥ 0; fX ( x ) = e ⎬
⎪⎩ Γ(a)
⎭⎪

Función característica

La función característica de una G(λ,a) es:

−a
⎡ i⋅t⎤
ϕ X( t ) = ⎢1 − ⎥
⎣ λ⎦

Adición

Si las variables aleatorias:


X1 ≡G(λ,a1) y X2 ≡G(λ,a2)
cuyas funciones características son, respectivamente:
− a1 −a2
⎡ i⋅ t⎤ ⎡ i⋅t⎤
ϕ X1 ( t ) = ⎢1 − ⎥ y ϕ X 2 ( t ) = ⎢1 − ⎥
⎣ λ⎦ ⎣ λ⎦

son independientes, entonces:


−( a 1+ a 2 )
⎡ i⋅t⎤
ϕ X1 + X 2 ( t ) = ϕ X1 ( t ) ⋅ ϕ X 2 ( t ) = ⎢1 − ⎥
⎣ λ⎦

de donde:

{ Si X1 ≡ G(λ , a1) y X2 ≡ G(λ , a2 ) son indepen.} → { X1 + X2 ≡ G(λ, a1 + a2 ) }

VI.7.1.3.- Función de densidad de una χ12

Sea Z≡N(0,1) y X=Z2, la función de distribución de X será:

[ ] ∫ + x z2
1 −
FX ( x ) = P( X ≤ x ) = P( Z ≤ x ) = P − x ≤ Z ≤ x =
2
⋅e 2
⋅ dz
− x 2π

VI.90
Capítulo VI: Principales Distribuciones Continuas

Teniendo en cuenta la simetría de la distribución Normal, tendremos que:

−z2


x
1
FX ( x ) = 2 ⋅ ⋅e 2
⋅ dz
0 2π

La función de densidad de X será:


x
dFX ( x ) 1 − 1
fX ( x ) = = 2⋅ ⋅e 2⋅
dx 2π 2⋅ x

que puede ser escrita:


x 1
− −
e 2
⋅x 2
fX ( x ) = 1

2 2 ⋅ Γ ( 21 )

que, por otra parte, es la función de densidad de una variable aleatoria Gamma de parámetros
λ=1/2 y a=1/2, es decir:

χ12 ≡ G ( 21 , 21 )

VI.7.1.4.- Distribución de una χn2

Por definición, una χ n2 es la suma de n χ 12 independientes. Teniendo en cuenta que una χ 12 es


una Gamma y que la suma de Gammas independientes es otra Gamma, será:
χn2 = ∑ (χ12 )i = ∑ Gi ( 21 , 21 ) = G ( 21 , n2 )
n n

i =1 i =1

por tanto, su función de densidad será:

n
x −1
− ⎡x ⎤2 1
e 2
⋅⎢ ⎥ ⋅
e − λ ⋅ x ⋅ (λ ⋅x )a −1⋅ λ ⎣2⎦ 2
fχ 2 ( x ) = =
n Γ(a) Γ ( n2 )

es decir:
x n
− −1
e 2
⋅ x2
fχ 2 ( x ) = n

2 2 ⋅ Γ ( n2 )
n

VI.7.1.5.- Función característica

Por ser χ n2 una Gamma de parámetros λ=½ y a=n/2, su función característica será:
n

⎡ i⋅t ⎤ 2
ϕχ 2 ( t ) = ⎢1 −
n
⎣ 1 / 2 ⎥⎦

VI.91
Capítulo VI: Principales Distribuciones Continuas

de donde:

ϕχ 2 ( t ) = [1 − 2 ⋅ i ⋅t ]
n

2
n

VI.7.1.6.- Media Y Varianza

Mediante las derivadas primera y segunda de la función característica de una χn2 , podemos
calcular sus momentos respecto al origen y, a partir de éstos la media y la varianza.
dϕ χ 2 ( t )
⋅ (1 − 2 ⋅ i ⋅ t ) 2 ⋅ ( −2 ⋅i) = n ⋅ i ⋅ (1 − 2 ⋅ i ⋅ t ) 2
n n
− −1
n
− −1
n
=−
dt 2

de donde, haciendo t=0 y dividiendo por i, resulta:

E( χn2 ) = n

derivando nuevamente respecto a t:


⎛n ⎞
ϕχ 2 ( t )′′ = ⎜ + 1⎟ ⋅ n ⋅ (1 - 2 ⋅ i ⋅ t ) 2 ⋅ i ⋅ ( −2 ⋅ i)
n
− −2
n
⎝2 ⎠

de donde haciendo t = 0, se obtiene:


α2=(n+2)·n=n2+2·n

Como σ2 = α 2 − α12 , resulta:

D2 (χn2 ) = 2 ⋅ n

VI.7.1.7.- Manejo de tablas

La tabla de la χ2 más usada, contiene los valores χn2 ( α ) de la variable que teniendo n grados de
libertad, tienen una probabilidad α de ser superados. Es una tabla de doble entrada que, en
función de los parámetros n y α, nos proporciona χn2 ( α ) .

Para grados de libertad superiores a los máximos de la tabla (n>30), se puede utilizar una
aproximación basada en el hecho de que la transformada de una χn2 definida por:
2 ⋅ χn2 − 2 ⋅ n − 1

converge en distribución a una variable N(0,1) (Ver anexo I), es decir,

2 ⋅ χn2 − 2 ⋅ n − 1 ⎯⎯→
D
Z ≡ N(0,1)

de donde:

VI.92
Capítulo VI: Principales Distribuciones Continuas

P(χn2 ≤ a) = P ⎛⎜ 2 ⋅ χn2 ≤ 2 ⋅ a ⎞⎟
⎝ ⎠

por tanto

P(χn2 ≤ a) = P ⎛⎜ 2 ⋅ χn2 − 2 ⋅ n − 1 ≤ 2 ⋅ a − 2 ⋅ n − 1 ⎞⎟
⎝ ⎠

es decir:
(
P(χn2 ≤ a) ≈ P Z≤ 2 ⋅ a − 2 ⋅ n − 1 )
o lo que es lo mismo:
P(χn2 ≤ a) ≈ φ ( 2⋅a − 2⋅n −1 )
Por ejemplo, de las tablas de la χn2, se deduce que la P( χ30
2
≤20.599)=0.10. Utilizando la
aproximación, obtenemos:

P( χ30
2
≤ 20.599)≅ φ ( 2 ⋅ 20.599 − )
59 = φ( −1.2627 ) = 0.1038

VI.7.2.- Distribucion F de Snedecor

VI.7.2.1.- Definición

La variable F de Snedecor se define como el cociente de dos variables χ2


independientes divididas por sus respectivos grados de libertad, es decir:
χ n21 /n1
Fn 1 ,n 2 =
χ n22 /n2

VI.7.2.2.- Función de densidad

La función de densidad de esta variable es:


n1 n2 n1
−1
n12 ⋅ n22 ⋅ x 2
fF ( x ) =
β (n1 n 2
2 2
, )⋅ ( n 2 + n1 ⋅ x )
n 1+ n 2
2

VI.7.2.3.- Manejo de tablas

En la tabla de más frecuente uso, se recogen para n1 grados de libertad del numerador y para
n2 grados de libertad del denominador, los valores de Fn1, n2 que tienen una probabilidad de
0.05 o de 0.01 de ser superados, lo que será representado mediante:
[
P Fn1, n 2 ≥ Fn(1α,) n 2 = α ]
para α=0.05 y α =0.01. Así, por ejemplo F4,10
0.01
= 5.99 .

VI.93
Capítulo VI: Principales Distribuciones Continuas

Puesto que el inverso de una F es otra F, es posible deducir determinadas probabilidades que
no están en la tabla a partir de otros valores que si lo están. En efecto:
⎛ χn2 / n1 ⎞ ⎛ χn2 / n2 1 ⎞
( )
P Fn1, n 2 ≤ a = P ⎜ 2 1
⎜ χ n / n2
≤ a ⎟ = P ⎜ 22

⎛ 1⎞
≤ ⎟ = P ⎜ Fn 2 , n 1 ≥ ⎟
⎜ χn / n1 a ⎟
⎝ 2 ⎠ ⎝ 1 ⎠ ⎝ a ⎠

es decir:

( ⎛
) 1⎞
P Fn1, n 2 ≤ a = P ⎜ Fn 2 , n1 ≥ ⎟
⎝ a ⎠

Por ejemplo,
⎛ 1 ⎞
P(F10,4 ≤ 0.1669) = P ⎜ F4,10 ≥ ⎟ = P(F4,10 ≥ 5.99) = 0.01
⎝ 0.1669 ⎠

VI.7.3.- Variable t de Student

VI.7.4.1.- Definición

La variable t de Student se define como el cociente entre una Normal Tipificada Z


y la raíz cuadrada de una χ n2 dividida por sus grados de libertad, es decir:
z
tn =
χ n2 /n

donde n son los grados de libertad de la tn.

VI.7.3.2.- Función de densidad

La función de densidad de una tn tiene una representación gráfica muy similar a una Normal
Tipificada, tiene forma de campana y es simétrica respecto al origen.

Si elevamos al cuadrado una tn, resulta:


Z2 / 1 χ12 / 1
tn2 = = = F1, n
χn2 / n χn2 / n

Si llamamos X a la variable t n2 se cumplirá que:

FX ( x ) = P(X ≤ x ) = P(tn2 ≤ x ) = P(- x ≤ t n ≤ x )

es decir:
+ x

∫ ∫
x
FX ( x ) = ft ( t) ⋅ d t = 2 ⋅ ft ( t) ⋅ dt
− x 0

derivando respecto de y obtendremos la función de densidad:

VI.94
Capítulo VI: Principales Distribuciones Continuas

fX ( x ) =
dFX ( x )
dx
= 2 ⋅ ft ( x )⋅ 2 ⋅ 1 x
como t2 = x
1
fX ( t 2 ) = ft ( t) ⋅
t
luego:
ft ( t) = t ⋅ fX ( t 2 )

Por tanto, si en la función de densidad de una F1,n cambiamos y por t2 y el resultado lo


multiplicamos por t, obtendremos la función de densidad de una tn.

Si Y es una Fn1,n2 su función de densidad es:


n1 n2 n1
−1
n12 n22 y 2
fY ( y ) =
β ( n1
2
,
n2
2
)⋅ (n + n ⋅ y )
2 1
n 1 +n 2
2

Si Y es una F1,n2 su función de densidad es:


nn / 2 ⋅ y −1 / 2
fY ( y ) = n +1

β ( 21 , n2 ) ⋅(n + y ) 2

cambiando y por t2 y multiplicando por t obtenemos:


nn / 2 ⋅ t -1
ft n ( t ) = t
( )
n +1

β ( 21 , n2 ) ⋅ n + t 2 2

es decir:

nn / 2
ft n ( t ) =
( )
n +1

β ( 21 , n2 ) ⋅ n + t 2 2

que suele escribirse también de la siguiente forma:


n +1

Γ (n2+1 )

⎛ t2 ⎞ 2

ft n ( t) = ⎜⎜1+ ⎟⎟ ⋅
⎝ n⎠ Γ ( n2 ) ⋅ π ⋅ n
VI.7.3.3.- Media y Varianza

Se puede demostrar que:


n
E(t n ) = 0 D2 ( t n ) =
n−2

La varianza de tn, que solo existe para n>2, es mayor que la unidad. La variable tn presenta,
por tanto, una distribución más “abierta” (dispersa) que la Normal Tipificada.

VI.7.3.4.- Manejo de tablas

VI.95
Capítulo VI: Principales Distribuciones Continuas

Designamos por t(nα ) al valor de una tn tal que:


P(tn ≥ t (nα ) ) = α

Las tablas de la t de Student más usadas son aquellas en las que dados los grados de libertad n
y la probabilidad α, determinan el valor de t(nα / 2 ) , es decir, el valor de tn tal que:
( )
P t n ≤ t (nα/2) = P(-t(nα/2) ≤ t n ≤ t (nα / 2 ) ) = 1 − α

Algunos valores se pueden determinar usando la tabla de la Fn1 n2 ,pues:


P(F1,n ≤ a) = P(- a ≤ t n ≤ a )

entonces:
P(F1,n ≥ F1,( αn) ) = P( t n ≥ F1,( αn) ) = α

por tanto:

t (nα/2) = F1,( αn)

VI.96
Capítulo VI: Principales Distribuciones Continuas

Tema 7. Variables aleatorias bidimensionales

VI.97
Capítulo IV: Variables Aleatorias

CAPITULO VII:
Variables Aleatorias Bidimensionales

IV.98
MÉTODOS ESTADÍSTICOS I

VII.1.- DEFINICIÓN

Llamemos Iab al intervalo de ℜ2 dado por:

Iab={(X1, X2) ∈ℜ2; X1≤a; X2≤b}

intervalo que se ha representado en la figura VII.1:

X2

Iab

a
X1

Figura VII.1.- Intervalo Iab de la variable aleatoria bidimensional

Dado el espacio de Probabilidades (E, F, P), diremos que la aplicación X:E→ℜ2 es una
variable bidimensional si para todo intervalo I x1x 2 su original pertenece a F.
{X : E → ℜ 2
} {
es v.a. bi dim ensional ↔ ∀ (x1, x 2 ) ∈ ℜ2 ; O(Ix1x 2 ) ∈ F }

De esta forma quedan probabilizados todos los conjuntos de ℜ2.

Son ejemplos de variable aleatorias bidimensionales las parejas de valores peso-estatura de un


colectivo de personas, diámetro-resistencia a la compresión de unas probetas de hormigón,
número de puntos obtenidos en cada una de las caras superiores en el lanzamiento de dos
dados equilibrados, etc.

VII.2.- FUNCIÓN DE DISTRIBUCIÓN

VII.2.1.- Definición

Dada una variable aleatoria bidimensional (X1,X2), llamaremos función de


distribución a:
FX1 X 2 (x1 , x2 ) = P ( X1 ≤ x1 ∩ X 2 ≤ x2 ) = P { (X (e ),X (e) ∈ I ) }
1 2 x1 x 2

VII.2.2.- Propiedades

La función de distribución bidimensional tiene, entre otras, las siguientes propiedades:

a) ∀ (x1,x2) ∈ ℜ2 es 0 ≤ FX1X 2 ( x1, x 2 ) ≤ 1

VII.99
MÉTODOS ESTADÍSTICOS I

b) lim FX1X 2 (x1, x 2 ) = lim FX1X 2 (x1, x 2 ) = 0


x 1 → −∞ x 2 → −∞

c) lim FX1X 2 (x1, x 2 ) = 1


x1 → ∞
x 2 →∞

d) El intervalo de la figura VII.2 tiene una probabilidad:


P(a1 < X1 ≤ b1, a1 < X2 ≤ b2 ) = FX1X 2 (b1, b2 ) − FX1X 2 (a1, b2 ) − FX1X 2 (b1, a2 ) + FX1X 2 (a1, a2 )

e) Continuidad:
FX1X 2 ( x1, x 2 ) es continua por la derecha de x1 y de x2 y en puntos de probabilidad no nula
es discontinua por la izquierda de x1 o de x2.

X2

b2

a2

a1 b1
X1

Figura VII.2.- Intervalo de (X1,X2)

VII.3.- VARIABLES ALEATORIAS BIDIMENSIONALES DISCRETAS Y


CONTINUAS

En todo lo que sigue, y con el fin de simplificar la escritura, designaremos a la variable


aleatoria bidimensional mediante (X,Y).

Como en el caso de las variables aleatorias unidimensionales, también en las variables


aleatorias bidimensionales existen dos tipos de variables particularmente interesantes: las
variables aleatorias discretas y las variables aleatorias continuas

En las variables aleatorias discretas, la masa de probabilidad se encuentra distribuida en un


conjunto de puntos finito o numerable. La función de distribución se puede calcular sin más
que sumar las probabilidades de los puntos incluidos en el correspondiente intervalo:
FXY ( x, y ) = ∑ P[(a, b)]
( a,b )∈I xy

en la que (a,b) representa a los puntos de Ixy con probabilidad no nula.

Las variables continuas, se caracterizan por tener su masa de probabilidad distribuida según
una función de densidad fXY(x,y), de tal forma que:

∫ ∫
x y
FXY ( x, y ) = fXY ( x, y ) ⋅ dx ⋅ dy
−∞ −∞

VII.100
MÉTODOS ESTADÍSTICOS I

o lo que es equivalente:
δ2FXY ( x, y )
fXY ( x, y ) =
δx δy

Es fácil ver que fXY(x,y) es una función de densidad, es decir, representa la masa de
probabilidad en un punto por unidad de superficie.

Siguiendo un razonamiento análogo al utilizado en el punto VII.1.6 para variables


unidimensionales y utilizando la figura VII.3, es fácil llegar a la siguiente expresión:

δ2F P[(x, y ) ∈ A ]
fXY ( x, y ) = = lim
δxδy Δy →0 Δx ⋅ Δy
Δx → 0

Y
Δx
b2

A Δy
a2

a1 b1
X

Figura VII.3.- Intervalo de la variable bidimensional (X,Y)

Por tanto, fXY(x,y) es el límite de la masa de probabilidad por unidad de superficie cuando
ésta superficie tiende a cero, es decir, la densidad de probabilidad en un punto.

La probabilidad del intervalo A de la figura VII.3 es:

∫ ∫
b1 b2
P(a1 ≤ X ≤ b1, a2 ≤ Y ≤ b2 ) = fXY ( x, y ) ⋅ dx ⋅ dy
a1 a2

VII.4.- DISTRIBUCIONES MARGINALES

Supongamos que la variable bidimensional (X,Y) hace corresponder a cada individuo de una
población su peso (X) y su estatura (Y). El peso y la estatura por separado son, a su vez,
variables aleatorias y, como tales, tienen su propia función de distribución y sus respectivas
funciones de densidad. A estas variables, por separado, se les llama variables marginales de la
bidimensional.

Una variable bidimensional está constituida por dos variables unidimensionales


llamadas marginales.

A partir de la función de distribución conjunta y, en el caso de variables continuas, de la


función de densidad conjunta, se pueden calcular la función de distribución y de densidad de
las variables marginales de la siguiente forma:

VII.101
MÉTODOS ESTADÍSTICOS I

a) El valor de FX(x) es la probabilidad de que la variable X tome un valor inferior o igual a


x, sea cuál sea el valor de Y, es decir FX(x) es la probabilidad de que la variable
bidimensional tome un valor del intervalo rayado de la figura VII.4.

x
X

Figura VII.4.- Distribución marginal de X

Por tanto:
FX ( x ) = P( X ≤ x ) = P( X ≤ x, Y < ∞ ) = lim FXY ( x, y )
y →∞

b) Por las mismas razones que las expuestas en el punto a), se cumple que:
+∞

∫ ∫
x
FX ( x ) = du ⋅ f (u, v ) ⋅ dv
−∞ −∞

c) Derivando respecto a x ésta última ecuación:


+∞ +∞

∫ ∫
d
fX ( x ) = FX ( x ) = f ( x, v ) ⋅ dv = f ( x, y ) ⋅ dy
dx −∞ −∞

En la figura VII.5 se recogen las relaciones existentes entre las funciones de distribución y las
funciones de densidad unidimensionales y bidimensionales.

∫ ∫
x y
dx f X ( x, y ) ⋅ dy
−∞ −∞

FXY (x, y) fXY (x, y)


δ FXY ( x, y )
2

δx ⋅ δy

+∞ +∞

∫ ∫ ∫
lim FXY ( x, y ) x
y →∞ dx f X ( x, y ) ⋅ dy f X ( x, y ) ⋅ dy
−∞ −∞ −∞


x
f X ( x ) ⋅ dx
−∞
FX (x) fX (x)
dFX ( x )
dx

VII.102
MÉTODOS ESTADÍSTICOS I

Figura VII.5.- Relación entre funciones de densidad y de distribución

VII.5.- DISTRIBUCIONES CONDICIONALES.

Una distribución marginal se obtiene al considerar la distribución de una de las dos variables
de una variable bidimensional, ignorando la otra. Si consideramos la distribución de estatura
ignorando a la variable peso, es decir, sea cual sea el peso, obtendremos la distribución
marginal de la estatura.

Si, por el contrario, consideramos la distribución de la variable estatura para los individuos de
un peso determinado obtendremos la distribución condicional de la estatura para ese peso.

VII.5.1. Definición

A la distribución de la variable Y para el valor de X=x, se le llama distribución


condicional de Y dado X. Se representa por FY/X(y/x).

VII.5.2.- Función de distribución condicional

De acuerdo con la definición anterior, la función de distribución condicional se escribirá:


P(Y ≤ y ∩ x ≤ X ≤ x + h)
FY / X (y / x ) = lim P(Y ≤ y / x ≤ X ≤ x + h) = lim
h→0 h→0 P(x ≤ X ≤ x + h)

Ecuación general que se puede particularizar según la naturaleza de las variables


condicionada y condicionante. Demostramos la expresión de la función de distribución para el
caso en que ambas variables sean continuas y presentamos las expresiones de dicha función
en los demás casos.

x x+h
X

Figura VII.6.- Distribución condicional de Y/X

a) Ambas continuas:
En este caso, la ecuación general se escribirá:
x +h

∫ ∫
x
dy fXY ( x, y ) ⋅ dx
−∞
( y / x ) = lim
x
FY / X x +h


h →0
fX ( x ) ⋅ dx
x

Por el teorema del valor medio:

VII.103
MÉTODOS ESTADÍSTICOS I

x +h

∫ x
fXY ( x, y ) ⋅ dx = fXY (ξ, y ) ⋅ h

y
x +h

∫ x
fX ( x ) ⋅ dx = fX (ξ′) ⋅ h

en las que ξ y ξ′ son valores del intervalo [x,x+h] como muestra la figura VII.7.

f X(ξ’)

x ξ’ x+h X

Figura VII.7.

Será:

∫f
y

XY (ξ, y ) ⋅ dy
−∞
FY / X ( y / x ) = lim
h→0 fX (ξ′)

Cuando h→0, tanto ξ como ξ` tienden a x. Luego:


y
f XY ( x, y ) ⋅ dy
−∞
FY / X (y / x) =
fX ( x )

b) Ambas discretas:
Para los puntos en los que PX(x)≠0, la ecuación general ahora se escribirá:

P( X = x ∩ Y ≤ y )
∑ PXY ( x, yi ) ∑ PY ( yi ) ⋅ PX / Y ( x / yi )
yi ≤ y yi ≤ y
FY / X ( y / x ) = = =
P( X = x ) PX ( x ) PX ( x )

VII.5.2.- Función de densidad y ley de probabilidades condicionales

A partir de la función de distribución, podemos calcular la ley de probabilidades condicional o


la función de densidad condicional según sea la variable condicionada, discreta o continua,
así:

a) Ambas variables continuas:


Derivando respecto de y a la función de distribución se obtiene:

VII.104
MÉTODOS ESTADÍSTICOS I

⎡ ⎤
∫f
y
( x, y )dy ⎥
dFY / X ( y / x ) d ⎢ −∞
XY
fY / X ( y / x ) = = ⎢ ⎥
dy dy ⎢ fX ( x ) ⎥
⎢⎣ ⎥⎦
de donde:
fXY(x, y) fY (y) ⋅ fX / Y (x / y)
fY / X (y / x) = =
fX (x) fX (x)

b) Ambas variables discretas:


Si tenemos en cuenta que en este caso es:
n
∑ PXY ( x, yi )
y ii ≤ y
FY / X ( y / x ) =
PX ( x )
será:
PXY ( x, y )
PY / X ( y / x ) =
PX ( x )

Como, por otra parte, era lógico obtener, pues basta con aplicar la definición de
probabilidad condicional.

VII.5.3. -Teorema de Bayes

Teniendo en cuenta las leyes de probabilidades condicionales o las funciones de densidad


condicionales, según corresponda, obtendremos las fórmulas que se exponen a continuación:

a) Ambas variables continuas:

f X ( x ) ⋅ fY / X ( y / x )
fX / Y ( x / y ) = +∞

∫ f ( x) ⋅ f
−∞
X Y/X ( y / x ) ⋅dx

b) Ambas discretas:

PX ( x) ⋅ PY / X ( y / x)
PX / Y ( x / y) =
∑ PX (xi ) ⋅ PY / X (y / xi )
xi

Ejemplo VII.1:
Sea Y una variable beta de parámetros a, b (Y≡ BT(a,b)). Esta variable es continua, su campo
de existencia está entre [0,1] y su función de densidad es:
y a −1 ⋅ (1 − y )b −1
fY ( y ) = ∀ y ∈ [0 ,1]
β ( a, b )

en la que β(a,b) es la beta de Euler:

VII.105
MÉTODOS ESTADÍSTICOS I

1
β (a, b ) =
∫ 0
x a −1 ⋅ (1 − x)b −1 ⋅ dx con a>0 y b>0

Sea X/Y una variable binomial de parámetros n, y (X/Y≡ B(n,y)). Esta variable, que será
estudiada en un tema posterior, es discreta, toma valores naturales entre cero y n y su ley de
probabilidad es:
⎛n⎞
PX / Y ( x / y ) = ⎜⎜ ⎟⎟ ⋅ y x ⋅ (1 − y )n − x
⎝x⎠

Entonces, la variable Y/X será continua para cada X que toma valores discretos. En
consecuencia:
fY ( y ) ⋅ PX / Y ( x / y )
fY / X ( y / x ) = 1

∫ f (y )⋅P
0
Y X /Y ( x / y )⋅ dy

Sustituyendo:
y a −1 ⋅ (1 − y )b −1 ⎛n⎞
⋅ ⎜⎜ ⎟⎟ ⋅ y x ⋅ (1 − y )n − x
β ( a, b ) ⎝x⎠
fY / X ( y / x ) = 1
y a −1 ⋅ (1 − y )b −1 ⎛n⎞
∫ 0 β ( a, b )
⋅ ⎜⎜ ⎟⎟ ⋅ y x ⋅ (1 − y )n − x ⋅ dy
⎝x⎠

de donde:
y a + x −1 ⋅ (1 − y )b + n + x −1
fY / X ( y / x ) =
β ( a + x, b + n − x )

es decir:
Y/X ≡ BT(a+x, b+n-x)

Como puede observarse, la distribución “a posteriori” de la variable condicionada continúa


siendo una Beta en la que sus parámetros dependen ahora del valor x de la variable
condicionante X.

VII.6.- VARIABLES INDEPENDIENTES

Dada la variable bidimensional (X,Y) diremos que las variables marginales X e Y son
independientes, si para todo (x,y) ∈ ℜ2, los sucesos IX=]-∞,x] e IY=]-∞,y] son independientes,
es decir:
P(X≤x,Y≤y)=P(X≤x)·P(Y≤y)

Por tanto:

X e Y son independientes ↔ ∀ ( x, y ) ∈ ℜ2 ; F( x, y ) = FX ( x ) ⋅ FY ( y )

Si (X,Y) es continua, entonces:

VII.106
MÉTODOS ESTADÍSTICOS I

δ2FXY ( x, y )
fXY ( x, y ) = = f X ( x ) ⋅ fY ( y )
δx ⋅ δy
por tanto:

X e Y son independie ntes ↔ ∀ ( x, y ) ∈ ℜ2 ; fXY ( x, y ) = fX ( x ) ⋅ fY ( y )

En el apartado VII.2.5.2.a), acabamos de ver que:


fXY(x,y) = fX(x)·fY/X(y/x)

Si las variables marginales son independientes, se cumplirá:


fY/X(y/x) = fY(y)
es decir:

X e Y son independie ntes ↔ ∀ ( x, y ) ∈ ℜ2 ; fY / X ( y / x ) = fY ( y )

Conclusiones análogas pueden obtenerse para los demás tipos de variables condicionadas.

VII.7.- MOMENTOS
Se denomina momento respecto al origen de orden u, v de la variable bidimensional, a:
(
αu,v = E X1u , X2v = ) ∫ ℜ 2
x1u ⋅ x 2v ⋅ dFX1X 2 (x1, x 2 )

Si la variable es discreta, es decir, la masa de la probabilidad se concentra en unos puntos


(x1.i,x2,i) entonces:
α u,v = ∑ x1u,i ⋅ x 2v,i ⋅ P(X1 = x1,i, X2 = x 2,i )
i

Si la variable es continua, y fX1X 2 ( x1, x 2 ) es la función de densidad:

αu,v =
∫∫ ℜ
x1u ⋅ x 2v ⋅ fX1X 2 ( x1, x 2 ) ⋅ dx1 ⋅ dx 2

como:
αu,0 =
∫ ℜ2
x1u ⋅ dFX1X 2 (x1, x 2 )

por una propiedad de la integral de Stieljes, se cumple:

αu,0 =
∫x ⋅ dFX1 (x1 ) = αu
u
1

análogamente:
α0,v=αv
en particular:
α1,0=μ1
α0,1=μ2

Se denomina momento central de orden u,v de la variable bidimensional, a:

VII.107
MÉTODOS ESTADÍSTICOS I

[
μu,v = E (X1 − μ1 ) ⋅ (X2 − μ 2 )
u v
]
Como en el caso anterior, se cumple:
μu,0=μu
μ0,v=μv
en particular:
μ1,0=μ0,1=0
Los momentos de segundo orden (u+v=2), son:
μ 2,0 = σ12 μ 0,2 = σ22 μ1,1 = cov( X1, X2 )

VII.8.- MATRIZ DE VARIANZAS COVARIANZAS


VII.8.1.- Definición

Los momentos de segundo orden pueden ser escritos así:


μ 2,0 = σ12 = σ12,1
μ 0,2 = σ22 = σ22,2
μ1,1 = cov( X1, X 2 ) = σ12,2 = σ 22,1

Se define como matriz de varianzas-covarianzas de la variable bidimensional (X1,X2) a:


⎡ σ2 σ12,2 ⎤
V = ⎢ 21 2 ⎥
⎢⎣σ2,1 σ2 ⎥⎦

VII.8.2.- Propiedades

a) La matriz de varianzas-covarianzas es simétrica pues σ12,2 = σ22,1

b) La matriz de varianzas-covarianzas es semidefinida positiva.

σ12 ⋅ σ22 ≥ cov 2 ( X1, X2 )

que es la conocida desigualdad de Schwarz.

c) La masa de probabilidad de una variable aleatoria bidimensional se encuentra


concentrada en un punto, en una recta o en el plano, según que la característica o
rango de la matriz V sea 0,1 o 2, respectivamente.

VII.9.- COEFICIENTE DE CORRELACIÓN


VII.9.1.- Definición

El coeficiente de correlación ρ de una variable aleatoria bidimensional se define mediante:

VII.108
MÉTODOS ESTADÍSTICOS I

cov( X1, X2 ) σ12,2


ρ= =
σ12 ⋅ σ22 σ1 ⋅ σ2

VII.9.2.- Propiedades

a) Por ser V semidefinida positiva, es:


σ12 ⋅ σ22 ≥ σ14,2
por lo que:
σ14,2
ρ2 = ≤1
σ ⋅ σ22
2
1

por lo tanto:
−1 ≤ ρ ≤ 1

b) Si las variables X1 y X2 son independientes, es σ12,2 = 0


En consecuencia:

{ Si X1 y X2 son independientes} ⇒ {ρ = 0 }

el recíproco, en general, no es cierto.

c) Si existe una relación lineal exacta entre las variables aleatorias X1 y X2, es decir, si la
masa de probabilidad se encuentra concentrada en una recta, el rango de la matriz de
varianzas-covarianzas vale 1 y por tanto su determinante es nulo y, entonces
σ12·σ22=cov2(X1,X2) con lo que ρ2=1 y ρ=±1

{ Si X2 = α + β ⋅ X1 } ⇒ { ρ = ±1 }

De las propiedades anteriores, se desprende que el coeficiente de correlación mide el grado


de dependencia lineal entre X1 y X2.

VII.10.- REGRESIÓN

VII.10.1.- Regresión condicional

Uno de los problemas que se plantan en numerosas aplicaciones prácticas es el de predecir los
valores de una variable X2 en función de los valores que tome otra variable X1 con la que se
distribuye conjuntamente.

El objeto de este apartado será obtener la “mejor” función de predicción de acuerdo con un
cierto criterio. En este caso, el criterio será minimizar el valor medio del cuadrado de los
errores de predicción. Por lo tanto, trataremos de encontrar una función h(X1) que permita
obtener valores aproximados de X2 de modo que sea mínimo el valor medio anteriormente
expresado.

VII.109
MÉTODOS ESTADÍSTICOS I

Si h(X1) no está sujeta a ninguna restricción (salvo que sea uniforme) se le denominará curva
de regresión condicional.

Si h(X1) está sujeta a la restricción de ser una recta, se le denominará recta de regresión lineal
minimo cuadrática.

Si h(X1) es una función uniforme de X1, la variable aleatoria [X2- h(X1)]2 representa el “error”
al cuadrado que se comete al tratar de predecir el valor de X2 mediante el conocimiento de X1
y utilizando para ello la función h(X1).

El objeto de la regresión condicional consiste en determinar h(X1) de tal forma que el valor
medio del “error cuadrático” sea mínimo.

Determinaremos por tanto la función h(X1) que minimiza:

[
E (X2 − h( X1 ))
2
] =∫ ℜ2
(x 2 − h( x1))2 ⋅ dFX X 1 2
( x 2 , x1 )

expresión que puede ser escrita:

[
E (X2 − h( X1 )) =
2
] ∫ ℜ
dFX1 ( x1 ) ⋅
∫ ℜ
(x 2 − h( x1))2 ⋅ dFX 2 / X1 ( x 2 / x1 )

que es mínima cuando, para x1 dado, lo es:

∫ ℜ
(x 2 − h( x1))2 ⋅ dFX 2 / X1 ( x 2 / x1 )

en la que x1 y, por tanto, h(x1) son constantes. Calcularemos h(x1) derivando la última integral
respecto a h(x1) e igualando a cero: según una de las propiedades de la integral de Stieljes, se
cumplirá que:

∫ (x 2 − h( x1))2 ⋅ dFX X ∫ − 2 ⋅ (x 2 − h( x1 )) ⋅ dFX1X 2 ( x 2 / x1 )


d
1 2
( x 2 / x1 ) =
dh( x1 ) ℜ ℜ

igualando a cero la expresión anterior.

∫ ℜ
h( x1 ) ⋅ dFX1X 2 ( x 2 / x1 ) =
∫ ℜ
x 2 ⋅ dFX1X 2 ( x 2 / x1 )

es decir:
h( x1 ) = E( X2 / x1 )

Por tanto:
Llamaremos curva de regresión condicional de X2 sobre X1 al lugar geométrico
de los valores medios condicionales de la variable X2 dado el valor de X1.

VII.10.2.- Regresión lineal mínimo cuadrática

VII.10.2.1.- Definición

VII.110
MÉTODOS ESTADÍSTICOS I

r
Sea X = ( X1, X2 ) una variable aleatoria bidimensional. Se llama recta de regresión mínimo
cuadrática de X2/x1 a la recta

x̂ 2 = α + β ⋅ x1
que minimiza la expresión:
(
⎢⎣
2
)
E ⎡ X2 − X̂2 ⎤
⎥⎦

en la que
X̂ 2 = α + β ⋅ X1

VII.10.2.2.- Cálculo de los parámetros

Llamaremos residuo a la variable aleatoria a


U = X2 -(α+β·X1)
Debemos minimizar:
z = E(U2) = E[(X2 -(α+β·X1))2]
derivando respecto de α y teniendo en cuenta la propiedad c) de la esperanza matemática:
dz
=
dα dα
d
[
E (X2 − α − β ⋅ X1 ) = E ⎢
2
]
⎡ d
⎣ dα
(X2 − α − β ⋅ X1 )2 ⎤⎥

es decir:

= E [− 2 ⋅ (X2 − α − β ⋅ X1 )]
dz

aplicando el operador E e igualando a cero:


μ2-α-β·μ1=0
por tanto:
α = μ 2 − β ⋅ μ1

Despejando μ2:
μ2=α+β·μ1
lo que indica que el punto (μ1, μ2) satisface las condiciones de la recta, es decir, que la r.r.m.c.
pasa por el punto medio de la distribución de (X1, X2).

Sustituyendo el valor de α en la definición de U:


U=X2-(μ2-β·μ1)-β·X1=(X2-μ2)-β·(X1-μ1)
y z será:
[
z = E (( X 2 − μ 2 ) − β ⋅ ( X1 + μ1 ))
2
]
derivando z respecto de β e igualando a cero se obtiene:

VII.111
MÉTODOS ESTADÍSTICOS I

dz

[ (
= E − 2 ⋅ ( X1 − μ1 ) ⋅ ( X2 − μ 2 ) − β ⋅ ( X1 − μ1 )2 )]= 0
tomando la esperanza matemática:
cov (X1, X2 ) − β ⋅ σ12 = 0

por tanto:
cov (X1, X2 )
β=
σ12

Sustituyendo α en la ecuación de la recta de regresión se obtiene:


X̂2 = μ 2 − β ⋅ μ1 + β ⋅ X1 = μ 2 + β ⋅ (X1 − μ1 )

Sustituyendo ahora el β por su valor tendremos que la r.r.m.c. es:

cov (X1, X 2 )
X̂ 2 − μ 2 = ⋅ (X1 − μ1 )
σ12

Esta recta pasa por el punto (μ1,μ2) y su pendiente es β.

Si ponemos β en función del coeficiente de correlación, cuya expresión es


cov( X1, X2 )
ρ=
σ1 ⋅ σ2
tendremos que
σ2
β= ⋅ρ
σ1

por lo que si ρ=0 entonces β=0 y la recta de regresión mínimo cuadrática coincide con
X̂2 = μ 2

Ejemplo VII.3
La variable aleatoria (X,Y) se distribuye con densidad uniforme en el interior del recinto
delimitado por las rectas:
y=0
x=0
y=1
x+y=2

Calcular:
a) La curva de regresión condicional de X/Y y de Y/X
b) La recta de regresión mínimo cuadrática de Y/X y de X/Y
c) El coeficiente de correlación ρ

SOLUCIÓN:

VII.112
MÉTODOS ESTADÍSTICOS I

a) La c.r.c. de X/Y es:

X̂ = E(X/Y) =
∫ x ⋅f
X
X/Y (x/y) ⋅ dx

y la c.r.c. de Y/X:

Ŷ = E(Y/X) =
∫ y ⋅f
Y
Y/X (y/x) ⋅ dy

Deberemos conocer, por lo tanto, las correspondientes funciones de densidad condicionales.

Dado que la variable tiene densidad uniforme en el recinto A de la figura VII.10, la función
de densidad conjunta será:
1 1 2
f XY (x, y) = = =
Area A 3/2 3

1 2 X

Figura VII.10.- Campo de existencia de (X,Y)

Las funciones de densidad marginales son:


⎧ 2
∀ x ∈ [0,1]
1

⎪⎪ ∫ 2/3 ⋅ dy =
f X (x) = ∫ f XY (x, y) ⋅ dy = ⎨ 3
0
2− x 2

∫ ∀ x ∈ [1,2 ]
Y
2/3 ⋅ dy = ⋅ (2 − x)
⎪⎩ 0 3
2−y
2
∀ y ∈ [0,1]
fY (y) =
∫ X
f XY (x, y) ⋅ dx =
∫ 2/3 ⋅ dy = 3 ⋅ (2 − y)
0

Las funciones de densidad condicionales son:


f XY (x, y) 2/3 1
f X/Y (x/y) = = = ∀ x ∈ [0, 2 − y ] , ∀ y ∈ [0,1]
fY (y) 2/3 ⋅ (2 − y) 2 − y

⎧ 2/3
⎪⎪ 2/3 = 1 ∀ x ∈ [0,1] , ∀ y ∈ [0,1]
fY/X (y/x) = ⎨
2/3 1
⎪ = ∀ x ∈ [1,2 ] , ∀ y ∈ [0, 2 − x ]
⎪⎩ 2/3 ⋅ (2 − x) 2 − x

Sustituyendo en las ecuaciones correspondientes obtenemos que la c.r.c. de X/Y es


2 −y
2−y
Xˆ = E [X/Y ] = ∀ y ∈ [0,1]
∫ 0
x ⋅ 2 1− y ⋅ dx =
2

VII.113
MÉTODOS ESTADÍSTICOS I

como muestra la figura VII.11.

1 2 X

Figura VII.11.- Curva de Regresión Condicional X/Y

y la c.r.c. de Y/X es
⎧ 1
1
∀ x ∈ [0,1]
⎪⎪
Yˆ = E [Y/X ] = ⎨
∫ y ⋅1 ⋅ dy = 2
0
2−x
2−x
∀ x ∈ [1,2 ]

⎪⎩ ∫ y ⋅ ⋅ dy = 2
1
1
2−x

como se muestra en la figura VII.12.

1 2 X

Figura VII.12.- Curva de Regresión Condicional Y/X

b) La recta de regresión mínimo cuadrática de Y/X tiene como expresión:


cov ( X,Y )
Yˆ − μY = ⋅ (X − μ X )
σ X2
donde:
+∞ 1
4
μY = E(Y) =
∫ y ⋅ fY (y) ⋅ dy =
−∞ ∫ y ⋅ 2/3 ⋅ (2 − y) ⋅ dy = 9
0

+∞ 1 2
7
μ X = E(X) =
∫ x ⋅ f X (x) ⋅ dx =
−∞ ∫ 0
x ⋅ 2/3 ⋅ dx +
∫ x ⋅ 2/3 ⋅ (2 - x) ⋅ dx = 9
1

2−y
1
4 7 13
cov(X,Y) = E(X ⋅ Y) − E(X) ⋅ E(Y) =
∫ ∫ x ⋅ y ⋅ 2/3 ⋅ dx ⋅ dy − 9 ⋅ 9 = − 324
0 0

2
1 2
⎛7 ⎞ 37
σ X2 = D 2 (X) = E(X 2 ) − E 2 (X) =
∫ 0
x 2 ⋅ 2/3 ⋅ dx +

1
x 2 ⋅ 2/3 ⋅ (2 − x) ⋅ dx − ⎜ ⎟ =
9
⎝ ⎠ 162

sustituyendo:

VII.114
MÉTODOS ESTADÍSTICOS I

4 13 ⎛ 7⎞
Ŷ − =− ⋅⎜ X − ⎟
9 74 ⎝ 9⎠

La r.r.m.c. X/Y tiene como expresión:


cov ( X,Y )
Xˆ − μ X = ⋅ (Y − μY )
σY2

donde
2
1
⎛4 ⎞ 13
σY2 = D 2 (Y) = E(Y 2 ) − E 2 (Y) =
∫ 0
x 2 ⋅ 2/3 ⋅ (2 - y) ⋅ dx − ⎜ ⎟ =
⎝9 ⎠ 162

sustituyendo:
7 1 ⎛ 4⎞
X̂ − = − ⋅ ⎜Y − ⎟
9 2 ⎝ 9⎠

c) El coeficiente de correlación es
cov(X,Y) 13/324
ρ= =− = −0.296
σ X ⋅ σY 37/162 ⋅13/162

VII.11.- VARIABLES ALEATORIAS n-DIMENSIONALES

Los conceptos expuestos en los apartados anteriores, son fácilmente generalizables para
variables de más de dos dimensiones.

Así, si designamos por I x1,x 2 ,...,x n al intervalo de la forma X1≤x1, X2≤x2, ..., Xn≤xn, y dado un
Espacio de Probabilidades (E, F, P), diremos que la aplicación X:E→ℜn es una variable
aleatoria n-dimensional si para todo intervalo I x1,x 2 ,...,x n su antiimagen O(I x1,x 2 ,...,x n ) pertenece
a F.

Definiremos a la función de distribución, mediante:


F( x1, x 2 ,..., xn ) = P( X1 ≤ x1, X2 ≤ x 2 ,..., Xn ≤ xn )

cuyas propiedades son una fácil generalización de las expuestas en una y dos dimensiones.

Para las variables continuas se define a la función de densidad como aquella función que
satisface a la condición:

∫ ∫ ∫
x1 x2 xn
F( x1, x 2 ,..., xn ) = L f ( x1, x 2 ,..., xn ) ⋅dx1 ⋅dx 2 ⋅ L ⋅ dx n
−∞ −∞ −∞

por tanto, será:


δnF( x1, x 2 ,..., xn )
f ( x1, x 2 ,..., xn ) =
δx1 ⋅ δx 2 ⋅ L ⋅ δxn

Las variables marginales y condicionales se definen de forma análoga al caso de dos


dimensiones.

VII.115
MÉTODOS ESTADÍSTICOS I

Si el producto de las funciones de distribución marginales coincide en todo punto con la


distribución conjunta, las variables son independientes.
{ Xr e Yr son independie ntes} ↔ { F
XY
r r r r
( x, y ) = FX ( x ).FY ( y )}

VII.116
MÉTODOS ESTADÍSTICOS I

VII.117
CAPITULO VII:
Variable Aleatoria Normal
Bidimensional
Capítulo V: Variables Aleatorias Unidimensionales

VII.1.- CONCEPTO DE FUNCIÓN DE DENSIDAD

Cuando en lugar de observar una característica numérica observamos n


características en cada elemento de una población, diremos que se dispone de una
variable aleatoria multidimensional.

Dada una variable aleatoria multidimensional, por simplicidad consideraremos el


caso bidimensional, definiremos su distribución de probabilidad, en el caso discreto,
mediante una función de probabilidad conjunta que proporcione las probabilidades
de cada posible valor. En el caso de una variable aleatoria bidimensional continua,
las probabilidades vienen determinadas por una función de densidad conjunta la cual
debe verificar las siguientes propiedades:

f XY ( x , y) ≥ 0 ∀i
∞ ∞

∫ ∫f
−∞−∞
XY ( x, y)dxdy = 1

Supongamos que la variable bidimensional (X,Y) hace corresponder a cada individuo de una
población su peso (X) y su estatura (Y). El peso y la estatura por separado son, a su vez,
variables aleatorias y, como tales, tienen su propia función de distribución y sus respectivas
funciones de densidad. A estas variables, por separado, se les llama variables marginales de la
bidimensional.

Una variable bidimensional está constituida por dos variables unidimensionales


llamadas marginales.

En el caso de variables continuas, a partir de la función de densidad conjunta, se pueden


calcular la función de distribución y de densidad de las variables marginales de la siguiente
forma:

d) El valor de FX(x) es la probabilidad de que la variable X tome un valor inferior o igual a


x, sea cuál sea el valor de Y, es decir FX(x) es la probabilidad de que la variable
bidimensional tome un valor del intervalo rayado de la figura VII.1.

VII.119
Capítulo V: Variables Aleatorias Unidimensionales

x
X

Figura VII.1.- Distribución marginal de X

Por tanto:
FX ( x ) = P( X ≤ x ) = P( X ≤ x, Y < ∞ ) = lim FXY ( x, y )
y →∞

Siendo FXY(x,y) la función de distribución conjunta.


e) Por las mismas razones que las expuestas en el punto a), se cumple que:
+∞

∫ ∫
x
FX ( x ) = du ⋅ f (u, v ) ⋅ dv
−∞ −∞

f) Derivando respecto a x ésta última ecuación:


+∞ +∞

∫ ∫
d
fX ( x ) = FX ( x ) = f ( x, v ) ⋅ dv = f ( x, y ) ⋅ dy
dx −∞ −∞

VII.1.1.- Variable normal bidimensional tipificada

Un caso particular de variables aleatorias bidimensionales lo constituye la


distribución normal bidimensional tipificada.

Sean X1 y X2 variables aleatorias Normales Tipificadas unidimensionales e


independientes. La función de densidad conjunta de la variable bidimensional:
r ⎡X ⎤
X = ⎢ 1⎥
⎣X 2 ⎦

es:
x12 + x22
1 −
f ( x 1, x 2 ) = e 2

pues bien:

VII.120
Capítulo V: Variables Aleatorias Unidimensionales

La variable aleatoria bidimensional cuyas marginales son variables aleatorias


Normales Tipificadas independientes, se denomina variable aleatoria Normal
Bidimensional Tipificada y su función de densidad conjunta es:
x12 + x22
1 −
f ( x 1, x 2 ) = e 2

r r r
La representaremos mediante X ≡ N(0, I), en la que 0 = (0,0)' e I es la matriz unidad.

VII.1.2.- Variable normal bidimensional general

r r
Sea A una matriz 2x2 regular ( A ≠ 0), b un vector columna 2x1 y X una variable aleatoria
r r
Normal Bidimensional Tipificada ( X ≡ N(0, I)).
r r r
A la variable bidimensional Y = AX + b la denominaremos variable Normal Bidimensional
General.
La variable Normal Bidimensional General es una transformada lineal
regular ( A ≠ 0) de una variable aleatoria Normal Bidimensional

Tipificada.
r r r r r r
Si Y = AX + b con, es X = A −1 ( Y − b) y existe, por tanto, correspondencia biunívoca
r r
entre los valores de X y de los de. Para calcular la función de densidad de Y conocida la de,
podremos utilizar la fórmula del Jacobiano para el cambio de variable, es decir:

⎡x ,x ⎤
f y ( y 1, y 2 ) = f x ( x1, x 2 ) • J⎢ 1 2 ⎥
⎣ y 1, y 2 ⎦
r r r
como X = A −1 ( Y − b) es:
⎡x ,x ⎤
J⎢ 1 2 ⎥ = A −1
⎣ y 1, y 2 ⎦

como:
x12 + x22
1 −
f ( x 1, x 2 ) = e 2

es:

VII.121
Capítulo V: Variables Aleatorias Unidimensionales

x' x
1 −
f ( x 1, x 2 ) = e 2

en la que x’=(x1,x2) y, por tanto, es:


r r r r r r
x = A −1 ( y − b) y x' = A −1( y − b)' (A -1 )'
en consecuencia, será:
1 r r −1 r r
r 1 − ( y − b)'( A )'• A −1 ( y − b) 1
f y ( y) = e 2
2•π A
r r r
pongamos ahora los valores de A y de b en función del vector de medias de Y(m y ) y de la
r
matriz de varianzas-covarianzas de Y( Vy ).
r r r r r r r
m y = E( Y ) = E( AX + b) = AE( X ) + b = b

[ ] [ ]
r r r r rr rr
Vy = E ( Y − m y )( Y − m y )' = E AXX ' A ' = AE( XX ' )A ' = AA '

por ser A no singular, es:


Vy−1 = A ' −1 • A −1

y
2
Vy = A

de donde:
1/ 2
A = Vy

por tanto:
1 r r r r
r 1 − ( y − m y )' Vy−1( y − m y )
f y ( y) = 1/ 2
e 2

2 • π • Yy

como:
⎡ σ 2, σ 12,2 ⎤
V = ⎢ 211 2 ⎥
⎢⎣σ 2,1 σ 2,2 ⎥⎦

es:
Vy = σ 12 • σ 22 • (1 − ρ 2 )

y es:
⎡ 1 ρ ⎤
⎢ −
1 ⎢ σ 12 σ 1 • σ 2 ⎥⎥
Vy−1 =
1 − ρ 2 ⎢− ρ 1 ⎥
⎢ σ •σ ⎥
⎣ 1 2 σ12

VII.122
Capítulo V: Variables Aleatorias Unidimensionales

y calculando:
( y − m y )' Vy−1 ( y − m y )

se obtiene:
1 r r r r
1 − ( y − m y )' Vy−1( y − m y )
f y ( y) = e 2

2πσ 1σ 2 1 − ρ 2

en la que:
1 ⎡ ( y 1 − m1 ) 2 ( y 1 − m 1 )( y 2 − m 2 ) ( y 2 − m 2 ) 2 ⎤
( y − m y )' Vy−1 ( y − m y ) = ⎢ 2ρ + ⎥
1 − ρ 2 ⎢⎣ σ 12 σ1 • σ 2 σ 22 ⎥⎦

TEOREMA

Las variables aleatorias marginales de una variable Normal Bidimensional


General son, a su vez, variables Normales Unidimensionales Generales.

en efecto, como:
ϕ Y1 ( t) = ϕ Y1Y2 ( t,0)

y es:
⎡t⎤
[m1, m 2 ]⎢0⎥ = m1t
⎣ ⎦

y
⎡σ 2 σ 12,2 ⎤ ⎡ t ⎤ ⎡ σ 11
2
, t

[ t,0]⎢σ 211, ⎥ ⎢
σ 2,2 ⎥⎦ ⎣0 ⎦
⎥ = [ t,0 ]⎢ ⎥ = σ 11
2
, t = σ1 • t
2 2 2

⎢⎣σ 2,1 t⎥⎦


2 2
⎢⎣ 2,1

entonces:
1
im1t − σ12 • t 2
ϕ Y1 ( t) = e 2

que es la función característica de una variable Normal de media m1 y varianza. Por tanto:
r r
Y ≡ N(m, V ) ⇒ Y1 ≡ N(m 1, σ 1 )

VII.2.- VECTOR DE VALORES MEDIOS

VII.123
Capítulo V: Variables Aleatorias Unidimensionales

Por definición, el vector de valores medios, es:


r r ⎡ X ⎤ ⎡E( X 1 ) ⎤ ⎡ m 1 ⎤
m = E( X ) = E⎢ 1 ⎥ = ⎢ ⎥ = ⎢ ⎥
⎣ X 2 ⎦ ⎣E( X 2 )⎦ ⎣m 2 ⎦

Si particularizamos dicho vector al caso concreto de una variable aleatoria normal


bidimensional tipificada se tiene:
r ⎡0 ⎤
m= ⎢ ⎥
⎣0 ⎦

VII.3.- MATRIZ DE VARIANZAS COVARIANZAS


VII.3.1.- Definición

Se define como matriz de varianzas-covarianzas de la variable bidimensional (X1,X2) a:


⎡ σ2 σ12,2 ⎤
V = ⎢ 21 2 ⎥
⎣⎢σ2,1 σ2 ⎦⎥

Si, por ejemplo, se considera una variable aleatoria normal bidimensional tipificada como
D2(X1)=D2(X2)=1
y, por ser X1 y X2 independientes es:
cov(X1,X2)=0

la matriz de varianzas-covarianzas viene dada por:


⎡1 0⎤
V =⎢ ⎥
⎣0 1 ⎦
VII.3.2.- Propiedades

d) La matriz de varianzas-covarianzas es simétrica pues σ12,2 = σ22,1

e) La matriz de varianzas-covarianzas es semidefinida positiva.

σ12 ⋅ σ22 ≥ cov 2 ( X1, X2 )

que es la conocida desigualdad de Schwarz.

f) La masa de probabilidad de una variable aleatoria bidimensional se encuentra


concentrada en un punto, en una recta o en el plano, según que la característica o
rango de la matriz V sea 0,1 o 2, respectivamente.

VII.124
Capítulo V: Variables Aleatorias Unidimensionales

VII.4.- COEFICIENTE DE CORRELACIÓN

VII.4.1.- Definición

El coeficiente de correlación ρ de una variable aleatoria bidimensional se define mediante:


cov( X1, X2 ) σ12,2
ρ= =
σ12 ⋅ σ22 σ1 ⋅ σ2

VII.4.2.- Propiedades

d) Por ser V semidefinida positiva, es:


σ12 ⋅ σ22 ≥ σ14,2
por lo que:
σ14,2
ρ2 = ≤1
σ12 ⋅ σ22
por lo tanto:
−1 ≤ ρ ≤ 1

e) Si las variables X1 y X2 son independientes, es σ12,2 = 0


En consecuencia:

{ Si X1 y X2 son independientes} ⇒ {ρ = 0 }

el recíproco, en general, no es cierto.

f) Si existe una relación lineal exacta entre las variables aleatorias X1 y X2, es decir, si la
masa de probabilidad se encuentra concentrada en una recta, el rango de la matriz de
varianzas-covarianzas vale 1 y por tanto su determinante es nulo y, entonces
σ12·σ22=cov2(X1,X2) con lo que ρ2=1 y ρ=±1

{ Si X2 = α + β ⋅ X1 } ⇒ { ρ = ±1 }

De las propiedades anteriores, se desprende que el coeficiente de correlación mide el grado


de dependencia lineal entre X1 y X2.

VII.5.- INDEPENDENCIA DE VARIABLES ALEATORIAS

Dada la variable bidimensional (X,Y) diremos que las variables marginales X e Y son
independientes, si para todo (x,y) ∈ ℜ2, los sucesos IX=]-∞,x] e IY=]-∞,y] son independientes,
es decir:

VII.125
Capítulo V: Variables Aleatorias Unidimensionales

P(X≤x,Y≤y)=P(X≤x)·P(Y≤y)

Por tanto:

X e Y son independientes ↔ ∀ ( x, y ) ∈ ℜ2 ; F( x, y ) = FX ( x ) ⋅ FY ( y )

Si (X,Y) es continua, entonces:


δ2FXY ( x, y )
fXY ( x, y ) = = f X ( x ) ⋅ fY ( y )
δx ⋅ δy
por tanto:

X e Y son independie ntes ↔ ∀ ( x, y ) ∈ ℜ2 ; fXY ( x, y ) = fX ( x ) ⋅ fY ( y )

TEOREMA

Si dos variables aleatorias normales son incorrelacionadas, es decir (ρ =0),


entonces son independientes.

Si dos variables aleatorias son independientes, su covarianza es nula y, por tanto, su


coeficiente de correlación vale cero. Es decir, si son independientes están incorrelacionadas.

En general, el recíproco no es cierto. Para darse cuenta de ello, basta con comprobar
que las variables marginales de la variable aleatoria bidimensional uniforme en un círculo de
centro en el origen de coordenadas, son incorrelacionadas pero no independientes. Sin
embargo, en el caso particular de variables Normales, la incorrelación implica la
independencia y, por tanto, incorrelación e independencia son términos equivalentes.

En efecto, el exponente de la función de densidad de una variable aleatoria


bidimensional Normal General, es:

1 ⎡ ( y 1 − m1 ) 2 ( y 1 − m 1 )( y 2 − m 2 ) ( y 2 − m 2 ) 2 ⎤
( y − m)' V −1 ( y − m) = ⎢ − 2ρ + ⎥
1 − ρ 2 ⎢⎣ σ 12 σ1 • σ 2 σ 22 ⎥⎦

por tanto, si ρ = 0, es:


1 ⎡ ( y1 − m1 )2 ( y 2 − m 2 ) 2 ⎤
− ⎢ + ⎥
1 2 ⎢⎣ σ12 σ 22 ⎥⎦
f ( y 1, y 2 ) = e
2πσ 1σ 2

es decir:

VII.126
Capítulo V: Variables Aleatorias Unidimensionales

f ( y 1, y 2 ) = f y 1 ( y 1 ) • f y 2 ( y 2 )

lo que implica que Y1 e Y2 son independientes. Por tanto:

{ Y1 ≡ N(m 1, σ 1 ) Y2 ≡ N(m 2 , σ 2 ) y ρ(Y1, Y2 ) = 0} → {Y1 e Y2 indep. }

VII.6.- DISTRIBUCIÓN MARGINAL

Las variables aleatorias marginales de una variable Normal Bidimensional


General son, a su vez, variables Normales Unidimensionales Generales.

en efecto, como:
ϕ Y1 ( t) = ϕ Y1Y2 ( t,0)

y es:
⎡t⎤
[m1, m 2 ]⎢0⎥ = m1t
⎣ ⎦

y
⎡σ 2 σ 12,2 ⎤ ⎡ t ⎤ ⎡ σ 11
2
, t

[ t,0]⎢σ 211, ⎥ ⎢ ⎥
σ 2,2 ⎥⎦ ⎣0 ⎦
2
= [ t,0 ]⎢
σ 2 ⎥ = σ 11
2
, t = σ1 • t
2 2 2

⎢⎣ 2,1 ⎢⎣ 2,1 ⎥⎦
t

entonces:
1
im1t − σ12 • t 2
ϕ Y1 ( t) = e 2

que es la función característica de una variable Normal de media m1 y varianza. Por tanto:
r r
Y ≡ N(m, V ) ⇒ Y1 ≡ N(m 1, σ 1 )

VII.7.- DISTRIBUCIÓN CONDICIONAL

La variable aleatoria Y2 condicionada a un valor de la variable aleatoria Y1


=Y2, se calcula mediante:

VII.127
Capítulo V: Variables Aleatorias Unidimensionales

f ( y 1, y 2 )
fc ( y 2 y1 ) =
f y1 ( y 1 )

operando se obtiene:
2
⎡ ⎡ σ2 ⎤⎤
⎢ y 2 − ⎢m 2 + 1,2 ( y1 − m1 ) ⎥ ⎥
⎢ ⎢⎣ σ12
⎥⎦ ⎥⎦
− ⎣
1 lo que pone de manifiesto que
1 2 σ 2 (1− ρ )
2 2
fc ( y 2 y1 ) = e
2π σ 2 1 − ρ 2 si Y1 e Y2 son variables
aleatorias Normales, la
variable aleatoria Y1 / Y2 es, a su vez, una variable Normal de media:

cov( Y1, Y2 )
E( Y2 y 1 ) = m 2 + ( y 1 − m1 )
σ 12

D 2 ( Y2 y 1 ) = σ 22 • (1 − ρ 2 )

Como, en general, la curva de regresión condicional es:


y$ 2 = E( Y2 y 1 )

en el caso particular de variables Normales, es:

cov( Y1, Y2 )
y$ 2 = E( Y2 y 1 ) = m 2 + ( y 1 − m1 )
σ 12

por ser la curva de regresión condicional, es decir, la curva que mejor se adapta a la masa de

probabilidad, una recta, la recta de regresión minimo cuadrática coincidirá con la curva de

regresión condicional.

VII.128
Capítulo V: Variables Aleatorias Unidimensionales

Tema 8. Muestreo

VII.129
CAPITULO VIII:
Distribuciones en el Muestreo
Capítulo VIII: Distribuciones en el Muestreo

VIII.1.- INTRODUCCIÓN

El objeto de todo estudio estadístico es siempre el conocimiento del colectivo o población a la


que se refiere el estudio.

No obstante, no siempre es posible o conveniente analizar todas y cada una de las unidades
que integran dicho colectivo. Las razones por las cuales no se extiende el análisis a la
totalidad de la población pueden ser de distinta índole:

• Razones estratégicas. Por ejemplo, no disponer de acceso a todos los individuos del
colectivo o no disponer de un listado de los mismos.

• Razones económicas. Estudiar a todos los individuos del colectivo podría suponer un
coste demasiado elevado en muchos casos, o superior al valor de la información obtenida,
en otros.

• Razones de tiempo. La urgencia por disponer de la información requerida (por ejemplo


un sondeo preelectoral, la aceptación de un lote de materiales, etc.) puede imposibilitar el
estudio de toda la población.

• Razones intrínsecas al estudio. Cuando las observaciones a realizar ocasionan alteración


o incluso la destrucción de los elementos analizados, lógicamente es inviable estudiar
todos ellos. Si aplicamos un ensayo destructivo a la totalidad de las piezas de un lote en
su recepción, el colectivo objeto de estudio desaparecería y la información obtenida,
aunque completa, carecería de interés o aplicabilidad.

Para obviar estos inconvenientes se recurre al estudio de solo una parte del colectivo
convenientemente seleccionada a partir del cual, y mediante el empleo de técnicas
estadísticas, podremos generalizar al universo o colectivo objeto del estudio, las conclusiones
obtenidas.

Algunos ejemplos o situaciones de la vida real ayudarán a justificar la necesidad y utilidad del
muestreo. Son muchas las preguntas que pueden plantearse acerca de la población total y que
pueden responderse analizando adecuadamente los resultados observados en la muestra. Por
ejemplo:

• En función de los resultados obtenidos al medir la capacidad de un conjunto de envases


de vidrio y con el fin de poder aplicar las técnicas estadísticas habituales de Control de la
Calidad ¿podemos admitir que dicha magnitud es una variable aleatoria con distribución
normal?.
• Dado un conjunto de mediciones de la resistencia a la compresión de unas probetas de
hormigón, fabricadas con tres formulaciones diferentes ¿puede concluirse que las tres
formulaciones tienen la misma resistencia media o presentan la misma variabilidad?.
• Dados los resultados de la inspección de un conjunto de componentes eléctricos

VIII.131
Capítulo VIII: Distribuciones en el Muestreo

¿podemos admitir que el lote muestreado tiene una proporción de componentes


defectuosos inferior a un cierto valor límite?
• Dado un conjunto de valores de dureza - peso específico de unas piezas de plástico
¿podemos admitir la existencia de una dependencia lineal entre estas características
físicas del material estudiado?
• En función de unos resultados obtenidos al repetir bajo diferentes condiciones un proceso
de síntesis ¿podemos decir que influyen en dicho proceso determinados factores?, ¿existe
interacción entre ellos?

Estas y otras muchas preguntas pueden contestarse mediante la aplicación de métodos


estadísticos a la información suministrada por las muestras extraídas de una población.

VIII.2.- POBLACIÓN, MUESTREO Y MUESTRA

Desde el punto de vista estadístico, una población es el conjunto de todos los valores posibles
o espacio muestral de una variable aleatoria (generalmente medida en las unidades del
colectivo estudiado), y una muestra es un subconjunto de dichos valores tomados
aleatoriamente. Por ejemplo, población será el conjunto de valores posibles de la longitud de
las piezas obtenidas en un determinado proceso de fabricación, y muestra el subconjunto
formado por las longitudes (x1, x2, ..., xn) de un número finito n, de esas piezas seleccionadas
de forma aleatoria.

En general, el vector aleatorio (X1, X2, ..., Xn) es una variable n-dimensional en el que cada
componente i = 1, 2, .., n representa el valor de la característica X en el i-ésimo elemento
extraído.

Si las n observaciones muestrales se han realizado en una misma población con función de
distribución FX(x), la función de distribución de cada variable X1, X2, ..., Xn también será
FX(x).

Si en cada extracción todos los elementos tienen la misma probabilidad de ser seleccionados
para formar parte de la muestra, el muestreo se denomina aleatorio, y la muestra obtenida es
una muestra aleatoria.

Muestreo

Población Muestra

Figura VIII.1.- Población y muestra

VIII.132
Capítulo VIII: Distribuciones en el Muestreo

Si después de cada extracción y antes de la siguiente se repone el objeto extraído, el muestreo


se denomina muestreo aleatorio simple o con reemplazamiento. Si no se produce la
reposición, el muestreo se denomina muestreo aleatorio sin reemplazamiento. Tanto en el
primer caso como en el segundo si el colectivo es infinito, las variables aleatorias, son
independientes y por tanto, la función de distribución conjunta será:
FXr ( x1, x 2 ...x n ) = FX1 ( x1 ) ⋅ FX 2 ( x 2 ) ⋅ L ⋅ FXn ( xn )

Formalmente, denominamos muestra aleatoria simple (m.a.s.) de tamaño n al vector aleatorio


o variable n-dimensional:
r
X = ( X1, X2 , K , Xn )

formado por n variables unidimensionales que indican los valores de las n observaciones y
que serán independientes si en muestro realizado es aleatorio simple.

Cada valor concreto de la muestra será un conjunto de n datos y se representará por letras
minúsculas: r
x = ( x1, x 2 , K , x n )
VIII.3.- ESTADÍSTICOS

A toda función T = T(X1, X2, ..., Xn) de los valores muestrales se le denomina estadístico.
Evidentemente todo estadístico será, en general, una variable aleatoria dado que su valor
depende de los valores de la muestra, que son aleatorios.

Los estadísticos más utilizados son:

• La media muestral
X1 + X2 + L + Xn
x=
n

• La mediana muestral: es el valor de la variable que deja el mismo número de datos por
abajo que por arriba y se calcula mediante.
⎛ n +1 ⎞
~
x = Xe + ⎜ − e ⎟ ⋅ (x e +1 − x e )
⎝ 2 ⎠

n + 1⎞
con e = INT ⎛⎜ ⎟
⎝ 2 ⎠

• La moda muestral: es el valor que más veces se repite en la muestra.

• La varianza muestral
n
∑ ( Xi − x )2
sn2 = i =1
n

• La cuasivarianza

VIII.133
Capítulo VIII: Distribuciones en el Muestreo

n
∑ ( Xi − x )2
sn2−1 = i =1
n −1

• La desviación típica muestral y la cuasidesviación típica


sn = + sn2 sn −1 = + sn2−1

• El rango o recorrido:
R=Xmáx-Xmin

• La proporción muestral
X
p̂ =
n

donde X es el número de unidades muestrales en las que se presenta el suceso


considerado.

VIII.4.- DISTRIBUCIONES EN EL MUESTREO

Las distribuciones de probabilidad de los estadísticos se denominan distribuciones en el


muestreo. Estas distribuciones dependerán de:

• la función T que define el estadístico


• la distribución FX(x) que tenga la variable X muestreada
• el tamaño de muestra
• el tipo de muestreo efectuado

Antes de pasar al estudio de estas distribuciones vamos a recoger algunos conceptos que
facilitarán su comprensión.

Dada una muestra aleatoria simple de tamaño n, es posible hacerle corresponder una
distribución de probabilidades de los valores obtenidos asignando a cada uno de ellos una
probabilidad igual a 1/n:
1
PX∗ ( xi ) =
n

La distribución así obtenida se denomina distribución muestral. Ésta es siempre una


distribución discreta unidimensional (si la variable X estudiada es unidimensional) y su
espacio muestral está formado por n valores diferentes (o menos si han coincidido dos o más
valores de la muestra).

A las características de la distribución muestral (media muestral, varianza muestral, etc.) se


les denomina características muestrales, por oposición a las características poblacionales que
son las de la distribución X de la población.

VIII.134
Capítulo VIII: Distribuciones en el Muestreo

Estas características muestrales son función de la muestra y, por lo tanto, estadísticos


(variables aleatorias con una determinada distribución de probabilidades según hemos visto en
el punto anterior).

Para realizar adecuadamente el paso de lo "particular" reflejado en la distribución de los


valores observados a lo "general" o distribución teórica de la variable, necesitamos conocer
cuál es la relación que existe entre una distribución y otra, y este es precisamente el objeto del
presente capítulo.

En el apartado anterior poníamos de manifiesto que la distribución que tienen los estadísticos
(y las características muestrales lo son), dependen de la distribución FX(x) que tenga la
variable X muestreada por lo que, en general, si no se conoce FX(x) no se conocerá por
completo la distribución de cada una de las características muestrales. No obstante, aunque
FX(x) sea desconocido pueden conocerse determinados aspectos de la distribución de las
características muestrales como son algunos parámetros de su distribución. En efecto, las
características muestrales son variables aleatorias y, por lo tanto tendrán media y varianza.
Así, la media muestral que representamos por x , tendrá a su vez media E( x ) y varianza D2 ( x ) .

POBLACIÓN MUESTRA

f X(x) PX∗ ( x )

(X1, X2, ..., Xn) 1/n

X X

Características poblacionales Características muestrales


(constantes) (variables aleatorias)

μ (media) x (media muestral)


2
σ (varianza) s n2 (varianza muestral)
s n2−1 (cuasivarianza)

σ (desviación típica) sn (desv. típica muestral)


sn-1 (cuasidesviación típica)

p (proporción) p̂ (proporción muestral)

Figura VIII.2.- Características poblacionales y muestrales

A continuación analizaremos primero la distribución de las principales características


muestrales sin considerar la distribución FX(x) de la variable muestreada, y en el punto
siguiente completaremos el análisis considerando que la variable muestreada sigue la
distribución Normal.

VIII.4.1.- Distribución de la media muestral.

VIII.135
Capítulo VIII: Distribuciones en el Muestreo

La media de la distribución muestral (media muestral) es:


n

n
1 n ∑ xi
∑ xi ⋅ PX∗ ( xi ) = n ⋅ ∑ xi = i =1
n
=x
i =1 i =1

que coincide con la media aritmética de los n valores obtenidos.

Su valor medio será:


⎛ n x ⎞ 1 ⎛ n ⎞ 1 n
E( x ) = E ⎜⎜ ∑ i ⎟⎟ = ⋅ E⎜⎜ ∑ x i ⎟⎟ = ⋅ ∑ E(x i ) = ⋅ n ⋅ μ X = μ X
1
⎝ i =1 ⎠
n n ⎝ i =1 ⎠ n i =1 n

Y su varianza:
⎛ n x ⎞ 1 ⎛ n ⎞
D2 ( x ) = D2 ⎜⎜ ∑ i ⎟⎟ = 2 ⋅ D2 ⎜⎜ ∑ xi ⎟⎟
⎝ i =1 n ⎠ n ⎝ i =1 ⎠

y por ser las xi independientes, pues la muestra es aleatoria simple:


1 n 2 1 σ2X
D2 ( x ) = ⋅ ∑
n2 i =1
D ( x i ) =
n2
⋅ n ⋅ σ 2
X =
n

Por lo tanto, si tomamos muestras aleatorias simples de tamaño n de una población cuya
media es μX y su varianza es σX2, entonces el estadístico media muestral será una variable
aleatoria con valor medio y varianza:
σ2X
E( x ) = μ X D2 ( x ) =
n

Como
n
xi
x=∑
i =1 n

es una suma de variables aleatorias independientes, todas ellas con la misma distribución, se
tiene como consecuencia del Teorema de Lindenberg-Levy que cuando n tiende a infinito, x
converge en distribución a la distribución normal de media μX y varianza σX2/n,
independientemente de la distribución que tenga la variable X muestreada. En la práctica la
aproximación es buena cuando n>30.

VIII.4.2.- Distribución de la varianza muestral.

La varianza de la distribución muestral (varianza muestral) es:


n

n ∑ (x − x ) i
2

sn2 = ∑ (x − x ) ⋅ P (x ) =
i =1
i
2 ∗
X i
i =1
n

Su valor medio es

VIII.136
Capítulo VIII: Distribuciones en el Muestreo

⎡ n ( x − x )2 ⎤ 1 ⎡ n 2⎤
E(sn2 ) = E ⎢∑ i ⎥ = ⋅ E ⎢∑ (( xi − μ X ) − ( x − μ X )) ⎥
⎣ i =1 n ⎦ n ⎣ i =1 ⎦

donde se ha sumado y restado μX.

Desarrollando el cuadrado

E(sn2 ) =
1 ⎡n
n ⎣ i =1
( ⎤
⋅ E ⎢∑ ( x1 − μ x )2 + ( x − μ X )2 − 2 ⋅ ( x i − μ X ) ⋅ ( x − μ X ) ⎥ )

Aplicando el sumatorio
1 ⎡ ⎤
n n

E(sn2 ) = ⋅E ⎢
n ⎣⎢ ∑i =1
( x1 − μ x )2 + n ⋅ ( x − μ X )2 − 2 ⋅ ( x − μ X ) ⋅ ∑ (x − μ )⎥⎦⎥
i =1
i X

Teniendo en cuenta que


n n
∑ ( xi − μ X ) = ∑ xi − n ⋅ μ X = n ⋅ x − n ⋅ μ X = n ⋅ ( x − μ X )
i =1 i =1

sustituyendo y aplicando las propiedades del operador E

E(sn2 ) =
1 ⎡n
( ) ⎤
⋅ ⎢∑ E ( xi − μ X )2 − n ⋅ E ( x − μ X )2 ⎥
n ⎣ i =1
( )

Finalmente, recordando que


[ ]
E ( x − μ X )2 = D2 ( x ) = σ2X / n

y que
[ ]
E ( x i − μ X )2 = σ2X

se obtiene que
1 ⎛ σ2 ⎞ n − 1 2
E(sn2 ) = ⋅ ⎜⎜ n ⋅ σ2X − n ⋅ X ⎟⎟ = ⋅ σX
n ⎝ n ⎠ n

Una de las aplicaciones más importantes del muestreo es, como veremos en el capítulo
siguiente, la estimación de parámetros poblacionales. Allí se recomienda la utilización de
estadísticos cuyo valor medio coincida con el correpondiente parámetro poblacional, de ahí
que se emplee frecuentemente la cuasivarianza o varianza muestral corregida en lugar de la
varianza muestral, puesto que si
n

n ∑( xi − x )2
sn2−1 = ⋅ sn2 = i =1
n −1 n −1
entonces
n n n −1 2
E(sn2−1 ) = ⋅ E(sn2 ) = ⋅ ⋅ σ X = σ2X
n −1 n −1 n

VIII.137
Capítulo VIII: Distribuciones en el Muestreo

En definitiva, si tomamos muestras aleatorias simples de tamaño n de una población cuya


varianza es σX2, entonces la media de la varianza muestral y la media de la cuasivarianza son:
n −1 2
E(sn2 ) = ⋅ σX E(sn2−1 ) = σ2X
n

VIII.4.3.- Distribución de la proporción muestral.

Se define la proporción muestral como:


X
p̂ =
n

donde X es el número de veces que se presenta el suceso A, de probabilidad p, en n


repeticiones independientes de la experiencia aleatoria o en las n unidades muestrales.
Como X es una variable B(n,p), obtendremos que:
⎛ X⎞ 1 n⋅p
E(p̂) = E ⎜ ⎟ = ⋅ E( X) = =p
⎝n⎠ n n
y
⎛ X⎞ 1 n ⋅ p ⋅ (1 − p ) p ⋅ (1 − p )
D2 (p̂) = D2 ⎜ ⎟ = 2 ⋅ D2 ( X) = =
⎝ ⎠
n n n2 n

Por lo tanto, si tomamos muestras aleatorias simples de tamaño n de una población en la que
A tiene una probabilidad p de ocurrir, la media y la varianza de la variable proporción
muestral es:
E(p̂) = p D2 (p̂) = n ⋅ p ⋅ (1 − p)

Como
n

X ∑ yi n
⎛y ⎞
p= = i =1
= ∑ ⎜ ni ⎟
n n i =1 ⎝ ⎠

(donde las yi son variables dicotómicas de parámetro p), es la suma de n variables


independientes idénticamente distribuidas, en virtud del Teorema de Lindenberg-Levy, p
converge en distribución a la distribución normal con media y varianza igual a las expresadas.
Esta propiedad será utilizada en el establecimiento de intervalos de confianza y test de
hipótesis para la proporción poblacional p.

VIII.5.- MUESTREO EN POBLACIONES NORMALES.

En el apartado anterior vimos que, en general, no se podía caracterizar la distribución de los


estadísticos muestrales si no se conocía la distribución FX(x) de la población muestreada.

Analizaremos en este apartado la distribución de las principales características muestrales en


el caso de que la población muestreada tenga una distribución normal (X≡N(μX,σX)).

VIII.138
Capítulo VIII: Distribuciones en el Muestreo

VIII.5.1.- Distribución de la media muestral.

n
Xi
Sabemos que x=∑
i =1 n

Puesto que x es una combinación lineal de variables normales independientes, su distribución


será siempre normal con la media y varianza vistas en el apartado anterior:
⎛ σ ⎞
x ≡ N ⎜⎜ μ X , X ⎟⎟
⎝ n⎠

En la figura VIII.3 se ha representado la distribución de la media muestral.

f X(x) f x (x)

σX / n

σX

μX X μX x

Figura VIII.3.- Distribución de la variable X y de la media muestral x .

Ejemplo VIII.1.
En el proceso de pintado de la carrocería de un automóvil, el espesor de la capa de
imprimación es una variable aleatoria con distribución normal de media 100 micras y
desviación típica 5 micras. Si el control del espesor de la capa de imprimación se realiza
calculando el promedio de las cuatro medidas obtenidas en cuatro carrocerías seleccionadas
al azar de dicho proceso y aceptando que el proceso funciona correctamente si el promedio
obtenido es mayor de 95 micras ¿Cuál es la probabilidad de rechazar que el proceso
funciona correctamente?

SOLUCIÓN:

La media aritmética de las cuatro mediciones será una variable:


⎛ 5 ⎞
x ≡ N ⎜⎜100, ⎟⎟ ≡ N (100,2.5 )
⎝ 4⎠

La probabilidad de rechazar el proceso será:


⎛ 95 − 100 ⎞
p = P (x ≤ 95 ) = φ ⎜ ⎟ = φ (− 2 ) = 0.0228
⎝ 2.5 ⎠

es decir, en el 2’28% de los casos rechazaremos que el proceso funciona correctamente.

VIII.139
Capítulo VIII: Distribuciones en el Muestreo

VIII.5.2.- Distribución de la varianza muestral.

Si la variable muestreada tiene una distribución normal, el Teorema de Fisher establecer que:
sn2 s2
n⋅ = (n − 1) ⋅ n2−1 = χn2−1
σX2
σX

VIII.5.3.- Distribución conjunta de x y sn-1

Como
x − μX
≡ N (0,1)
σX / n

recordando la definición de la variable:


N (0,1)
tn =
χn2 / n

y teniendo en cuenta el Teorema de Fisher, tendremos que:


x − μX
σX / n x − μX
= = t n −1
2
s sn −1 / n
(n − 1) ⋅ n −1
(n − 1)
σ 2
X

distribución que utilizaremos en la realización de inferencias sobre μX.

VIII.140
Capítulo VIII: Distribuciones en el Muestreo

Tema 9. Inferencia

VIII.141
CAPÍTULO IX:

Introducción a la Inferencia Estadística


VIII.143
IX.1.- INTRODUCCIÓN

Como se dijo en el capítulo anterior, el objeto de cualquier estudio estadístico es el


conocimiento de la población o universo del fenómeno estudiado. A este conocimiento puede
llegarse mediante una inferencia o aproximación inductiva, observando parte del fenómeno y
planteando a partir de esta observación un modelo que, tras ser validado, se utilizará para
describir dicho fenómeno, incluso las situaciones particulares del mismo. Por ejemplo,
podemos medir una determinada dimensión en una muestra de piezas. A continuación
podemos proponer que la distribución de dicha magnitud es Normal. Si tras realizar el
oportuno contraste es aceptada la propuesta, podemos utilizar la correspondiente distribución
Normal para determinar, por ejemplo, la proporción de piezas cuya magnitud cumple unas
especificaciones dimensionales establecidas.

El otro camino para llegar al conocimiento del fenómeno aleatorio en cuestión es mediante
una inferencia o aproximación inductiva consistente en generalizar ciertas conclusiones
parciales al universo del fenómeno. Para ello se realizan experiencias bajo condiciones
determinadas. De dichas experiencias se obtiene una información de la que se extraen
conclusiones que serán generalizadas al universo del fenómeno.

Por ejemplo, en el estudio de la calidad de un lote de piezas recibidas en un almacén, lo usual


es tomar una muestra y a partir de la información que nos brinda, mediante un proceso
inductivo, tratamos de conocer aspectos generales de la población. Por ejemplo, podemos
conocer de forma aproximada la proporción p de piezas defectuosas en el lote a través de la
proporción p̂ de piezas defectuosas en una muestra de tamaño n.

Es evidente, que las conclusiones obtenidas mediante una inferencia inductiva presentan un
cierto riesgo de ser falsas, porque las proposiciones que son válidas a nivel de unas pocas
experiencias realizadas bajo unas condiciones determinadas, pueden no serlo a nivel general
del fenómeno. Sin embargo, en muchos casos, es posible efectuar inferencias inductivas
sujetas a cierto grado de incertidumbre susceptible de medición. Precisamente la Inferencia
Estadística se ocupa del estudio de los métodos que permiten efectuar inferencias inductivas
cuya incertidumbre es susceptible de ser medida en términos probabilísticos.

Un ejemplo aclarará estos conceptos. Supongamos que las unidades fabricadas por una cierta
línea de fabricación pueden ser clasificadas como correctas o defectuosas. Supongamos
también que tratamos de determinar la fracción de unidades defectuosas que se obtienen en
dicha línea de fabricación. Es evidente que no es posible establecer mediante un proceso
deductivo, un modelo matemático que permita obtener la fracción de unidades defectuosas,
pero sí que es posible efectuar una inferencia inductiva. Para ello tomamos unas cuantas
unidades fabricadas y observamos cuantas son correctas y cuantas defectuosas. A partir de
esta información y mediante un proceso inductivo estadístico podemos:

a) Inferir cual es la proporción de piezas defectuosas presentes en el colectivo.

b) Decidir sobre la aceptación o rechazo de determinadas hipótesis establecidas sobre la


proporción de piezas defectuosas del colectivo (por ejemplo que dicha proporción es
menor o igual que un determinado valor considerado como adecuado).
Capítulo IX: Introducción a la Inferencia Estadística

c) Si en cada una de las piezas hemos medido una dimensión X, podremos estimar μ y σ y
contrastar la normalidad de X. A partir de este modelo podemos deducir la proporción de
piezas que no cumple con unas determinadas especificaciones dimensionales.

Ciertamente no tendremos la seguridad absoluta de que la inferencia sea correcta, pero sí que
será factible de ser medida, en términos de probabilidad, la incertidumbre de nuestra
inferencia.

La Inferencia Estadística aborda dos tipos de problemas:

a) La estimación de parámetros.
b) El contraste de hipótesis.

IX.2.- ESTIMACIÓN DE PARÁMETROS.

La Estimación es la parte de la Inferencia Estadística que tiene como finalidad conocer, de la


forma más exacta y precisa posible, los valores de los parámetros de la distribución de las
variables aleatorias, así como los parámetros de los modelos aleatorios que puedan plantearse.
A este conocimiento de llega a través del análisis de muestras extraídas de la población.

En este apartado nos ocuparemos de la estimación de los parámetros de las distribuciones


aleatorias y de las propiedades de los estimadores.

Estimar un parámetro es calcular un valor aproximado del mismo a partir de los valores de la
muestra.

El estimador es una función de los valores de la muestra que se utiliza para obtener valores
aproximados de un parámetro poblacional. Un estimador es, por tanto, una variable aleatoria
ya que sus valores dependen de la muestra. Por ejemplo, un estimador de la media poblacional
μ, es la media muestral x .

La estimación es un valor concreto del estimador al aplicar la función que lo define sobre una
muestra concreta.

Los estimadores pueden ser:


• puntuales.
• por intervalos de confianza.

IX.2.1.- Estimación puntual

Un estimador puntual es toda función de los valores muestrales utilizada para obtener valores
aproximados (puntuales) de un parámetro. Ejemplos de estimadores puntuales son:

a) Estimadores de la media poblacional μ:

IX.145
Capítulo IX: Introducción a la Inferencia Estadística

• La media muestral, x
• La mediana muestral, ~x

Ejemplo IX.1
Dada la muestra {3, 5, 4, 4}, el estimador puntual de la media poblacional será:
n
xi
x =∑
i =1 n

y la estimación obtenida con la muestra propuesta:

3 +5 +4 +4
μˆ X = =4
4

b) Estimadores de la varianza poblacional σ2:


• La varianza muestral, sn2
• La cuasivarianza, sn2−1

Ejemplo IX.2
Con la muestra del ejemplo anterior sería
(3 − 4)2 + (5 − 4)2 + (4 − 4)2 + (4 − 4)2
sn2 = = 0.5
4

c) Estimadores de la proporción poblacional p de una distribución binomial


• La proporción muestral, p̂

IX.2.1.1.- Propiedades de los estimadores puntuales.

No todos los estimadores son buenos estimadores. Hay determinadas propiedades que son
deseables en un estimador puntual. Vamos a describir algunas de ellas:

• Estimadores centrados o insesgados


Son aquéllos cuyo valor medio coincide con el parámetro que estima. Si θ es el parámetro
estimado y θ̂ el estimador:
{ θ̂ es centrado o insesgado} ↔ {E( θ̂ )=θ ∀ θ ∈ Ω}
siendo Ω el espacio paramétrico o conjunto de los posibles valores de θ.

Por ejemplo, x es centrado para μ pues E( x )=μ. Sin embargo, sn2 no es centrado para σ2
pues E(sn2)=(n-1)·σ2/n ≠ σ2.

IX.146
Capítulo IX: Introducción a la Inferencia Estadística

• Estimadores uniformemente de mínima varianza.


Diremos que el estimador θ̂ es uniformemente de mínima varianza (U.M.V.) si, y solo si,
tiene menor o igual varianza que la de cualquier otro estimador para todo θ perteneciente
a Ω. Es decir:
{ θˆ es U.M.V.} ↔ { D(θˆ ) = min(D(θˆ *)) ∀ θˆ * ∈ Cθˆ y ∀ θ ∈ Ω}

siendo:
Ω : espacio paramétrico.
Cθ̂ : Conjunto de posibles estimadores de θ.

La frontera de Frechet-Cramer-Rao, también denominada cota de Cramer-Rao establece


cual es, bajo determinadas condiciones, el valor mínimo que puede tomar la varianza de
cualquier estimador de un determinado parámetro θ. Cualquier estimador de θ cuya
varianza sea igual a dicha cota, será un estimador U.M.V. de θ. Si la varianza del
estimador es mayor que la cota de Cramer-Rao, dicho estimador podrá, o no, ser U.M.V.

IX.2.2.- Estimación por intervalos de confianza.

La justificación de la estimación por intervalos de confianza radica en:

a) Con los estimadores puntuales no podemos tener una idea clara de la precisión con que
efectuamos una estimación.

b) Los intervalos de confianza nos servirán como reglas de decisión para realizar los tests de
hipótesis a estudiar en apartados posteriores.
r
Si por X designamos a unar
muestra,
r
la estimación por intervalos de confianza consiste en
obtener dos valores L1 ( X ) y L2 ( X ), función de la muestra, tales que existe una probabilidad
muy elevada (1- α), de que entre ambos cubran el verdadero valor del parámetro.
r r
P(L1 ( X ) ≤ θ ≤ L2 ( X )) = 1- α

donde
r
1-αr es nivel de confianza (usualmente 0.95 ó 0.99), α es el nivel de significación y L1
( X ), L2 ( X ) son los limites de confianza.

Si 1-α= 0.95 quiere decir que el 95% de los intervalos que construyamos a partir de
numerosas muestras, contendrán al valor verdadero del parámetro. Nuestra incertidumbre al
estimar el parámetro resulta pues, medida en términos de probabilidad.

El intervalo será tanto más preciso cuanto menor sea su amplitud para un α dado, o cuanto
mayor sea el nivel de confianza 1-α para una amplitud dada.

Los intervalos de confianza para los parámetros de poblaciones con distribución Normal son
los siguientes:

IX.147
Capítulo IX: Introducción a la Inferencia Estadística

a) Para la media poblacional μ.

• Cuando σ es conocida
σ
x ± zα 2 ⋅
n
• Cuando σ es desconocida
sn −1
x ± t (nα−12 ) ⋅
n

b) Para la varianza poblacional σ2.

⎡ (n − 1) ⋅ sn2−1 (n − 1) ⋅ sn2−1 ⎤
⎢ 2 ( α 2)
, 2 (1− α 2 ) ⎥
⎣ χn −1 χn −1 ⎦

Ejemplo IX.3
Un proceso industrial consiste en la aplicación de un recubrimiento protector a unos perfiles
metálicos. De la producción de un día, se seleccionan al azar 16 perfiles y se determina el
espesor del recubrimiento en cada uno de ellos, obteniéndose los siguientes valores,
expresados en micras:

{51, 49, 52, 55, 47, 48, 50, 51, 53, 49, 51, 48, 54, 52, 49, 50}

En el supuesto de que el espesor del recubrimiento tenga una distribución N(μ,σ) y fijando el
nivel de confianza al 95%, determinar:

a) El intervalo de confianza para la media μ del espesor del recubrimiento si sabemos que la
dispersión de la variable es σ=2.2 micras.

b) El Intervalo de Confianza para la media μ del espesor, si la única información de la que


disponemos es la que nos proporciona la muestra.

c) El Intervalo de Confianza para la varianza σ2 del espesor considerado.

SOLUCIÓN:
a) El I.C. para μ cuando σ es conocida es:
σ
x ± zα/2 ⋅
n

Realizando cálculos y consultando las tablas de la N(0,1), se obtiene:


x =50.563 micras y zα/2=z0.025=1.96

Por lo tanto, el I.C. será:

IX.148
Capítulo IX: Introducción a la Inferencia Estadística

2.2
50.563 ± 1.96 ⋅ ⇒ [49.485, 51.641] micras
16

b) El I.C. para μ cuando σ es desconocida es:


sn −1
x ± t n( α−12 ) ⋅
n

Con los datos del problema calculamos


x =50.563 micras y sn-1=2.25 micras

Y según las tablas de la t de Student:


t n( α−/2)
1 = t15
(0.025)
= 2.131

Sustituyendo los valores en la expresión del I.C resulta:


[49.364, 51.762] micras

c) El I.C para σ2 es
⎡ (n − 1) ⋅ sn2−1 (n − 1) ⋅ sn2−1 ⎤
⎢ 2 (α 2 )
, ⎥
⎣ χ n −1 χ n2−(11 −α 2) ⎦

Con los datos muestrales y la tabla de la χ2, se obtiene:

sn2−1 =5.063 χ n2−(1α/2) = χ15


2 (0.025)
=27.488 χ n2−(11 -α/2) = χ15
2 (0.975)
=6.262

Sustituyendo, obtenemos que el I.C es

[2.763, 12.128] micras2

c) Para la proporción poblacional p de una distribución binomial, suponiendo una apropiada


aproximación de la binomial a la normal:
p̂ ⋅ (1 − p̂)
p̂ ± z α / 2 ⋅
n

Ejemplo IX.4
Se desea conocer la proporción p de alumnos de la U.P.V. que viajaron al extranjero durante
el año 1999. Para ello, y siguiendo un procedimiento aleatorio, se han seleccionado y
entrevistado a 90 alumnos. El resultado ha sido que, de estos 90 alumnos, 8 han viajado al
extranjero y el resto no. Obtener el Intervalo de Confianza para la proporción p si tomamos
1-α=0.95.

SOLUCIÓN:

IX.149
Capítulo IX: Introducción a la Inferencia Estadística

El I.C para p, suponiendo la aproximación de la binomial a la normal, es

pˆ ⋅ (1 − pˆ )
pˆ ± zα/2 ⋅
n

Haciendo cálculos y buscando en la tabla de la N(0,1) obtenemos


8 )
pˆ = = 0.088 y zα/2=z0.025=1.96
90

Luego el I.C es
[0.030, 0.148]

IX.3.- TEST DE HIPÓTESIS

En el punto IX.2 se ha expuesto que la Inferencia Estadística aborda dos tipos de problemas:
la estimación de parámetros, puntual y por intervalos de confianza, y los contrastes de
hipótesis.

A grandes rasgos, mediante los tests de hipótesis, podemos estudiar si una cierta hipótesis,
llamada hipótesis nula H0, establecida sobre una cierta población, es coherente o no con la
información que suministra una muestra aleatoria extraída de dicha población. Ello nos
permite decidir si aceptamos la hipótesis nula H0 establecida, o la rechazamos y aceptamos
una hipótesis H1 llamada hipótesis alternativa que es la que se verifica si y solo si no se
verifica H0.

Supongamos, por ejemplo, que la vida media de las bombillas obtenidas mediante cierto
proceso de fabricación es de 1500 horas. Se considera que una cierta modificación del proceso
que disminuye el coste de fabricación no modifica la vida media. Con el fin de confirmar o
rechazar la hipótesis de igualdad vidas medias en las dos variantes del proceso se extrae una
muestra de bombillas del proceso modificado y se evalúa la vida de cada una de ellas.
Supongamos que la vida media muestral resulta ser de 1450 horas. ¿Hasta que punto es
aceptable admitir que la disminución observada de 1500 a 1450 horas es debida al azar del
muestreo y no a una disminución real de la vida media?, es decir ¿en qué medida la muestra
observada es coherente con la hipótesis de que la media poblacional es de 1500?. Y en
consecuencia, ¿podemos aceptar la igualdad de vidas medias poblacionales de las bombillas
en el proceso modificado y en el no modificado?

La vida media muestral es una variable aleatoria de valor medio igual a la media poblacional
y, por lo tanto, puede tomar valores menores que ella pero, ¿hasta qué punto esta diferencia
puede atribuirse al azar y a partir de que valores ya no debemos admitir esta posibilidad?

Los tests de hipótesis verifican la compatibilidad de los resultados muestrales con las
hipótesis establecidas sobre la población y nos permiten decidir sobre la aceptación o rechazo
de las mismas.

IX.150
Capítulo IX: Introducción a la Inferencia Estadística

IX.3.1.- Errores de 1ª y 2ª especie.

Para contrastar la hipótesis nula establecida se utiliza un estadístico:


G=g(x1,x2,...,xn)
cuya distribución es conocida en el caso de que la hipótesis nula sea cierta. Se elige una
probabilidad α, llamada nivel de significación, y se divide el campo de variabilidad de G en
dos regiones: una región de aceptación de la hipótesis nula y una de rechazo, también
denominada “región crítica”, de probabilidades 1-α y α, respectivamente. Según a qué región
pertenezca el valor de G calculado con la muestra, se decide si se rechaza o se acepta la
hipótesis H0. Operando con un nivel de significación α del 5%, esta forma de operar equivale
a rechazar la hipótesis cuando un resultado como el observado solo se habría obtenido en un
5% de los casos si la hipótesis nula es cierta.

No obstante, mediante un contraste de hipótesis decidimos si aceptamos o rechazamos la


hipótesis nula, lo cual no quiere decir que lleguemos a conocer con absoluta certeza si es
verdadera o falsa. En consecuencia pueden cometerse dos tipos de errores:

a) Rechazar la hipótesis nula cuando es cierta, en cuyo caso diremos que se ha cometido un
error de primera especie. A la probabilidad de cometer este tipo de error se le denomina
α.

b) Aceptar la hipótesis nula cuando es falsa. En este caso diremos que se ha cometido un
error de segunda especie. A la probabilidad de cometer este tipo de error se le denomina
β.

IX.3.2.- Test de hipótesis paramétricos y no paramétricos

Los tests de hipótesis paramétricos son aquéllos en los que las hipótesis se establecen sobre
algún parámetro o vector de parámetros de alguna distribución aleatoria (media poblacional,
varianza poblacional, proporción poblacional, diferencia de medias poblacionales, etc.) o bien
sobre los parámetros de determinados modelos aleatorios (modelos de regresión, de análisis
de la varianza, modelos estocásticos, etc.).

En los tests de hipótesis no paramétricos las hipótesis no se establecen sobre los parámetros
anteriormente referidos sino que se establecen sobre la propia distribución aleatoria (la
variable estudiada sigue una determinada distribución de probabilidades) o bien sobre
determinados aspectos del fenómeno estudiado (independencia de dos o más factores en la
ocurrencia de una determinada situación o un determinado hecho), etc.

IX.3.3.- Tests de hipótesis paramétricos

IX.3.3.1.- Curva de Potencia y Curva Característica de un test

IX.151
Capítulo IX: Introducción a la Inferencia Estadística

En los test de hipótesis paramétricos, el espacio paramétrico Ω (conjunto de posibles valores


del parámetro θ sobre el que se establecen hipótesis), se particiona en dos conjuntos ω0 y ω1
tales que:
ω0 ∪ ω1 = Ω y ω0 ∩ ω1 =∅
y de modo que las hipótesis a contrastar son:
H0(θ ∈ ω0) vs H1(θ ∈ ω1)

En general, un test que permita contrastar las hipótesis


r
anteriormente formuladas, no es más
que una regla de decisión S que a cada muestra X del espacio muestral (conjunto de posibles
muestras) le hace corresponder la decisión d0 (aceptar H0) o la decisión d1 (aceptar H1).

Por ejemplo, y como veremos en el apartado siguiente, sobre la media μ de una distribución
Normal con σ conocida (por ejemplo, intensidad de fuga de un diferencial eléctrico), podemos
establecer las hipótesis H0(μ≤μ0) vs H1(μ>μ0).

Una posible regla de decisión será evaluar la intensidad de fuga en una muestra de n
diferenciales tomados al azar y aceptar H0 (tomar la decisión d0) si
σ
x ≤ μ0 + zα ⋅
n

o tomar la decisión d1 en caso contrario.

A la función que proporciona la probabilidad de rechazar H0 con un test de hipótesis S, se le


denomina Curva de Potencia de dicho test. Esta curva es propia de cada test S y sus valores
dependen del valor que tome el parámetro θ en cada caso, es decir
PotS(θ) = P(d1(S) / θ)

Al valor máximo de dicha potencia para θ ∈ ω0 se le denomina extensión del test y se


representa por α.

Si contrastamos las hipótesis H0(θ≤θ0) vs H1(θ>θ0) la Curva de Potencia tendrá la forma de la


figura IX.1.

PotS(θ)

α
0
ω0 θ0 ω1 θ (Ω)

IX.152
Capítulo IX: Introducción a la Inferencia Estadística

Figura IX.1.- Curva de potencia de un test

En las aplicaciones de los test de hipótesis al control de la calidad en los procesos industriales,
se utiliza más la denominada Curva Característica que definiremos seguidamente.

Un plan de control de calidad es, conceptualmente, un test que se aplica sistemáticamente


para contrastar hipótesis sobre parámetros de distribuciones aleatorias, los cuales representan
la calidad de productos y/o procesos (proporción de piezas defectuosas, media μ, varianza σ2,
etc.).

La Curva Característica de un test (o plan de control) es una función que proporciona la


probabilidad de aceptar la hipótesis nula H0 con dicho test, en función de los valores que toma
el parámetro θ. Si contrastamos las hipótesis H0(θ≤θ0) vs H1(θ>θ0) la Curva Característica
tendrá la forma de la figura IX.2.

Nótese que para cada valor de θ ∈ Ω se cumple que


PotS(θ)=1-PaS(θ)
y que para cada valor de θ ∈ ω1
PaS(θ)=β(θ)
(la probabilidad de error de segunda especie β depende del valor que tome θ y es diferente
para cada θ).

PaS(θ)
1

1-α

β(θ1)
β(θ2)
θ0 θ1 θ2 θ (Ω)
ω0 ω1

Figura IX.2.- Curva Característica de un test

En el test sobre la media μ de la intensidad de fuga de los diferenciales expuesto en este


punto, la Curva Característica tendría como ecuación:
⎛ σ ⎞
PaS (μ ) = P ⎜⎜ x ≤ μ 0 + zα ⋅ μ ⎟⎟
⎝ n ⎠
⎛ σ ⎞
Como para cada posible valor de μ la media muestral x es N ⎜⎜ μ, ⎟⎟ será:
⎝ n⎠

IX.153
Capítulo IX: Introducción a la Inferencia Estadística

⎛⎛ ⎞ ⎞
⎜ ⎜ μ0 + zα ⋅ σ ⎟ − μ ⎟
⎜ ⎜ ⎟ ⎟ ⎛ μ − μ0 ⎞
PaS (μ ) = φ ⎜ ⎝
n⎠
σ ⎟ = φ ⎜ zα − ⋅ n⎟
⎜ ⎟ ⎝ σ ⎠
⎜ n ⎟
⎝ ⎠

Expresión que, lógicamente, para μ=μ0 vale 1-α. Su representación gráfica tiene forma
similar a la curva de la figura IX.2, sustituyendo en parámetro genérico θ por μ.

IX.3.3.2.- Algunos test paramétricos clásicos

En este apartado se presentan algunos de los test de hipótesis paramétricos clásicos más
importantes por sus aplicaciones prácticas a la industria y a otros campos. Debido al carácter
introductorio del capítulo, no se enuncian ni se demuestran los teoremas que permiten su
obtención o la evaluación de sus propiedades. En cambio, sí que se proponen ejemplos que
facilitarán su aplicación a las situaciones reales.

Algunos ejemplos de tests de hipótesis sobre parámetros de variables normales son:

1. Test de hipótesis sobre la media poblacional μ.

a) H0(μ=μ0) vs H1(μ≠μ0)

• Si σ es conocida:
⎡ σ ⎤
Aceptamos H0 si x ∈ ⎢μ0 ± zα 2 ⋅ ⎥
⎣ n⎦
⎡ σ ⎤
Rechazamos H0 si x ∉ ⎢μ0 ± zα 2 ⋅ ⎥
⎣ n⎦

• Si σ es desconocida:
⎡ sn −1 ⎤
Aceptamos H0 si x ∈ ⎢μ0 ± t(nα−12) ⋅ ⎥
⎣ n⎦
⎡ sn −1 ⎤
Rechazamos H0 si x ∉ ⎢μ 0 ± tnα−21 ⋅ ⎥
⎣ n⎦

Ejemplo IX.5
En el proceso de moldeado de unos recipientes de plástico, podemos admitir que el espesor
del fondo es una variable aleatoria con distribución N(4, 0.2) mm. Buscando una reducción
de costes de fabricación, el ingeniero de procesos decide aumentar la proporción de material
reciclado que se utiliza como materia prima manteniendo constantes el resto de parámetros
del proceso.

Para comprobar el efecto de esta modificación, se seleccionan al azar 9 recipientes de


plástico obtenidos con la nueva formulación de la materia prima y se determina el espesor
del fondo de cada uno de ellos. Los resultados obtenidos, expresados en mm, han sido:

IX.154
Capítulo IX: Introducción a la Inferencia Estadística

{3.9, 3.9, 4.2, 4.2, 4.2, 3.9, 3.9, 4.5, 4.7}

a) Suponiendo que no ha habido ningún cambio en la dispersión y considerando un nivel de


significación de 5%, ¿podemos admitir que la nueva formulación de la materia prima no
afecta al espesor medio del fondo de los recipientes fabricados?

b) ¿Cuál sería la respuesta a la pregunta anterior si desconocemos el valor real de la


desviación típica σ?.

SOLUCIÓN:
En ambos apartados debemos contrastar la hipótesis nula de que el cambio efectuado en el
proceso no afecta al espesor medio del fondo de los recipientes, es decir,
H0(μ=4) vs H1(μ≠4)

a) En el caso de que conozcamos σ (σ=0.2 mm), la regla de decisión es


⎡ σ ⎤
Aceptamos H0 si x ∈ ⎢μ 0 ± zα 2 ⋅ ⎥
⎣ n⎦

Con los datos del enunciado calculamos:

x =4.156 mm y zα/2=z0.025=1.96

Por lo tanto, la zona de aceptación es

[3.869, 4.131] mm

Como la media muestral no pertenece al intervalo anterior, la decisión es que no podemos


aceptar la hipótesis nula.

b) En este caso, la regla de decisión es


⎡ sn −1 ⎤
Aceptamos H0 si x ∈ ⎢μ 0 ± t n( α−12) ⋅ ⎥
⎣ n⎦

Según los datos del enunciado:

sn-1=0.292 y t n( α−/2)
1 = t8
(0.025)
= 2.306

Por lo tanto, la zona de aceptación es


[3.776, 4.224] mm

Puesto que la media muestral es x =4.156 y pertenece al intervalo, aceptamos la hipótesis


nula.

b) H0(μ≤μ0) vs H1(μ>μ0)

IX.155
Capítulo IX: Introducción a la Inferencia Estadística

• Si σ es conocida:
σ
Aceptamos H0 si x ≤ μ0 + zα ⋅
n
σ
Rechazamos H0 si x > μ0 + zα ⋅
n
• Si σ es desconocida:
sn −1
Aceptamos H0 si x ≤ μ0 + t(nα−)1 ⋅
n
sn −1
Rechazamos H0 si x > μ0 + t(nα−)1 ⋅
n

Ejemplo IX.6
Por razones técnicas de funcionamiento, se ha fijado en 10Ω el valor máximo de la
resistencia media de unos componentes eléctricos fabricados en un determinado proceso.
Para comprobar que la producción cumple con los requisitos especificados, se toman al azar
10 componentes y se miden sus resistencias obteniéndose los siguientes resultados,
expresados en ohmios:
{9.9, 10.1, 10.2, 9.8, 10.5, 9.8, 11, 9.7, 10, 10.2}

Suponiendo que la resistencia de los componentes estudiados sigue una distribución normal y
considerando un nivel de significación del 5%, responder a las siguientes preguntas

a) ¿Podemos considerar correcta la producción si sabemos que la desviación típica es 0.5 Ω?

b) Contestar a la pregunta anterior en el supuesto de que no se conozca el valor de la


desviación típica σ.

SOLUCIÓN:

Debemos contrastar la hipótesis nula de que la producción es correcta por ser la media de
las resistencia menor o igual a 10 Ω, frente a que la producción es incorrecta, es decir:
H0(μ≤10) vs H1(μ>10)

a) En el caso de σ conocida, la zona de aceptación es


σ
x ≤ μ 0 + zα ⋅
n

Calculamos el valor de la media muestral y determinamos, mediante la tabla de la normal, el


valor de zα:
x =10.12 y zα=z0.05=1.645

Sustituyendo, obtenemos que la zona de aceptación de H0 es


x ≤10.26

IX.156
Capítulo IX: Introducción a la Inferencia Estadística

por lo que, al pertenecer la media muestral a la región de aceptación, aceptamos la hipótesis


nula de que la producción cumple con los requisitos.

b) En el caso de σ desconocida, la zona de aceptación es


sn −1
x ≤ μ 0 + t n( α−1) ⋅
n

Utilizando los datos de la muestra y la tabla de la t, obtenemos:


sn-1=0.391 y t n( α−1) = t9(0.05) = 1.833

Sustituyendo, obtenemos que la zona de aceptación de la hipótesis nula es


x ≤10.227

por lo que aceptamos la hipótesis nula de que la producción es correcta.

c) H0(μ1=μ2) vs H1(μ1≠μ2) con σ1=σ2=σ

• Si σ es conocida:
1 1
Aceptamos H0 si x1 − x 2 ≤ zα / 2 ⋅ σ ⋅ +
n1 n2
1 1
Rechazamos H0 si x1 − x 2 > z α / 2 ⋅ σ ⋅ +
n1 n2
• Si σ es desconocida:
1 1
Aceptamos H0 si x1 − x 2 ≤ t(nα1 +/ n22) − 2 ⋅ s * ⋅ +
n1 n2
1 1
Rechazamos H0 si x1 − x 2 > t (nα1 +/ n22) − 2 ⋅ s * ⋅ +
n1 n2

(n1 − 1) ⋅ s'12 +(n2 − 1) ⋅ s'22


con s* = donde s’=sn-1.
n1 + n2 − 2

Ejemplo IX.7
Se dispone de dos equipos de soplado de envases de vidrio y con ellos se fabrican botellas de
750 cc de capacidad nominal. Se pretende comprobar si ambos equipos fabrican las botellas
con la misma capacidad media. Para ello se toman al azar 10 botellas fabricadas con el
primer equipo y se obtienen los siguientes resultados:
{750.0, 751.2, 750.3, 750.5, 751.5, 752.0, 751.2, 750.1, 749.1, 749.9}

Del segundo equipo se toman al azar 12 botellas cuyas capacidades resultan ser:
{750.1,749.2,748.5,749.2,751.3,749.1,748.2,751.1,750.1,748.3,749.8,749.6}

IX.157
Capítulo IX: Introducción a la Inferencia Estadística

Asumiendo que la capacidad de las botellas fabricados con cada uno de los equipos tiene una
distribución normal y que en ambos casos la varianza es la misma, ¿puede admitirse la
igualdad de medias de las capacidades de las botellas fabricadas con los dos equipos de
soplado?

SOLUCIÓN:
Si llamamos X1 y X2 a las capacidades de las botellas fabricadas con el equipo 1 y con el
equipo 2, respectivamente, y admitimos que
X1≡N(μ1,σ) y X2≡N(μ2,σ)

las hipótesis a contrastar serán H0(μ1=μ2) vs H1(μ1≠μ2), que para el caso de σ desconocida,
la zona de aceptación de H0 es:
1 1 (n1 − 1) ⋅ s'12 +(n2 − 1) ⋅ s' 22
x1 − x2 ≤ t n( 1α/2)
+ n2 − 2 ⋅ s * ⋅ + con s* =
n1 n2 n1 + n2 − 2

Con los datos del enunciado obtenemos que


x1 =750.58 x2 =749.54 s1′2 =0.77 s2′2 =1.00 s*=0.9468
t n( 1α/+2)n2 −1 = t 20
(0.025)
= 2.086

Por lo que la zona de aceptación es


x1 − x2 ≤ 0.846

Puesto que x1 − x2 = 1.04 no podemos aceptar la igualdad de medias.

2. Test de hipótesis sobre la varianza poblacional σ2.

a) H0(σ2=σ02) vs H1(σ2≠σ02)
⎡ σ02 ⋅ χn2(−11− α 2 ) σ02 ⋅ χn2(−α1 2 ) ⎤
Aceptamos H0 si sn2-1 ∈ ⎢ , ⎥
⎣ (n − 1) (n − 1) ⎦
⎡ σ2 ⋅ χ2(1− α 2 ) σ 2 ⋅ χ 2( α 2 ) ⎤
Rechazamos H0 si sn2-1 ∉ ⎢ 0 n −1 , 0 n −1 ⎥
⎣ (n − 1) (n − 1) ⎦

Ejemplo IX.8
En un laboratorio de ensayos se evalúa repetidamente y con el mismo equipo de medida el
diámetro de un cilindro patrón. Los resultados obtenidos, expresados en cm, después de
realizar 9 mediciones del mismo, han sido:
{5.01, 5.02, 4.99, 4.97, 5.03, 4.98, 5.05, 5.01, 4.99}
Suponiendo que los resultados de las mediciones son normales y que solamente es el equipo
de medida el que produce variabilidad en los resultados, ¿podemos admitir que dicha
variabilidad, representada por σ, es igual a 0.02?. Tomar α=0.05.

IX.158
Capítulo IX: Introducción a la Inferencia Estadística

SOLUCIÓN:
Debemos contrastar las hipótesis H0(σ2=0.0004) vs H1(σ2≠0.0004). La zona de aceptación de
la hipótesis nula es
⎡σ 2 ⋅ χ 2 (1−α 2 ) σ02 ⋅ χ n2−( α1 2 ) ⎤
sn2-1 ∈ ⎢ 0 n −1 , ⎥
⎣ (n − 1) (n − 1) ⎦

A partir de los datos del enunciado obtenemos que


sn2−1 =0.00065 χ n2−(1α / 2 ) = χ 82 ( 0.025 ) = 17.535 χ n2−(11 −α / 2 ) = χ 82 ( 0.975 ) = 2.18

Por lo tanto, la zona de aceptación de H0 será:


[0.000109, 0.00087]

Puesto que sn2−1 =0.00065 aceptamos la H0.

b) H0(σ2≤σ02) vs H1(σ2>σ02)
σ02 ⋅ χn2(−α1)
Aceptamos H0 si sn2-1 ≤
(n − 1)
σ02 ⋅ χn2(−α1)
Rechazamos H0 si sn2-1 >
(n − 1)

c) H0(σ12=σ22) vs H1(σ12≠σ22)
(sn21 −1 )mayor
Aceptamos H0 si ≤ F((nα1)−1),(n 2 −1)
(sn22 −1 )menor
(sn21 −1 )mayor
Rechazamos H0 si > F((nα1)−1),(n 2 −1)
(sn22 −1 )menor

donde n1 es tamaño de muestra utilizado para calcular la ( sn21 −1 )mayor y n2 es el tamaño


de muestra utilizado para calcular la ( sn22 −1 )menor.

Ejemplo IX.9
Se pretende comparar la precisión de dos métodos analíticos disponibles para la
determinación de la concentración de un complejo proteico en un producto cárnico. Para ello
se evalúa reiteradamente la concentración de dicho complejo proteico en una muestra de
mortadela preparada al efecto. Los valores obtenidos, expresados en gramos por cada 100
gramos de producto, son los siguientes:

Método de referencia: {4.3, 4,5, 4.1, 4.3, 4.3, 4.6, 4.3}


Método espectrofotométrico: {4.1, 4.6, 3.9, 4.7, 4.1, 4.8, 4.0, 4.7}

Asumiendo la normalidad de las concentraciones, e identificando la precisión de cada


método con la desviación típica σ que presentan sus resultados:

IX.159
Capítulo IX: Introducción a la Inferencia Estadística

a) Con un nivel de significación del 5% ¿podemos admitir la igualdad de varianzas de ambos


métodos?

b) ¿Podemos admitir que la varianza de método espectrofotométrico es menor o igual que 0.1
(gr/100gr)2 con un nivel de significación del 5%?

SOLUCIÓN.
Si llamamos σ12 a la varianza de los resultados que se obtienen con el método de referencia y
σ22 a la varianza del método espectrofotométrico, tendremos que:

a) Las hipótesis a contrastar en este apartado son H0(σ12=σ22) vs H1(σ12≠σ22) y aceptamos


H0 si se cumple que
(sn21 −1 )mayor
≤ F(n( α1 −)1),(n2 −1)
(sn22 −1 )menor

Realizando los cálculos necesarios:


Método de referencia: sn2−1 =0.026
Método espectrofotométrico: sn2−1 =0.137
Entonces:
0.137
= 5.269
0.026

Si buscamos en la tabla de la F, obtenemos que


(0.05)
F7,6 =4.21

Por lo tanto, debemos rechazar la hipótesis de igualdad de varianzas.

b) Ahora debemos contrastar H0(σ2≤σ02) vs H1(σ2>σ02) y aceptar H0 si


σ02 ⋅ χ n2−( α1 )
sn2-1 ≤
(n − 1)

Buscando en la tabla de la Chi-cuadrado y realizando cálculos:


0.1 ⋅14.067
0.137 ≤ = 0.2
7

En consecuencia, podemos aceptar la hipótesis nula establecida.

3. Test de hipótesis sobre la proporción poblacional p de una distribución binomial.


Suponiendo que se dan las condiciones para que sea aceptable la aproximación de la
distribución binomial a la normal, los test de hipótesis más utilizados para p son:

IX.160
Capítulo IX: Introducción a la Inferencia Estadística

a) H0(p=p0) vs H1(p≠p0)
⎡ p0 ⋅ (1 − p0 ) ⎤
Aceptamos H0 si p̂ ∈ ⎢p0 ± zα / 2 ⋅ ⎥
⎣⎢ n ⎦⎥
⎡ p ⋅ (1 − p0 ) ⎤
Rechazamos H0 si p̂ ∉ ⎢p0 ± z α / 2 ⋅ 0 ⎥
⎣⎢ n ⎦⎥

b) H0(p≤p0) vs H1(p>p0)
p0 ⋅ (1 − p0 )
Aceptamos H0 si p̂ ≤ p0 + zα ⋅
n
p0 ⋅ (1 − p0 )
Rechazamos H0 si p̂ > p0 + zα ⋅
n

c) H0(p1=p2) vs H1(p1≠p2)
⎛1 1⎞
Aceptamos H0 si p̂1 − p̂2 ≤ zα 2 ⋅ p * ⋅q * ⋅⎜⎜ + ⎟

⎝ n1 n2 ⎠
⎛1 1⎞
Rechazamos H0 si p̂1 − p̂2 > zα 2 ⋅ p * ⋅q * ⋅⎜⎜ + ⎟

⎝ n1 n2 ⎠
n1 ⋅ p̂1 + n2 ⋅ p̂2
con p* = y q*=1-p*
n1 + n2

Ejemplo IX.10
Se pretende comparar la calidad de los envíos de dos proveedores de un mismo tipo de
repuesto para automóviles. Para ello se seleccionan al azar 40 unidades de un lote del
proveedor 1, resultando 3 defectuosas, y 60 unidades de un lote del proveedor 2, resultando 4
defectuosas.

Para un nivel de significación del 5% ¿podemos admitir que la calidad de los envíos de
ambos proveedores, dada por la proporción de unidades defectuosas, es la misma?.

SOLUCIÓN:
Si llamamos p1 a la proporción de unidades defectuosas de proveedor 1 y p2 a la proporción
de unidades defectuosas del proveedor 2, las hipótesis a contrastar son:
H0(p1=p2) vs H1(p1≠p2)
cuya zona de aceptación de H0 es:
⎛1 1 ⎞ n1 ⋅ p̂1 + n2 ⋅ p̂2
p̂1 − p̂2 ≤ zα 2 ⋅ p * ⋅q * ⋅⎜⎜ + ⎟
⎟ con p* =
⎝ n1 n2 ⎠ n1 + n2
A partir de los datos del ejercicio, obtenemos que
3 4 )
p̂1 = = 0.075 p̂2 = = 0 . 06 p* = 0.07 z0.025=1.96
40 60

IX.161
Capítulo IX: Introducción a la Inferencia Estadística

Por lo tanto, la zona de aceptación de H0 es


p̂1 − p̂2 ≤ 0.1021
Puesto que p̂1 − p̂2 = 0.008 , aceptamos la hipótesis de igualdad de calidades.

IX.3.4.- Tests de hipótesis no paramétricos

Estudiaremos en este apartado dos de los casos más representativos que son:
• los test de bondad de ajuste y
• las tablas de contingencia

IX.3.4.1.- Tests de bondad de ajuste. Test χ2 de Pearson

El objetivo de los tests de bondad de ajuste es verificar si una muestra observada puede
proceder de una población que tiene una determinada distribución de probabilidad. Esta
distribución de probabilidad supuesta puede ser:

a) Totalmente especificada. En este caso se especifica la distribución supuesta y sus


parámetros característicos. Por ejemplo, ante una muestra dada podemos contrastar la
hipótesis de que procede de una distribución normal de media μ y desviación típica σ.

b) Parcialmente especificada. Corresponde al caso en que solamente se especifica la


distribución de probabilidad supuesta pero no sus parámetros característicos. Por
ejemplo, dada una muestra podemos contrastar simplemente si procede de una población
con distribución normal.
r
En ambos casos, una vez obtenida una muestra X de tamaño n, se formula la hipótesis nula de
que procede de una población cuya distribución es Fo (distribución supuesta que puede ser, o
no, totalmente especificada).

Es equivalente plantear la hipótesis nula de que la distribución de la variable muestreada es


F0, es decir:
H0(F=F0) vs H1(F≠F0)

Una de las formas de realizar el contraste es mediante el test χ2 de Pearson: se parte de una
muestra formada por n observaciones (x1, x2, …, xn) independientes de una determinada
característica. Dichas observaciones se clasifican en k clases o categorías mutuamente
excluyentes.

En el caso de que F sea continua, las clases corresponderán a k intervalos disjuntos y si F es la


distribución de una variable discreta, las clases suelen corresponderse con los valores posibles
de dicha variable o con conjuntos de dichos valores.

IX.162
Capítulo IX: Introducción a la Inferencia Estadística

Las n observaciones se distribuirán entre las k clases presentando una frecuencia absoluta Oi
de valores en cada una de las clases Ci establecidas, de modo que se cumplirá:
k
∑ Oi = n
i =1

A las frecuencias Oi se les denomina frecuencias observadas. Si la distribución de la variable


muestreada fuera Fo, las frecuencias teóricas o esperadas ti de los n valores muestrales en
cada una de las clases Ci serían:
ti=n·pi
donde pi es la probabilidad teórica de las clase Ci que puede calcularse a partir de F0.

Si la distribución teórica no está totalmente especificada, será necesario estimar sus


parámetros a partir de los valores de la muestra obtenida. Por ejemplo, la media poblacional μ
la estimaremos mediante x y la desviación típica poblacional σ la estimaremos mediante sn-1.

Bajo determinadas condiciones, puede demostrarse que si H0 es cierta:

k (O i − t i ) 2
z= ∑ t = χ k2− s −1
i =1 i

En la expresión anterior, s es el número de parámetros que es necesario estimar a partir de la


muestra.
Si la hipótesis establecida H0 no es cierta, dentro de cada clase o intervalo la frecuencia
observada Oi y la frecuencia teórica ti serán muy diferentes. El estadístico z presentará valores
mayores que si fuera cierta la distribución supuesta y, por tanto, sus valores serán mayores
que los de la χ2 correspondiente.

En consecuencia, fijado un nivel de significación α, se determina el valor de una χk2− s −1 que


solo tiene una probabilidad α de ser superado (a este valor lo denotaremos por χk2−( αs −) 1 ) y se
procede del siguiente modo:
Aceptamos H0 si z ≤ χk2−( αs −) 1
Rechazamos H0 si z > χk2−( αs −) 1

Fz(z)

Se acepta H0 Se rechaza H0

χ k2−( αs −) 1 z/H0 cierta

Figura IX.3.- Contraste de hipótesis H0(F=F0) vs H1(F≠F0). Distribución del


estadístico z cuando H0 es cierta.

IX.163
Capítulo IX: Introducción a la Inferencia Estadística

Teniendo en cuenta las aproximaciones que es necesario realizar en el test propuesto, es


conveniente tomar las siguientes precauciones para que sean aceptables los resultados
obtenidos:

• Las clases o intervalos deben establecerse de modo que las frecuencias absolutas con que
se dan dichas clases sean todas ellas iguales o superiores a 5.

• Es conveniente que las clases se definan de manera que las probabilidades teóricas pi de
las diferentes clases Ci no sean demasiado diferentes.

• La prueba puede aplicarse a cualquier distribución, sea continua o discreta.

Ejemplo IX.11

Se ha medido la capacidad de 100 envases de vidrio de un determinado formato, utilizados


para el envasado de un producto farmacéutico. Los resultados obtenidos se encuentran
agrupados en la tabla siguiente:

Capacidad No de envases
(c.c.)
≤ 742.5 5
]742.5 - 745.0] 10
]745.0 - 747.5] 16
]747.5 - 750.0] 20
]750.0 - 752.5] 21
]752.5 - 755.0] 15
]755.0 - 757.5] 7
> 757.5 6

¿Puede aceptarse, con un nivel de significación α=0.05, que la capacidad de dichos envases
sigue una distribución N(750,5) c.c.?

SOLUCIÓN:
Construyamos la siguiente tabla:

( Oi − t i )2
Ci Oi pi ti=n·p
ti
i
≤ 742.5 5 0.668 6.68 0.4225
]742.5 - 10 0.0919 9.19 0.0714
745.0] 16 0.1498 14.98 0.0695
]745.0 - 20 0.1915 19.15 0.0370
747.5] 21 0.1915 19.15 0.1755
]747.5 - 15 0.1498 14.98 0.0000

IX.164
Capítulo IX: Introducción a la Inferencia Estadística

750.0] 7 0.0919 9.19 0.5219


]750.0 - 6 0.668 6.68 0.0692
752.5]
]752.5 -
755.0]
]755.0 -
757.5]
> 757.5

donde, si consideramos ]ai, ai+1] los límites del intervalo Ci, cada pi se calcula:
⎛ a − 750 ⎞ ⎛ a − 750 ⎞
pi = φ ⎜ i +1 ⎟ −φ ⎜ i ⎟
⎝ 5 ⎠ ⎝ 5 ⎠

A partir de la tabla determinamos el valor de z como

z=∑
8
(Oi − ti )2 = 1.3670
i =1 ti

Además :
χ 82−( 00.−051 ) = 14.1

Como z<14.1, la conclusión es que no podemos rechazar H0 y debemos aceptar que la


capacidad de los envases sigue la distribución propuesta.

IX.3.4.2.- Tablas de contigencia. Test χ2

Las tablas de contingencia permiten verificar si dos o más variables o factores de clasificación
son independientes entre sí. Constituyen, por lo tanto, una prueba de independencia no
paramétrica.

Estudiaremos el caso de dos variables o factores de clasificación. La hipótesis nula que hay
que contrastar es que los dos factores A y B son independientes.
H0(A y B independientes) vs H1(A y B dependientes)

La tabla que debe construirse es la siguiente:

NIVELES DEL FACTOR


B
B1 B2 … Bj … Bm Frecuencias
Marginales
O11 O12 … O1j … O1m
A1 t11 t12 … t1j … t1m O1•
O21 O22 … O2j … O2m
NIVELE A2 t21 t22 … t2j … t2m O2•
S … … … … … … … …

IX.165
Capítulo IX: Introducción a la Inferencia Estadística

DEL Oi1 Oi2 … Oij … Oim


FACTO
Ai ti1 ti2 … tij … tim Oi•
R …
A Or1 Or2 … Orj … Orm
Ar tr1 tr2 … trj … trm Or•
Frecuencias
O•1 O•2 ... O•j ... O•m n
marginales

donde n es el número total de observaciones, Oij es el número de valores observados en la


casilla correspondiente al nivel i del factor A y al nivel j del factor B, tij es la frecuencia
teórica (si los factores fueran independientes) correspondientes al nivel i del factor A y al
nivel j del factor B, Oi• es el total de frecuencias observadas en la fila i y O•j es el total de
frecuencias observadas en la columna j.

Si A y B son independientes se cumplirá:


pij = P( A i ∩ B j ) = P( A i ) ⋅ P(B j ) = pi ⋅ p j con i=1,…r y j=1,…,m

Si estimamos las probabilidades marginales pi• de cada nivel Ai del factor A mediante la
frecuencia relativa con que se presenta Ai en la muestra, será:
Oi •
p̂i• =
n

De modo análogo, las probabilidades marginales p•j de cada nivel Bj del factor B se
efectuarán mediante:
O• j
p̂• j =
n

La estimación de la probabilidad conjunta de Ai y Bj, a la que hemos llamado pij, será, bajo el
supuesto de independencia de A y B
p̂ij = p̂i• ⋅ p̂• j

Las frecuencias teóricas de cada intersección de niveles A y B, dado que el total de


observaciones es n, será:
tij=n·pij

Entonces:
Oi • O • j Oi • ⋅ O • j
t ij = n ⋅ p̂ij = n ⋅ p̂i• ⋅ p̂• j = n ⋅ ⋅ =
n n n

Puede demostrarse, como en el apartado anterior, que si la hipótesis nula es cierta:


r m (O − t ij )
2

z= ∑∑ ≡ χ(2r −1)(m −1)


ij

i =1 j =1 t ij
Nota:

IX.166
Capítulo IX: Introducción a la Inferencia Estadística

Obsérvese que el número de frecuencias a comparar es k=r·m y el número de parámetros a


estimar:
r −1
(n-1) proporciones p̂i • (la r-sima proporción se obtiene por 1 − ∑ pi • )
i =1
m −1
(m-1) proporciones pˆ• j (la m-sima proporción se obtiene por 1 − ∑ p• j )
i =1

Total de parámetros a estimar:


s=(r-1)+(m-1)

Luego los grados de libertad de la χ k2− s −1 considerada en el apartado anterior son


gl = k − s − 1 = r ⋅ m − (r − 1) − (m − 1) − 1 = (r − 1) ⋅ (m − 1)

Con el mismo razonamiento que en el punto anterior deberemos:

Aceptar H0 si z ≤ χ(2r(−α1))(m −1)


Rechazar H0 si z > χ(2r(−α1))(m −1)

Ejemplo IX.12
La siguiente tabla muestra las frecuencias observadas en relación con el color de automóvil
preferido y el sexo en una muestra de 100 estudiantes encuestados al azar en la U.P.V.

COLOR
Blanco Rojo Azul
Varones 10 36 14
SEXO
Mujeres 20 9 11

De acuerdo con la tabla anterior, ¿podemos admitir, con un nivel de significación α=0.05,
que el sexo y el color preferido son independientes a la hora de elegir el coche?

SOLUCIÓN:
Las hipótesis a contrastar son
H0(sexo y color son independientes) vs H1(sexo y color son dependientes)

Completemos la tabla de frecuencias observadas:

COLOR
O Blanco Rojo Azul Oi.
Varones 10 36 14 60
SEXO Mujeres 20 9 11 40
O•j 30 45 25 100

Recordando que las frecuencias teóricas (si H0 cierta) se calculan mediante la expresión:

IX.167
Capítulo IX: Introducción a la Inferencia Estadística

Oi • ⋅ O• j
t ij =
n

construyamos la tabla de frecuencias teóricas:

COLOR
t Blanco Rojo Azul
Varones 18 27 15
SEXO
Mujeres 12 18 10

El estadístico z será:

z = ∑∑
2 3 (O
ij − t ij )
2

=
(10 − 18 )2 + (36 − 27 )2 + ... +
(11 − 10 )2 = 16.556
i =1 j =1 t ij 18 27 10

Como χ(r2(−α1)(m
)
−1) = χ1⋅2
2(0.05)
= χ 22(0.05) = 5.99 se tiene que:

z > χ 22(0.05)

por lo que debemos rechazar la hipótesis de independencia de los factores considerados y


admitir que los gustos respecto al color de los automóviles son diferentes en los varones que
en las mujeres.

IX.168
Capítulo IX: Introducción a la Inferencia Estadística

IX.169
ANÁLISIS DE LA VARIANZA
9.4. ANÁLISIS DE LA VARIANZA (I). UN FACTOR CONTROLADO.

1.- Generalidades.
2.- Modelo Teórico. Hipótesis del modelo.
3.- Hipótesis nula.
4.- Ecuación fundamental.
5.- Test F.
6.- Comparación de medias. Test LSD

9.5. ANÁLISIS DE LA VARIANZA (II). DOS FACTORES CONTROLADOS

1.- Introducción. Planes factoriales.


2.- ANOVA para dos factores con repeticiones
2.1.- Concepto de interacción
2.2.- Modelo y supuestos teóricos
2.3.- Hipótesis nulas
2.4.- Descomposición de las sumas de cuadrados. Test F.

9.4. Análisis de la varianza (I). Un factor controlado.

171
9.4.1.- GENERALIDADES
Bajo el nombre de Análisis de la Varianza se conocen un conjunto de métodos estadísticos aplicables en
general al análisis de observaciones que dependen simultáneamente de varios factores. Fue desarrollado
por Fisher en el 1er tercio del siglo pasado.

Los factores a considerar, y que se presume pueden influir sobre la respuesta, son aquéllos que podemos
realmente controlar fijando a voluntad sus niveles (factores controlados).

Los factores pueden ser cuantitativos, cuando sus niveles corresponden a valores medibles (temperatura,
pH, etc.) o cualitativos en otro caso (tipo de hojalata, variedad, método de fabricación etc.).

Un ejemplo servirá para ilustrar un problema típico de aplicación de estos métodos.

En un estudio sobre corrosión (X) en botes de conservas se desea investigar la influencia al respecto del
tipo de hojalata, pH del líquido de gobierno y temperatura de almacenamiento del bote. En la terminología
clásica del Análisis de la Varianza existen en este caso tres factores:

ƒ Tipo de hojalata
ƒ pH
ƒ Temperatura de conservación

cuyos efectos se desean estudiar.

Para cada factor, se considerarán en el estudio diferentes niveles (si el factor es cuantitativo) o variantes
(si el factor es cualitativo). Así por ejemplo:

- Factor tipo de hojalata (cualitativo): Se desean estudiar tres tipos distintos A, B y C (3 variantes).

- Factor pH (cuantitativo): Se estudiarán conservas a pH 4'5 y pH 5'5 (2 niveles).

- Factor temperatura de almacenamiento (factor cuantitativo): Se almacenarán los botes a 0º C, 15º C y


30º C (3 niveles).

A cada combinación de variantes de los diferentes factores se le denomina tratamiento, por ejemplo un
tratamiento será: bote hojalata tipo B con pH del líquido de gobierno 4'5 almacenado a 15º C. En total
existirán en este caso 3x2x3=18 tratamientos diferentes.

Una experiencia podría consistir en preparar 5 botes (repeticiones) con cada uno de los 18 tratamientos
posibles, con lo que constaría en total de 18x5 = 90 botes o unidades experimentales.

El objetivo en una experiencia de este tipo sería el analizar cuáles de los tres factores tienen una influencia
significativa sobre el grado de corrosión del bote al cabo de, por ejemplo, un mes de almacenamiento.

En aquéllos factores cuyo efecto sea significativo, se deseará además, precisar la naturaleza del mismo,
determinando, que variantes difieren significativamente entre sí

* Resumen:

- X : variable a estudiar o respuesta (grado de corrosión en el ejemplo).


- Factores: posibles causas controlables que pueden ser fuente de variabilidad en la respuesta
(tipo de hojalata, pH, temperatura, etc.).
- Variantes o niveles: valores que pueden tomar los factores.
- Tratamiento: combinación de niveles
- Unidad experimental: Unidad física sobre la que se aplica un tratamiento (bote, parcela,
animal de ensayo etc.)

172
- Repeticiones: número de veces que se aplica un mismo tratamiento (sobre diferentes
unidades experimentales) en una misma experiencia, o numero de veces que se repite la
experiencia bajo las mismas condiciones.

Los métodos del Análisis de la Varianza, asumen la existencia de un modelo probabilístico que
explica los resultados observados en función de un conjunto de parámetros desconocidos relativos a
los efectos de los diferentes factores en estudio y de una perturbación aleatoria.

La técnica de análisis consiste, en general, en descomponer la variabilidad total del conjunto de las
observaciones expresada por la suma de cuadrados global Σ(Xijk - X)2 con N -1 grados de libertad,
en un conjunto de términos independientes, con sus correspondientes grados de libertad, relativos a
los diferentes factores en estudio y al error experimental. La comparación de cada uno de estos
términos con el correspondiente a la perturbación aleatoria residual (ó error), permite contrastar la
significación de los factores estudiados.

Inicialmente desarrollaremos la teoría básica del Análisis de la Varianza en el caso más sencillo de
un solo factor controlado, dejando para más adelante la generalización al caso de varios factores.

9.4.2.- MODELO TEÓRICO. HIPÓTESIS DEL MODELO

Consideremos, por ejemplo, que se desean comparar I variantes distintas de un determinado proceso
industrial. De cada variante se hacen J pruebas cuyos resultados podemos considerar como una
muestra aleatoria simple extraída de la población de posibles resultados que podrían obtenerse con
dicha variante.

Variante 1 i I

Población N(μ1,σ) N(μi,σ) N(μI,σ)

Muestra (X11……X1J) (X21……X2J) (XI1……XIJ)

Como veremos a continuación, nuestras hipótesis sobre el modelo implican que cada una de estas
poblaciones tiene una distribución N(μi,σ), y la hipótesis nula a contrastar es H0: μ1 = μ2 …= μI.

Vemos por tanto que el problema que tenemos no es más que la generalización a I medias del
problema de comparación de dos medias visto en un tema anterior.

Sea I el número de niveles del factor y J el número de observaciones para cada una de las variantes
(supondremos que dicho número es el mismo para todas las variantes, en cuyo caso el modelo se
denomina EQUILIBRADO).

Sea Xij la j-ava observación (j = 1...J) correspondiente a la i-ava variante del factor (i = 1...I).
Siendo μi = Ε(Xij) el valor medio poblacional correspondiente a dicha variante, se tendrá:

Xij = μi + εij (1)

173

εi
donde εjj es una perturbación aleatoria que origina las diferencias existentes entre las observaciones

μi Xij
de una misma variante o tratamiento; además Ε(εij) =0

Con respecto a los residuos εij se harán, además, las siguientes hipótesis:

a) Homocedasticidad: σ2ij = σ2 (εij) = σ2 ∀ i, j no dependiendo por tanto de la variante i


considerada.
Esta hipótesis hace necesaria la comprobación previa, mediante el test de Bartlett u otros
similares, de la homogeneidad de las varianzas en los diferentes grupos o variantes.

b) Incorrelación: Cov (εij,εi’j’) = 0 si i≠i' y/o j≠j'; es decir, todos los residuos están mutuamente
incorrelacionados.

c) Normalidad: los IxJ residuos εij tienen una distribución conjunta normal multivariante ε ≡
N(0,σ2 I)

Las hipótesis b) y c) implican la independencia de los residuos.

El modelo teórico anterior puede formularse de una forma alternativa que resulta aconsejable por su
más fácil generalización al caso de varios factores.

Sea μ = Σμi /I el promedio de los valores medios de las diferentes variantes αi=μi - μ es la diferencia
entre la media de la variante i y el promedio general; αi mide por lo tanto el efecto específico
(positivo, negativo o nulo) de la variante i del factor.

Evidentemente, se verifica Σαi = Σ(μi - μ) = Σμi - Iμ = 0


Como μi = μ + αi, el modelo teórico puede formularse como sigue

Xij = μ + αi + εI
Con Σαi = 0

αi εij
μ μi X
Xij

Donde
Xjj = j-ava observación de la variante i del factor
μ = promedio general
αi = efecto específico de la variante i del factor
174
εij = residuos N (0,σ) e independientes entre sí.

9.4.3.- HIPÓTESIS NULA

La hipótesis nula a contrastar es que el factor no influye sobre la respuesta, es decir, que todos los
niveles tienen la misma media

Ho : μ1 = μ2 = μ3 … = μI = μ
H1 : ∃ μi ≠ μj

Estas hipótesis son equivalentes a contrastar

H0 : ∀αi = 0
H1 : ∃ αi ≠ 0 ya que sustituyendo μi por μ + αi

Ho : μ + α1 = μ + α2 = μ + α3 = … = μ + αI = μ
α1 = α2 = α3 = …. = αI = 0

∀ αi = 0

9.4.4.- ECUACIÓN FUNDAMENTAL

Llamando

Σ ij X ij
X.. = media general de todas las observaciones
IJ

Σ i X ij
Xi. = media de la variante i
J

La ECUACIÓN FUNDAMENTAL del Análisis de la varianza muestra la descomposición de la


variabilidad total de la variable respuesta estudiada.

∑ ij ( X ij ∑ ( X . − X..) +∑
− X..) 2 = J i i
2
ij ( X ij − X i .) 2

SCT SCF SCR

• Σ(Xij – X..)2 se le denomina Suma de Cuadrados Total (SCT) pues mide la variabilidad total del
conjunto de las I x J observaciones.

• JΣ (Xi-X..)2 se denomina Suma de Cuadrados debida al factor(SCF) pues mide la magnitud de


las desviaciones de la media de cada variante a la media general. Mide la parte de la
variabilidad total debida o explicada por el factor.

175
• Σ(Xij-Xi.)2 se denomina Suma de Cuadrados Residual pues se basa en las desviaciones de cada
observación respecto a la media de la variante respectiva. Mide la parte de variabilidad total
existente en las observaciones no explicada por el factor, es decir, la debida a causas aleatorias
(error experimental, otros factores no estudiados, etc.).

9.4.5.- TEST F

Si a las sumas de cuadrados anteriores ( SCF y SCR ) las dividimos por sus grados de libertad
correspondientes ( (I-1) e I(J-1) respectivamente) obtenemos los cuadrados medios CMF y CMR.

Se demuestra que si la hipótesis nula es cierta ∀α i = 0


CMF
≡ F( I −1), I ( I −1)
CMR

La hipótesis nula ∀α i = 0 se contrastará, por tanto, calculando a partir de las observaciones el


estadístico CMF/CMR = Fc y rechazándola si este es mayor que el valor en tablas de F(αI −1),I( J −1) para
la probabilidad de error de 1ª especie α considerado. Esta regla es equivalente a rechazar H0 si el p-
valor correspondiente al Fc calculado es menor que α.

Rechazar H0 equivale a aceptar con un nivel de significación α, que el factor influye en la respuesta
estudiada.

9.4.6.- COMPARACIÓN DE MEDIAS. TEST L.S.D. (diferencia mínima significativa)

Si el test F pone de manifiesto la existencia de un efecto significativo del factor, y éste es


cualitativo, resulta procedente estudiar entre qué variantes del factor son significativas las
diferencias αi - αi’. La forma de operar consiste en general, en calcular una "diferencia mínima
significativa" (DMS) tal que dos variantes i, j difieren significativamente si |Xi.-Xj.| > DMS.

En el test de Tuckey se propone como L.S.D. ó DMS

CMR
DMS = QIα,I( J−1)
J

I = nº de niveles del factor (en general nº de medias a comparar).


J = nº de observaciones en cada variante (en general, nº de datos con que se
ha calculado cada una de las medias a comparar).

Nota: En la determinación de la significación del efecto de un factor - o su equivalente, en la


determinación de la significación de la diferencia entre dos medias -, debemos hacer notar:

a) que el hecho de que las diferencias sean significativas no implica que las diferencias sean
necesariamente importantes. El análisis de la varianza, si la variabilidad residual es pequeña,
puede dar como significativas diferencias que en la práctica carezcan de importancia.
b) si el análisis no da como significativas determinadas diferencias no quiere decir que éstas no
existan sino que, simplemente, e/1 test no suficiente potencia para detectarlas. Este hecho tiene
especial importancia cuando intentamos interpretar el por qué algunas veces a pesar de obtener

176
en la práctica diferencias importantes entre las medias, éstas no llegan a ser significativas. Lo
que habría que hacer en este caso es aumentar el tamaño de la experiencia o reducir el error
experimental (disminuir el CMR) aumentando la homogeneidad del material experimental o
utilizando un diseño más adecuado.

Los resultados obtenidos se reflejan en el siguiente


CUADRO RESUMEN DEL ANÁLISIS DE LA VARIANZA

Grados
Origen de Suma de Cuadrado
de F calculada F tablas
la varianza cuadrados medio
libertad

TOTAL SCT IJ-1

SCF CMF
FACTOR SCF I-1 CMF = F(αI −1),I( J −1)
I−1 CMR

SCR
ERROR SCR I(J-1) CMR =
I(J − 1)

EJEMPLO:
Se desea estudiar la influencia de la materia prima sobre la resistencia de unas piezas de plástico.
Para ello se realizaron experiencias utilizando cuatro materias primas diferentes. Con cada materia
prima se fabricaron cinco piezas midiéndose finalmente la resistencia en cada una de las veinte
piezas fabricadas. Los resultados fueron:

MAT PRIMA 1 MAT PRIMA 2 MAT PRIMA 3 MAT PRIMA 4


6,0 6,2 5,9 5,0
6,2 6,1 6,0 5,1
6,5 5,9 6,0 4,2
6,8 6,0 6,2 4,6
6,0 6,0 5,8 4,5

Cuadro resumen del Análisis de la Varianza


-----------------------------------------------------------------------------
Fuente SC gl CM F calc P-Valor
177
-----------------------------------------------------------------------------
Factor 7,922 3 2,64067 36,17 0,0000
Residual 1,168 16 0,073
-----------------------------------------------------------------------------
Total 9,09 19

Dado que el P-Valor es menor que 0,01, existen diferencias estadísticamente significativas al nivel
del 99% de confianza entre las medias de las cuatro materias primas. Esta afirmación es equivalente
a decir que la “materia prima” utilizada influye sobre la resistencia de las piezas de plástico con un
nivel de significación del 99%.

En el apartado siguiente analizaremos cuál o cuáles de las variantes de la materia prima son
diferentes en cuanto a su resistencia promedio.

Tests de rangos

Repeticiones Media Grupos diferentes


--------------------------------------------------------------------------------
M.P. 4 5 4,68 X
M.P. 3 5 5,98 X
M.P. 2 5 6,04 X
M.P. 1 5 6,30 X

Observamos que solo la cuarta materia prima da lugar a una resistencia media estadísticamente
diferente a las demás siendo menor en valor que el resto

178
9.5. Análisis de la varianza (II). Dos factores controlados.
9.5.1.- INTRODUCCIÓN. PLANES FACTORIALES.

Apoyándonos en los conceptos y terminología expuestos en el apartado anterior, vamos a


desarrollar este apartado de forma esquemática. Solamente desarrollaremos en profundidad aquellos
conceptos que sean nuevos y propios del presente capitulo.

PLANES FACTORIALES. Constituyen un diseño especial para el estudio simultáneo de dos o más
factores en el que todos los niveles de todos los factores se combinan entre sí. Los utilizaremos en
este tema como diseño base para desarrollar las técnicas del Análisis de la Varianza para dos
factores.

9.5.2.- ANOVA PARA DOS FACTORES CON REPETICIONES

Utilizaremos como diseño base para el estudio de este apartado, el siguiente diseño factorial

FACTOR B
FACTOR
A
B1 B2 Bj BJ
A1 =⎬n =⎬n = =
A2 = = = =
A3 = = = =
=⎬ n
Ai = = =
Xijk.

AI = = = =

9.5.2.1.- Concepto de Interacción

Se dice que hay interacción entre dos factores si el efecto conjunto de la variante i de uno de ellos
con la j del otro, no es igual a la suma de los efectos simples respectivos. (Efectos no aditivos).

También se dice que existe interacción entre dos factores cuando el efecto de uno de ellos depende
del nivel que consideremos en el otro.

De manera similar a la anterior, se dice que no existe interacción entre dos factores cuando el
incremento en la respuesta (+ ó -) al pasar de un nivel a otro de uno de los factores, es el mismo en
cualquiera de los niveles que podamos considerar del otro factor.

Vamos a considerar algunos ejemplos representativos.

a) Consideremos el ejemplo de la corrosión de los botes de hojalata en el que contemplamos dos


factores: Factor tipo de hojalata (hojalata A y hojalata B) y Factor pH (pH1, PH2 y pH3)

179
Grado de
corrosión

En este primer caso, cualquiera que sea el pH, la hojalata A presenta mayor corrosión que la
hojalata B y, además, LA DIFERENCIA ENTRE UNA Y OTRA HOJALATA ES LA MISMA
PARA CUALQUIER pH.

En este caso influyen los dos factores (hojalata A mayor corrosión que la B, y a mayor pH menor
corrosión) pero no hay interacción entre ellos.

Grado de
corrosión

En este caso, el efecto del factor hojalata depende del valor del pH que consideremos. Así, a pH
bajo presenta menor corrosión la hojalata B, a pH intermedio el grado de corrosión es el mismo y a
pH alto presenta menor corrosión la hojalata B. Obsérvese que en este caso no tiene sentido
preguntarse que hojalata es más resistente si no se especifica cual va a ser el pH a emplear en la
conserva.

b) Consideremos ahora la calidad organoléptica de tres zumos de naranja (natural, pasteurizado,


esterilizado) a través del tiempo (recién preparado, a los 5 días, a los 15 días) conservados a
temperatura constante.

180
Obtenga el lector sus propias conclusiones

¿Hay interacción?
¿Por qué?
¿Qué zumo es mejor?
¿Se comportan igual los tres zumos?
¿Influye el tiempo de conservación en la calidad? ¿Cómo?

9.5.2.2.- Modelo y supuestos teóricos

El modelo teórico completo es

Xijk = μ + α i + β j + (αβ)ij + ε ijk donde

Xijk = valor de la K.ésima observación en el tratamiento formado por la variante i del primer factor
con la variante j del segundo.
μ = promedio general
αi = efecto específico de la variante i del 1er factor
βj = efecto específico de la variante j del 2º factor
(αβ)ij = efecto de la interacción entre los factores en sus niveles i, j, respectivos.
εijk = residuo aleatorio

∑α
i
i =0 ∑β
j
j =0 ∑ (αβ)
i
ij =0 ∑ (αβ)
j
ij =0

Supuestos:

Ε(ε ijk ) = 0
ε ijk ≡ N(0, σ 2 )
⎬ independientes e incorrelacionados

181
9.5.2.3.- Hipótesis Nulas

Las hipótesis nulas a contrastar son la ausencia de efecto sobre la respuesta de cada uno de los
factores así como la ausencia de interacción entre ellos

H0: ∀α i = 0 H1: ∀α i ≠ 0
∀β j = 0 ∀β j ≠ 0
∀( αβ )ij = 0 ∀(αβ)ij ≠ 0

9.5.2.4.- Descomposición de las Sumas de Cuadrados. Test F

La variabilidad total de las observaciones se descompone de la siguiente forma similar al ANOVA


de un factor

∑ ( Xijk − X...)2 = JN∑ ( X − X...)2 + IN∑ ( X − X...)2 + N∑ ( X − X.. − X + X...) + ∑ ( X − X )2


i.. . j. ij. . j. ijk ij.
ijk i j ij ijk
SCT SCF1 SCF2 SCint SCR
(IJN - 1) (I - 1) (J - 1) (I - 1)(J - 1) IJ(N - 1) ⇒ gl

La significación de cada factor se obtiene calculando el cociente


α
SCF GLF CMF
> FGLF ,GLR significativo al nivel α
Fc = = α
SCR GLR CMR ≤ FGLF ,GLR No significativo

9.5.2.5.- Comparación de Medias. Test L.S.D.

Si algún factor resulta significativo podrá determinarse entre que variantes hay diferencias
significativas comparando la diferencia de medias con la L.S.D. ó DMS

DMS = Q aα,glr CMR b

a = nº de medias a comparar entre si (nº de variantes del factor).


b = nº de datos con que se calculó cada una de las medias anteriores.
Ejemplo:

En una experiencia para analizar la influencia de un nuevo catalizador en dos métodos A y B de


síntesis de un producto orgánico, se ensayaron 4 dosis de catalizador. Con cada una de las 8
combinaciones - tratamientos - dosis x método se realizaron tres experiencias.

Los resultados, expresados en gr. de producto obtenido con la misma cantidad de materia prima en
1 hora, se recogen en la tabla siguiente:
Dosis de catalizador (mg.)

182
Método/Do
0’75 1 1’25 1’50
sis
68 91 90 105
A 60 75 98 95
62 86 94 99
60 72 64 48
B 45 71 75 55
66 60 70 50

Solución

El modelo es:

Xijk = μ + α i + β j + (αβ)ij + ε ijk

∑α = 0i

∑β = 0j

∑ (αβ) = 0
i
ij

∑ (αβ) = 0
j
ij

ε ijk = N(0, σ) independientes.

Cuadro resumen del análisis de la varianza

O.V. SC GL CM Fc Ft
Total 7096’96 23
Catalizador 1535’13 3 511’71 12’39 > F30'16
'01
= 5'29 * *

Método 3432’04 1 3432’04 83’12 > F10'16


'01
= 8'53 * *
Interacción
CxM 1469’13 3 489’71 11’86 > F30'16
'01
= 5'29 * *

Error 660’66 16 41’29

Son significativos todos los efectos al 99 % (p < 0'01)

183
Interpretación de Resultados

Interaction Plot
101 metodo
A
91 B
rendimiento

81

71

61

51
0,75 1 1,25 1,50

dosis

a) La interacción es significativa, luego no existe una concentración de catalizador óptima. La


concentración de 1'50, que con el método A da el rendimiento promedio máximo (99'67 gr), con el
método B da el mínimo rendimiento promedio (51 gr). Luego habrá que estudiar el efecto del
catalizador en cada uno de los métodos.

b) No obstante, el método A presenta para cada concentración del catalizador, un rendimiento


mayor que el método B. Por ello seria conveniente la utilización del catalizador sólo en el método
A, y preferiblemente, a la dosis máxima.

184
185

Das könnte Ihnen auch gefallen