Beruflich Dokumente
Kultur Dokumente
ÍNDICE
Los fenómenos aleatorios, en contraposición con los fenómenos regidos por leyes
deterministas, son aquellos fenómenos reales que se caracterizan por la impredecibilidad de
sus resultados y por la llamada regularidad estadística.
Por el contrario, es completamente imposible predecir con exactitud cual será el número de
accidentes que ocurrirán en las carreteras españolas el próximo fin de semana o los litros de
agua de lluvia que se recogerán por m2 en un determinado observatorio meteorológico a lo
largo del próximo año.
Ahora bien, no parece descabellado pensar que es posible, analizando la distribución de masas
y los impulsos a los que está sometido el lanzamiento de un dado, desarrollar un modelo
mecánico que permita conocer de antemano cual va a ser el resultado del lanzamiento de ese
dado.
I.8
Capítulo I: Fenómenos aleatorios
∫ f (x) ⋅ dx
b
Llamaremos A al área comprendida entre las rectas x=a y x=b y situada entre y=k1 y la
función. Llamaremos B al área delimitada por x=a, x=b, y=k2 y la función (Figura I.1).
Si extraemos puntos al azar (equiprobables) del recinto delimitado por x=a, x=b, y=k2 e y=k1,
la probabilidad de que ocurra cualquier suceso de este recinto es proporcional a su área. En
consecuencia se cumplirá que:
P(A)+P(B)=1
Area( A ) Area( A )
p= =
Area( A ) + Area(B) (b − a)(k 2 − k1 )
k2
B y=f(x)
A
k1
a b x
Figura I.1.
En consecuencia:
∫ f (x) ⋅ dx = (b − a) ⋅ k + p ⋅ (b − a) ⋅ (k
b
I= 1 2 − k1 )
a
Si extraemos al azar n puntos del recinto A∪B y ν es el número de veces que ocurre A, y
llamamos:
I.9
Capítulo I: Fenómenos aleatorios
ν
f=
n
el teorema de Bernouilli, que será expuesto más adelante, permite estimar I mediante:
I* =(b -a)·k1+f·(b -a)·(k2 -k1)
restando I - I* y tomando valores absolutos.
⎪I -I*⎪ =⎪p -f⎪·(b -a)·(k2 -k1)
[ ] (b − a4) ⋅ ⋅n(k⋅ ε − k )
2 2
P I−I* ≥ ε ≤ 2
2
1
≤α
n≥
(b − a)2 ⋅ (k 2 − k1 )2
4 ⋅ ε2 ⋅ α
Ejemplo I.1:
La integral
5
∫ x ⋅ dx = 4.5
4
Si α=10 y ε=10 , con a-b = k1-k2 = 1 entonces es n≥2500. Lo cual significa que si
-2 -1
extraemos al azar 2500 puntos del recinto A∪B y calculamos la frecuencia relativa con que
ocurre A, mediante I* podemos calcular aproximadamente I, cometiendo un error menor que
0.1 con una probabilidad mayor del 99 por ciento.
I.10
Capítulo I: Fenómenos aleatorios
Actualmente, es posible hablar de la probabilidad de que, por ejemplo, exista vida en Marte,
aunque es evidente que ello no es el resultado de la realización de un fenómeno aleatorio y, en
general, es posible hablar de la probabilidad de que sea verdadera cualquier proposición (en el
sentido de la lógica matemática).
El primer enfoque es el clásico o frecuencialista que necesita de la posibilidad de repetición
del fenómeno aleatorio. El segundo enfoque es el bayesiano, mediante el que se puede hablar
de probabilidad o grado de veracidad de ciertas proposiciones.
En el enfoque clásico, la probabilidad puede asimilarse, de la forma que será precisada más
adelante, a la frecuencia con la que ocurre un determinado suceso.
Debemos hacer notar que si el fenómeno es repetitivo y medimos nuestro grado de creencia o
de verdad a través de la frecuencia con que hemos observado la realización de un
determinado suceso, estamos probabilizando un suceso frecuencialista de forma subjetiva y,
por tanto, dando un enfoque bayesiano a nuestro problema. Desde esta óptica, la probabilidad
frecuencialista puede ser contemplada como un caso particular de la probabilidad bayesiana.
En resumen, aunque tradicionalmente los fenómenos aleatorios eran el objeto del estudio de la
Estadística, como acabamos de ver:
En consecuencia:
I.11
Capítulo I: Fenómenos aleatorios
El ángulo que forma la aguja de una ruleta con una determinada dirección al detenerse, está
influido por el impulso comunicado de manera que pequeñas variaciones en este impulso
pueden dar lugar a resultados diametralmente opuestos.
I.2. - LA ESTADÍSTICA
I.12
Capítulo I: Fenómenos aleatorios
entre los hechos reales y los teóricos, el sistema axiomático debería ser revisado,
modificándolo o, simplemente, completándolo.
La Estadística puede considerase como la Tecnología del Método Científico (S. Ríos 1952).
Pero no siempre es posible proceder de esta elegante forma deductiva. En las ciencias
experimentales, no se suele pasar de lo general (axiomas) a lo particular (teoremas) mediante
un proceso deductivo, sino que se procede en sentido contrario, es decir, de forma inductiva,
pasando de lo particular a lo general.
Las dos partes de que consta la Estadística recorren caminos opuestos: El Cálculo de
Probabilidades (o mejor, la Teoría de Probabilidades) es deductivo; la Inferencia Estadística
es inductiva.
I.13
Capítulo I: Fenómenos aleatorios
I.14
CAPÍTULO II:
Concepto de Probabilidad
Capítulo II: Concepto de Probabilidad
II.1.- INTRODUCCIÓN
Es cierto que en éstas situaciones la incertidumbre existe, pero puede que ésta no sea total, es
decir, que, en general, tendremos alguna información, bien extraída de nuestra experiencia
pasada, o bien extrayéndola experimentando con el fenómeno en estudio. Esta información
hace que nuestra incertidumbre sobre el resultado del fenómeno aleatorio no sea total.
Antes de entrar en estas interpretaciones vamos a exponer un ejemplo que nos introduzca en
esta problemática:
II.16
Capítulo II: Concepto de Probabilidad
En el caso b), el Cálculo de Probabilidades nos dice que si un lote de gran tamaño tiene un 5
por mil o menos de unidades defectuosas, la probabilidad de que al extraer 20 piezas al azar
todas ellas sean correctas es igual o superior al 99%, y que si el lote tiene un 10.9% o más de
defectuosas, la probabilidad de rechazar el lote, es decir, de que aparezcan, al menos, una
pieza defectuosa de entre las 20 muestreadas, es superior o igual al 90%.
II.2.- PROBABILIDAD
Aunque hoy en día hay un acuerdo total sobre las propiedades matemáticas que debe reunir el
ente abstracto que denominamos “probabilidad”, existe sin embargo, un profundo desacuerdo
respecto a lo que el término “probabilidad” significa en cuanto a su aplicación a los problemas
reales y concretamente a la Inferencia Estadística.
La concepción clásica de la probabilidad dada por Laplace, como cociente entre casos
favorables y casos posibles presenta problemas bien conocidos, entre ellos el de no
aplicabilidad a una amplia gama de problemas reales.
En 1866, Venn definió la probabilidad de un suceso como:
Sin embargo, aparte de otras posibles criticas, esta concepción frecuencialista, reduce el
ámbito de aplicación de la probabilidad exclusivamente a fenómenos o experiencias
repetitivas, dejando fuera del mismo numerosas áreas en las que se presentan realmente
situaciones de incertidumbre que deberían poder ser cuantificadas y tratadas en el contexto de
la ciencia estadística.
En el año 1921, el matemático inglés John Maynard Keynes, más conocido en el campo de la
teoría económica, en su tesis doctoral propone una nueva concepción de la probabilidad, la
concepción lógica también denominada objetiva. En esta concepción, se define la
probabilidad como
II.17
Capítulo II: Concepto de Probabilidad
lo que permite abarcar situaciones mucho más generales que las contempladas en los enfoques
clásicos o frecuencialistas.
Mientras que en la concepción lógica la probabilidad tiene un carácter objetivo, como algo
intrínseco de la proposición a que se refiere, en la concepción subjetiva, cuyo principal
exponente es De Finetti, la probabilidad se define como
y puede variar de un sujeto a otro. El valor que cada sujeto asigne a esta medida de
incertidumbre, dependerá de la información de que disponga de manera que dos personas con
información distinta asignarán probabilidades distintas a un mismo suceso. Por ello, también
se define la probabilidad subjetiva como
Esta probabilidad que puede parecer poco científica, no es tal, pues permite estudiar aquellos
fenómenos a los que no es de aplicación la probabilidad frecuencialista. Pero, además,
presenta la ventaja de que si el fenómeno es susceptible de repetición, mediante el Teorema
de Bayes (que será estudiado más adelante) se puede incorporar a la probabilidad subjetiva “a
priori” la información extraída de las repeticiones del fenómeno, para transformarla en
probabilidad “a posteriori”. Las cosas ocurren de tal forma, que, a medida que se va
obteniendo más información objetiva, la información subjetiva “a priori” va pesando menos,
con lo que dos individuos que partieran de probabilidades subjetivas “a priori” diferentes, y
que utilizaran la misma información objetiva, a medida que ésta última es mayor, las
probabilidades “a posteriori” irían siendo cada vez más próximas, porque cada vez es menor
el peso relativo de la información “a priori”.
II.18
Capítulo II: Concepto de Probabilidad
II.3.1.1.- Definición
II.3.1.2.- Clasificación
Los Espacios Muestrales pueden ser: finitos, infinitos numerables e infinitos no numerables ó
de la potencia del continuo.
Si la experiencia consiste en extraer al azar una pieza recién fabricada y medir una de sus
dimensiones, el Espacio Muestral es infinito no numerable.
II.3.1.3.- Sucesos
Si al lanzar el dado sale el número 4, ha ocurrido A y, lógicamente, también todos los sucesos
que contienen al número 4.
II.19
Capítulo II: Concepto de Probabilidad
El suceso cierto, es decir, el suceso que siempre ocurre es, lógicamente, el Espacio Muestral
E.
El suceso imposible, es decir, el suceso que nunca puede ocurrir es, lógicamente, el conjunto
vacío ∅.
Sin embargo, por razones que serán expuestas más adelante, no siempre es posible
probabilizar a todos los elementos de P(E), pero es conveniente que la clase de los sucesos
probabilizables, que designaremos por F, siga teniendo estructura de Álgebra de Boole. Para
ello, basta que se cumplan las dos siguientes condiciones:
a) {∀ (A1, A2) ∈ F } → {(A1∪A2) ∈ F }
b) {∀ A ∈ F } → { A ∈ F }
⎩ i =1 ⎭
entonces F tiene estructura de σ-álgebra.
II.3.2.1.- Axiomas
Dado un Espacio Muestral E y una σ-álgebra F, diremos que la aplicación P:F → ℜ es una
probabilidad, si cumple los tres siguientes axiomas, establecidos por Kolmogoroff :
A1) ∀ A ∈ F es P(A)≥0
A2) P(E)=1
A3) ∀ (A1, A2, ..., An, ...) ∈ F; A i I A j = ∅ es P ⎛⎜ U A i ⎞⎟ = ∑ P( A i )
i≠ j ⎝ i ⎠ i
II.3.2.2.- Propiedades
II.20
Capítulo II: Concepto de Probabilidad
b) Como corolario:
P(∅ ) = 1 − P(E) = 0
c) Si {B⊃A}→{P(B)≥P(A)}
Gráficamente:
E
A∩B
A B
Figura II.1.
En efecto, es:
B=A∪( A ∩B) y A∩( A ∩B)=∅
por el axioma A3:
P(B)=P(A)+P( A ∩B)
por el axioma A1 es:
P( A ∩B)≥0
de donde:
{ B ⊃ A} → { P(B) ≥ P( A )}
∀A ∈F 0 ≤ P(A) ≤ 1
e) Probabilidad de la reunión
E
B A∩B
A
A∩B
Figura II.2.
II.21
Capítulo II: Concepto de Probabilidad
P ⎛⎜ U A i ⎞⎟ = ∑ P( A i ) − ∑ ∑ P( A i ∩ A j ) + ... + ( −1)n +1 ⋅ P ⎛⎜ I A i ⎞⎟
n n n −1 n n
⎝ i =1 ⎠ i =1 i =1 j = i + 1 ⎝ i =1 ⎠
Si lanzamos un dado perfectamente equilibrado, la probabilidad de que salga una de sus caras
prefijada a priori es 1/6. Si en lugar de lanzar un dado (que es un cubo) lanzáramos un
icosaedro, (poliedro regular de 20 caras) la probabilidad anterior es ahora 1/20. Si lanzamos
ahora una esfera, la probabilidad de que se apoye en un punto concreto es 1/∞ = 0. La
probabilidad es nula y el suceso no es imposible.
En este tipo de Espacios Muestrales, bastará con hacer corresponder a cada suceso elemental
una probabilidad. Entonces, la probabilidad de cualquier suceso compuesto será la suma de
las probabilidades de los sucesos elementales que lo constituyen. Se deberá respetar la
condición de que la suma de las probabilidades de los sucesos elementales sea igual a la
unidad.
P(E) = P ⎛⎜ U a ⎞⎟ = ∑ P(a) = 1
⎝ a∈E ⎠ a∈E
II.22
Capítulo II: Concepto de Probabilidad
Como todos los resultados son igualmente probables, la probabilidad de cada uno de ellos
será 1/6.
P(A)=P(2)+P (4)+P(6)=1/6+1/6+1/6=3/6=1/2
Del mismo modo podría obtenerse la probabilidad de cualquier otro suceso asociado a la
experiencia aleatoria descrita.
Por ejemplo, supongamos que realizamos una experiencia cuyo resultado es el número de
veces que hay que lanzar al aire una moneda hasta obtener por primera vez una cara. El
Espacio Muestral es:
E= { 1, 2, 3, ..., n, ...}
Designemos genéricamente por X a un elemento de E. Las probabilidades elementales serán:
1
P(X = υ ) =
2υ
Obsérvese que las probabilidades elementales, lógicamente, no son iguales entre sí y, por
tanto, no es de aplicación la Regla de Laplace.
∑2
1 1/ 2
P(E) = = =1
i =1
υ
1− 1 / 2
Si el suceso A es obtener una cara por primera vez en una tirada par, al lanzar una moneda:
A={2, 4,..., 2·n,...}
entonces
1 1 1 1/ 4 1
P( A ) = + + L + 2n + L = =
22 2 4 2 1− 1/ 4 3
Y para suceso contrario, obtener una cara por primera vez en una tirada impar:
II.23
Capítulo II: Concepto de Probabilidad
II.24
Capítulo II: Concepto de Probabilidad
II.25
CAPITULO III
Probabilidad Condicional
Capítulo III: Probabilidad Condicional
III.1.- INTRODUCCION
sabemos que ha ocurrido uno de los tres números pares, cada uno de ellos con la misma
probabilidad, luego se cumplirá que cualquiera de los tres sucesos elementales 2, 4, 6,
cuando sabemos que ha ocurrido A, pasan a tener una probabilidad de 1/3 y que cualquiera
de los sucesos elementales 1, 3, 5, pasan a tener una probabilidad nula, pues es imposible
que ocurra cualquiera de ellos si ha ocurrido A.
Nótese, por tanto, que aunque no conozcamos más que parcialmente el resultado de la
realización del fenómeno aleatorio, la información que suministra este conocimiento puede
suponer una modificación de las probabilidades de determinados sucesos.
Analicemos otro ejemplo en el que la información parcial del resultado del fenómeno
aleatorio no modifica la probabilidad de determinados sucesos:
Supongamos, ahora, que la experiencia consiste en extraer al azar una carta de una baraja
de 40 cartas. La probabilidad de extraer un rey es de 4/40=1/10. Supongamos que sabemos
que la carta extraída es una copa. Evidentemente, algunos sucesos modifican su probabilidad
bajo esta información parcial, por ejemplo, la probabilidad de que la carta extraída sea el
rey de oros ha pasado de valer 1/40 a valer 0. Sin embargo, otros sucesos no modifican su
probabilidad, por lo que la información suministrada no aporta nada nuevo para el mejor
conocimiento de estos sucesos. Por ejemplo, la probabilidad de que haya ocurrido el suceso
“rey”, cuando sabemos que ha salido una copa, es 1/10, es decir, la misma que si no
supiéramos nada respecto al resultado de la extracción (4/40).
III.27
Capítulo III: Probabilidad Condicional
E
A
C A
B
B
Puede demostrarse que FA cumple las dos condiciones para ser una σ-álgebra:
a) ∀ (B1, B2, ...) ∈ FA se cumple que U Bi ∈ FA
i
b) ∀ B ∈ FA → CAB ∈ FA
En el ejemplo del dado de la introducción, nótese que las probabilidades de los sucesos de A
se obtienen sin más que dividir su probabilidad inicial por la del suceso A, así:
P(2) 1 / 6 1
PA (2)= = =
P( A ) 1 / 2 3
De la misma forma:
P( A )
PA ( A )= =1
P( A )
En general, si sabemos que ha ocurrido el suceso A, tal que P(A)≠0, definiremos a PA,
mediante:
P(B)
∀ B ∈ FA ; PA (B)=
P( A )
Como quedó dicho más arriba, conocido que ha ocurrido el suceso A, el Espacio Muestral E
se transforma en el A y PA se aplica a los sucesos de FA. Sin embargo, podemos extender la
probabilidad condicional PA a toda la σ-álgebra F. Nótese que la σ-álgebra FA está contenida
en F, es decir, que todo suceso B de FA pertenece también a F, pues B es intersección de dos
sucesos de F y, por tanto, pertenece a F. Si hacemos corresponder a cualquier suceso C de F la
probabilidad:
III.28
Capítulo III: Probabilidad Condicional
PA(C)=PA(C ∩ A)
lo que estamos haciendo es:
PA(C ∩ A )=0
pues:
C=(C ∩ A) ∪ (C ∩ A )
con:
(C ∩ A) ∩ (C ∩ A )=∅
III.2.1.- Definición
III.2.2.- Propiedades
a) ∀ C ∈ F es P( C / A) =1-P(C / A)
b) P(∅ / A)=0
d) ∀ C ∈ F es 0 ≤ P(C / A) ≤ 1
III.29
Capítulo III: Probabilidad Condicional
PA (C ∩ B) P( A ∩ B ∩ C) / P( A ) P( A ∩ B ∩ C)
PA (C / B) = = =
PA (B) P( A ∩ B) / P( A ) P( A ∩ B)
de donde:
PA (C / B) = P [(C / B) / A ] = P [(C /( A ∩ B)]
luego:
P [(C / B) / A ] = P [C /( A ∩ B)]
Gráficamente:
A C
P( A ∩ B) = P( A ) ⋅ P(B / A ) = P(B) ⋅ P( A / B)
Esta última ecuación nos permitirá establecer el teorema de la intersección para tres sucesos:
P(A ∩ B ∩ C) = P[A ∩ (B ∩ C)] = P(A)·P[(B ∩ C) / A]
que, por lo que acabamos de ver, será:
P( A ∩ B ∩ C) = P( A ) ⋅ P(B / A ) ⋅ P [C /( A ∩ B)]
III.30
Capítulo III: Probabilidad Condicional
E
A
Este teorema resulta fácilmente generalizable, así para cuatro sucesos es:
P(A ∩ B ∩ C ∩ D) = P(A)·P(B / A)·P[C / (A ∩ B)]·P[D / (A ∩ B ∩ C)]
P( A1 ∩ A 2 ∩ L ∩ A n ) = P( A1 ) ⋅ P( A 2 / A1 ) ⋅ L ⋅ P [A n /( A1 ∩ A 2 ∩ L ∩ A n −1 )]
Ejemplo III.1:
Sea A1, A2, ···, An una partición de E con Ai ∈ F. Sea B un suceso de F. Se cumple que:
n
B = U (B ∩ A i )
i =1
y para i≠j:
(B ∩ Ai) ∩ (B ∩ Aj)=∅
n n
P(B) = ∑ P(B ∩ A i ) = ∑ P( A i ) ⋅ P(B / A i )
i =1 i =1
III.31
Capítulo III: Probabilidad Condicional
E
A2 ···
A1
An
Los elementos Ai de la partición de E pueden considerarse como las causas que motivan el
suceso B o las circunstancias bajo las cuales puede ocurrir el suceso B.
Ejemplo III.2:
E
A1 A2
En consecuencia:
P(B)=P(A1)·P(B/A1)+P(A2)·P(B/A2)=0.60·0.10+0.40·0.25=0.16
III.32
Capítulo III: Probabilidad Condicional
III.5.1. - Definición
Diremos que los sucesos {A1, A2, ..., An } ∈ F son mutuamente independientes si
∀ K; 2 ≤ K≤ n ∀(B1, B2, ..., BK) ⊂ { A1, A2, ..., An}
se cumple que:
P(B1 ∩ B2 ∩ ... ∩ BK) = P(B1)·P(B2 )·...·P(BK)
Así, para que A1, A2 y A3 sean mutuamente independientes se deben cumplir las siguientes
condiciones:
III.33
Capítulo III: Probabilidad Condicional
III.5.2. - Propiedades
c) Generalizando las dos propiedades anteriores, se puede demostrar que si A1, A2, ..., An
son sucesos mutuamente independientes, también lo son cualquier conjunto de sucesos
que resulte de cambiar uno, varios o todos los sucesos Ai por sus complementarios.
Este teorema fue desarrollado por Thomas Bayes (1702-1761). El enfoque bayesiano de la
Estadística se fundamenta en este teorema, lo que pone de manifiesto su gran importancia
teórica. Su enunciado es el siguiente:
III.34
Capítulo III: Probabilidad Condicional
P ( Ai ) ⋅ P( B / Ai )
P ( Ai / B ) = n
∑ P( Ai ) ⋅ P( B / Ai )
i =1
En alguna ocasión, a los sucesos Ai se les ha llamado causas y a B efecto. Con ésta
nomenclatura, el teorema de Bayes permite calcular la probabilidad de que cuando se ha dado
el efecto B la causa haya sido Ai, en función de las probabilidades de las causas y la de los
efectos dadas las causas.
Ejemplo III.3:
Supongamos que las partidas de tornillos que suministran tres proveedores A1, A2 y A3 tienen
respectivamente, 1%, 2% y 3% de unidades defectuosas. En un almacén hay 10.000 unidades
fabricadas por A1, 15.000 fabricadas por A2 y 20.000 por A3. Cada tornillo puede ser
clasificado como defectuoso (B) o como no defectuoso. Se extrae un tornillo al azar que
resulta ser defectuoso. ¿Cuál es la probabilidad de que el tornillo hubiera sido fabricado por
A3?.
es decir:
0.44 ⋅ 0.03
P ( A3 / B ) = = 0.60
0.22 ⋅ 0.01 + 0.33 ⋅ 0.02 + 0.44 ⋅ 0.033
La probabilidad de la causa A3 era igual a 0.44 y pasa a ser, después de conocer que el
tornillo extraído es defectuoso, 0.60.
III.35
Capítulo III: Probabilidad Condicional
Desde el punto de vista bayesiano, a P(Ai) se le llama probabilidad “a priori” del suceso Ai,
que tras observar el resultado B se transforma en la probabilidad “a posteriori” P(Ai/B).
Ejemplo III.4:
Los expertos de una cierta empresa, han calculado que ésta controla el 10%, el 20% o el
30% del mercado con probabilidades respectivas de 0.2, 0.25 y 0.55. Si al encuestar al azar a
un consumidor resulta que éste adquiere el producto de la empresa en cuestión. ¿Cuales son
las probabilidades “a posteriori”?.
luego,
0 .2 ⋅ 0 .1
P ( A1 / B ) = = 0.085
0.235
0.25 ⋅ 0.2
P ( A2 / B ) = = 0.213
0.235
0.55 ⋅ 0.3
P ( A3 / B ) = = 0.702
0.235
III.36
Capítulo III: Probabilidad Condicional
III.37
CAPÍTULO IV:
Variables Aleatorias Unidimensionales
Capítulo IV: Variables Aleatorias
De forma intuitiva puede considerarse como una variable aleatoria unidimensional a cualquier
magnitud que puede tomar valores en un determinado dominio de forma impredecible influida
por el azar.
En esencia, lo que determina que una magnitud pueda ser considerada como una variable
aleatoria es la impredecibilidad de sus valores en situaciones concretas y la posibilidad de
probabilizar el Espacio Muestral definido por ℜ.
A pesar de lo sencillos e intuitivos que son los conceptos anteriormente expuestos, debemos
formalizar el concepto de variable aleatoria de cara a su aplicación en el campo de la Teoría
de la Probabilidad y de la Inferencia Estadística.
E F x
O(Ix) ∈ F
Ix
e X
X(e)
IV.39
Capítulo IV: Variables Aleatorias
IV.1.2.1.- Definición
IV.1.2.2.- Propiedades
b) El lim FX ( x ) = 1 pues:
x →∞
c) El lim FX ( x ) = 0 pues:
x → −∞
f) Continuidad:
La función de distribución es continua por la derecha en cualquier punto de la recta real y
continua por la izquierda en todo punto de probabilidad nula, siendo discontinua por la
IV.40
Capítulo IV: Variables Aleatorias
izquierda en todo punto de probabilidad no nula con salto igual a la probabilidad de dicho
punto. En consecuencia, FX(x) es continua en todo punto de probabilidad nula y
discontinua en todo punto de probabilidad no nula.
FX(x)
FX(a)
P(X=a)
a
X
x1 x2 ... xi ...
m1=P(x1) mi=P(xi)
IV.41
Capítulo IV: Variables Aleatorias
en la que Ix = ]+∞, x], xi son los puntos de Ix que tienen una probabilidad no nula y PX(x) es la
función de probabilidad de la variable aleatoria X.
FX(x)
FX(x4)
P(X=x4)
x1 x2 x3 x4 X
Ejemplo IV.1:
Si consideramos la variable aleatoria X, número de veces que hay que lanzar una moneda
hasta obtener cara por primera vez, el campo de existencia de esta variable es:
E = {1, 2, 3, 4,..., n}
Gráficamente:
IV.42
Capítulo IV: Variables Aleatorias
FX(x)
1
···
0.75
0.5
0 1 2 3 4 X
Para que una variable aleatoria sea continua, no basta que su función de distribución sea
continua en todos sus puntos, sino que por razones de tipo práctico hay que definirlas de
distinta forma:
∫
x
dFX ( x ) d
= fX ( x ) ⋅ dx = fX ( x )
dx dx −∞
por tanto:
dFX ( x )
fX ( x ) =
dx
como:
dFX ( x ) F ( x + Δx ) − FX ( x ) P( x < X ≤ x + Δx )
fX ( x ) = = lim X = lim
dx Δx → 0 Δx Δx → 0 Δx
IV.43
Capítulo IV: Variables Aleatorias
P(x < X ≤ x + Δx )
Δx
es la masa por unidad de longitud en ese intervalo. El límite de este cociente cuando Δx
tiende a cero, es la densidad de masa en el punto x.
b) Nótese que en una variable continua, por ser su función de distribución continua, y de
acuerdo con lo establecido en el apartado correspondiente a las propiedades de la función
de distribución, la probabilidad de cada uno de sus puntos es cero, es decir, ∀ x ∈ ℜ
P(X=x)=0.
Siguiendo la analogía mecánica, en cada punto de una variable continua, no hay masa
pero si hay densidad de masa variable con x e igual a fX(x).
P (X ∈ [a, b]) =
∫
b
f ( x ) ⋅ dx
a
En consecuencia, la P(X ∈ [a, b]) coincide con el área limitada por las rectas x=a, x=b, el
eje de abscisas y la función de densidad.
Si X es una variable aleatoria y g(x) una función uniforme, la variable Y=g(x) será una
variable aleatoria si ∀ y ∈ ℜ; Og(IY) pertenece a la σ-álgebra de X.
Si g(x) establece una correspondencia biunívoca entre X e Y, (es decir, si g(x) es monótona
creciente o monótona decreciente) y X e Y son variables continuas y designamos por g-1(y) a
la función inversa de g, entonces podemos calcular Fy(y) y fy(y) mediante:
a) Si g(x) es creciente:
IV.44
Capítulo IV: Variables Aleatorias
Y
Y=g(X)
y=g(x)
-1
x=g (y) X
La función de distribución de Y es
FY(y)=P(Y≤y)=P(g(X)≤y)=P(X≤g-1(y))=FX(g-1(y))
de donde:
dx
fY ( y ) = fX (g−1( y )) ⋅
dy
dx
Nótese que ≥0.
dy
b) Si g(x) es decreciente:
y=g(x)
Y=g(X)
-1
x=g (y) X
FY(y)=P(Y≤y)=P(g(X)≤y)=P(X>g-1(y))=1-FX(g-1(y))
derivando respecto de y:
IV.45
Capítulo IV: Variables Aleatorias
de donde:
dx
fY ( y ) = −fX (g−1( y )) ⋅
dy
dx
En la que ≤0
dy
dx
fY ( y ) = fX (g−1( y )) ⋅
dy
Ejemplo IV.2
La duración X de unos componentes electrónicos puede asumirse que es una variable
aleatoria exponencial (EXP(θ)) con función de densidad:
f(x)=θ e-θx ∀x≥0
por lo que
dx 1
=
dy 2
IV.3.1.- Introducción
IV.46
Capítulo IV: Variables Aleatorias
IV.3.2.- Concepto
E [g( x )] =
∫ g(x) ⋅ dF (x)
ℜ
X
E [g( x )] = ∑ g( xi ) ⋅ PX (xi )
i
+∞
E [g( x )] =
∫ g(x) ⋅ f (x) ⋅ dx
-∞
X
Nótese que, según esta definición, la esperanza matemática no existe si la serie o la integral
(según corresponda) no es convergente.
La variable X=“diferencia entre el número de puntos obtenido y el número 3”, tiene como
campo de existencia X= (-2, -1, 0, 1, 2, 3) y todos sus valores tienen la misma probabilidad
PX(xi) = 1/6.
donde C es la penalización que debe imponerse por cada punto de diferencia negativa
obtenido.
IV.47
Capítulo IV: Variables Aleatorias
E ( g ( x )) = ∑ g( x ) ⋅ P ( x ) = 10
i =1
i X i
E( X) =
∫ x ⋅ dF(x)
ℜ
o también:
[ ] ∫
r
E g( X) =
ℜ n
r r
g( x ) ⋅ dFXr ( x )
IV.3.3.- Propiedades
E( X1 + X2 ) =
∫ ℜ2
( x1 + x 2 ) ⋅ dF(x1, x 2 ) =
∫ ℜ2
x1 ⋅ dF(x1, x 2 ) +
∫ ℜ2
x 2 ⋅ dF(x1, x 2 )
y que además
∫ ℜ2
x1 ⋅ dF(x1, x 2 ) =
∫ x ⋅ dF(x )
ℜ
1 1
obtenemos que
E( X1 + X2 ) =
∫ x ⋅ dF(x ) + ∫ x
ℜ
1 1
ℜ
2 ⋅ dF( x 2 )
es decir,
E( X1 + X2 ) = E( X1 ) + E( X2 )
Así mismo
E(k ⋅ X) =
∫ k ⋅ x ⋅ dF(x) = k ⋅ ∫ x ⋅ dF(x)
ℜ ℜ
por lo tanto
IV.48
Capítulo IV: Variables Aleatorias
E(k ⋅ X) = k ⋅ E(X)
En efecto:
E( X ⋅ Y ) =
∫ ℜ2
x ⋅ y ⋅ dF( x, y ) =
∫ x ⋅ dF(x) ⋅ ∫ y ⋅ dF(y) = E( X) ⋅ E(Y)
ℜ ℜ
{ X e Y son independientes} ⇒ { E( X ⋅ Y ) = E( X) ⋅ E( Y )}
E X [g( x, t )] =
∫ g(x, t) ⋅ dF(x) = ∫
d d d g(x, t)
⋅ dF(x)
dt dt ℜ ℜ dt
de donde:
⎡ d g(x, t) ⎤
E X [g( x, t )] = E X ⎢
d
⎥
dt ⎣ dt ⎦
Calcular el coste medio por movimiento sabiendo que la función de densidad de una
distribución uniforme en el intervalo [a,b] es:
1
f X (x) = con x ∈ [a,b]
b−a
SOLUCIÓN:
La función de densidad de la variable carga será:
1 1
f X (x) = = con x ∈ [300,400]
400 − 300 100
IV.49
Capítulo IV: Variables Aleatorias
IV.4.- MOMENTOS
IV.4.1.- Concepto
∫x
ν
αν = ⋅ dFX ( x )
ℜ
[
μ ν = E ( X − α1 ) ν = ] ∫ ℜ
( x − α1 )ν ⋅ dFX ( x )
IV.4.2.- Propiedades
IV.50
Capítulo IV: Variables Aleatorias
[ ]
μ 2 = E ( x − α1 )2 = E( x 2 + α1 − 2 ⋅ x ⋅ α1 ) = α 2 + α12 − 2 ⋅ α12
2
μ2 = α 2 − α12
IV.5.- VARIANZA
IV.5.1.- Concepto
Al momento central de orden dos μ2, se le denomina varianza y también se le designa por σx2
y por D2(X).
σ2X = D2 ( X) = ∑ ( x i − μ X )2 ⋅ P( X = x i )
i
+∞
σ2X = D2 ( X) =
∫ −∞
( x − μ X )2 ⋅ fX ( x ) ⋅ dx
IV.5.2.- Propiedades
IV.51
Capítulo IV: Variables Aleatorias
al centro de gravedad son nulas y, por tanto, el momento de inercia también lo es:
D2 (k ) =
∫ (k − k ) ⋅ dFX ( x )
2
D 2 (k ) = 0
b) D2(k·X) = k2·D2(X)
En efecto, el valor medio de k·X es:
E(k·X) = k·E(X) = k·μX
Por lo tanto:
D2(k·X) = E[(k·X - k·μX)2] = E[k2·(X - μX)2] = k2·E[(X - μX)2]
es decir:
D2 (k ⋅ X) = k 2 ⋅ D2 ( X)
A la expresión:
E[( X1 − μ1 ) ⋅ ( X2 − μ 2 )]
IV.52
Capítulo IV: Variables Aleatorias
En general:
⎛ n ⎞ n n −1 n
D2 ⎜⎜ ∑ ai ⋅ Xi ⎟⎟ = ∑ ai2 ⋅ D2 ( Xi ) + 2 ⋅ ∑ ∑ ai ⋅ a j ⋅ cov( Xi , X j )
⎝ i =1 ⎠ i =1 i =1 i +1
es inmediato que:
Gráficamente:
g(X)
X
Ah
IV.53
Capítulo IV: Variables Aleatorias
E [g( x )] =
∫ g(x) ⋅ dF (x) ≥ ∫ g(x) ⋅ dF (x)
ℜ
X
Ah
X
En consecuencia:
E [g( X)]
P [g( X) ≥ h] ≤
h
[
P ( X − μ X )2 ≥ k 2 ⋅ σ2 ≤ ] σ2
k 2 ⋅ σ2
de donde:
[
P X − μX ≥ k ⋅ σ ≤ ] 1
k2
Estos parámetros indican por donde se encuentra situada la masa de probabilidad a lo largo
del eje de abscisas.
IV.54
Capítulo IV: Variables Aleatorias
fX(x) fX(x)
mediana mediana
IV.55
Capítulo IV: Variables Aleatorias
μ3
γ1 =
σ3
En una función de densidad unimodal con una rama larga a la derecha y otra corta a la
izquierda, los cubos de las desviaciones positivas respecto de la media serán mayores que los
cubos de las desviaciones negativas y, por tanto γ1 es positivo; en este caso diremos que la
asimetría es positiva. De forma análoga se define asimetría negativa.
En función de los valores que tome este parámetro, las distribucciones se clasifican en:
γ2<0 planicúrticas
γ2=0 mesocúrticas
γ2>0 leptocúrticas
IV.56
Capítulo IV: Variables Aleatorias
IV.57
CAPITULO V:
Principales Distribuciones Discretas
IV.58
Capítulo V: Principales Distribuciones Discretas
V.1.1.- Definición
es decir:
E( X) = p
V.1.3.- Varianza
La varianza de X se calculará:
[ ]
2
σ2X = E ( x − μ )2 = ∑ (x i − μ ) ⋅ PX (xi ) = (0 − p)2 ⋅ q + (1 − p)2 ⋅ p = p2 ⋅ q + q2 ⋅ p
2
i =1
es decir:
σ2X = p ⋅ q ⋅ (p + q) = p ⋅ q
por tanto:
D2 ( X) = p ⋅ q
σX = + p ⋅ q
V.2.1.- Definición
V.59
Capítulo V: Principales Distribuciones Discretas
por ser las repeticiones independientes. La misma probabilidad tendrá cualquier combinación
en la que el suceso A ocurra dos veces.
V.60
Capítulo V: Principales Distribuciones Discretas
sucesos Bi, cada uno de ellos con una probabilidad igual a pν⋅qn-ν, es decir:
⎛n⎞
P( X = ν ) = ⎜⎜ ⎟⎟ ⋅ pν ⋅ qn − ν
⎝ν⎠
PX(x)
0,3
0,2
0,1
0
0 1 2 3 4 5 6 7 8 9 10 X
Nótese que la suma de las probabilidades es 1, pues el desarrollo del binomio de Newton da,
precisamente, cada una de las probabilidades anteriores. Este hecho es el que da nombre a la
variable aleatoria binomial:
⎛n⎞
n
∑ ⎜⎜⎝ ν ⎟⎟⎠ p ⋅ q
ν =0
ν n−ν
= (p + q)n = 1n = 1
Ejemplo V.1:
En un almacén de repuestos se recibe un lote con miles de remaches de los que un 1% son
defectuosos.
a) ¿Cuál es la probabilidad de que al tomar al azar de ese lote una muestra de 50 remaches
contenga 2 remaches defectuosos?
c) Si aceptamos el lote solo cuando todos los remaches de la muestra son correctos ¿Cual
debería ser el número de remaches que debemos inspeccionar si pretendemos aceptar
con una probabilidad menor que 0.10 aquellos lotes que contengan un 5% de remaches
V.61
Capítulo V: Principales Distribuciones Discretas
defectuosos?
SOLUCIÓN:
⎛ 50 ⎞ ⎛ 50 ⎞ ⎛ 50 ⎞
Pa = ⎜⎜ ⎟⎟ ⋅ 0.010 ⋅ 0.99 50 + ⎜⎜ ⎟⎟ ⋅ 0.011 ⋅ 0.99 49 + ⎜⎜ ⎟⎟ ⋅ 0.012 ⋅ 0.99 48 = 0.980
⎝0 ⎠ ⎝1 ⎠ ⎝2⎠
operando obtenemos:
n≥45 remaches
V.2.3.- Media
Por ser X≡B(n,p) suma de n variables dicotómicas, Yi, su esperanza matemática será:
⎡n ⎤ n
E( X) = E ⎢∑ Yi ⎥ = ∑ E( Yi ) = n ⋅ p
⎣ i =1 ⎦ i =1
E( X) = n ⋅ p
V.2.4.- Varianza
V.62
Capítulo V: Principales Distribuciones Discretas
⎡n ⎤ n
D2 ( X) = D2 ⎢∑ Y i⎥ = ∑ D2 ( Yi )
⎣ i =1 ⎦ i =1
por lo tanto:
D2 ( X) = n ⋅ p ⋅ q
V.2.5.- Adición
Este teorema que fue publicado y demostrado (aunque de forma diferente a la que aquí se
expone) por primera vez por J. Bernouilli en su obra póstuma Ars Conjectandi en 1713, se
enuncia así:
V.63
Capítulo V: Principales Distribuciones Discretas
Teniendo en cuenta que el valor máximo de p·q es 1/4, puesto que si llamamos
z=p·q=p·(1-p)=p-p2
derivando z respecto de p e igualando a 0:
dz 1
= 1 − 2p = 0 ⇒ p=
dp 2
con
d2 z
= −2 < 0
dp2
entonces,
1
p⋅q ≤
4
Obtendremos que
[
P fr − p ≥ ε ≤ ] 1
4 ⋅ n ⋅ ε2
Para un ε ∈ ℜ+ se cumple que:
[
lim P fr − p ≥ ε = 0
n→∞
]
es decir:
f r ⎯⎯→
P
p
La interpretación práctica de este teorema es muy clara, pues establece que haciendo un
número suficientemente grande de repeticiones, es tan poco probable como queramos que
la frecuencia relativa con que ocurre el suceso A difiera de la probabilidad de A, en valor
absoluto, más de una cierta cantidad prefijada. Es decir que:
V.64
Capítulo V: Principales Distribuciones Discretas
Si hacemos
1
δ≥
4nε2
entonces
[
P fr − p ≥ ε ≤ δ ]
de donde obtenemos que
1
n≥
4 ⋅ δ ⋅ ε2
lo que permite calcular n, una vez fijado el error máximo ε que aceptamos cometer con una
probabilidad menor o igual que δ.
Por ejemplo, si deseamos que la probabilidad de cometer un error mayor que ε=0.1 sea de
δ≤0.01, tendremos que:
1
n≥ = 2500
4 ⋅ 0.01 ⋅ 0.12
V.4.1.- Definición
V.65
Capítulo V: Principales Distribuciones Discretas
n ⋅ (n − 1)...(n − ν + 1) ν
P( X = ν ) = ⋅ p ⋅ (1 − p)n − ν
ν!
tomando límites cuando n tiende a infinito y teniendo en cuenta que p tiende a cero (q→1)
e − λ ⋅ λν
lim P( X = ν ) =
n→∞ ν!
Luego si X es una variable de Poisson, X es discreta y toma los valores X = 0, 1, 2, 3, ... con
probabilidades:
e − λ ⋅ λν
P( X = ν ) =
ν!
obsérvese que:
∞ ∞
e − λ ⋅ λν ∞
λν
∑ P( X = ν ) = ∑ ν !
= e−λ ∑
ν!
= e − λ ⋅ eλ = 1
ν =0 ν =0 ν =0
PX(x)
0,3
0,2
0,1
0
0 1 2 3 4 5 6 7 8 9 10 X
Ejemplo V.2
El número de defectos de pintura en la carcasa de una lavadora puede asumirse que es una
variable aleatoria con distribución de Poisson de promedio λ=2 defectos/unidad.
V.66
Capítulo V: Principales Distribuciones Discretas
b) Para controlar la calidad del proceso de fabricación de las carcasas, se toma al azar una
de las carcasas fabricadas y se acepta que el proceso es correcto si en ella encontramos 2
o menos defectos. ¿Cuál es la probabilidad de aceptar como correcto con este control un
proceso en el que se producen, en promedio 5 defectos por unidad fabricada?
SOLUCIÓN:
b) En este caso, el número de defectos en cada carcasa será una variable con distribución
X=Ps(5) y la probabilidad de aceptar el proceso como correcto:
P ( aceptar) = P( Ps(5)≤2) = 0.125
V.4.3.- Media
dt
de donde:
⎡ dϕ X ( t ) ⎤
⎢ dt ⎥ = λ ⋅ i =α1·i
⎣ ⎦ t =0
por tanto:
E( X) = λ
V.4.4.- Varianza
dt 2 dt
e [
d2ϕ X (t ) d λ (eit −1)
= ⋅ λ ⋅ eit ⋅ i ]
d2ϕ X (t )
= eλ (e −1) ⋅ λ2 ⋅ e2it ⋅ i2 + λ ⋅ eit ⋅ i2 ⋅ eλ (e −1)
it it
2
dt
haciendo t=0:
V.67
Capítulo V: Principales Distribuciones Discretas
⎡ d2ϕ X ( t ) ⎤
⎢ 2
2
(
⎥ = λ + λ ⋅i
2
)
⎣ dt ⎦ t = 0
de donde :
α 2 = λ2 + λ
Como σ 2 = α 2 − α 12 , será:
σ2 = λ2 + λ − λ2 = λ
es decir:
D2 ( X ) = λ
V.4.5.- Adición
Por tanto:
V.5.1.- Definición
Supongamos que un lote contiene N piezas y que de ellas p·N=N1 son defectuosas y que
q·N=N2 son correctas. Lógicamente se cumple que p+q=1 y N1+N2=N. Extraigamos sin
reemplazamiento n piezas del lote de tal forma que todas las piezas tengan la misma
probabilidad de formar parte de las n piezas extraídas (n≤p·N y n≤q·N). Llamemos n1 a las
piezas defectuosas que hemos extraído y n2 a las piezas correctas. Lógicamente se cumple que
n1+n2=n. Pues bien, el número de piezas defectuosas n1 se distribuye según una variable
hipergeométrica.
Sea E una población finita cuyos elementos son de dos tipos: A y A . El número de
elementos de A que resultan al extraer al azar y sin reemplazamiento n elementos
de E, es una variable hipergeométrica y la designaremos por X≡H(N,n,p).
V.68
Capítulo V: Principales Distribuciones Discretas
éste será, por tanto, el número de posibles extracciones, todas ellas con la misma
probabilidad.
Teniendo en cuenta que N1=p·N, que N2=q·N, que n1+n2=n, y llamando ν=n1, si X≡H(N,n,p),
entonces:
⎛N ⋅ p ⎞ ⎛ N ⋅ q ⎞
⎜⎜ ⎟⋅⎜ ⎟
⎝ ν ⎟⎠ ⎜⎝ n − ν ⎟⎠
P( X = ν ) =
⎛ N⎞
⎜⎜ ⎟⎟
⎝n⎠
E( X) = n ⋅ p
V.69
Capítulo V: Principales Distribuciones Discretas
N−n
D2 ( X ) = n ⋅ p ⋅ q ⋅
N −1
V.5.3.- Convergencia
Cuando N es grande en comparación con n, después de extraer cada una de las n unidades, la
composición de población prácticamente no se modifica, y todo ocurre como si las
extracciones fueran con reemplazamiento y, por tanto, la variable X=H(N,n,p) pasa a ser
X=B(n,p). Más exactamente, la variable hipergeométrica converge en distribución a una
variable binomial cuando N crece manteniendo n y p constantes.
Ejemplo V-3
Calcular la probabilidad de obtener 4 aciertos al realizar una única apuesta en la loteria
primitiva.
SOLUCIÓN:
En la lotería primitiva existen N=49 números diferentes de los cuales Np=6 son premiados y
Nq=43 no lo son. Al realizar una apuesta se seleccionan (sin reemplazamiento) 6 números
diferentes. Con este planteamiento, el número de aciertos obtenidos en una apuesta es una
variable hipergeométrica X = H(49, 6, 6/49).
Entonces
⎛ 6 ⎞ ⎛ 43 ⎞
⎜⎜ ⎟⎟ ⋅ ⎜⎜ ⎟⎟
4 2
P(X = 4) = ⎝ ⎠ ⎝ ⎠ = 9.68 ⋅10 − 4
⎛ 49 ⎞
⎜⎜ ⎟⎟
⎝6 ⎠
V.6.1.- Definición
V.70
Capítulo V: Principales Distribuciones Discretas
La variable aleatoria X≡BN(r,p) toma el valor ν, si y sólo si en las ν-1 primeras repeticiones
el suceso A ocurre r-1 veces y en la repetición ν-ésima ocurre el suceso A. La probabilidad de
que en ν-1 repeticiones independientes ocurra r-1 veces el suceso A de probabilidad p es:
⎛ ν − 1⎞ r −1
⎜⎜ ⎟⎟ ⋅ p ⋅ (1 − p)ν −r
⎝ r − 1⎠
en consecuencia:
⎛ ν − 1⎞ r
P( X = ν ) = ⎜⎜ ⎟⎟ ⋅ p ⋅ (1 − p)ν − r
⎝ r − 1 ⎠
Por derivación de ϕX(t) respecto de t obtenemos los momentos respecto al origen de primero y
segundo orden. A partir de estos momentos obtenemos:
r
E( X) =
p
y
r⋅q
D2 ( X ) =
p2
Ejemplo V.4
En la centralita de teléfonos de una empresa se reciben, de modo aleatorio, un 20% de
llamadas del extranjero.
SOLUCIÓN:
V.71
Capítulo V: Principales Distribuciones Discretas
V.7.1.- Definición
En las variables estudiadas hasta ahora, se efectuaba una partición del Espacio Muestral E en
dos sucesos que denominábamos A y A . Bajo distintos supuestos (extracciones sin
reemplazamiento, repeticiones independientes, límite cuando n→∞ y p→0, etc), las diferentes
variables indicaban las veces que ocurría el suceso A.
Aunque la variable k-aria tiene k componentes (variables marginales), como se cumple que:
k
∑ Xi =1
i =1
Cada una de las variables marginales de una k-aria es una variable dicotómica de parámetro
pi .
V.72
Capítulo V: Principales Distribuciones Discretas
X2
(0,1) p2
p1
(1,0)
X1
k
ϕn (t1, t 2 ,...t k ,) = ∑ p j ⋅ e
it j
j =1
V.8.1.- Definición
V.73
Capítulo V: Principales Distribuciones Discretas
por tratarse de repeticiones independientes, las variables Yi son independientes entre sí.
Con el fin de fijar ideas, supongamos que k=3 y que n=6, es decir, que tenemos 3 sucesos A1,
A2 y A3, y hemos realizado 6 repeticiones del fenómeno aleatorio. Supongamos también que
se ha obtenido el siguiente suceso:
B= A1, A2, A1, A3, A1, A2
la probabilidad de este suceso es:
P(B) = p13 ⋅ p22 ⋅ p3
Ocurrirá 3 veces A1, 2 veces A2 y 1 vez A3, si ocurre cualquiera de los sucesos que se pueden
obtener del B mediante las permutaciones con repetición de 6 elementos de los que 3 son de
un tipo 2 de otro y 1 de otro. Todos ellos tienen la misma probabilidad, luego:
y en general:
k k
con ∑ νi = n y ∑ pi = 1 .
i =1 i =1
V.74
Capítulo V: Principales Distribuciones Discretas
Ejemplo V.5
Una línea de estampación de piezas metálicas trabaja con tres prensas diferentes cuya
producción se recoge en el mismo contenedor. La primera prensa A1, produce el 40% del
total de piezas, la segunda prensa A2, produce el 25% de las piezas y la tercera prensa A3, el
resto. Cuando el contenedor está lleno se seleccionan de forma aleatoria 6 piezas del mismo.
Calcular la probabilidad de que en la muestra se encuentren 2 piezas fabricadas por la
prensa A1, 3 piezas fabricadas por la prensa A2 y 1 fabricada por A3.
SOLUCIÓN:
V.75
Capítulo V: Principales Distribuciones Discretas
V.76
CAPITULO VI:
Principales distribuciones continuas.
V.77
Capítulo VI: Principales Distribuciones Continuas
VI.1.- INTRODUCCION
La variable aleatoria Normal (también conocida como variable de Gauss) es, sin duda, la
más importante de las variables aleatorias continuas, pues se usa eficazmente en el estudio de
numerosos fenómenos reales. Los errores de medidas de magnitudes físicas o astronómicas,
ciertas distribuciones demográficas, el consumo de energía eléctrica de una determinada
compañía, las características de calidad de numerosos productos industriales, los test de
inteligencia o de personalidad, los beneficios o pérdidas de una compañía de seguros, las
producciones agrícolas por unidad de superficie cultivada, etc. son algunos de los ejemplos en
los que la variable Normal ha sido utilizada con gran utilidad.
En 1733, De Moivre, en su Miscellanea Analytica, encontró por primera vez ésta variable en
relación con el teorema que lleva su nombre y que estudia la distribución límite de la variable
binomial. Mucho tiempo después fue redescubierta por Gauss al estudiar la teoría de los
errores en 1809. Laplace publicó en 1812 en su obra Theorie analytique des probabilites,
aunque de forma incompleta, por primera vez, el importante Teorema Central del Límite.
Bajo esta denominación, se engloban, actualmente, a una colección de teoremas cuyo objetivo
fundamental consiste en determinar las condiciones bajo las cuales una suma de variables
aleatorias converge en distribución a una variable Normal.
De forma simplificada y general, el Teorema Central del Límite, establece que cuando un
efecto es consecuencia de numerosas causas que actúan sumando sus efectos, de tal forma que
es poco probable que cualquiera de ellos tenga un efecto individual significativamente más
importante que el resto, aquel efecto sigue prácticamente una distribución Normal.
Al ser muchos los fenómenos reales que cumplen las condiciones enunciadas en el párrafo
anterior, el teorema central del límite, justifica la gran importancia científica y práctica de la
variable Normal.
VI.2.1.- Definición
2 ⋅π
a) Asíntotas:
lim fZ ( z ) = 0
z → −∞
y zlim fZ ( z ) = 0
→∞
VI.78
Capítulo VI: Principales Distribuciones Continuas
b) Simetría:
fZ(z)=fZ(-z)
c) Derivadas:
z2
−z −
fZ ( z)′ = e 2
2⋅π
fZ ( z )′′ =
−1
⋅e
−
z2
2
+
−z
⋅e
−
z2
2
⋅ (− z ) =
(z 2
−1 )⋅e −
z2
2
d) Máximos y mínimos:
f Z ( z )′ = 0 ↔ z = 0 ⎫
⎬ ⇒ máximo en z = 0
f Z (0)′′ < 0 ⎭
e) Crecimientos y decrecimientos:
{f Z (z)′ > 0 ↔ z < 0} ⇒ {creciente en z < 0}
{f Z (z)′ < 0 ↔ z > 0} ⇒ {decreciente en z > 0}
De todo lo anterior se deduce que la forma de la función de densidad de una variable Normal
Tipificada es la de la conocida campana de Gauss, que se representa en la figura VI.1.
fZ(z)
0 Z
VI.79
Capítulo VI: Principales Distribuciones Continuas
μ Z = E( Z ) = 0 y σ 2Z = D 2 ( Z ) = 1
En la tabla más usada se representan, para distintos valores de z, la probabilidad de que una
variable Normal Tipificada tome un valor menor o igual a ese z, es decir el valor de la función
de distribución FZ(z).
VI.2.6.- Nomenclatura
P( Z ≤ z) = φ( z )
Mediante zα designaremos el valor de una variable Normal Tipificada que a su derecha tiene,
bajo la función de densidad, un área igual a α, es decir, el valor de z que tiene una
probabilidad α de ser superado.
P(Z ≥ z α ) = α
fZ(z)
φ(z)
α
z 0 zα Z
VI.80
Capítulo VI: Principales Distribuciones Continuas
VI.3.1.- Definición
Teniendo en cuenta que entre Z y X existe una correspondencia biunívoca se cumple que:
fX ( x ) = fZ [z( x )] ⋅
dz
dx
como:
1 2
fZ ( z) = e− z 2
2⋅π
y
dz 1
=
dx a
entonces:
2
1 ⎡ x −b ⎤
− ⎢ ⎥
1 1
fX ( x ) = ⋅e 2⎣ a ⎦
⋅
2π a
Como:
E(X)=a.E(Z)+b=a·0+b=b
es:
μX=E(X)=b
y
D2(X)=a2·D2(Z)
de donde:
σ2X = a2 y σX = a
(x − μ X )2
−
1 2⋅σ 2X
fX ( x ) = e
σ X ⋅ 2π
que depende de los parámetros μX y σX, lo que justifica el que designemos e esta variable
mediante X≡N(μX, σX). Con el fin de simplificar la escritura, y siempre que no haya lugar a
confusión, designaremos por μ a μX y por σ a σX.
VI.81
Capítulo VI: Principales Distribuciones Continuas
VI.3.3.- Adición
Y ≡ N ⎛⎜ a ⋅ μ1 + b ⋅ μ 2 ; a2 ⋅ σ12 + b2 ⋅ σ22 ⎞⎟
⎝ ⎠
Para tabular la función de distribución de una variable Normal General, sería necesario
elaborar una tabla para cada par de valores reales μ y σ, lo que, además de imposible, sería
innecesario, pues a partir de la función de distribución de una Normal Tipificada es posible
deducir la de cualquier variable Normal General.
En efecto, sea X≡N(m,σ), por definición, la variable
X−μ
σ
es decir:
⎛ x−μ⎞
FX ( x ) = φ ⎜ ⎟
⎝ σ ⎠
Ejemplo VI.1
La distancia, expresada en cm, entre los centros de dos taladros realizados en una pieza
metálica es una variable aleatoria con distribución X≡N(5,0.1). Para que la pieza pueda ser
utilizada, la referida distancia debe estar comprendida entre 4.80 cm y 5.25 cm. Determinar
la proporción de piezas que no cumplen los requisitos de la especificación.
SOLUCIÓN:
No cumplirán los requisitos establecidos aquellas piezas en las que la distancia entre centros
sea menor que 4.80 cm o mayor que 5.25 cm. La proporción de piezas defectuosas obtenidas
coincidirá con:
p= P(X<4.80)+P(X>5.25)
Por ser X continua:
VI.82
Capítulo VI: Principales Distribuciones Continuas
p= P(X≤4.80)+P(X>5.25)= P(X≤4.80)+[1-P(X≤5.25)]
⎛ 4.80 − 5 ⎞ ⎛ 5.25 − 5 ⎞
p =φ⎜ ⎟ +1 − φ ⎜ ⎟ = 0.0228 + 1 − 0.9798 = 0.043
⎝ 0.1 ⎠ ⎝ 0.1 ⎠
Bajo esta denominación se engloban una serie de teoremas cuyo objetivo final consiste en
determinar las condiciones bajo las cuales una sucesión de variables aleatorias converge en
distribución a una variable Normal.
Tanto en este capítulo como en el anterior, hemos visto que, bajo determinadas condiciones,
unas variables tienden en distribución a otras. Para fines prácticos, sería conveniente conocer
cuándo la distribución de una variable aleatoria puede ser sustituida por la de otra sin que se
cometan errores importantes en el cálculo de probabilidades.
VI.83
Capítulo VI: Principales Distribuciones Continuas
⎧N ⎫
⎨ ≥ 10 ⎬ ⇒ { H(N, n, p) ≅ B(n, p)}
⎩ n ⎭
de donde:
( )
P( X ≤ a) ≅ P Z ⋅ npq + np ≤ a = P( Y ≤ a)
en la que Y, por ser una transformada lineal de una Normal Tipificada, es, a su vez, una
variable Normal de media np y desviación típica npq . Luego si n es grande, la
distribución de una variable Binomial puede ser aproximada por la de una variable
Normal. En concreto, si np≥18 la aproximación es aceptable.
{np ≥ 18} ⇒ { X ≡ B(n, p) ≅ N (np, npq )}
en la que Y, por ser una transformada lineal de una Normal Tipificada, es, a su vez, una
variable Normal de media λ y desviación típica λ . Luego si λ es grande, la distribución
de una variable de Poisson puede ser aproximada por la de una variable Normal. En
concreto, si λ≥18 la aproximación es aceptable.
VI.84
Capítulo VI: Principales Distribuciones Continuas
{ λ ≥ 18 } ⇒ { X ≡ PS(λ ) ≅ N ( λ, λ )}
En la figura VI.2, se resumen las aproximaciones expuestas en este apartado.
H(N,n,p)
N/n≥10
n≥50
p≤0.1
B(n,p) Ps(np)
Ps(λ)
n·p≥15
n·p≥15
N(np, npq )
λ≥15
N(λ, λ )
PX(x)
0,4
0,3
0,2
0,1
0
0 1 2 3 4 5 6 7 8 9 10 X
PX(x)
0,2
0,16
0,12
0,08
0,04
0
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 X
VI.85
Capítulo VI: Principales Distribuciones Continuas
PX(x)
0,15
0,12
0,09
0,06
0,03
0
0 1 2 3 4 5 6 7 8 9 10111213141516 171819 20 2122232425 X
La distribución que tiene una variable continua que toma valores en el intervalo
[a, b] con densidad de probabilidad constante en todos sus puntos, se denomina
distribución uniforme y se representa como X≡U[a,b].
Dado que su función de densidad es constante, fX(x)=c, puede calcularse a partir de:
∫ ∫ c ⋅ dx = 1
b
fX ( x ) ⋅ dx =
X a
de donde:
⎧ 1
⎪ para a ≤ x ≤ b
fX ( x ) = ⎨ b − a
⎪
⎩0 en el resto
fX(x) FX(x)
1
1/(b-a)
a b X a b X
VI.86
Capítulo VI: Principales Distribuciones Continuas
a+b (b − a)2
E( X) = D2 ( X) =
2 12
Ejemplo VI.2
De una estación de autobuses sale un vehículo cada 10 minutos. Si un viajero llega al punto
de salida en un momento al azar, calcular:
SOLUCIÓN:
El tiempo de espera del viajero puede modelizarse como una variable con distribución
uniforme entre 0 (cuando el viajero llega justo antes de la salida) y 10 minutos (cuando llega
justo después de la salida del último autobús), es decir, X=U[0,10].
FX ( x ) = 0 para x<0
∫
x
FX ( x ) = λ ⋅ e − λ ⋅ x ⋅ dx = 1 − e − λ ⋅ x para x≥0
0
VI.87
Capítulo VI: Principales Distribuciones Continuas
fX(x) FX(x)
1
X X
1 1
E( X) = D2 ( X) =
λ λ2
El tiempo medio hasta que se produce el fallo de un componente o un sistema complejo recibe
el nombre de MTTF (Mean Time To Failure) y vale 1/λ, donde λ es la tasa de fallos, si el
sistema es reparable, la media recibe el nombre de tiempo medio de buen funcionamiento
MTBF (Mean Time Between Failures) con el referido valor 1/λ.
Si establecemos que la fiabilidad de una componente para una misión de duración x=t
unidades de tiempo es la probabilidad de que la duración de dicha componente supere el
tiempo t, la expresión de dicha probabilidad será:
P( X > t ) = 1 − FX ( t ) = e − λ ⋅t con t≥0
En efecto:
P (X > t + s ∩ X > t ) P (X > t + s) e − λ ⋅( t + s )
P (X > t + s X > t ) = = = = e − λ ⋅s
P( X > t ) P( X > t ) e− λ⋅t
Luego
P (X > t + s X > t ) = P( X > s)
VI.88
Capítulo VI: Principales Distribuciones Continuas
Ejemplo VI.3
La duración de ciertas lámparas de incandescencia puede considerarse como una variable
exponencial de media 1000 horas de funcionamiento.
a) Calcular la probabilidad de que una lámpara nueva elegida al azar tenga una duración
superior a 500 horas.
b) Se elige al azar una lámpara que lleva 100 horas de funcionamiento. Calcular la
probabilidad de que funcione mas de 600 horas en total.
SOLUCIÓN:
La variable Normal es la variable aleatoria continua más importante. De ella derivan otras
variables aleatorias, como la Chi-cuadrado de Pearson (χ2), la F de Snedecor y la t de Student,
que se utilizarán en el muestreo en poblaciones Normales y que serán de uso frecuente y de
gran importancia en la Inferencia Estadística. Precisamente, en este capítulo se estudian
dichas Variables Derivadas de la Normal.
VI.7.1.1.- Definición
Para el estudio de la variable χ2, analizaremos, en los puntos que ahora nos son necesarios, a
la variable Gamma, G(λ, a).
VI.89
Capítulo VI: Principales Distribuciones Continuas
Definición
⎧ −λ x
⋅ (λ ⋅x )a − 1⋅ λ ⎫⎪
{ X ≡ G(λ, a) } ↔ ⎪⎨∀ x ≥ 0; fX ( x ) = e ⎬
⎪⎩ Γ(a)
⎭⎪
Función característica
−a
⎡ i⋅t⎤
ϕ X( t ) = ⎢1 − ⎥
⎣ λ⎦
Adición
de donde:
[ ] ∫ + x z2
1 −
FX ( x ) = P( X ≤ x ) = P( Z ≤ x ) = P − x ≤ Z ≤ x =
2
⋅e 2
⋅ dz
− x 2π
VI.90
Capítulo VI: Principales Distribuciones Continuas
−z2
∫
x
1
FX ( x ) = 2 ⋅ ⋅e 2
⋅ dz
0 2π
2 2 ⋅ Γ ( 21 )
que, por otra parte, es la función de densidad de una variable aleatoria Gamma de parámetros
λ=1/2 y a=1/2, es decir:
χ12 ≡ G ( 21 , 21 )
i =1 i =1
n
x −1
− ⎡x ⎤2 1
e 2
⋅⎢ ⎥ ⋅
e − λ ⋅ x ⋅ (λ ⋅x )a −1⋅ λ ⎣2⎦ 2
fχ 2 ( x ) = =
n Γ(a) Γ ( n2 )
es decir:
x n
− −1
e 2
⋅ x2
fχ 2 ( x ) = n
2 2 ⋅ Γ ( n2 )
n
Por ser χ n2 una Gamma de parámetros λ=½ y a=n/2, su función característica será:
n
−
⎡ i⋅t ⎤ 2
ϕχ 2 ( t ) = ⎢1 −
n
⎣ 1 / 2 ⎥⎦
VI.91
Capítulo VI: Principales Distribuciones Continuas
de donde:
ϕχ 2 ( t ) = [1 − 2 ⋅ i ⋅t ]
n
−
2
n
Mediante las derivadas primera y segunda de la función característica de una χn2 , podemos
calcular sus momentos respecto al origen y, a partir de éstos la media y la varianza.
dϕ χ 2 ( t )
⋅ (1 − 2 ⋅ i ⋅ t ) 2 ⋅ ( −2 ⋅i) = n ⋅ i ⋅ (1 − 2 ⋅ i ⋅ t ) 2
n n
− −1
n
− −1
n
=−
dt 2
E( χn2 ) = n
D2 (χn2 ) = 2 ⋅ n
La tabla de la χ2 más usada, contiene los valores χn2 ( α ) de la variable que teniendo n grados de
libertad, tienen una probabilidad α de ser superados. Es una tabla de doble entrada que, en
función de los parámetros n y α, nos proporciona χn2 ( α ) .
Para grados de libertad superiores a los máximos de la tabla (n>30), se puede utilizar una
aproximación basada en el hecho de que la transformada de una χn2 definida por:
2 ⋅ χn2 − 2 ⋅ n − 1
2 ⋅ χn2 − 2 ⋅ n − 1 ⎯⎯→
D
Z ≡ N(0,1)
de donde:
VI.92
Capítulo VI: Principales Distribuciones Continuas
P(χn2 ≤ a) = P ⎛⎜ 2 ⋅ χn2 ≤ 2 ⋅ a ⎞⎟
⎝ ⎠
por tanto
P(χn2 ≤ a) = P ⎛⎜ 2 ⋅ χn2 − 2 ⋅ n − 1 ≤ 2 ⋅ a − 2 ⋅ n − 1 ⎞⎟
⎝ ⎠
es decir:
(
P(χn2 ≤ a) ≈ P Z≤ 2 ⋅ a − 2 ⋅ n − 1 )
o lo que es lo mismo:
P(χn2 ≤ a) ≈ φ ( 2⋅a − 2⋅n −1 )
Por ejemplo, de las tablas de la χn2, se deduce que la P( χ30
2
≤20.599)=0.10. Utilizando la
aproximación, obtenemos:
P( χ30
2
≤ 20.599)≅ φ ( 2 ⋅ 20.599 − )
59 = φ( −1.2627 ) = 0.1038
VI.7.2.1.- Definición
En la tabla de más frecuente uso, se recogen para n1 grados de libertad del numerador y para
n2 grados de libertad del denominador, los valores de Fn1, n2 que tienen una probabilidad de
0.05 o de 0.01 de ser superados, lo que será representado mediante:
[
P Fn1, n 2 ≥ Fn(1α,) n 2 = α ]
para α=0.05 y α =0.01. Así, por ejemplo F4,10
0.01
= 5.99 .
VI.93
Capítulo VI: Principales Distribuciones Continuas
Puesto que el inverso de una F es otra F, es posible deducir determinadas probabilidades que
no están en la tabla a partir de otros valores que si lo están. En efecto:
⎛ χn2 / n1 ⎞ ⎛ χn2 / n2 1 ⎞
( )
P Fn1, n 2 ≤ a = P ⎜ 2 1
⎜ χ n / n2
≤ a ⎟ = P ⎜ 22
⎟
⎛ 1⎞
≤ ⎟ = P ⎜ Fn 2 , n 1 ≥ ⎟
⎜ χn / n1 a ⎟
⎝ 2 ⎠ ⎝ 1 ⎠ ⎝ a ⎠
es decir:
( ⎛
) 1⎞
P Fn1, n 2 ≤ a = P ⎜ Fn 2 , n1 ≥ ⎟
⎝ a ⎠
Por ejemplo,
⎛ 1 ⎞
P(F10,4 ≤ 0.1669) = P ⎜ F4,10 ≥ ⎟ = P(F4,10 ≥ 5.99) = 0.01
⎝ 0.1669 ⎠
VI.7.4.1.- Definición
La función de densidad de una tn tiene una representación gráfica muy similar a una Normal
Tipificada, tiene forma de campana y es simétrica respecto al origen.
es decir:
+ x
∫ ∫
x
FX ( x ) = ft ( t) ⋅ d t = 2 ⋅ ft ( t) ⋅ dt
− x 0
VI.94
Capítulo VI: Principales Distribuciones Continuas
fX ( x ) =
dFX ( x )
dx
= 2 ⋅ ft ( x )⋅ 2 ⋅ 1 x
como t2 = x
1
fX ( t 2 ) = ft ( t) ⋅
t
luego:
ft ( t) = t ⋅ fX ( t 2 )
β ( 21 , n2 ) ⋅(n + y ) 2
β ( 21 , n2 ) ⋅ n + t 2 2
es decir:
nn / 2
ft n ( t ) =
( )
n +1
β ( 21 , n2 ) ⋅ n + t 2 2
Γ (n2+1 )
−
⎛ t2 ⎞ 2
ft n ( t) = ⎜⎜1+ ⎟⎟ ⋅
⎝ n⎠ Γ ( n2 ) ⋅ π ⋅ n
VI.7.3.3.- Media y Varianza
La varianza de tn, que solo existe para n>2, es mayor que la unidad. La variable tn presenta,
por tanto, una distribución más “abierta” (dispersa) que la Normal Tipificada.
VI.95
Capítulo VI: Principales Distribuciones Continuas
Las tablas de la t de Student más usadas son aquellas en las que dados los grados de libertad n
y la probabilidad α, determinan el valor de t(nα / 2 ) , es decir, el valor de tn tal que:
( )
P t n ≤ t (nα/2) = P(-t(nα/2) ≤ t n ≤ t (nα / 2 ) ) = 1 − α
entonces:
P(F1,n ≥ F1,( αn) ) = P( t n ≥ F1,( αn) ) = α
por tanto:
VI.96
Capítulo VI: Principales Distribuciones Continuas
VI.97
Capítulo IV: Variables Aleatorias
CAPITULO VII:
Variables Aleatorias Bidimensionales
IV.98
MÉTODOS ESTADÍSTICOS I
VII.1.- DEFINICIÓN
X2
Iab
a
X1
Dado el espacio de Probabilidades (E, F, P), diremos que la aplicación X:E→ℜ2 es una
variable bidimensional si para todo intervalo I x1x 2 su original pertenece a F.
{X : E → ℜ 2
} {
es v.a. bi dim ensional ↔ ∀ (x1, x 2 ) ∈ ℜ2 ; O(Ix1x 2 ) ∈ F }
VII.2.1.- Definición
VII.2.2.- Propiedades
VII.99
MÉTODOS ESTADÍSTICOS I
e) Continuidad:
FX1X 2 ( x1, x 2 ) es continua por la derecha de x1 y de x2 y en puntos de probabilidad no nula
es discontinua por la izquierda de x1 o de x2.
X2
b2
a2
a1 b1
X1
Las variables continuas, se caracterizan por tener su masa de probabilidad distribuida según
una función de densidad fXY(x,y), de tal forma que:
∫ ∫
x y
FXY ( x, y ) = fXY ( x, y ) ⋅ dx ⋅ dy
−∞ −∞
VII.100
MÉTODOS ESTADÍSTICOS I
o lo que es equivalente:
δ2FXY ( x, y )
fXY ( x, y ) =
δx δy
Es fácil ver que fXY(x,y) es una función de densidad, es decir, representa la masa de
probabilidad en un punto por unidad de superficie.
δ2F P[(x, y ) ∈ A ]
fXY ( x, y ) = = lim
δxδy Δy →0 Δx ⋅ Δy
Δx → 0
Y
Δx
b2
A Δy
a2
a1 b1
X
Por tanto, fXY(x,y) es el límite de la masa de probabilidad por unidad de superficie cuando
ésta superficie tiende a cero, es decir, la densidad de probabilidad en un punto.
∫ ∫
b1 b2
P(a1 ≤ X ≤ b1, a2 ≤ Y ≤ b2 ) = fXY ( x, y ) ⋅ dx ⋅ dy
a1 a2
Supongamos que la variable bidimensional (X,Y) hace corresponder a cada individuo de una
población su peso (X) y su estatura (Y). El peso y la estatura por separado son, a su vez,
variables aleatorias y, como tales, tienen su propia función de distribución y sus respectivas
funciones de densidad. A estas variables, por separado, se les llama variables marginales de la
bidimensional.
VII.101
MÉTODOS ESTADÍSTICOS I
x
X
Por tanto:
FX ( x ) = P( X ≤ x ) = P( X ≤ x, Y < ∞ ) = lim FXY ( x, y )
y →∞
b) Por las mismas razones que las expuestas en el punto a), se cumple que:
+∞
∫ ∫
x
FX ( x ) = du ⋅ f (u, v ) ⋅ dv
−∞ −∞
∫ ∫
d
fX ( x ) = FX ( x ) = f ( x, v ) ⋅ dv = f ( x, y ) ⋅ dy
dx −∞ −∞
En la figura VII.5 se recogen las relaciones existentes entre las funciones de distribución y las
funciones de densidad unidimensionales y bidimensionales.
∫ ∫
x y
dx f X ( x, y ) ⋅ dy
−∞ −∞
δx ⋅ δy
+∞ +∞
∫ ∫ ∫
lim FXY ( x, y ) x
y →∞ dx f X ( x, y ) ⋅ dy f X ( x, y ) ⋅ dy
−∞ −∞ −∞
∫
x
f X ( x ) ⋅ dx
−∞
FX (x) fX (x)
dFX ( x )
dx
VII.102
MÉTODOS ESTADÍSTICOS I
Una distribución marginal se obtiene al considerar la distribución de una de las dos variables
de una variable bidimensional, ignorando la otra. Si consideramos la distribución de estatura
ignorando a la variable peso, es decir, sea cual sea el peso, obtendremos la distribución
marginal de la estatura.
Si, por el contrario, consideramos la distribución de la variable estatura para los individuos de
un peso determinado obtendremos la distribución condicional de la estatura para ese peso.
VII.5.1. Definición
x x+h
X
a) Ambas continuas:
En este caso, la ecuación general se escribirá:
x +h
∫ ∫
x
dy fXY ( x, y ) ⋅ dx
−∞
( y / x ) = lim
x
FY / X x +h
∫
h →0
fX ( x ) ⋅ dx
x
VII.103
MÉTODOS ESTADÍSTICOS I
x +h
∫ x
fXY ( x, y ) ⋅ dx = fXY (ξ, y ) ⋅ h
y
x +h
∫ x
fX ( x ) ⋅ dx = fX (ξ′) ⋅ h
en las que ξ y ξ′ son valores del intervalo [x,x+h] como muestra la figura VII.7.
f X(ξ’)
x ξ’ x+h X
Figura VII.7.
Será:
∫f
y
XY (ξ, y ) ⋅ dy
−∞
FY / X ( y / x ) = lim
h→0 fX (ξ′)
∫
y
f XY ( x, y ) ⋅ dy
−∞
FY / X (y / x) =
fX ( x )
b) Ambas discretas:
Para los puntos en los que PX(x)≠0, la ecuación general ahora se escribirá:
P( X = x ∩ Y ≤ y )
∑ PXY ( x, yi ) ∑ PY ( yi ) ⋅ PX / Y ( x / yi )
yi ≤ y yi ≤ y
FY / X ( y / x ) = = =
P( X = x ) PX ( x ) PX ( x )
VII.104
MÉTODOS ESTADÍSTICOS I
⎡ ⎤
∫f
y
( x, y )dy ⎥
dFY / X ( y / x ) d ⎢ −∞
XY
fY / X ( y / x ) = = ⎢ ⎥
dy dy ⎢ fX ( x ) ⎥
⎢⎣ ⎥⎦
de donde:
fXY(x, y) fY (y) ⋅ fX / Y (x / y)
fY / X (y / x) = =
fX (x) fX (x)
Como, por otra parte, era lógico obtener, pues basta con aplicar la definición de
probabilidad condicional.
f X ( x ) ⋅ fY / X ( y / x )
fX / Y ( x / y ) = +∞
∫ f ( x) ⋅ f
−∞
X Y/X ( y / x ) ⋅dx
b) Ambas discretas:
PX ( x) ⋅ PY / X ( y / x)
PX / Y ( x / y) =
∑ PX (xi ) ⋅ PY / X (y / xi )
xi
Ejemplo VII.1:
Sea Y una variable beta de parámetros a, b (Y≡ BT(a,b)). Esta variable es continua, su campo
de existencia está entre [0,1] y su función de densidad es:
y a −1 ⋅ (1 − y )b −1
fY ( y ) = ∀ y ∈ [0 ,1]
β ( a, b )
VII.105
MÉTODOS ESTADÍSTICOS I
1
β (a, b ) =
∫ 0
x a −1 ⋅ (1 − x)b −1 ⋅ dx con a>0 y b>0
Sea X/Y una variable binomial de parámetros n, y (X/Y≡ B(n,y)). Esta variable, que será
estudiada en un tema posterior, es discreta, toma valores naturales entre cero y n y su ley de
probabilidad es:
⎛n⎞
PX / Y ( x / y ) = ⎜⎜ ⎟⎟ ⋅ y x ⋅ (1 − y )n − x
⎝x⎠
Entonces, la variable Y/X será continua para cada X que toma valores discretos. En
consecuencia:
fY ( y ) ⋅ PX / Y ( x / y )
fY / X ( y / x ) = 1
∫ f (y )⋅P
0
Y X /Y ( x / y )⋅ dy
Sustituyendo:
y a −1 ⋅ (1 − y )b −1 ⎛n⎞
⋅ ⎜⎜ ⎟⎟ ⋅ y x ⋅ (1 − y )n − x
β ( a, b ) ⎝x⎠
fY / X ( y / x ) = 1
y a −1 ⋅ (1 − y )b −1 ⎛n⎞
∫ 0 β ( a, b )
⋅ ⎜⎜ ⎟⎟ ⋅ y x ⋅ (1 − y )n − x ⋅ dy
⎝x⎠
de donde:
y a + x −1 ⋅ (1 − y )b + n + x −1
fY / X ( y / x ) =
β ( a + x, b + n − x )
es decir:
Y/X ≡ BT(a+x, b+n-x)
Dada la variable bidimensional (X,Y) diremos que las variables marginales X e Y son
independientes, si para todo (x,y) ∈ ℜ2, los sucesos IX=]-∞,x] e IY=]-∞,y] son independientes,
es decir:
P(X≤x,Y≤y)=P(X≤x)·P(Y≤y)
Por tanto:
X e Y son independientes ↔ ∀ ( x, y ) ∈ ℜ2 ; F( x, y ) = FX ( x ) ⋅ FY ( y )
VII.106
MÉTODOS ESTADÍSTICOS I
δ2FXY ( x, y )
fXY ( x, y ) = = f X ( x ) ⋅ fY ( y )
δx ⋅ δy
por tanto:
Conclusiones análogas pueden obtenerse para los demás tipos de variables condicionadas.
VII.7.- MOMENTOS
Se denomina momento respecto al origen de orden u, v de la variable bidimensional, a:
(
αu,v = E X1u , X2v = ) ∫ ℜ 2
x1u ⋅ x 2v ⋅ dFX1X 2 (x1, x 2 )
αu,v =
∫∫ ℜ
x1u ⋅ x 2v ⋅ fX1X 2 ( x1, x 2 ) ⋅ dx1 ⋅ dx 2
como:
αu,0 =
∫ ℜ2
x1u ⋅ dFX1X 2 (x1, x 2 )
αu,0 =
∫x ⋅ dFX1 (x1 ) = αu
u
1
ℜ
análogamente:
α0,v=αv
en particular:
α1,0=μ1
α0,1=μ2
VII.107
MÉTODOS ESTADÍSTICOS I
[
μu,v = E (X1 − μ1 ) ⋅ (X2 − μ 2 )
u v
]
Como en el caso anterior, se cumple:
μu,0=μu
μ0,v=μv
en particular:
μ1,0=μ0,1=0
Los momentos de segundo orden (u+v=2), son:
μ 2,0 = σ12 μ 0,2 = σ22 μ1,1 = cov( X1, X2 )
VII.8.2.- Propiedades
VII.108
MÉTODOS ESTADÍSTICOS I
VII.9.2.- Propiedades
por lo tanto:
−1 ≤ ρ ≤ 1
{ Si X1 y X2 son independientes} ⇒ {ρ = 0 }
c) Si existe una relación lineal exacta entre las variables aleatorias X1 y X2, es decir, si la
masa de probabilidad se encuentra concentrada en una recta, el rango de la matriz de
varianzas-covarianzas vale 1 y por tanto su determinante es nulo y, entonces
σ12·σ22=cov2(X1,X2) con lo que ρ2=1 y ρ=±1
{ Si X2 = α + β ⋅ X1 } ⇒ { ρ = ±1 }
VII.10.- REGRESIÓN
Uno de los problemas que se plantan en numerosas aplicaciones prácticas es el de predecir los
valores de una variable X2 en función de los valores que tome otra variable X1 con la que se
distribuye conjuntamente.
El objeto de este apartado será obtener la “mejor” función de predicción de acuerdo con un
cierto criterio. En este caso, el criterio será minimizar el valor medio del cuadrado de los
errores de predicción. Por lo tanto, trataremos de encontrar una función h(X1) que permita
obtener valores aproximados de X2 de modo que sea mínimo el valor medio anteriormente
expresado.
VII.109
MÉTODOS ESTADÍSTICOS I
Si h(X1) no está sujeta a ninguna restricción (salvo que sea uniforme) se le denominará curva
de regresión condicional.
Si h(X1) está sujeta a la restricción de ser una recta, se le denominará recta de regresión lineal
minimo cuadrática.
Si h(X1) es una función uniforme de X1, la variable aleatoria [X2- h(X1)]2 representa el “error”
al cuadrado que se comete al tratar de predecir el valor de X2 mediante el conocimiento de X1
y utilizando para ello la función h(X1).
El objeto de la regresión condicional consiste en determinar h(X1) de tal forma que el valor
medio del “error cuadrático” sea mínimo.
[
E (X2 − h( X1 ))
2
] =∫ ℜ2
(x 2 − h( x1))2 ⋅ dFX X 1 2
( x 2 , x1 )
[
E (X2 − h( X1 )) =
2
] ∫ ℜ
dFX1 ( x1 ) ⋅
∫ ℜ
(x 2 − h( x1))2 ⋅ dFX 2 / X1 ( x 2 / x1 )
∫ ℜ
(x 2 − h( x1))2 ⋅ dFX 2 / X1 ( x 2 / x1 )
en la que x1 y, por tanto, h(x1) son constantes. Calcularemos h(x1) derivando la última integral
respecto a h(x1) e igualando a cero: según una de las propiedades de la integral de Stieljes, se
cumplirá que:
∫ ℜ
h( x1 ) ⋅ dFX1X 2 ( x 2 / x1 ) =
∫ ℜ
x 2 ⋅ dFX1X 2 ( x 2 / x1 )
es decir:
h( x1 ) = E( X2 / x1 )
Por tanto:
Llamaremos curva de regresión condicional de X2 sobre X1 al lugar geométrico
de los valores medios condicionales de la variable X2 dado el valor de X1.
VII.10.2.1.- Definición
VII.110
MÉTODOS ESTADÍSTICOS I
r
Sea X = ( X1, X2 ) una variable aleatoria bidimensional. Se llama recta de regresión mínimo
cuadrática de X2/x1 a la recta
x̂ 2 = α + β ⋅ x1
que minimiza la expresión:
(
⎢⎣
2
)
E ⎡ X2 − X̂2 ⎤
⎥⎦
en la que
X̂ 2 = α + β ⋅ X1
es decir:
= E [− 2 ⋅ (X2 − α − β ⋅ X1 )]
dz
dα
Despejando μ2:
μ2=α+β·μ1
lo que indica que el punto (μ1, μ2) satisface las condiciones de la recta, es decir, que la r.r.m.c.
pasa por el punto medio de la distribución de (X1, X2).
VII.111
MÉTODOS ESTADÍSTICOS I
dz
dβ
[ (
= E − 2 ⋅ ( X1 − μ1 ) ⋅ ( X2 − μ 2 ) − β ⋅ ( X1 − μ1 )2 )]= 0
tomando la esperanza matemática:
cov (X1, X2 ) − β ⋅ σ12 = 0
por tanto:
cov (X1, X2 )
β=
σ12
cov (X1, X 2 )
X̂ 2 − μ 2 = ⋅ (X1 − μ1 )
σ12
por lo que si ρ=0 entonces β=0 y la recta de regresión mínimo cuadrática coincide con
X̂2 = μ 2
Ejemplo VII.3
La variable aleatoria (X,Y) se distribuye con densidad uniforme en el interior del recinto
delimitado por las rectas:
y=0
x=0
y=1
x+y=2
Calcular:
a) La curva de regresión condicional de X/Y y de Y/X
b) La recta de regresión mínimo cuadrática de Y/X y de X/Y
c) El coeficiente de correlación ρ
SOLUCIÓN:
VII.112
MÉTODOS ESTADÍSTICOS I
X̂ = E(X/Y) =
∫ x ⋅f
X
X/Y (x/y) ⋅ dx
y la c.r.c. de Y/X:
Ŷ = E(Y/X) =
∫ y ⋅f
Y
Y/X (y/x) ⋅ dy
Dado que la variable tiene densidad uniforme en el recinto A de la figura VII.10, la función
de densidad conjunta será:
1 1 2
f XY (x, y) = = =
Area A 3/2 3
1 2 X
⎪⎪ ∫ 2/3 ⋅ dy =
f X (x) = ∫ f XY (x, y) ⋅ dy = ⎨ 3
0
2− x 2
⎪
∫ ∀ x ∈ [1,2 ]
Y
2/3 ⋅ dy = ⋅ (2 − x)
⎪⎩ 0 3
2−y
2
∀ y ∈ [0,1]
fY (y) =
∫ X
f XY (x, y) ⋅ dx =
∫ 2/3 ⋅ dy = 3 ⋅ (2 − y)
0
⎧ 2/3
⎪⎪ 2/3 = 1 ∀ x ∈ [0,1] , ∀ y ∈ [0,1]
fY/X (y/x) = ⎨
2/3 1
⎪ = ∀ x ∈ [1,2 ] , ∀ y ∈ [0, 2 − x ]
⎪⎩ 2/3 ⋅ (2 − x) 2 − x
VII.113
MÉTODOS ESTADÍSTICOS I
1 2 X
y la c.r.c. de Y/X es
⎧ 1
1
∀ x ∈ [0,1]
⎪⎪
Yˆ = E [Y/X ] = ⎨
∫ y ⋅1 ⋅ dy = 2
0
2−x
2−x
∀ x ∈ [1,2 ]
⎪
⎪⎩ ∫ y ⋅ ⋅ dy = 2
1
1
2−x
1 2 X
+∞ 1 2
7
μ X = E(X) =
∫ x ⋅ f X (x) ⋅ dx =
−∞ ∫ 0
x ⋅ 2/3 ⋅ dx +
∫ x ⋅ 2/3 ⋅ (2 - x) ⋅ dx = 9
1
2−y
1
4 7 13
cov(X,Y) = E(X ⋅ Y) − E(X) ⋅ E(Y) =
∫ ∫ x ⋅ y ⋅ 2/3 ⋅ dx ⋅ dy − 9 ⋅ 9 = − 324
0 0
2
1 2
⎛7 ⎞ 37
σ X2 = D 2 (X) = E(X 2 ) − E 2 (X) =
∫ 0
x 2 ⋅ 2/3 ⋅ dx +
∫
1
x 2 ⋅ 2/3 ⋅ (2 − x) ⋅ dx − ⎜ ⎟ =
9
⎝ ⎠ 162
sustituyendo:
VII.114
MÉTODOS ESTADÍSTICOS I
4 13 ⎛ 7⎞
Ŷ − =− ⋅⎜ X − ⎟
9 74 ⎝ 9⎠
donde
2
1
⎛4 ⎞ 13
σY2 = D 2 (Y) = E(Y 2 ) − E 2 (Y) =
∫ 0
x 2 ⋅ 2/3 ⋅ (2 - y) ⋅ dx − ⎜ ⎟ =
⎝9 ⎠ 162
sustituyendo:
7 1 ⎛ 4⎞
X̂ − = − ⋅ ⎜Y − ⎟
9 2 ⎝ 9⎠
c) El coeficiente de correlación es
cov(X,Y) 13/324
ρ= =− = −0.296
σ X ⋅ σY 37/162 ⋅13/162
Los conceptos expuestos en los apartados anteriores, son fácilmente generalizables para
variables de más de dos dimensiones.
Así, si designamos por I x1,x 2 ,...,x n al intervalo de la forma X1≤x1, X2≤x2, ..., Xn≤xn, y dado un
Espacio de Probabilidades (E, F, P), diremos que la aplicación X:E→ℜn es una variable
aleatoria n-dimensional si para todo intervalo I x1,x 2 ,...,x n su antiimagen O(I x1,x 2 ,...,x n ) pertenece
a F.
cuyas propiedades son una fácil generalización de las expuestas en una y dos dimensiones.
Para las variables continuas se define a la función de densidad como aquella función que
satisface a la condición:
∫ ∫ ∫
x1 x2 xn
F( x1, x 2 ,..., xn ) = L f ( x1, x 2 ,..., xn ) ⋅dx1 ⋅dx 2 ⋅ L ⋅ dx n
−∞ −∞ −∞
VII.115
MÉTODOS ESTADÍSTICOS I
VII.116
MÉTODOS ESTADÍSTICOS I
VII.117
CAPITULO VII:
Variable Aleatoria Normal
Bidimensional
Capítulo V: Variables Aleatorias Unidimensionales
f XY ( x , y) ≥ 0 ∀i
∞ ∞
∫ ∫f
−∞−∞
XY ( x, y)dxdy = 1
Supongamos que la variable bidimensional (X,Y) hace corresponder a cada individuo de una
población su peso (X) y su estatura (Y). El peso y la estatura por separado son, a su vez,
variables aleatorias y, como tales, tienen su propia función de distribución y sus respectivas
funciones de densidad. A estas variables, por separado, se les llama variables marginales de la
bidimensional.
VII.119
Capítulo V: Variables Aleatorias Unidimensionales
x
X
Por tanto:
FX ( x ) = P( X ≤ x ) = P( X ≤ x, Y < ∞ ) = lim FXY ( x, y )
y →∞
∫ ∫
x
FX ( x ) = du ⋅ f (u, v ) ⋅ dv
−∞ −∞
∫ ∫
d
fX ( x ) = FX ( x ) = f ( x, v ) ⋅ dv = f ( x, y ) ⋅ dy
dx −∞ −∞
es:
x12 + x22
1 −
f ( x 1, x 2 ) = e 2
2π
pues bien:
VII.120
Capítulo V: Variables Aleatorias Unidimensionales
r r r
La representaremos mediante X ≡ N(0, I), en la que 0 = (0,0)' e I es la matriz unidad.
r r
Sea A una matriz 2x2 regular ( A ≠ 0), b un vector columna 2x1 y X una variable aleatoria
r r
Normal Bidimensional Tipificada ( X ≡ N(0, I)).
r r r
A la variable bidimensional Y = AX + b la denominaremos variable Normal Bidimensional
General.
La variable Normal Bidimensional General es una transformada lineal
regular ( A ≠ 0) de una variable aleatoria Normal Bidimensional
Tipificada.
r r r r r r
Si Y = AX + b con, es X = A −1 ( Y − b) y existe, por tanto, correspondencia biunívoca
r r
entre los valores de X y de los de. Para calcular la función de densidad de Y conocida la de,
podremos utilizar la fórmula del Jacobiano para el cambio de variable, es decir:
⎡x ,x ⎤
f y ( y 1, y 2 ) = f x ( x1, x 2 ) • J⎢ 1 2 ⎥
⎣ y 1, y 2 ⎦
r r r
como X = A −1 ( Y − b) es:
⎡x ,x ⎤
J⎢ 1 2 ⎥ = A −1
⎣ y 1, y 2 ⎦
como:
x12 + x22
1 −
f ( x 1, x 2 ) = e 2
2π
es:
VII.121
Capítulo V: Variables Aleatorias Unidimensionales
x' x
1 −
f ( x 1, x 2 ) = e 2
2π
[ ] [ ]
r r r r rr rr
Vy = E ( Y − m y )( Y − m y )' = E AXX ' A ' = AE( XX ' )A ' = AA '
y
2
Vy = A
de donde:
1/ 2
A = Vy
por tanto:
1 r r r r
r 1 − ( y − m y )' Vy−1( y − m y )
f y ( y) = 1/ 2
e 2
2 • π • Yy
como:
⎡ σ 2, σ 12,2 ⎤
V = ⎢ 211 2 ⎥
⎢⎣σ 2,1 σ 2,2 ⎥⎦
es:
Vy = σ 12 • σ 22 • (1 − ρ 2 )
y es:
⎡ 1 ρ ⎤
⎢ −
1 ⎢ σ 12 σ 1 • σ 2 ⎥⎥
Vy−1 =
1 − ρ 2 ⎢− ρ 1 ⎥
⎢ σ •σ ⎥
⎣ 1 2 σ12
⎦
VII.122
Capítulo V: Variables Aleatorias Unidimensionales
y calculando:
( y − m y )' Vy−1 ( y − m y )
se obtiene:
1 r r r r
1 − ( y − m y )' Vy−1( y − m y )
f y ( y) = e 2
2πσ 1σ 2 1 − ρ 2
en la que:
1 ⎡ ( y 1 − m1 ) 2 ( y 1 − m 1 )( y 2 − m 2 ) ( y 2 − m 2 ) 2 ⎤
( y − m y )' Vy−1 ( y − m y ) = ⎢ 2ρ + ⎥
1 − ρ 2 ⎢⎣ σ 12 σ1 • σ 2 σ 22 ⎥⎦
TEOREMA
en efecto, como:
ϕ Y1 ( t) = ϕ Y1Y2 ( t,0)
y es:
⎡t⎤
[m1, m 2 ]⎢0⎥ = m1t
⎣ ⎦
y
⎡σ 2 σ 12,2 ⎤ ⎡ t ⎤ ⎡ σ 11
2
, t
⎤
[ t,0]⎢σ 211, ⎥ ⎢
σ 2,2 ⎥⎦ ⎣0 ⎦
⎥ = [ t,0 ]⎢ ⎥ = σ 11
2
, t = σ1 • t
2 2 2
entonces:
1
im1t − σ12 • t 2
ϕ Y1 ( t) = e 2
que es la función característica de una variable Normal de media m1 y varianza. Por tanto:
r r
Y ≡ N(m, V ) ⇒ Y1 ≡ N(m 1, σ 1 )
VII.123
Capítulo V: Variables Aleatorias Unidimensionales
Si, por ejemplo, se considera una variable aleatoria normal bidimensional tipificada como
D2(X1)=D2(X2)=1
y, por ser X1 y X2 independientes es:
cov(X1,X2)=0
VII.124
Capítulo V: Variables Aleatorias Unidimensionales
VII.4.1.- Definición
VII.4.2.- Propiedades
{ Si X1 y X2 son independientes} ⇒ {ρ = 0 }
f) Si existe una relación lineal exacta entre las variables aleatorias X1 y X2, es decir, si la
masa de probabilidad se encuentra concentrada en una recta, el rango de la matriz de
varianzas-covarianzas vale 1 y por tanto su determinante es nulo y, entonces
σ12·σ22=cov2(X1,X2) con lo que ρ2=1 y ρ=±1
{ Si X2 = α + β ⋅ X1 } ⇒ { ρ = ±1 }
Dada la variable bidimensional (X,Y) diremos que las variables marginales X e Y son
independientes, si para todo (x,y) ∈ ℜ2, los sucesos IX=]-∞,x] e IY=]-∞,y] son independientes,
es decir:
VII.125
Capítulo V: Variables Aleatorias Unidimensionales
P(X≤x,Y≤y)=P(X≤x)·P(Y≤y)
Por tanto:
X e Y son independientes ↔ ∀ ( x, y ) ∈ ℜ2 ; F( x, y ) = FX ( x ) ⋅ FY ( y )
TEOREMA
En general, el recíproco no es cierto. Para darse cuenta de ello, basta con comprobar
que las variables marginales de la variable aleatoria bidimensional uniforme en un círculo de
centro en el origen de coordenadas, son incorrelacionadas pero no independientes. Sin
embargo, en el caso particular de variables Normales, la incorrelación implica la
independencia y, por tanto, incorrelación e independencia son términos equivalentes.
1 ⎡ ( y 1 − m1 ) 2 ( y 1 − m 1 )( y 2 − m 2 ) ( y 2 − m 2 ) 2 ⎤
( y − m)' V −1 ( y − m) = ⎢ − 2ρ + ⎥
1 − ρ 2 ⎢⎣ σ 12 σ1 • σ 2 σ 22 ⎥⎦
es decir:
VII.126
Capítulo V: Variables Aleatorias Unidimensionales
f ( y 1, y 2 ) = f y 1 ( y 1 ) • f y 2 ( y 2 )
en efecto, como:
ϕ Y1 ( t) = ϕ Y1Y2 ( t,0)
y es:
⎡t⎤
[m1, m 2 ]⎢0⎥ = m1t
⎣ ⎦
y
⎡σ 2 σ 12,2 ⎤ ⎡ t ⎤ ⎡ σ 11
2
, t
⎤
[ t,0]⎢σ 211, ⎥ ⎢ ⎥
σ 2,2 ⎥⎦ ⎣0 ⎦
2
= [ t,0 ]⎢
σ 2 ⎥ = σ 11
2
, t = σ1 • t
2 2 2
⎢⎣ 2,1 ⎢⎣ 2,1 ⎥⎦
t
entonces:
1
im1t − σ12 • t 2
ϕ Y1 ( t) = e 2
que es la función característica de una variable Normal de media m1 y varianza. Por tanto:
r r
Y ≡ N(m, V ) ⇒ Y1 ≡ N(m 1, σ 1 )
VII.127
Capítulo V: Variables Aleatorias Unidimensionales
f ( y 1, y 2 )
fc ( y 2 y1 ) =
f y1 ( y 1 )
operando se obtiene:
2
⎡ ⎡ σ2 ⎤⎤
⎢ y 2 − ⎢m 2 + 1,2 ( y1 − m1 ) ⎥ ⎥
⎢ ⎢⎣ σ12
⎥⎦ ⎥⎦
− ⎣
1 lo que pone de manifiesto que
1 2 σ 2 (1− ρ )
2 2
fc ( y 2 y1 ) = e
2π σ 2 1 − ρ 2 si Y1 e Y2 son variables
aleatorias Normales, la
variable aleatoria Y1 / Y2 es, a su vez, una variable Normal de media:
cov( Y1, Y2 )
E( Y2 y 1 ) = m 2 + ( y 1 − m1 )
σ 12
D 2 ( Y2 y 1 ) = σ 22 • (1 − ρ 2 )
cov( Y1, Y2 )
y$ 2 = E( Y2 y 1 ) = m 2 + ( y 1 − m1 )
σ 12
por ser la curva de regresión condicional, es decir, la curva que mejor se adapta a la masa de
probabilidad, una recta, la recta de regresión minimo cuadrática coincidirá con la curva de
regresión condicional.
VII.128
Capítulo V: Variables Aleatorias Unidimensionales
Tema 8. Muestreo
VII.129
CAPITULO VIII:
Distribuciones en el Muestreo
Capítulo VIII: Distribuciones en el Muestreo
VIII.1.- INTRODUCCIÓN
No obstante, no siempre es posible o conveniente analizar todas y cada una de las unidades
que integran dicho colectivo. Las razones por las cuales no se extiende el análisis a la
totalidad de la población pueden ser de distinta índole:
• Razones estratégicas. Por ejemplo, no disponer de acceso a todos los individuos del
colectivo o no disponer de un listado de los mismos.
• Razones económicas. Estudiar a todos los individuos del colectivo podría suponer un
coste demasiado elevado en muchos casos, o superior al valor de la información obtenida,
en otros.
Para obviar estos inconvenientes se recurre al estudio de solo una parte del colectivo
convenientemente seleccionada a partir del cual, y mediante el empleo de técnicas
estadísticas, podremos generalizar al universo o colectivo objeto del estudio, las conclusiones
obtenidas.
Algunos ejemplos o situaciones de la vida real ayudarán a justificar la necesidad y utilidad del
muestreo. Son muchas las preguntas que pueden plantearse acerca de la población total y que
pueden responderse analizando adecuadamente los resultados observados en la muestra. Por
ejemplo:
VIII.131
Capítulo VIII: Distribuciones en el Muestreo
Desde el punto de vista estadístico, una población es el conjunto de todos los valores posibles
o espacio muestral de una variable aleatoria (generalmente medida en las unidades del
colectivo estudiado), y una muestra es un subconjunto de dichos valores tomados
aleatoriamente. Por ejemplo, población será el conjunto de valores posibles de la longitud de
las piezas obtenidas en un determinado proceso de fabricación, y muestra el subconjunto
formado por las longitudes (x1, x2, ..., xn) de un número finito n, de esas piezas seleccionadas
de forma aleatoria.
En general, el vector aleatorio (X1, X2, ..., Xn) es una variable n-dimensional en el que cada
componente i = 1, 2, .., n representa el valor de la característica X en el i-ésimo elemento
extraído.
Si las n observaciones muestrales se han realizado en una misma población con función de
distribución FX(x), la función de distribución de cada variable X1, X2, ..., Xn también será
FX(x).
Si en cada extracción todos los elementos tienen la misma probabilidad de ser seleccionados
para formar parte de la muestra, el muestreo se denomina aleatorio, y la muestra obtenida es
una muestra aleatoria.
Muestreo
Población Muestra
VIII.132
Capítulo VIII: Distribuciones en el Muestreo
formado por n variables unidimensionales que indican los valores de las n observaciones y
que serán independientes si en muestro realizado es aleatorio simple.
Cada valor concreto de la muestra será un conjunto de n datos y se representará por letras
minúsculas: r
x = ( x1, x 2 , K , x n )
VIII.3.- ESTADÍSTICOS
A toda función T = T(X1, X2, ..., Xn) de los valores muestrales se le denomina estadístico.
Evidentemente todo estadístico será, en general, una variable aleatoria dado que su valor
depende de los valores de la muestra, que son aleatorios.
• La media muestral
X1 + X2 + L + Xn
x=
n
• La mediana muestral: es el valor de la variable que deja el mismo número de datos por
abajo que por arriba y se calcula mediante.
⎛ n +1 ⎞
~
x = Xe + ⎜ − e ⎟ ⋅ (x e +1 − x e )
⎝ 2 ⎠
n + 1⎞
con e = INT ⎛⎜ ⎟
⎝ 2 ⎠
• La varianza muestral
n
∑ ( Xi − x )2
sn2 = i =1
n
• La cuasivarianza
VIII.133
Capítulo VIII: Distribuciones en el Muestreo
n
∑ ( Xi − x )2
sn2−1 = i =1
n −1
• El rango o recorrido:
R=Xmáx-Xmin
• La proporción muestral
X
p̂ =
n
Antes de pasar al estudio de estas distribuciones vamos a recoger algunos conceptos que
facilitarán su comprensión.
Dada una muestra aleatoria simple de tamaño n, es posible hacerle corresponder una
distribución de probabilidades de los valores obtenidos asignando a cada uno de ellos una
probabilidad igual a 1/n:
1
PX∗ ( xi ) =
n
VIII.134
Capítulo VIII: Distribuciones en el Muestreo
En el apartado anterior poníamos de manifiesto que la distribución que tienen los estadísticos
(y las características muestrales lo son), dependen de la distribución FX(x) que tenga la
variable X muestreada por lo que, en general, si no se conoce FX(x) no se conocerá por
completo la distribución de cada una de las características muestrales. No obstante, aunque
FX(x) sea desconocido pueden conocerse determinados aspectos de la distribución de las
características muestrales como son algunos parámetros de su distribución. En efecto, las
características muestrales son variables aleatorias y, por lo tanto tendrán media y varianza.
Así, la media muestral que representamos por x , tendrá a su vez media E( x ) y varianza D2 ( x ) .
POBLACIÓN MUESTRA
f X(x) PX∗ ( x )
X X
VIII.135
Capítulo VIII: Distribuciones en el Muestreo
n
1 n ∑ xi
∑ xi ⋅ PX∗ ( xi ) = n ⋅ ∑ xi = i =1
n
=x
i =1 i =1
Y su varianza:
⎛ n x ⎞ 1 ⎛ n ⎞
D2 ( x ) = D2 ⎜⎜ ∑ i ⎟⎟ = 2 ⋅ D2 ⎜⎜ ∑ xi ⎟⎟
⎝ i =1 n ⎠ n ⎝ i =1 ⎠
Por lo tanto, si tomamos muestras aleatorias simples de tamaño n de una población cuya
media es μX y su varianza es σX2, entonces el estadístico media muestral será una variable
aleatoria con valor medio y varianza:
σ2X
E( x ) = μ X D2 ( x ) =
n
Como
n
xi
x=∑
i =1 n
es una suma de variables aleatorias independientes, todas ellas con la misma distribución, se
tiene como consecuencia del Teorema de Lindenberg-Levy que cuando n tiende a infinito, x
converge en distribución a la distribución normal de media μX y varianza σX2/n,
independientemente de la distribución que tenga la variable X muestreada. En la práctica la
aproximación es buena cuando n>30.
n ∑ (x − x ) i
2
sn2 = ∑ (x − x ) ⋅ P (x ) =
i =1
i
2 ∗
X i
i =1
n
Su valor medio es
VIII.136
Capítulo VIII: Distribuciones en el Muestreo
⎡ n ( x − x )2 ⎤ 1 ⎡ n 2⎤
E(sn2 ) = E ⎢∑ i ⎥ = ⋅ E ⎢∑ (( xi − μ X ) − ( x − μ X )) ⎥
⎣ i =1 n ⎦ n ⎣ i =1 ⎦
Desarrollando el cuadrado
E(sn2 ) =
1 ⎡n
n ⎣ i =1
( ⎤
⋅ E ⎢∑ ( x1 − μ x )2 + ( x − μ X )2 − 2 ⋅ ( x i − μ X ) ⋅ ( x − μ X ) ⎥ )
⎦
Aplicando el sumatorio
1 ⎡ ⎤
n n
E(sn2 ) = ⋅E ⎢
n ⎣⎢ ∑i =1
( x1 − μ x )2 + n ⋅ ( x − μ X )2 − 2 ⋅ ( x − μ X ) ⋅ ∑ (x − μ )⎥⎦⎥
i =1
i X
E(sn2 ) =
1 ⎡n
( ) ⎤
⋅ ⎢∑ E ( xi − μ X )2 − n ⋅ E ( x − μ X )2 ⎥
n ⎣ i =1
( )
⎦
y que
[ ]
E ( x i − μ X )2 = σ2X
se obtiene que
1 ⎛ σ2 ⎞ n − 1 2
E(sn2 ) = ⋅ ⎜⎜ n ⋅ σ2X − n ⋅ X ⎟⎟ = ⋅ σX
n ⎝ n ⎠ n
Una de las aplicaciones más importantes del muestreo es, como veremos en el capítulo
siguiente, la estimación de parámetros poblacionales. Allí se recomienda la utilización de
estadísticos cuyo valor medio coincida con el correpondiente parámetro poblacional, de ahí
que se emplee frecuentemente la cuasivarianza o varianza muestral corregida en lugar de la
varianza muestral, puesto que si
n
n ∑( xi − x )2
sn2−1 = ⋅ sn2 = i =1
n −1 n −1
entonces
n n n −1 2
E(sn2−1 ) = ⋅ E(sn2 ) = ⋅ ⋅ σ X = σ2X
n −1 n −1 n
VIII.137
Capítulo VIII: Distribuciones en el Muestreo
Por lo tanto, si tomamos muestras aleatorias simples de tamaño n de una población en la que
A tiene una probabilidad p de ocurrir, la media y la varianza de la variable proporción
muestral es:
E(p̂) = p D2 (p̂) = n ⋅ p ⋅ (1 − p)
Como
n
X ∑ yi n
⎛y ⎞
p= = i =1
= ∑ ⎜ ni ⎟
n n i =1 ⎝ ⎠
VIII.138
Capítulo VIII: Distribuciones en el Muestreo
n
Xi
Sabemos que x=∑
i =1 n
f X(x) f x (x)
σX / n
σX
μX X μX x
Ejemplo VIII.1.
En el proceso de pintado de la carrocería de un automóvil, el espesor de la capa de
imprimación es una variable aleatoria con distribución normal de media 100 micras y
desviación típica 5 micras. Si el control del espesor de la capa de imprimación se realiza
calculando el promedio de las cuatro medidas obtenidas en cuatro carrocerías seleccionadas
al azar de dicho proceso y aceptando que el proceso funciona correctamente si el promedio
obtenido es mayor de 95 micras ¿Cuál es la probabilidad de rechazar que el proceso
funciona correctamente?
SOLUCIÓN:
VIII.139
Capítulo VIII: Distribuciones en el Muestreo
Si la variable muestreada tiene una distribución normal, el Teorema de Fisher establecer que:
sn2 s2
n⋅ = (n − 1) ⋅ n2−1 = χn2−1
σX2
σX
Como
x − μX
≡ N (0,1)
σX / n
VIII.140
Capítulo VIII: Distribuciones en el Muestreo
Tema 9. Inferencia
VIII.141
CAPÍTULO IX:
El otro camino para llegar al conocimiento del fenómeno aleatorio en cuestión es mediante
una inferencia o aproximación inductiva consistente en generalizar ciertas conclusiones
parciales al universo del fenómeno. Para ello se realizan experiencias bajo condiciones
determinadas. De dichas experiencias se obtiene una información de la que se extraen
conclusiones que serán generalizadas al universo del fenómeno.
Es evidente, que las conclusiones obtenidas mediante una inferencia inductiva presentan un
cierto riesgo de ser falsas, porque las proposiciones que son válidas a nivel de unas pocas
experiencias realizadas bajo unas condiciones determinadas, pueden no serlo a nivel general
del fenómeno. Sin embargo, en muchos casos, es posible efectuar inferencias inductivas
sujetas a cierto grado de incertidumbre susceptible de medición. Precisamente la Inferencia
Estadística se ocupa del estudio de los métodos que permiten efectuar inferencias inductivas
cuya incertidumbre es susceptible de ser medida en términos probabilísticos.
Un ejemplo aclarará estos conceptos. Supongamos que las unidades fabricadas por una cierta
línea de fabricación pueden ser clasificadas como correctas o defectuosas. Supongamos
también que tratamos de determinar la fracción de unidades defectuosas que se obtienen en
dicha línea de fabricación. Es evidente que no es posible establecer mediante un proceso
deductivo, un modelo matemático que permita obtener la fracción de unidades defectuosas,
pero sí que es posible efectuar una inferencia inductiva. Para ello tomamos unas cuantas
unidades fabricadas y observamos cuantas son correctas y cuantas defectuosas. A partir de
esta información y mediante un proceso inductivo estadístico podemos:
c) Si en cada una de las piezas hemos medido una dimensión X, podremos estimar μ y σ y
contrastar la normalidad de X. A partir de este modelo podemos deducir la proporción de
piezas que no cumple con unas determinadas especificaciones dimensionales.
Ciertamente no tendremos la seguridad absoluta de que la inferencia sea correcta, pero sí que
será factible de ser medida, en términos de probabilidad, la incertidumbre de nuestra
inferencia.
a) La estimación de parámetros.
b) El contraste de hipótesis.
Estimar un parámetro es calcular un valor aproximado del mismo a partir de los valores de la
muestra.
El estimador es una función de los valores de la muestra que se utiliza para obtener valores
aproximados de un parámetro poblacional. Un estimador es, por tanto, una variable aleatoria
ya que sus valores dependen de la muestra. Por ejemplo, un estimador de la media poblacional
μ, es la media muestral x .
La estimación es un valor concreto del estimador al aplicar la función que lo define sobre una
muestra concreta.
Un estimador puntual es toda función de los valores muestrales utilizada para obtener valores
aproximados (puntuales) de un parámetro. Ejemplos de estimadores puntuales son:
IX.145
Capítulo IX: Introducción a la Inferencia Estadística
• La media muestral, x
• La mediana muestral, ~x
Ejemplo IX.1
Dada la muestra {3, 5, 4, 4}, el estimador puntual de la media poblacional será:
n
xi
x =∑
i =1 n
3 +5 +4 +4
μˆ X = =4
4
Ejemplo IX.2
Con la muestra del ejemplo anterior sería
(3 − 4)2 + (5 − 4)2 + (4 − 4)2 + (4 − 4)2
sn2 = = 0.5
4
No todos los estimadores son buenos estimadores. Hay determinadas propiedades que son
deseables en un estimador puntual. Vamos a describir algunas de ellas:
Por ejemplo, x es centrado para μ pues E( x )=μ. Sin embargo, sn2 no es centrado para σ2
pues E(sn2)=(n-1)·σ2/n ≠ σ2.
IX.146
Capítulo IX: Introducción a la Inferencia Estadística
siendo:
Ω : espacio paramétrico.
Cθ̂ : Conjunto de posibles estimadores de θ.
a) Con los estimadores puntuales no podemos tener una idea clara de la precisión con que
efectuamos una estimación.
b) Los intervalos de confianza nos servirán como reglas de decisión para realizar los tests de
hipótesis a estudiar en apartados posteriores.
r
Si por X designamos a unar
muestra,
r
la estimación por intervalos de confianza consiste en
obtener dos valores L1 ( X ) y L2 ( X ), función de la muestra, tales que existe una probabilidad
muy elevada (1- α), de que entre ambos cubran el verdadero valor del parámetro.
r r
P(L1 ( X ) ≤ θ ≤ L2 ( X )) = 1- α
donde
r
1-αr es nivel de confianza (usualmente 0.95 ó 0.99), α es el nivel de significación y L1
( X ), L2 ( X ) son los limites de confianza.
Si 1-α= 0.95 quiere decir que el 95% de los intervalos que construyamos a partir de
numerosas muestras, contendrán al valor verdadero del parámetro. Nuestra incertidumbre al
estimar el parámetro resulta pues, medida en términos de probabilidad.
El intervalo será tanto más preciso cuanto menor sea su amplitud para un α dado, o cuanto
mayor sea el nivel de confianza 1-α para una amplitud dada.
Los intervalos de confianza para los parámetros de poblaciones con distribución Normal son
los siguientes:
IX.147
Capítulo IX: Introducción a la Inferencia Estadística
• Cuando σ es conocida
σ
x ± zα 2 ⋅
n
• Cuando σ es desconocida
sn −1
x ± t (nα−12 ) ⋅
n
⎡ (n − 1) ⋅ sn2−1 (n − 1) ⋅ sn2−1 ⎤
⎢ 2 ( α 2)
, 2 (1− α 2 ) ⎥
⎣ χn −1 χn −1 ⎦
Ejemplo IX.3
Un proceso industrial consiste en la aplicación de un recubrimiento protector a unos perfiles
metálicos. De la producción de un día, se seleccionan al azar 16 perfiles y se determina el
espesor del recubrimiento en cada uno de ellos, obteniéndose los siguientes valores,
expresados en micras:
{51, 49, 52, 55, 47, 48, 50, 51, 53, 49, 51, 48, 54, 52, 49, 50}
En el supuesto de que el espesor del recubrimiento tenga una distribución N(μ,σ) y fijando el
nivel de confianza al 95%, determinar:
a) El intervalo de confianza para la media μ del espesor del recubrimiento si sabemos que la
dispersión de la variable es σ=2.2 micras.
SOLUCIÓN:
a) El I.C. para μ cuando σ es conocida es:
σ
x ± zα/2 ⋅
n
IX.148
Capítulo IX: Introducción a la Inferencia Estadística
2.2
50.563 ± 1.96 ⋅ ⇒ [49.485, 51.641] micras
16
c) El I.C para σ2 es
⎡ (n − 1) ⋅ sn2−1 (n − 1) ⋅ sn2−1 ⎤
⎢ 2 (α 2 )
, ⎥
⎣ χ n −1 χ n2−(11 −α 2) ⎦
Ejemplo IX.4
Se desea conocer la proporción p de alumnos de la U.P.V. que viajaron al extranjero durante
el año 1999. Para ello, y siguiendo un procedimiento aleatorio, se han seleccionado y
entrevistado a 90 alumnos. El resultado ha sido que, de estos 90 alumnos, 8 han viajado al
extranjero y el resto no. Obtener el Intervalo de Confianza para la proporción p si tomamos
1-α=0.95.
SOLUCIÓN:
IX.149
Capítulo IX: Introducción a la Inferencia Estadística
pˆ ⋅ (1 − pˆ )
pˆ ± zα/2 ⋅
n
Luego el I.C es
[0.030, 0.148]
En el punto IX.2 se ha expuesto que la Inferencia Estadística aborda dos tipos de problemas:
la estimación de parámetros, puntual y por intervalos de confianza, y los contrastes de
hipótesis.
A grandes rasgos, mediante los tests de hipótesis, podemos estudiar si una cierta hipótesis,
llamada hipótesis nula H0, establecida sobre una cierta población, es coherente o no con la
información que suministra una muestra aleatoria extraída de dicha población. Ello nos
permite decidir si aceptamos la hipótesis nula H0 establecida, o la rechazamos y aceptamos
una hipótesis H1 llamada hipótesis alternativa que es la que se verifica si y solo si no se
verifica H0.
Supongamos, por ejemplo, que la vida media de las bombillas obtenidas mediante cierto
proceso de fabricación es de 1500 horas. Se considera que una cierta modificación del proceso
que disminuye el coste de fabricación no modifica la vida media. Con el fin de confirmar o
rechazar la hipótesis de igualdad vidas medias en las dos variantes del proceso se extrae una
muestra de bombillas del proceso modificado y se evalúa la vida de cada una de ellas.
Supongamos que la vida media muestral resulta ser de 1450 horas. ¿Hasta que punto es
aceptable admitir que la disminución observada de 1500 a 1450 horas es debida al azar del
muestreo y no a una disminución real de la vida media?, es decir ¿en qué medida la muestra
observada es coherente con la hipótesis de que la media poblacional es de 1500?. Y en
consecuencia, ¿podemos aceptar la igualdad de vidas medias poblacionales de las bombillas
en el proceso modificado y en el no modificado?
La vida media muestral es una variable aleatoria de valor medio igual a la media poblacional
y, por lo tanto, puede tomar valores menores que ella pero, ¿hasta qué punto esta diferencia
puede atribuirse al azar y a partir de que valores ya no debemos admitir esta posibilidad?
Los tests de hipótesis verifican la compatibilidad de los resultados muestrales con las
hipótesis establecidas sobre la población y nos permiten decidir sobre la aceptación o rechazo
de las mismas.
IX.150
Capítulo IX: Introducción a la Inferencia Estadística
a) Rechazar la hipótesis nula cuando es cierta, en cuyo caso diremos que se ha cometido un
error de primera especie. A la probabilidad de cometer este tipo de error se le denomina
α.
b) Aceptar la hipótesis nula cuando es falsa. En este caso diremos que se ha cometido un
error de segunda especie. A la probabilidad de cometer este tipo de error se le denomina
β.
Los tests de hipótesis paramétricos son aquéllos en los que las hipótesis se establecen sobre
algún parámetro o vector de parámetros de alguna distribución aleatoria (media poblacional,
varianza poblacional, proporción poblacional, diferencia de medias poblacionales, etc.) o bien
sobre los parámetros de determinados modelos aleatorios (modelos de regresión, de análisis
de la varianza, modelos estocásticos, etc.).
En los tests de hipótesis no paramétricos las hipótesis no se establecen sobre los parámetros
anteriormente referidos sino que se establecen sobre la propia distribución aleatoria (la
variable estudiada sigue una determinada distribución de probabilidades) o bien sobre
determinados aspectos del fenómeno estudiado (independencia de dos o más factores en la
ocurrencia de una determinada situación o un determinado hecho), etc.
IX.151
Capítulo IX: Introducción a la Inferencia Estadística
Por ejemplo, y como veremos en el apartado siguiente, sobre la media μ de una distribución
Normal con σ conocida (por ejemplo, intensidad de fuga de un diferencial eléctrico), podemos
establecer las hipótesis H0(μ≤μ0) vs H1(μ>μ0).
Una posible regla de decisión será evaluar la intensidad de fuga en una muestra de n
diferenciales tomados al azar y aceptar H0 (tomar la decisión d0) si
σ
x ≤ μ0 + zα ⋅
n
PotS(θ)
α
0
ω0 θ0 ω1 θ (Ω)
IX.152
Capítulo IX: Introducción a la Inferencia Estadística
En las aplicaciones de los test de hipótesis al control de la calidad en los procesos industriales,
se utiliza más la denominada Curva Característica que definiremos seguidamente.
PaS(θ)
1
1-α
β(θ1)
β(θ2)
θ0 θ1 θ2 θ (Ω)
ω0 ω1
IX.153
Capítulo IX: Introducción a la Inferencia Estadística
⎛⎛ ⎞ ⎞
⎜ ⎜ μ0 + zα ⋅ σ ⎟ − μ ⎟
⎜ ⎜ ⎟ ⎟ ⎛ μ − μ0 ⎞
PaS (μ ) = φ ⎜ ⎝
n⎠
σ ⎟ = φ ⎜ zα − ⋅ n⎟
⎜ ⎟ ⎝ σ ⎠
⎜ n ⎟
⎝ ⎠
Expresión que, lógicamente, para μ=μ0 vale 1-α. Su representación gráfica tiene forma
similar a la curva de la figura IX.2, sustituyendo en parámetro genérico θ por μ.
En este apartado se presentan algunos de los test de hipótesis paramétricos clásicos más
importantes por sus aplicaciones prácticas a la industria y a otros campos. Debido al carácter
introductorio del capítulo, no se enuncian ni se demuestran los teoremas que permiten su
obtención o la evaluación de sus propiedades. En cambio, sí que se proponen ejemplos que
facilitarán su aplicación a las situaciones reales.
a) H0(μ=μ0) vs H1(μ≠μ0)
• Si σ es conocida:
⎡ σ ⎤
Aceptamos H0 si x ∈ ⎢μ0 ± zα 2 ⋅ ⎥
⎣ n⎦
⎡ σ ⎤
Rechazamos H0 si x ∉ ⎢μ0 ± zα 2 ⋅ ⎥
⎣ n⎦
• Si σ es desconocida:
⎡ sn −1 ⎤
Aceptamos H0 si x ∈ ⎢μ0 ± t(nα−12) ⋅ ⎥
⎣ n⎦
⎡ sn −1 ⎤
Rechazamos H0 si x ∉ ⎢μ 0 ± tnα−21 ⋅ ⎥
⎣ n⎦
Ejemplo IX.5
En el proceso de moldeado de unos recipientes de plástico, podemos admitir que el espesor
del fondo es una variable aleatoria con distribución N(4, 0.2) mm. Buscando una reducción
de costes de fabricación, el ingeniero de procesos decide aumentar la proporción de material
reciclado que se utiliza como materia prima manteniendo constantes el resto de parámetros
del proceso.
IX.154
Capítulo IX: Introducción a la Inferencia Estadística
SOLUCIÓN:
En ambos apartados debemos contrastar la hipótesis nula de que el cambio efectuado en el
proceso no afecta al espesor medio del fondo de los recipientes, es decir,
H0(μ=4) vs H1(μ≠4)
x =4.156 mm y zα/2=z0.025=1.96
[3.869, 4.131] mm
sn-1=0.292 y t n( α−/2)
1 = t8
(0.025)
= 2.306
b) H0(μ≤μ0) vs H1(μ>μ0)
IX.155
Capítulo IX: Introducción a la Inferencia Estadística
• Si σ es conocida:
σ
Aceptamos H0 si x ≤ μ0 + zα ⋅
n
σ
Rechazamos H0 si x > μ0 + zα ⋅
n
• Si σ es desconocida:
sn −1
Aceptamos H0 si x ≤ μ0 + t(nα−)1 ⋅
n
sn −1
Rechazamos H0 si x > μ0 + t(nα−)1 ⋅
n
Ejemplo IX.6
Por razones técnicas de funcionamiento, se ha fijado en 10Ω el valor máximo de la
resistencia media de unos componentes eléctricos fabricados en un determinado proceso.
Para comprobar que la producción cumple con los requisitos especificados, se toman al azar
10 componentes y se miden sus resistencias obteniéndose los siguientes resultados,
expresados en ohmios:
{9.9, 10.1, 10.2, 9.8, 10.5, 9.8, 11, 9.7, 10, 10.2}
Suponiendo que la resistencia de los componentes estudiados sigue una distribución normal y
considerando un nivel de significación del 5%, responder a las siguientes preguntas
SOLUCIÓN:
Debemos contrastar la hipótesis nula de que la producción es correcta por ser la media de
las resistencia menor o igual a 10 Ω, frente a que la producción es incorrecta, es decir:
H0(μ≤10) vs H1(μ>10)
IX.156
Capítulo IX: Introducción a la Inferencia Estadística
• Si σ es conocida:
1 1
Aceptamos H0 si x1 − x 2 ≤ zα / 2 ⋅ σ ⋅ +
n1 n2
1 1
Rechazamos H0 si x1 − x 2 > z α / 2 ⋅ σ ⋅ +
n1 n2
• Si σ es desconocida:
1 1
Aceptamos H0 si x1 − x 2 ≤ t(nα1 +/ n22) − 2 ⋅ s * ⋅ +
n1 n2
1 1
Rechazamos H0 si x1 − x 2 > t (nα1 +/ n22) − 2 ⋅ s * ⋅ +
n1 n2
Ejemplo IX.7
Se dispone de dos equipos de soplado de envases de vidrio y con ellos se fabrican botellas de
750 cc de capacidad nominal. Se pretende comprobar si ambos equipos fabrican las botellas
con la misma capacidad media. Para ello se toman al azar 10 botellas fabricadas con el
primer equipo y se obtienen los siguientes resultados:
{750.0, 751.2, 750.3, 750.5, 751.5, 752.0, 751.2, 750.1, 749.1, 749.9}
Del segundo equipo se toman al azar 12 botellas cuyas capacidades resultan ser:
{750.1,749.2,748.5,749.2,751.3,749.1,748.2,751.1,750.1,748.3,749.8,749.6}
IX.157
Capítulo IX: Introducción a la Inferencia Estadística
Asumiendo que la capacidad de las botellas fabricados con cada uno de los equipos tiene una
distribución normal y que en ambos casos la varianza es la misma, ¿puede admitirse la
igualdad de medias de las capacidades de las botellas fabricadas con los dos equipos de
soplado?
SOLUCIÓN:
Si llamamos X1 y X2 a las capacidades de las botellas fabricadas con el equipo 1 y con el
equipo 2, respectivamente, y admitimos que
X1≡N(μ1,σ) y X2≡N(μ2,σ)
las hipótesis a contrastar serán H0(μ1=μ2) vs H1(μ1≠μ2), que para el caso de σ desconocida,
la zona de aceptación de H0 es:
1 1 (n1 − 1) ⋅ s'12 +(n2 − 1) ⋅ s' 22
x1 − x2 ≤ t n( 1α/2)
+ n2 − 2 ⋅ s * ⋅ + con s* =
n1 n2 n1 + n2 − 2
a) H0(σ2=σ02) vs H1(σ2≠σ02)
⎡ σ02 ⋅ χn2(−11− α 2 ) σ02 ⋅ χn2(−α1 2 ) ⎤
Aceptamos H0 si sn2-1 ∈ ⎢ , ⎥
⎣ (n − 1) (n − 1) ⎦
⎡ σ2 ⋅ χ2(1− α 2 ) σ 2 ⋅ χ 2( α 2 ) ⎤
Rechazamos H0 si sn2-1 ∉ ⎢ 0 n −1 , 0 n −1 ⎥
⎣ (n − 1) (n − 1) ⎦
Ejemplo IX.8
En un laboratorio de ensayos se evalúa repetidamente y con el mismo equipo de medida el
diámetro de un cilindro patrón. Los resultados obtenidos, expresados en cm, después de
realizar 9 mediciones del mismo, han sido:
{5.01, 5.02, 4.99, 4.97, 5.03, 4.98, 5.05, 5.01, 4.99}
Suponiendo que los resultados de las mediciones son normales y que solamente es el equipo
de medida el que produce variabilidad en los resultados, ¿podemos admitir que dicha
variabilidad, representada por σ, es igual a 0.02?. Tomar α=0.05.
IX.158
Capítulo IX: Introducción a la Inferencia Estadística
SOLUCIÓN:
Debemos contrastar las hipótesis H0(σ2=0.0004) vs H1(σ2≠0.0004). La zona de aceptación de
la hipótesis nula es
⎡σ 2 ⋅ χ 2 (1−α 2 ) σ02 ⋅ χ n2−( α1 2 ) ⎤
sn2-1 ∈ ⎢ 0 n −1 , ⎥
⎣ (n − 1) (n − 1) ⎦
b) H0(σ2≤σ02) vs H1(σ2>σ02)
σ02 ⋅ χn2(−α1)
Aceptamos H0 si sn2-1 ≤
(n − 1)
σ02 ⋅ χn2(−α1)
Rechazamos H0 si sn2-1 >
(n − 1)
c) H0(σ12=σ22) vs H1(σ12≠σ22)
(sn21 −1 )mayor
Aceptamos H0 si ≤ F((nα1)−1),(n 2 −1)
(sn22 −1 )menor
(sn21 −1 )mayor
Rechazamos H0 si > F((nα1)−1),(n 2 −1)
(sn22 −1 )menor
Ejemplo IX.9
Se pretende comparar la precisión de dos métodos analíticos disponibles para la
determinación de la concentración de un complejo proteico en un producto cárnico. Para ello
se evalúa reiteradamente la concentración de dicho complejo proteico en una muestra de
mortadela preparada al efecto. Los valores obtenidos, expresados en gramos por cada 100
gramos de producto, son los siguientes:
IX.159
Capítulo IX: Introducción a la Inferencia Estadística
b) ¿Podemos admitir que la varianza de método espectrofotométrico es menor o igual que 0.1
(gr/100gr)2 con un nivel de significación del 5%?
SOLUCIÓN.
Si llamamos σ12 a la varianza de los resultados que se obtienen con el método de referencia y
σ22 a la varianza del método espectrofotométrico, tendremos que:
IX.160
Capítulo IX: Introducción a la Inferencia Estadística
a) H0(p=p0) vs H1(p≠p0)
⎡ p0 ⋅ (1 − p0 ) ⎤
Aceptamos H0 si p̂ ∈ ⎢p0 ± zα / 2 ⋅ ⎥
⎣⎢ n ⎦⎥
⎡ p ⋅ (1 − p0 ) ⎤
Rechazamos H0 si p̂ ∉ ⎢p0 ± z α / 2 ⋅ 0 ⎥
⎣⎢ n ⎦⎥
b) H0(p≤p0) vs H1(p>p0)
p0 ⋅ (1 − p0 )
Aceptamos H0 si p̂ ≤ p0 + zα ⋅
n
p0 ⋅ (1 − p0 )
Rechazamos H0 si p̂ > p0 + zα ⋅
n
c) H0(p1=p2) vs H1(p1≠p2)
⎛1 1⎞
Aceptamos H0 si p̂1 − p̂2 ≤ zα 2 ⋅ p * ⋅q * ⋅⎜⎜ + ⎟
⎟
⎝ n1 n2 ⎠
⎛1 1⎞
Rechazamos H0 si p̂1 − p̂2 > zα 2 ⋅ p * ⋅q * ⋅⎜⎜ + ⎟
⎟
⎝ n1 n2 ⎠
n1 ⋅ p̂1 + n2 ⋅ p̂2
con p* = y q*=1-p*
n1 + n2
Ejemplo IX.10
Se pretende comparar la calidad de los envíos de dos proveedores de un mismo tipo de
repuesto para automóviles. Para ello se seleccionan al azar 40 unidades de un lote del
proveedor 1, resultando 3 defectuosas, y 60 unidades de un lote del proveedor 2, resultando 4
defectuosas.
Para un nivel de significación del 5% ¿podemos admitir que la calidad de los envíos de
ambos proveedores, dada por la proporción de unidades defectuosas, es la misma?.
SOLUCIÓN:
Si llamamos p1 a la proporción de unidades defectuosas de proveedor 1 y p2 a la proporción
de unidades defectuosas del proveedor 2, las hipótesis a contrastar son:
H0(p1=p2) vs H1(p1≠p2)
cuya zona de aceptación de H0 es:
⎛1 1 ⎞ n1 ⋅ p̂1 + n2 ⋅ p̂2
p̂1 − p̂2 ≤ zα 2 ⋅ p * ⋅q * ⋅⎜⎜ + ⎟
⎟ con p* =
⎝ n1 n2 ⎠ n1 + n2
A partir de los datos del ejercicio, obtenemos que
3 4 )
p̂1 = = 0.075 p̂2 = = 0 . 06 p* = 0.07 z0.025=1.96
40 60
IX.161
Capítulo IX: Introducción a la Inferencia Estadística
Estudiaremos en este apartado dos de los casos más representativos que son:
• los test de bondad de ajuste y
• las tablas de contingencia
El objetivo de los tests de bondad de ajuste es verificar si una muestra observada puede
proceder de una población que tiene una determinada distribución de probabilidad. Esta
distribución de probabilidad supuesta puede ser:
Una de las formas de realizar el contraste es mediante el test χ2 de Pearson: se parte de una
muestra formada por n observaciones (x1, x2, …, xn) independientes de una determinada
característica. Dichas observaciones se clasifican en k clases o categorías mutuamente
excluyentes.
IX.162
Capítulo IX: Introducción a la Inferencia Estadística
Las n observaciones se distribuirán entre las k clases presentando una frecuencia absoluta Oi
de valores en cada una de las clases Ci establecidas, de modo que se cumplirá:
k
∑ Oi = n
i =1
k (O i − t i ) 2
z= ∑ t = χ k2− s −1
i =1 i
Fz(z)
Se acepta H0 Se rechaza H0
IX.163
Capítulo IX: Introducción a la Inferencia Estadística
• Las clases o intervalos deben establecerse de modo que las frecuencias absolutas con que
se dan dichas clases sean todas ellas iguales o superiores a 5.
• Es conveniente que las clases se definan de manera que las probabilidades teóricas pi de
las diferentes clases Ci no sean demasiado diferentes.
Ejemplo IX.11
Capacidad No de envases
(c.c.)
≤ 742.5 5
]742.5 - 745.0] 10
]745.0 - 747.5] 16
]747.5 - 750.0] 20
]750.0 - 752.5] 21
]752.5 - 755.0] 15
]755.0 - 757.5] 7
> 757.5 6
¿Puede aceptarse, con un nivel de significación α=0.05, que la capacidad de dichos envases
sigue una distribución N(750,5) c.c.?
SOLUCIÓN:
Construyamos la siguiente tabla:
( Oi − t i )2
Ci Oi pi ti=n·p
ti
i
≤ 742.5 5 0.668 6.68 0.4225
]742.5 - 10 0.0919 9.19 0.0714
745.0] 16 0.1498 14.98 0.0695
]745.0 - 20 0.1915 19.15 0.0370
747.5] 21 0.1915 19.15 0.1755
]747.5 - 15 0.1498 14.98 0.0000
IX.164
Capítulo IX: Introducción a la Inferencia Estadística
donde, si consideramos ]ai, ai+1] los límites del intervalo Ci, cada pi se calcula:
⎛ a − 750 ⎞ ⎛ a − 750 ⎞
pi = φ ⎜ i +1 ⎟ −φ ⎜ i ⎟
⎝ 5 ⎠ ⎝ 5 ⎠
z=∑
8
(Oi − ti )2 = 1.3670
i =1 ti
Además :
χ 82−( 00.−051 ) = 14.1
Las tablas de contingencia permiten verificar si dos o más variables o factores de clasificación
son independientes entre sí. Constituyen, por lo tanto, una prueba de independencia no
paramétrica.
Estudiaremos el caso de dos variables o factores de clasificación. La hipótesis nula que hay
que contrastar es que los dos factores A y B son independientes.
H0(A y B independientes) vs H1(A y B dependientes)
IX.165
Capítulo IX: Introducción a la Inferencia Estadística
Si estimamos las probabilidades marginales pi• de cada nivel Ai del factor A mediante la
frecuencia relativa con que se presenta Ai en la muestra, será:
Oi •
p̂i• =
n
De modo análogo, las probabilidades marginales p•j de cada nivel Bj del factor B se
efectuarán mediante:
O• j
p̂• j =
n
La estimación de la probabilidad conjunta de Ai y Bj, a la que hemos llamado pij, será, bajo el
supuesto de independencia de A y B
p̂ij = p̂i• ⋅ p̂• j
Entonces:
Oi • O • j Oi • ⋅ O • j
t ij = n ⋅ p̂ij = n ⋅ p̂i• ⋅ p̂• j = n ⋅ ⋅ =
n n n
i =1 j =1 t ij
Nota:
IX.166
Capítulo IX: Introducción a la Inferencia Estadística
Ejemplo IX.12
La siguiente tabla muestra las frecuencias observadas en relación con el color de automóvil
preferido y el sexo en una muestra de 100 estudiantes encuestados al azar en la U.P.V.
COLOR
Blanco Rojo Azul
Varones 10 36 14
SEXO
Mujeres 20 9 11
De acuerdo con la tabla anterior, ¿podemos admitir, con un nivel de significación α=0.05,
que el sexo y el color preferido son independientes a la hora de elegir el coche?
SOLUCIÓN:
Las hipótesis a contrastar son
H0(sexo y color son independientes) vs H1(sexo y color son dependientes)
COLOR
O Blanco Rojo Azul Oi.
Varones 10 36 14 60
SEXO Mujeres 20 9 11 40
O•j 30 45 25 100
Recordando que las frecuencias teóricas (si H0 cierta) se calculan mediante la expresión:
IX.167
Capítulo IX: Introducción a la Inferencia Estadística
Oi • ⋅ O• j
t ij =
n
COLOR
t Blanco Rojo Azul
Varones 18 27 15
SEXO
Mujeres 12 18 10
El estadístico z será:
z = ∑∑
2 3 (O
ij − t ij )
2
=
(10 − 18 )2 + (36 − 27 )2 + ... +
(11 − 10 )2 = 16.556
i =1 j =1 t ij 18 27 10
Como χ(r2(−α1)(m
)
−1) = χ1⋅2
2(0.05)
= χ 22(0.05) = 5.99 se tiene que:
z > χ 22(0.05)
IX.168
Capítulo IX: Introducción a la Inferencia Estadística
IX.169
ANÁLISIS DE LA VARIANZA
9.4. ANÁLISIS DE LA VARIANZA (I). UN FACTOR CONTROLADO.
1.- Generalidades.
2.- Modelo Teórico. Hipótesis del modelo.
3.- Hipótesis nula.
4.- Ecuación fundamental.
5.- Test F.
6.- Comparación de medias. Test LSD
171
9.4.1.- GENERALIDADES
Bajo el nombre de Análisis de la Varianza se conocen un conjunto de métodos estadísticos aplicables en
general al análisis de observaciones que dependen simultáneamente de varios factores. Fue desarrollado
por Fisher en el 1er tercio del siglo pasado.
Los factores a considerar, y que se presume pueden influir sobre la respuesta, son aquéllos que podemos
realmente controlar fijando a voluntad sus niveles (factores controlados).
Los factores pueden ser cuantitativos, cuando sus niveles corresponden a valores medibles (temperatura,
pH, etc.) o cualitativos en otro caso (tipo de hojalata, variedad, método de fabricación etc.).
En un estudio sobre corrosión (X) en botes de conservas se desea investigar la influencia al respecto del
tipo de hojalata, pH del líquido de gobierno y temperatura de almacenamiento del bote. En la terminología
clásica del Análisis de la Varianza existen en este caso tres factores:
Tipo de hojalata
pH
Temperatura de conservación
Para cada factor, se considerarán en el estudio diferentes niveles (si el factor es cuantitativo) o variantes
(si el factor es cualitativo). Así por ejemplo:
- Factor tipo de hojalata (cualitativo): Se desean estudiar tres tipos distintos A, B y C (3 variantes).
A cada combinación de variantes de los diferentes factores se le denomina tratamiento, por ejemplo un
tratamiento será: bote hojalata tipo B con pH del líquido de gobierno 4'5 almacenado a 15º C. En total
existirán en este caso 3x2x3=18 tratamientos diferentes.
Una experiencia podría consistir en preparar 5 botes (repeticiones) con cada uno de los 18 tratamientos
posibles, con lo que constaría en total de 18x5 = 90 botes o unidades experimentales.
El objetivo en una experiencia de este tipo sería el analizar cuáles de los tres factores tienen una influencia
significativa sobre el grado de corrosión del bote al cabo de, por ejemplo, un mes de almacenamiento.
En aquéllos factores cuyo efecto sea significativo, se deseará además, precisar la naturaleza del mismo,
determinando, que variantes difieren significativamente entre sí
* Resumen:
172
- Repeticiones: número de veces que se aplica un mismo tratamiento (sobre diferentes
unidades experimentales) en una misma experiencia, o numero de veces que se repite la
experiencia bajo las mismas condiciones.
Los métodos del Análisis de la Varianza, asumen la existencia de un modelo probabilístico que
explica los resultados observados en función de un conjunto de parámetros desconocidos relativos a
los efectos de los diferentes factores en estudio y de una perturbación aleatoria.
La técnica de análisis consiste, en general, en descomponer la variabilidad total del conjunto de las
observaciones expresada por la suma de cuadrados global Σ(Xijk - X)2 con N -1 grados de libertad,
en un conjunto de términos independientes, con sus correspondientes grados de libertad, relativos a
los diferentes factores en estudio y al error experimental. La comparación de cada uno de estos
términos con el correspondiente a la perturbación aleatoria residual (ó error), permite contrastar la
significación de los factores estudiados.
Inicialmente desarrollaremos la teoría básica del Análisis de la Varianza en el caso más sencillo de
un solo factor controlado, dejando para más adelante la generalización al caso de varios factores.
Consideremos, por ejemplo, que se desean comparar I variantes distintas de un determinado proceso
industrial. De cada variante se hacen J pruebas cuyos resultados podemos considerar como una
muestra aleatoria simple extraída de la población de posibles resultados que podrían obtenerse con
dicha variante.
Variante 1 i I
Como veremos a continuación, nuestras hipótesis sobre el modelo implican que cada una de estas
poblaciones tiene una distribución N(μi,σ), y la hipótesis nula a contrastar es H0: μ1 = μ2 …= μI.
Vemos por tanto que el problema que tenemos no es más que la generalización a I medias del
problema de comparación de dos medias visto en un tema anterior.
Sea I el número de niveles del factor y J el número de observaciones para cada una de las variantes
(supondremos que dicho número es el mismo para todas las variantes, en cuyo caso el modelo se
denomina EQUILIBRADO).
Sea Xij la j-ava observación (j = 1...J) correspondiente a la i-ava variante del factor (i = 1...I).
Siendo μi = Ε(Xij) el valor medio poblacional correspondiente a dicha variante, se tendrá:
173
εi
donde εjj es una perturbación aleatoria que origina las diferencias existentes entre las observaciones
μi Xij
de una misma variante o tratamiento; además Ε(εij) =0
Con respecto a los residuos εij se harán, además, las siguientes hipótesis:
b) Incorrelación: Cov (εij,εi’j’) = 0 si i≠i' y/o j≠j'; es decir, todos los residuos están mutuamente
incorrelacionados.
c) Normalidad: los IxJ residuos εij tienen una distribución conjunta normal multivariante ε ≡
N(0,σ2 I)
El modelo teórico anterior puede formularse de una forma alternativa que resulta aconsejable por su
más fácil generalización al caso de varios factores.
Sea μ = Σμi /I el promedio de los valores medios de las diferentes variantes αi=μi - μ es la diferencia
entre la media de la variante i y el promedio general; αi mide por lo tanto el efecto específico
(positivo, negativo o nulo) de la variante i del factor.
Xij = μ + αi + εI
Con Σαi = 0
αi εij
μ μi X
Xij
Donde
Xjj = j-ava observación de la variante i del factor
μ = promedio general
αi = efecto específico de la variante i del factor
174
εij = residuos N (0,σ) e independientes entre sí.
La hipótesis nula a contrastar es que el factor no influye sobre la respuesta, es decir, que todos los
niveles tienen la misma media
Ho : μ1 = μ2 = μ3 … = μI = μ
H1 : ∃ μi ≠ μj
H0 : ∀αi = 0
H1 : ∃ αi ≠ 0 ya que sustituyendo μi por μ + αi
Ho : μ + α1 = μ + α2 = μ + α3 = … = μ + αI = μ
α1 = α2 = α3 = …. = αI = 0
∀ αi = 0
Llamando
Σ ij X ij
X.. = media general de todas las observaciones
IJ
Σ i X ij
Xi. = media de la variante i
J
∑ ij ( X ij ∑ ( X . − X..) +∑
− X..) 2 = J i i
2
ij ( X ij − X i .) 2
• Σ(Xij – X..)2 se le denomina Suma de Cuadrados Total (SCT) pues mide la variabilidad total del
conjunto de las I x J observaciones.
175
• Σ(Xij-Xi.)2 se denomina Suma de Cuadrados Residual pues se basa en las desviaciones de cada
observación respecto a la media de la variante respectiva. Mide la parte de variabilidad total
existente en las observaciones no explicada por el factor, es decir, la debida a causas aleatorias
(error experimental, otros factores no estudiados, etc.).
9.4.5.- TEST F
Si a las sumas de cuadrados anteriores ( SCF y SCR ) las dividimos por sus grados de libertad
correspondientes ( (I-1) e I(J-1) respectivamente) obtenemos los cuadrados medios CMF y CMR.
Rechazar H0 equivale a aceptar con un nivel de significación α, que el factor influye en la respuesta
estudiada.
CMR
DMS = QIα,I( J−1)
J
a) que el hecho de que las diferencias sean significativas no implica que las diferencias sean
necesariamente importantes. El análisis de la varianza, si la variabilidad residual es pequeña,
puede dar como significativas diferencias que en la práctica carezcan de importancia.
b) si el análisis no da como significativas determinadas diferencias no quiere decir que éstas no
existan sino que, simplemente, e/1 test no suficiente potencia para detectarlas. Este hecho tiene
especial importancia cuando intentamos interpretar el por qué algunas veces a pesar de obtener
176
en la práctica diferencias importantes entre las medias, éstas no llegan a ser significativas. Lo
que habría que hacer en este caso es aumentar el tamaño de la experiencia o reducir el error
experimental (disminuir el CMR) aumentando la homogeneidad del material experimental o
utilizando un diseño más adecuado.
Grados
Origen de Suma de Cuadrado
de F calculada F tablas
la varianza cuadrados medio
libertad
SCF CMF
FACTOR SCF I-1 CMF = F(αI −1),I( J −1)
I−1 CMR
SCR
ERROR SCR I(J-1) CMR =
I(J − 1)
EJEMPLO:
Se desea estudiar la influencia de la materia prima sobre la resistencia de unas piezas de plástico.
Para ello se realizaron experiencias utilizando cuatro materias primas diferentes. Con cada materia
prima se fabricaron cinco piezas midiéndose finalmente la resistencia en cada una de las veinte
piezas fabricadas. Los resultados fueron:
Dado que el P-Valor es menor que 0,01, existen diferencias estadísticamente significativas al nivel
del 99% de confianza entre las medias de las cuatro materias primas. Esta afirmación es equivalente
a decir que la “materia prima” utilizada influye sobre la resistencia de las piezas de plástico con un
nivel de significación del 99%.
En el apartado siguiente analizaremos cuál o cuáles de las variantes de la materia prima son
diferentes en cuanto a su resistencia promedio.
Tests de rangos
Observamos que solo la cuarta materia prima da lugar a una resistencia media estadísticamente
diferente a las demás siendo menor en valor que el resto
178
9.5. Análisis de la varianza (II). Dos factores controlados.
9.5.1.- INTRODUCCIÓN. PLANES FACTORIALES.
PLANES FACTORIALES. Constituyen un diseño especial para el estudio simultáneo de dos o más
factores en el que todos los niveles de todos los factores se combinan entre sí. Los utilizaremos en
este tema como diseño base para desarrollar las técnicas del Análisis de la Varianza para dos
factores.
Utilizaremos como diseño base para el estudio de este apartado, el siguiente diseño factorial
FACTOR B
FACTOR
A
B1 B2 Bj BJ
A1 =⎬n =⎬n = =
A2 = = = =
A3 = = = =
=⎬ n
Ai = = =
Xijk.
AI = = = =
Se dice que hay interacción entre dos factores si el efecto conjunto de la variante i de uno de ellos
con la j del otro, no es igual a la suma de los efectos simples respectivos. (Efectos no aditivos).
También se dice que existe interacción entre dos factores cuando el efecto de uno de ellos depende
del nivel que consideremos en el otro.
De manera similar a la anterior, se dice que no existe interacción entre dos factores cuando el
incremento en la respuesta (+ ó -) al pasar de un nivel a otro de uno de los factores, es el mismo en
cualquiera de los niveles que podamos considerar del otro factor.
179
Grado de
corrosión
En este primer caso, cualquiera que sea el pH, la hojalata A presenta mayor corrosión que la
hojalata B y, además, LA DIFERENCIA ENTRE UNA Y OTRA HOJALATA ES LA MISMA
PARA CUALQUIER pH.
En este caso influyen los dos factores (hojalata A mayor corrosión que la B, y a mayor pH menor
corrosión) pero no hay interacción entre ellos.
Grado de
corrosión
En este caso, el efecto del factor hojalata depende del valor del pH que consideremos. Así, a pH
bajo presenta menor corrosión la hojalata B, a pH intermedio el grado de corrosión es el mismo y a
pH alto presenta menor corrosión la hojalata B. Obsérvese que en este caso no tiene sentido
preguntarse que hojalata es más resistente si no se especifica cual va a ser el pH a emplear en la
conserva.
180
Obtenga el lector sus propias conclusiones
¿Hay interacción?
¿Por qué?
¿Qué zumo es mejor?
¿Se comportan igual los tres zumos?
¿Influye el tiempo de conservación en la calidad? ¿Cómo?
Xijk = valor de la K.ésima observación en el tratamiento formado por la variante i del primer factor
con la variante j del segundo.
μ = promedio general
αi = efecto específico de la variante i del 1er factor
βj = efecto específico de la variante j del 2º factor
(αβ)ij = efecto de la interacción entre los factores en sus niveles i, j, respectivos.
εijk = residuo aleatorio
∑α
i
i =0 ∑β
j
j =0 ∑ (αβ)
i
ij =0 ∑ (αβ)
j
ij =0
Supuestos:
Ε(ε ijk ) = 0
ε ijk ≡ N(0, σ 2 )
⎬ independientes e incorrelacionados
181
9.5.2.3.- Hipótesis Nulas
Las hipótesis nulas a contrastar son la ausencia de efecto sobre la respuesta de cada uno de los
factores así como la ausencia de interacción entre ellos
H0: ∀α i = 0 H1: ∀α i ≠ 0
∀β j = 0 ∀β j ≠ 0
∀( αβ )ij = 0 ∀(αβ)ij ≠ 0
Si algún factor resulta significativo podrá determinarse entre que variantes hay diferencias
significativas comparando la diferencia de medias con la L.S.D. ó DMS
Los resultados, expresados en gr. de producto obtenido con la misma cantidad de materia prima en
1 hora, se recogen en la tabla siguiente:
Dosis de catalizador (mg.)
182
Método/Do
0’75 1 1’25 1’50
sis
68 91 90 105
A 60 75 98 95
62 86 94 99
60 72 64 48
B 45 71 75 55
66 60 70 50
Solución
El modelo es:
∑α = 0i
∑β = 0j
∑ (αβ) = 0
i
ij
∑ (αβ) = 0
j
ij
O.V. SC GL CM Fc Ft
Total 7096’96 23
Catalizador 1535’13 3 511’71 12’39 > F30'16
'01
= 5'29 * *
183
Interpretación de Resultados
Interaction Plot
101 metodo
A
91 B
rendimiento
81
71
61
51
0,75 1 1,25 1,50
dosis
184
185