Beruflich Dokumente
Kultur Dokumente
- CÁLCULO DE
PROBABILIDADES
Esperanza Ayuga
Concepción González García
Susana Martín Fernández
Eugenio Martínez Falero
Contenido:
• Teoría de la probabilidad.
• Variables y vectores aleatorios.
• Relaciones entre variables aleatorias.
CÁLCULO DE PROBABILIDADES
Teoría de la probabilidad:
Espacio medible.
Espacio probabilístico.
Probabilidad condicionada.
Experimentos compuestos.
Espacio medible
Definición de Estadística
Ciencia que utiliza información para dar una guía de actuación, o describir situaciones
prácticas que envuelven incertidumbre (Barnett, 1978)
Conceptos fundamentales
Experimento aleatorio es una situación práctica que envuelve incertidumbre. No se puede
conocer el resultado del experimento antes de su realización. La aleatoriedad puede ser:
Propia del experimento: Lanzar un dado
Forzada: Elegir al azar un punto del plano topográfico.
Sucesos elementales: cada uno de los resultados diferentes (o que se consideran diferentes)
al realizar un experimento aleatorio (w).
Espacio muestral: conjunto formado por todos los sucesos elementales (Ω). Puede ser finito,
infinito numerable o continuo.
Suceso es cualquier afirmación (enunciado) referente al resultado de un experimento
aleatorio, que sólo se puede confirmar o rechazar a la vista del resultado del experimento.
Todo suceso (A) se puede representar como un conjunto cuyos elementos son sucesos
elementales (por lo que es un subconjunto del espacio muestral): A={w1, w2, …}⊆ Ω.
Suceso seguro es el que ocurre siempre. Como conjunto de sucesos elementales tiene
asociado todo el espacio muestral
Suceso imposible es el que no ocurre nunca. Tiene asociado el conjunto vacio (Ф) como
subconjunto del espacio muestral.
Operaciones con sucesos y conjuntos de sucesos Espacio medible
Para que un conjunto de sucesos sea manejable debe ocurrir que se puedan realizar operaciones
entre ellos y que el resultado de tales operaciones sigan siendo sucesos observables
Suceso como:
a) Enunciado relativo a la realización b) Conjunto formado por sucesos
de un experimento aleatorio elementales del espacio muestral
Conjunción lógica de B y C: A= “B y C” Intersección de B y C:
(A = B ⋀ C) A= B ⋂ C = {w∈Ω / w∈B y w∈C}
OPERACIONES
Clase de enunciados cerrada por las Clase de conjuntos cerrada por las
operaciones de conjunción lógica, operaciones de unión, intersección y
disyunción lógica y negación complementación
Teorema de Stone:
Para todo álgebra de Boole de sucesos existe un álgebra de conjuntos que le es
isomorfa y viceversa.
Sucesos en espacios muestrales continuos Espacio medible
Cuando se trabaja con espacios muestrales continuos es necesario extender el concepto de álgebra
a sucesiones infinitas numerables. Así, un σ-álgebra de sub-conjuntos de Ω, es un conjunto (A ),
que satisface simultáneamente las siguientes condiciones:
a. Ф ∈ A
b. ∀B ∈ A ⇒ BC ∈ A ∞
c. Si B1, B2, … es una sucesión contable de elementos de A ⇒ Bn ∈ A
n =1
Toda σ-álgebra está contenida entre dos σ-álgebras extremas: {Ф, Ω} ⊆A ⊆ P(Ω)
Un átomo de A es todo suceso B, tal que el único subconjunto de B en A , además del conjunto
vacio, es el propio B.
Proposición:
Sea A un σ-álgebra de sub-conjuntos de Ω, entonces ocurre:
i. Ω ∈ A
ii. Si A1, A2, …, Ak ∈ A ⇒ (A1⋃ A2⋃ … ⋃ Ak) ∈ A
iii. Si A1, A2, …, Ak ∈ A ⇒ (A1⋂ A2⋂ … ⋂ Ak) ∈ A ∞
iv. Si A1, A2, … es una sucesión contable de elementos de A ⇒ A n ∈ A
n =1
v. Si A, B ∈ A ⇒ (A – B) ∈ A
Espacio medible
Definición
Toda estructura (Ω, A ) se denomina
espacio medible o probabilizable.
Se denominan así porque son susceptibles de definir una
medida sobre ellas (área, volumen, probabilidad, …)
Ejemplos. Espacio medible
1.- En la siguiente tabla se presentan varios experimentos aleatorios y sus espacios muestrales.
Experimento aleatorio Espacio muestral
Observar el sexo de un recién nacido {Varón, Hembra}
Observar el tiempo de vida de un virus {x / x ∈ [0,∞)}
Contar el número de coches que atraviesan un cruce durante 15 minutos {0, 1, 2, … }
, , , , ,
Lanzar un dado
2.- Dado el experimento aleatorio consistente en lanzar un dado, se pide: construir tres espacios
medibles asociados a este experimento.
3.- Expresar los enunciados de los siguientes sucesos mediante operaciones de conjuntos:
AC⋂BC (A⋂B)C
No más de uno de los
No ocurren ni A ni B
dos (A o B) ocurren
Ocurre A y no ocurre Si ocurre A también
B A⋂BC ocurre B A⊆B
A y B se excluyen
(A⋂BC)⋃(AC⋂B) A⋂B = Ф
Solo ocurre uno de
los sucesos (A o B) mutuamente
Espacio probabilístico
Definición axiomática de probabilidad.
Toda medida (P) aplicada sobre una σ-álgebra (A ), de sub-conjuntos de Ω, en ℝ, que cumpla:
i. P(A) ≥ 0, ∀A∈A
ii. P(Ω) = 1
∞
iii. ∀{An}n∈ℕ ⊂ A / Ai ⋂ Aj = Φ, ∀i ≠ j ⇒ P A n = ∑n =1 P(A n )
∞
Es una probabilidad. n =1
n =1
vii Continuidad secuencial de la probabilidad:
a) ∀{An}n∈ℕ ⊂ A / An↑ o An↓ ⇒ P(lim A n ) = lim P(A n )
n →∞
y hacer: P(wi) = pi y P ( A ) = ∑ wi ∈A
P( wi )
Teorema:
Sea (Ω, A ) un espacio medible donde Ω es un conjunto continuo. Si se define un álgebra (Q)
sobre una partición cualquiera de Ω y una probabilidad sobre dicho álgebra (P) ⇒ ∃| Pe, llamada
extensión de la probabilidad sobre el σ-álgebra engendrado por Q [la menor σ-álgebra que
contiene todos los elementos de Q y que representaremos por σ(Q)] tal que Pe|Q = P y, además:
j
recubrimientos que se pueden realizar sobre
A con sucesiones de subconjuntos de Ω
Acepciones históricas de probabilidad. Espacio probabilístico
La formulación axiomática de la probabilidad como una medida, normaliza el concepto y facilita el cálculo de probabilidades
de operaciones con sucesos.
Sin embargo, para asignar una medida de la incertidumbre de ocurrencia de sucesos es necesario utilizar otras fuentes de
información que concreten, de entre todas las medidas de probabilidad que satisfacen los axiomas formulados, cual es la que
realmente describe el comportamiento aleatorio del experimento analizado.
Para eso se requiere utilizar diferentes tipo de información que se van presentar a lo largo del curso. No obstante,
históricamente se han desarrollado algunas acepciones de probabilidad que son consistentes con la axiomática adoptada. Así:
∑ P(S) = ∑w ∈S P( wi )
6
P( wi ) = pi tales que : i =1
pi = 1 y pi ≥ 0, ∀i = 1,...,6
i
5.- Una moneda equilibrada se lanza hasta que aparece la primera cara, se pide: construir un
espacio probabilístico para este experimento.
n =1 P (B ) P (B) P(B)
Por tanto, PB es una probabilidad.
Probabilidad condicionada
Resultados en probabilidad condicionada.
Teorema de la multiplicación o regla del producto.
Dados n sucesos S1,...,Sn ocurre que:
i =1
Teorema de Bayes.
Con las mismas hipótesis del teorema anterior y además si P(A) > 0, P(Si) > 0 y las probabilidades de
(A/Si) conocidas, tenemos: P(A/Si ) ⋅ P(Si )
P(Si /A) = n
∑ P(A/Si )⋅ P(Si )
i=1
Independencia de sucesos.
Dos sucesos son independientes si P(A/B) = P(A), lo que supone que P(A⋂B) = P(A)∙P(B)
Ejemplos. Probabilidad condicionada
6.- En una caja procedente de un vivero tenemos cinco bulbos de una planta cuyas flores pueden ser rojas o
blancas. En el vivero nos aseguran que en la caja hay tres bulbos que dan flor roja y dos que la dan blanca. Si
denominamos por Ri="el bulbo plantado en i-ésimo lugar da flor roja" y Bi="el bulbo plantado en i-ésimo
lugar da flor blanca“. Calcular la probabilidad de que el primero y el último de los bulbos plantados sean
blancos.
7.- En dos eras de un vivero forestal A y B se han plantado respectivamente 100 y 200 plantas de cierta
especie. Por diferencias de orientación y tipo de suelo de cada era, se sabe de ocasiones anteriores, que el
porcentaje de plantas que al ser trasplantadas no sobreviven es del 5% en la era A y del 6% en la B. La
probabilidad de que no sobreviva una de estas plantas al adquirirla de este vivero será:
P(A) = 100/300 = 1/3; P(B) = 200/300 = 2/3; P(SC/A) = 0.05 y P(SC/B) = 0.06
Por el teorema de la probabilidad total:
P(SC) = P(SC/A)∙P(A) + P(SC/B)∙P(B) = 1/3∙0.05 + 2/3∙0.06 = 0.0567
Probabilidad condicionada
Ejemplos.
8.- El teorema de Bayes se emplea en problemas de Teledetección, como parte del proceso de identificación de texturas (tipos
de vegetación, suelos, zonas urbanizadas, embalses, secano, etc...) a partir de imágenes, tanto de foto aérea como de satélite.
Así, en un territorio a analizar se aprecian por teledetección dos zonas diferentes (A y B) con porcentajes de la zona del 20%
y del 80% respectivamente. También se sabe que las dos únicas formaciones vegetales son matorral (M) y pinar (P). En el
campo se realizan tres inventarios, resultando que uno es de pinar y dos de matorral. Calcular la probabilidad de que la zona
A sea matorral.
9.- Un análisis para detectar una enfermedad en venados descarta la enfermedad en un 95% de los casos cuando el animal
está sano y lo señala como enfermo el 99% de las veces cuando realmente lo está. Se sabe que en la población en estudio el
1% de los venados padecen la enfermedad. Si se captura uno para someterlo al análisis y el resultado lo clasifica como
enfermo, ¿Cuál es la probabilidad de haber cometido un error?.
Si llamamos S=“sano”; E=“enfermo”; P=“el análisis dice que enfermo”; y N=“el análisis dice que está sano”; resulta:
P(S) = 1-0.01 = 0.99; P(E) = 0.01;
P(N/S) = 0.95; P(P/S) = 0.05;
P(P/E) = 0.99; P(N/E) = 0.01
Y la probabilidad de cometer un error se calcula por el teorema de Bayes,
P(P/S) ⋅ P(S ) 0.05 ⋅ 0.99
P(S/P) = = = 0.83
P(P/S) ⋅ P(S ) + P(P/E) ⋅ P(E) 0.05 ⋅ 0.99 + 0.99 ⋅ 0.01
Experimentos compuestos
Los experimentos compuestos estudian los resultados conjuntos de dos o más
experimentos de la misma o distinta clase de pruebas.
Para ello hay que construir un espacio de probabilidad asociado a las experiencias
combinadas a partir de los espacios generados a partir de cada experimento por
separado.
Ejemplos de este tipo son los fenómenos o experimentos aleatorios en los que se
incluye una dimensión temporal (observaciones de una población en distintos instantes
de tiempo) o espacial (disposición espacial de los individuos de una población).
El espacio muestral está formado por los pares ordenados (w1,w2) donde w1∈ Ω1 y w2∈ Ω2,
es decir, por el producto cartesiano Ω = Ω1 × Ω2.
Experimentos compuestos
Construcción de un espacio probabilístico conjunto. (continuación)
El álgebra asociada a E conlleva algunas dificultades:
Por un lado, debe estar formada por elementos que sean subconjuntos de Ω pero:
A 1 × A 2 ={A1×A2⊂ Ω1×Ω2 / A1∈ A 1 y A2∈ A 2}
no es, en general, un álgebra. Además los elementos de A 1 × A 2 son productos cartesianos A1×A2, no pares de
sucesos (A1, A2), es decir A 1 × A 2 no es un producto cartesiano.
Al álgebra engendrada por A 1 × A 2 (conjunto de sucesos obtenidos mediante las operaciones unión,
intersección y complementario de conjuntos del tipo A1×A2), se denomina producto exterior y se representa por
A 1 ⊗ A 2 = g(A 1 × A 2 ).
Conjunto cilíndrico
Dado un suceso cualquiera perteneciente al álgebra A1∈ A 1 se denomina conjunto cilíndrico de base A1 al
conjunto: A1×Ω2 ∈ A 1 × A 2 y se representa por C1(A1).
De igual forma el conjunto cilíndrico de base A2 (∀ A2 ∈ A 2 ) es C2(A2) = Ω1 × A2.
C1(A 1 ) y C2(A 2 ) son sub-álgebras de A 1 ⊗ A 2 .
La correspondencia A1 ↔ C1(A1) define un isomorfismo entre A 1 y C1(A 1 ), e idénticamente A2 ↔ C2(A2)
define un isomorfismo entre A 2 y C2(A 2 ).
Estos isomorfismos permiten ubicar A 1 y A 2 en A 1 ⊗ A 2 .
Así: A 1 → C1(A 1 ) ⇒ A 1 × Ω2 ⊂ A 1 ⊗ A 2 y A 2 → C2(A 2 ) ⇒ Ω1× A 2 ⊂ A 1 ⊗ A 2
Para definir la probabilidad sobre (Ω1 × Ω2, A 1 ⊗ A 2 ), dada la identificación de sucesos y cilindros se tiene:
P[C1(A1)] = P(A1×Ω2 ) = P1(A1) y P[C2(A2)] = P(Ω1 × A2) = P2(A2)
Para calcular probabilidades de sucesos más generales:
P1 ( A 1 ) × P1 ( A 1 ) si las pruebas son independientes
P( A 1 × A 2 ) =
P1 ( A 1 ) × P ( A 2/A 1 ) = P2 ( A 2 ) × P ( A 1/A 2 ) caso contrario
También la probabilidad obtenida para sucesos del tipo A1×A2 (en A 1 × A 2 ) se puede extender a todos los
sucesos de A 1 ⊗ A 2 .
CÁLCULO DE PROBABILIDADES
Una variable aleatoria es una aplicación medible, de un espacio medible en (ℝ, ℬ):
X: (Ω, A )→ (ℝ, ℬ)
Toda función de distribución induce una ley de probabilidad sobre (ℝ, ℬ), de forma que :
F(x)= PX {X ≤ x} = P{(X)-1(-∞,x]} = P{w/ X(w) ≤ x}
En general: si a, b ∈ ℝ y a < b, entonces P[a < X ≤ b] = F(b) – F(a).
Sea X una variable aleatoria, con función de masa pX y sea DX = { x ∈ ℝ / pX (x) > 0 }. Si DX ≠ Ф
y ∑p X ( x) = 1, en estas condiciones, X es una variable aleatoria discreta y DX se denomina
x ∈D X
soporte de la variable aleatoria.
Distribución de la probabilidad
Variable aleatoria discreta. [continuación]
Teorema Teorema
La función de distribución F(x) se puede ∀B∈ℬ: PX(B) = P[(X)-1 (B)] =
obtener a partir de la función de masa: si B DX = Φ
0
F ( x) = ∑ p X ( xi ) = ∑ p ( x) si B D ≠ Φ
x∈(B DX )
X X
xi ≤ x
Como:
1
F(x)
1. F(x)≥ 0, ∀x∈ ℝ.
2. F(x) es monótona no decreciente.
2/3
3. F(-∞) = 0 y F(+∞) = 1.
1/3 4. Es continua por la derecha
x
-∞ 0 2 4 6 8 ∞ F(x) es una función de distribución
Ejemplo. Distribución de la probabilidad
11.- Sea el experimento aleatorio consistente en lanzar dos dados equilibrados y observar las
puntuaciones de cada uno. Se define la variable aleatoria X= “suma de las dos puntuaciones
observadas” y se pide demostrar que X es una variable aleatoria discreta y calcular las
probabilidades de los sucesos B1=“obtener una suma par y menor de cinco” y B2=“obtener más
de un siete”.
Ω 1 2 3 4 5 6 X 1 2 3 4 5 6
1 (1,1) (1,2) (1,3) (1,4) (1,5) (1,6) 1 2 3 4 5 6 7
2 (2,1) (2,2) (2,3) (2,4) (2,5) (2,6) 2 3 4 5 6 7 8
3 (3,1) (3,2) (3,3) (3,4) (3,5) (3,6) 3 4 5 6 7 8 9
4 (4,1) (4,2) (4,3) (4,4) (4,5) (4,6) 4 5 6 7 8 9 10
5 (5,1) (5,2) (5,3) (5,4) (5,5) (5,6) 5 6 7 8 9 10 11
6 (6,1) (6,2) (6,3) (6,4) (6,5) (6,6) 6 7 8 9 10 11 12
∑
12
Como: xi = 2
p X ( xi ) = 1 ⇒ X es una variable aleatoria discreta.
∑
12
P(B2) = xi =8
p X ( xi ) =15 / 36
Ejemplos. Distribución de la probabilidad
3 / 2 x 2 si − 1 ≤ x ≤ 1
12.- Comprobar si f ( x) = es función de densidad y calcular su F. de distribución.
0 resto
Como:
Sólo presenta dos discontinuidades en x=1 y x=-1;
f(x) ≥ 0, ∀x ∈ℝ y 1 ⇒ Se trata de una función de densidad
∞ 1 1 3
∫−∞ f ( x)dx = ∫−1 3 / 2 x dx = 2 x −1 = 1
2
0 x < −1
x
x x3 + 1
Por otra parte: F ( x) = ∫ f (u ) du = ∫ (3/2)t dt = 2
−1 ≤ x ≤ 1
-∞ −1 2
1 x >1
0 si x ≤ 0
13.- Comprobar si F ( x) = -λ x es una función de distribución y calcular su función de densidad
1-e si x > 0
Como:
F(x) es una función continua, constante para x≤0 y creciente para x>0.
F(-∞) = 0 y ⇒ Se trata de una función de distribución
F(+∞) = lim [1 − e − λx ] = 1 − e −∞ = 1
x →∞
0 si x ≤ 0
f ( x) = -λ x
λe si x > 0
Características de la distribución de una variable
Esperanza matemática de una variable aleatoria discreta X: Medidas de
∞ centralización
E[ X ] = ∑x p
xi ∈D X
i X ( xi ), si ∑x
k ≠1
k pk < ∞ E[aX+b] = aE[X]+b
E[X] se denomina media
Esperanza matemática de una variable aleatoria continua X: de la variable aleatoria X
∞ ∞
E[ X ] = ∫ xf ( x)dx, si ∫ x f ( x)dx < ∞ y se suele representar
−∞ −∞
por μ.
∑ g ( xi ) p X ( xi ) para X discreta
En general: E[g(X)] = xi ∈∞DX
∫ g ( x) f ( x)dx para X continua
−∞
Otras medidas Características de la distribución de una variable
Momentos respecto al origen:
= E [( X − α ) ] = ∑ (−1)
k
k
∑ x p X ( xi ) si X es discreta
k
µk k
j α k − jα1
k− j j
i 1
αk = xi ∈∞Dx j =0
Moda:
La moda (Mo) es el valor máximo de la función de masa o el máximo de la función de densidad.
Coeficiente de variación:
σ
El coeficiente de variación (CV) es una medida adimensional de la dispersión: CV = .100
µ
Recorrido: Si m = Xmin y M = Xmax , el recorrido (Re) es: Re = M-m
Otras medidas Características de la distribución de una variable
Cuantiles:
Los cuantiles de orden q, con 0<q<1, son los valores (xq ∈ℝ) que cumplen: P[X ≤ xq] = q
La mediana es el cuantil de orden 1/2.
Los cuantiles de orden q = 1/4, 1/2, 3/4 se denominan cuartiles.
Al tamaño del intervalo (x1/4, x3/4) se le llama recorrido intercuartil o intercuartílico
(RIQ) y se utilizan como medida de dispersión.
Los cuantiles de orden q = 1/10, 2/10,..., 9/10 se denominan deciles.
Los cuantiles de orden q = 1/100, 2/100,..., 99/100 se denominan percentiles.
µ3
Coeficiente de asimetria: γ1 = 3 (distribuciones simétricas con respecto a E[X] ⇒ γ1=0)
σ
µ4
Coeficiente de curtosis (medida del apuntamiento): γ 2 = − 3 (γ2>0 ⇒ muy apuntada)
σ 4
Teorema de Tchevichev:
P[ X − μ > rσ ] ≤ 2 ≡ P[μ − rσ ≤ X ≤ μ + rσ ] > 1 − 2
1 1
r r
Para r = 2 el teorema establece que cualquier variable aleatoria (X ) tiene una
probabilidad de, al menos 1 – (1 /22 )= ¾, de tomar valores entre dos desviaciones
típicas de la media, es decir tres cuartos, o mas, de las observaciones de cualquier
variable estarán en el intervalo µ ± 2σ.
Características de la distribución de una variable
Función característica.
Para una variable aleatoria (X), se define su función característica como:
φX: ℝ → ℂ ∑ e itx p X ( xi ) si X es discreta
i
-∞
t → φX(t) = E[e ] = ∫ e dFX (x) = x ∈∞D
itX itx i x
- −∞
∫ e itx f ( x)dx si X es continua
-∞
Su nombre proviene del hecho de que una vez conocida la función característica se
puede determinar la función de distribución de la v.a. y recíprocamente. Así:
1 ∞
f ( x) =
2π ∫ - -∞
e −itxϕ (t )dt
X
1 T −itx
T →∞ 2T ∫ −T
p X ( x) = lim e ϕ (t )dt
X
ϕ Xk ) (0)
αk =
ik
Ejemplo. Características de la distribución de una variable
14.- Una variable tiene por función de densidad una función de la forma: f(x)= k(x2-2x).
Determinar el dominio de esta función y el valor de k para que sea realmente una función de
densidad. Calcular la media y la varianza de la variable X. Obtener el coeficiente de simetría.
Para ser una verdadera función de densidad de probabilidad, f(x)≥0 y ∫ℝf(x)dx=1, por tanto,
Si k>0, (x2-2x)≥0 y como (x2-2x) = x(x-2), o bien x>0 y (x-2)>0⇒ x>2, o bien x<0 y (x-2)<0 ⇒
x<0 y en estos conjuntos de valores ∫ℝf(x)dx→∞.
Si k<0, (x2-2x)≥0 y como (x2-2x) = x(x-2), el único caso con resultados posibles en la recta de los
números reales es que x>0 y (x-2)<0 ⇒ 0<x<2, región en la que ∫ℝf(x)dx está acotada. En este
caso, calculamos k para que se cumpla la segunda propiedad de la función de densidad.
2
2 x3 2 8 4k 3
∫0 − = − = − = − = ⇒ = −
2
k ( x 2 x ) dx k x k 4 1 k
3 0 3 3 4
Por otra parte:
2
−3 2 2 − 3 x 4 2 x3 3 16
4 ∫0
α1 = µ = x ( x − 2 x ) dx = − = − 4 − =1
4 4 3 0 4 3 6 1
σ 2 = α 2 − α12 = − 1 =
−3 2 2 2
2
− 3 x5 2 x 4 3 32 6 5 5
4 ∫0
α2 = x ( x − 2 x ) dx = − = − − 8 =
4 5 4 0 4 5 5
2
−3 2 3 2 − 3 x6 2 x5 3 32 32 16
4 ∫0
α3 = x ( x − 2 x ) dx = − = − − =
4 6 5 0 4 3 5 5
16 6 8 µ 85
µ3 = α3-3α1α2 +2α13= − 3 + 2 = ⇒ γ1 = 33 = =8 5 >0
5 5 5 σ (1 5 5 )
Características de la distribución de una variable
Ejemplos.
15.- Una variable aleatoria X tiene una media con valor μ = 8, una varianza σ2 = 9 y su
distribución de probabilidad es desconocida. Acotar: P (−4 < X < 20).
P (−4 < X < 20) = P[ 8 – (4) (3) < X < 8 + (4) (3) ] ≥ 15/16
Teorema de Tchevichev
16.- Sea X una variable aleatoria discreta, con soporte DX={0, 1, …, n} y función de masa:
n!
p X ( xi ) = P( X = xi ) = p xi (1 - p ) n - xi , p ∈ [0,1] , xi ∈ D X
xi !(n - xi )!
Calcular la media y la varianza de X.
Se define el vector (X1, X2), donde X1=“-1 si sale par y 1 en caso contrario” y X2=“-0.5 si sale una
cara menor o igual a 4 y 2 en caso contrario”. Comprobar que (X1, X2) es un vector aleatorio
X1<-1 y X2<-0.5 ⇒ ( X1, X2)-1{(-∞, x1]×(-∞, x2]} = Φ ∈P(Ω)
-1≤X1<1 y X2<-0.5 ⇒ ( X1, X2)-1{(-∞, x1]×(-∞, x2]} = Φ ∈P(Ω)
1≥X1 y X2<-0.5 ⇒ ( X1, X2)-1{(-∞, x1]×(-∞, x2]} = Φ ∈P(Ω)
X2 X <-1 y -0.5≤X <2
1 2 ⇒ ( X1, X2)-1{(-∞, x1]×(-∞, x2]} = Φ ∈P(Ω)
-1≤X1<1 y -0.5≤X2<2 ⇒ ( X1, X2)-1{(-∞, x1]×(-∞, x2]} = {w2, w4}∈P(Ω)
2 1≥X1 y -0.5≤X2<2 ⇒ ( X1, X2)-1{(-∞, x1]×(-∞, x2]} = {w1, w2, w3, w4}∈P(Ω)
X1<-1 y 2≥X2 ⇒ ( X1, X2)-1{(-∞, x1]×(-∞, x2]} = Φ ∈P(Ω)
-1≤X1<1 y 2≥ X2 ⇒ ( X1, X2)-1{(-∞, x1]×(-∞, x2]} = {w2, w4, w6}∈P(Ω)
1≥X1 y 2≥ X2 ⇒ ( X1, X2)-1{(-∞, x1]×(-∞, x2]} = Ω∈P(Ω )
Toda función de distribución induce una ley de probabilidad sobre (ℝ2, ℬ2), de forma
que :
F(x,y)= PXY {X ≤ x, Y ≤ y} = P{(X,Y)-1((-∞,x]×(-∞,y])} = P{w/ X(w) ≤ x ⋂ Y(w) ≤ y}
Teorema Teorema
La función de distribución ∀B∈ℬ2: PXY(B) = P[(X,Y)-1 (B)] =
conjunta F(x,y) se puede obtener a
0 si B DXY = Φ
partir de la función de masa:
= ∑ p XY ( x, y ) si B DXY ≠ Φ
F ( x, y ) = ∑p
xi ≤ x , y j ≤ y
XY ( xi , y j ) ( x , y )∈(B DXY )
Descripción de la probabilidad en vectores
Vector aleatorio bidimensional continuo. (función de densidad)
Una función f: ℝ2 →ℝ, es una función de densidad en ℝ2 si:
f(x, y) ≥ 0 , ∀ (x,y)∈ℝ2
f es integrable Riemann en ℝ2
∞ ∞
∫ ∫
−∞ −∞
f ( x, y )dxdy = 1
• ∀ B ∈ ℬ2: P (B) = ∫∫ B
f (u, v)dudv
Descripción de la probabilidad en vectores
Distrib. marginales.
En un espacio probabilístico (Ω,A, P), un vector aleatorio supone una aplicación (X,Y): Ω →ℝ2.
A su vez, las aplicaciones ℝ2→ℝ [(X,Y)→X] y ℝ2→ℝ [(X,Y)→Y] son funciones medibles de ℬ2
en ℬ y se denominan proyecciones de la distribución conjunta de (X,Y) sobre X y sobre Y
respectivamente. Las distribuciones de estas proyecciones son las distribuciones marginales. Así,
para un vector aleatorio cualquiera (X,Y):
La función de distribución marginal de X es:
FX ( x) = lim F ( x, y ) = lim P [(X ≤ x) × (Y ≤ y)] = P[(X ≤ x) × ℝ] = P[(X ≤ x)] = F(x)
y →∞ y →∞
La función de distribución marginal de Y es:
FY ( y ) = lim F ( x, y ) = lim P [(X ≤ x) × (Y ≤ y)] = P[ℝ × (Y ≤ y)] = P[(Y ≤ y)] = F(y)
x →∞ x →∞
Para un V. A. (X,Y) continuo, con función de densidad conjunta f(x,y), las funciones de densidad
marginales de cada variable del vector se definen como:
∞ ∞
f X ( x) = ∫ f ( x, y )dy ; fY ( y ) = ∫ f ( x, y )dx
−∞ −∞
Sus soportes (CX y CY ) serán las proyecciones de CXY sobre cada eje.
Descripción de la probabilidad en vectores
Distrib. condicionadas.
Caso discreto
Sea (Ω,A, P) un espacio probabilístico y (X, Y) un V. A. discreto definido sobre él, con
función de masa conjunta pXY(x,y) y funciones de probabilidad marginales pX(x) y pY(y).
Si Y=y0∈DY; Y-1(y0) = {w∈Ω/ Y(w)= y0}∈A. Entonces, para cualquier suceso S∈A, se
puede determinarla probabilidad condicionada de S a Y= y0:
P[Y = y0 ] (S) = P(S /[Y = y0 ])
Así, la aplicación (X / [Y= y0]) induce una ley de probabilidades en (ℝ2, ℬ2), a partir de
la ley de probabilidades P[Y=y0] definida en (Ω,A ), de forma que:
P( X /[Y = y0 ]) ( X , y0 ) = P[Y = y0 ] {w ∈ Ω / X ( w) = x} =
P{[ w ∈ Ω / X ( w) = x] ∩[ w ∈ Ω / Y ( w) = y0 ]}
= =
P{w ∈ Ω / Y ( w) = y0 }
p XY ( x, y0 )
= = P ( X / y0 ) = p X / y0 ( x / y )
pY ( y0 )
p XY ( x0 , y )
Análogamente: P (Y / x0 ) = = pY / x0 ( y / x)
p X ( x0 )
Descripción de la probabilidad en vectores
Distrib. condicionadas.
Caso continuo
Sea (Ω,A, P) un espacio probabilístico y (X, Y) un V. A. continuo definido sobre él, con
función de densidad conjunta f(x,y) y funciones de probabilidad marginales fX(x) y fY(y).
En este caso la probabilidad en puntos concretos del dominio de definición no está
definida: PX(X= x0) = PY(Y= y0) = 0. Por lo que las probabilidades condicionadas a
valores puntuales de X o Y tampoco lo están. La distribución de X condicionada a
Y∈(y-h, y+h) se puede definir cuando h>0 y P[y-h <Y≤ y+h]>0, de la siguiente forma:
P[( X ≤ x) ∩ ( y - h < Y ≤ y + h)]
P[X ≤ x / y-h < Y ≤ y+h] =
P[ y - h < Y ≤ y + h]
f ( x, y )
La función de densidad correspondiente será: fX/Y(x / y)= .
fY ( y )
f ( x, y )
De la misma forma, la función de densidad de Y respecto a X será: fY/X(y /x)= .
f X ( x)
f ( x1 , , xn )
En general: f ( x1 , , xk / xk +1 , , xn ) =
f xk +1 ,, xn ( xk +1 , , xn )
Descripción de la probabilidad en vectores
Distrib. condicionadas.
Independencia
En el caso bidimensional (n=2) la condición necesaria y suficiente para
que dos variables aleatorias X e Y, definidas sobre un mismo espacio
probabilístico (Ω,A, P) sean independientes es:
F(x,y)=F1(x)F2(y), ∀ (x,y) ∈ ℝ2
En este caso, el producto de las distribuciones marginales de X e Y
determinan la distribución conjunta.
2 1/36 0 0 0 0 0 1/36
3 1/36 1/36 0 0 0 0 2/36
4 1/36 1/36 1/36 0 0 0 3/36
5 1/36 1/36 1/36 1/36 0 0 4/36
6 1/36 1/36 1/36 1/36 1/36 0 5/36
7 1/36 1/36 1/36 1/36 1/36 1/36 6/36
8 0 1/36 1/36 1/36 1/36 1/36 5/36
9 0 0 1/36 1/36 1/36 1/36 4/36
10 0 0 0 1/36 1/36 1/36 3/36
11 0 0 0 0 1/36 1/36 2/36
12 0 0 0 0 0 1/36 1/36
pX(xi) 1/6 1/6 1/6 1/6 1/6 1/6 1
P(y/x=5) = pY/x=5(5, y) = pXY(5, y) / pX(5). Por tanto, la función de masa condicionada será:
Y 2 3 4 5 6 7 8 9 10 11 12
P(y/x=5) 0 0 0 0 1/6 1/6 1/6 1/6 1/6 1/6 0
Descripción de la probabilidad en vectores
Ejemplo.
19.- Para los puntos de una zona, se han estudiado dos características: la pendiente y la litología. Ambas se han transformado
en variables aleatorias de forma que:
− 1 si la pendiente es ≤ 5% 0 en zonas arcillosas
X = Y =
1 si la pendiente es > 5% 1 en zonas de esquistos
y se tiene la siguiente función de masa:
X -1 1 p.j
Y
0 1/6 1/6 1/3
1 1/3 1/3 2/3
pi. 3/6 3/6 1
21.- Dado el vector aleatorio (X,Y) con la siguiente función de densidad conjunta
1 - y < x < y, 0 < y < 1
f ( x, y ) =
0 en el resto
Comprobar que, aunque el coeficiente de correlación es 0, las variables que lo componen no son
independientes.
y
x2
f1 ( x) = ∫ dy = 1 ⇒ µ1 = ∫ xdx = = 0
1 y
−y
0
2 −y
1
2 y3 2
f 2 ( y ) = ∫ dx = 2 y ⇒ µ 2 = ∫
y 1
2 y dy =
2
=
--y 0
3 0 3
y
x2 2
α11 = ∫ ∫ xydxdy = ∫
1 y 1
ydy = 0 ⇒ µ11 = α11 - µ1µ 2 = 0 - 0 = 0 ⇒ ρ = 0
0 -y 0
2 −y 3
Por otro lado, f(x,y) = 1 y f1(x)∙f2(y) = 2y ⇒ f(x,y) ≠ f1(x)∙f2(y), luego las variables
aleatorias X e Y no son independientes.
Ejemplo. Descripción de la probabilidad en vectores
22.- Dada la siguiente función de densidad conjunta para el vector (X,Y) bidimensional:
6 xy 2 0 < x < 1, 0 < y < 1
f ( x, y ) =
0 en el resto
Calcular la función de distribución y comprobar que las variables X e Y son independientes.
Función de distribución
1 si : (1 ≤ x, 0 < y ), (1 ≤ x, 1 ≤ y ) o (0 < x, 1 ≤ y )
x y
F ( x, y ) = P ( X ≤ x, Y ≤ y ) = ∫ ∫ 6uv 2 dudv = x 2 y 3 si : (0 < x < 1, 0 < y < 1)
0
0 0
en el resto
Distribuciones marginales
1
f X ( x) = ∫ 6 xy 2 dy = 2 x, 0 < x <1
0
1
fY ( x) = ∫ 6 xy 2 dx = 3 y 2 , 0 < y <1
0
Distribuciones condicionadas
6 xy 2
f X /Y ( x / y) = = 2 x = f X ( x), 0 < x < 1
3y2
⇒ INDEPENDIENTES
6 xy 2
fY / X ( y / x) = = 3 y 2 = fY ( y ), 0 < y < 1
2x
CÁLCULO DE PROBABILIDADES
Y CXY Y CXY
y3 y3
y2 E[X/Y] y2 E[X/Y]
y1 y1
X X
Transformaciones de las variables de un vector
Caso continuo.
Sea (X,Y) un vector aleatorio con función de densidad conjunta f(x,y) y sea la transformación:
z = g1 ( x, y ) x = h1 ( z , t )
(Z,T): ℝ2→ℝ2 , tal que : , para la cual existe la inversa de la transformación: . Tanto
t = g 2 ( x , y ) y = h2 ( z , t )
la transformación, como su inversa, son continuas y, además, existen y son continuas las derivadas parciales:
∂x ∂x ∂y ∂y
, , , . Si el jacobiano (J) de la inversa de la transformación es no nulo en el recorrido de la
∂ z ∂t ∂ z ∂t
∂x ∂x
transformación:
J= ∂z ∂t ≠ 0
∂y ∂y
∂z ∂t
entonces, el vector aleatorio (Z,T), resultante de la transformación del (X,Y), es continuo y su función de
densidad conjunta es:
fZT(z,t) = fXY [h1(z,t), h2(z,t)] |J|
Caso discreto.
Sea X= (X1, ..., Xn) un vector aleatorio n-dimensional discreto con función de distribución conjunta
F(x1, ..., xn) y se define Y= (Y1, ..., Yr) = (g1(X), ..., gr(X)), con r ≤ n, entonces la función de distribución del
vector Y, transformado del X es:
FY(y) = P[Y1≤ y1, ..., Yr≤ yr] = P[g1(X)≤ y1, ..., gr(X)≤ yr] = ∑p X 1 ... X n ( x1 ,..., xn )
x1 ... xn tales que:
g1 ( X ) ≤ y1 ,..., g r ( X ) ≤ y r
Transformaciones de variables de un vector
Ejemplo.
23.- Sea la variable aleatoria discreta (X,Y) con función de masa:
X 1 2 3 4
Y
La probabilidad:
P[Z= 0] = P[X=1;Y=0]+...+P[X=4;Y=0] = 0.16+0.08+0.32+0.24 = 0.8
P[Z= 1] = P[X=1;Y=1] = 0.04
P[Z= 2] = P[X=2;Y=1] = 0.02
P[Z= 3] = P[X=3;Y=1] = 0.08
P[Z= 4] = P[X=4;Y=1] = 0.06
11 11
de la suma
0.50.5 0≤x
0<x2≤1
2<1 0.5
0.5 0≤t≤1
0<t<1
00 00
00 0.5
0.5 11 1.5
1.5 XX1 1 00 0.5
0.5 11 1.5 Z
1×du = [u ] 0 = z
z 1
∫ si 0 ≤ z ≤ 1
z
0
∫ 1×du = [u ]
∞ 1
f Z1 ( z ) = ∫ f Z1T1 ( z , t )dt = = 1 − z si 1 < z ≤ 2
1
z 0.5
−∞ z
0 en el resto
0
0 0.5 1 1.5 z
X2 Transformaciones de variables de un vector
T
1.5 Z=X1 / X2 1.5 1,5
0≤zt≤1
0≤x1≤1 T= X2
1 1 1
Distribución
0≤t≤1
del cociente
0.5 0≤x2<1 0.5 0,5
0 0 0
1z 0,3
∞ 1z t 2 1
f Z1 ( z ) = ∫ f Z 2T2 ( z , t )dt = ∫ tdu = = 2 si z > 1 0,2
−∞ 0
20 2z 0,1
0 en el resto 0
01 11
0.5 121
1 31
11
1.5 41
21
2 31
51
2.5 41
61
3 51
3.5 61 z
Transformaciones Transformaciones
asimétricas asimétricas
Como se deduce de la expresión general de la distribución de probabilidades de las transformaciones de vectores aleatorios:
fZT(z,t) = fXY [h1(z,t), h2(z,t)] |J|, las transformaciones no lineales inducen cambios en el modelo de distribución de la
transformación.
Las no-linealidades pueden ser cóncavas, convexas o una combinación de ambas. Como se verá más adelante (Teorema 2),
en general, las transformaciones convexas (una sonrisa) son buenas y las transformaciones cóncavas (un puchero) con malas.
Tal vez nunca lleguemos a conocer la distribución de X, pero se puede jugar con sus transformaciones T[X] y forzar
modificaciones en ella hasta que nos encontremos cómodos con las transformaciones.
Ejemplo. Sea X la intensidad de un terremoto en una zona concreta y T[X] el número de personas que mueren por culpa
del seísmo. Se puede comprobar que T[X] es mucho más predecible que X, (obligando a las personas a no pasar por
ciertas zonas, cumpliendo estrictamente ciertas normas de edificación o diseñando vías de evacuación y de suministro
de agua y energía resistentes).
Ejemplo. X es número de vehículos que circulan en una ciudad en una hora determinada, T[X] es el tiempo de
desplazamiento de un individuo entre dos puntos. Puede conseguirse que T[X] sea más predecible que X, (haciendo que
la persona tome el metro o se desplace a pié).
Al ser posible que no se llegue a conocer la distribución de X, especialmente, las probabilidades pequeñas de sus sucesos
extremos, el siguiente teorema es muy operativo.
Cuando T[X] es creciente y convexa hacia la izquierda y luego es cóncava hacia la derecha, la probabilidad de
Teorema 1 T[X] tome valores extremos es menor de que sucedan valores extremos en X (la distribución de probabilidad
de T[X] es de colas más finas que la de X)
En la naturaleza no hay nada sin un final o un límite, así pues, las cosas terminan siendo convexas en un extremo y cóncavas
en otro. Por tanto, se reduce la probabilidad de ocurrencia de sucesos extremos.
Respuesta
T[X] Respuesta
El aumento de dosis puede terminar
T[X] siendo tóxico o, simplemente,
Dosis ineficiente. Pero los crecimientos
X
ilimitados no se producen en la
Dosis
naturaleza
X
Transformaciones y fragilidad Transformaciones asimétricas
La fragilidad es la mayor o menor facilidad de que un sistema colapse (sin posibilidad de regeneración) ante un suceso (o resultado) externo. Por
extensión se considera la probabilidad de ocurrencia del suceso (resultado) negativo que colapse el sistema. Como se ha comentado puede ser
difícil determinar la distribución de probabilidades de una variable de un sistema, pero, en ocasiones, las transformaciones de una variable son
más predecibles que la variable original y, en muchos casos, es lo que interesa conocer de un sistema
Teorema-2 Cuando la transformación de una variable (T[X]) es monótonamente convexa (cóncava) , la distribución de probabilidades de la
transformación es asimétrica a la izquierda (derecha)
DISTRIBUCIONES DE LAS T[X]
Probabilidad Probabilidad
TRANSFORMACIONES DE X (T[X])
Distribución robusta:
a) LINEAL resultados positivos y
negativos pero todos de
magnitud pequeña.
DISTRIBUCIÓN DE X
Resultados Resultados
Probabilidad Distribución frágil-TI: resultados positivos de gran magnitud y
Probabilidad negativos también de gran magnitud. La posibilidad de que se
produzca un resultado desfavorable grave puede acabar con el
sistema. Es una distribución rara porque la simetría es muy
infrecuente en la naturaleza.
b) CONVEXA
Distribución anti-frágil: posibilidad de resultados positivos de gran magnitud y son menos
probables (cuando no imposibles) los resultados desfavorables de gran magnitud. La “cola”
derecha de resultados favorables es mayor que la izquierda.
Resultados
Resultados
Probabilidad
Resultados
Medida de la fragilidad
Transformaciones asimétricas
La medida de los efectos de la no-linealidad en las transformaciones se denomina sesgo de convexidad (concavidad) y es la diferencia entre la
distribución de una variable y la de su transformada. Este sesgo se puede cuantificar.
La fragilidad se puede medir como el incremento de área de la cola izquierda de la función de densidad (por debajo de un cierto nivel k de la
variable respuesta) –es decir: aumento de probabilidad de que se produzcan resultados negativos –, en respuesta a cualquier cambio en algún
parámetro de la distribución de una variable (principalmente en la varianza de la variable).
Supongamos que se conoce el modelo de distribución de la
variable X [X≈f(x)] y se tiene una transformación de X (Y=T[X]).
Ejemplo
Un gobierno realiza una estimación del desempleo previsto para los
El hecho de que Y sea incierto (aunque estimable) produce un
tres años siguientes y calcula un promedio de 9%. Entonces aplica sus
sesgo cuando se considera como una variable estocástica en lugar
modelos econométricos que determinan que, para ese nivel de
de un parámetro fijo. Dicho sesgo se puede calcular como la
desempleo (si se mantienen las políticas que ha aprobado el
diferencia entre la función f (integrada para los valores
parlamento), se prevé un déficit de 200000 millones. Analicemos estos
potenciales de Y) y la f estimada para un único valor de Y
datos:
considerado como la media de esta.
En todos los países, esta estimación pasa por alto que el
desempleo es una variable aleatoria, de hecho, el empleo ha
Para un nivel k -por debajo del cual se producen resultados que
fluctuado un 1% a lo largo de un período de tres años. Si se
colapsan el sistema-, la fragilidad (wB) se calcula comparando
mantuviera esta fluctuación, tendíamos los siguientes efectos:
ambas integrales por debajo de k, con objeto de captar el efecto
• Desempleo al 8% → Déficit de 75000 millones [D(8%)]
sobre la cola izquierda:
-mejora de 125000 millones-
wB (k ) ≡ ∫ ∫ f ( x / y ) ϕ ( y ) dy dx − ∫ f ( x / y ) dx
k k
Probabilidad
Incertidumbre baja
Resultados
Resultados
Probabilidad
Incertidumbre baja
Ganancias limitadas y pérdidas mayores. El
c) CONCAVA incremento de incertidumbre genera un
aumento de los resultados negativos.
Incertidumbre LAS TRASNFORMACIONES CONCAVAS SE
elevada LLEVAN MAL CON LA INCERTIBUMBRE.
Resultados
Ejemplo. Transformaciones asimétricas
25.- Dada una distribución bi-variante continua y T1 [X ] = X 2 (Convexa)
X
Transformaciones asimétricas
a) Como: T1 [X ] = X 2 , hacemos:
∂x ∂x
1
Z=X X = Z
2
∂z ∂t = 0 1
2
⇒ ⇒ J = ∂y 2 z = ⇒
T = Y − X Y = T − Z ∂y 2 z
−1 1
∂z ∂t
1.5
T
1.5
0.5 ≤ x ≤ 1.5 ⇒
0,5≤x≤1,5 0.5 ≤ z ≤ 1.5 ⇒
1 1
0.25 ≤ z ≤ 2.25
0 ≤ y ≤1 ⇒
0.5 0≤y≤1 0.5
0 ≤ t − z ≤1 ⇒
0 0 z ≤ t ≤ 1+ z
0 0.5 1 1.5 X 0 0.5 1 1.5 2 2.5 Z
[t ]z =
∞ z +1 1 1 1
⇒ f Z ( z ) = ∫ f ZT ( z , t )dt = ∫
z +1
dt = (para 0.25 < z < 2.25)
-∞ z
2 z 2 z 2 z
Transformaciones asimétricas
b) Como: T2 [X ] = 1 − X 2, hacemos:
∂x ∂x
−1
Z = 1− X X = 1− Z
2
∂z ∂t = 0 1
⇒ ⇒ J = ∂y ∂y 2 1− z = ⇒
T = Y − X + 1 Y = T − Z
2
−1 1 2 1− z
∂z ∂t
0.5 ≤ x ≤ 1.5 ⇒ 0.5 ≤ 1 − z ≤ 1.5 ⇒ -0.25 > -1 + z > -2.25 ⇒ − 1.25 ≤ z ≤ 0.75
0 ≤ y ≤ 1 ⇒ 0 ≤ t − z ≤ 1 ⇒ z ≤ t ≤ 1+ z
a ≤ x ≤ b ⇒ 1 − b2 < z < 1 − a2
[t ]z =
∞ z +1 1 1 1
⇒ f Z ( z) = ∫ f ZT ( z , t )dt = ∫
z +1
dt = (para − 1.25 < z < 0.75)
-∞ z
2 1− z 2 1− z 2 1− z
Transformaciones asimétricas
c) Análisis de resultados
La transformación convexa T1[x]
Probabilidad incrementa de probabilidad de obtener
buenos resultados
f(x)
La transformación cóncava T2[x]
aumenta la probabilidad de obtener
f(T1[x]) pobres resultados
Resultados
A las opciones (a diferencia de las decisiones humanas inteligentes basadas en el conocimiento) no les
preocupan los resultados medios, solo le interesan los resultados favorables.
La vida se beneficia de la no linealidad de las opciones que genera aprovechando el incremento de probabilidad de obtener
resultados positivos de gran magnitud sobre otros resultados desfavorables menos probables
Una evidencia de la no linealidad es la sobre-compensación (en lugar de la mera adaptación)**
*La superioridad operativa de la naturaleza (que surge de la opcionalidad y no del conocimiento) no puede hacernos caer en la falacia naturista: las reglas
éticas no se basan en la opcionalidad.
** Por ejemplo, si todos los miembros de una especie necesitan un cuello de medio metro para sobrevivir, tras varias generaciones, la población que sobreviva
tendrá -en término medio- un cuello mayor de medio metro (en general: un proceso estocástico sometido a una barrara tendrá una media observada mayor que
la barrera, puesto que no solo superan la barrera los sucesos iguales, sino los superiores a la barrera)
*** En realidad ocurre que hay muchos sucesos con probabilidad pequeña –y realmente incalculable a pesar del Teorema 1- y alguno acaba siempre por ocurrir.
Los gestores humanos de riesgo buscan en el pasado el peor de los escenarios ocurridos para calcular riesgos futuros –lo que se denomina prueba de estrés-
(la peor recesión histórica, la peor guerra o los peores índices de desempleo), pero no se dan cuenta que cuando ese escenario existió, superó al peor de su
época.
Análisis de la dependencia
Curvas de regresión
La curva de regresión de Y sobre X es la función y = g(X) que hace que la expresión: E[(Y-g(X))2]
sea mínima, es: g(x) = E(Y/X=x).
El siguiente coeficiente indica el nivel de dependencia funcional entre ambas variables, desde el
punto de vista de las curvas de regresión
E{[ g ( X ) - E( X )]2 }
η21 =
2
V (Y )
Se denomina razón de correlación de Y sobre X o bien, coeficiente de determinación general de
Y sobre X y cumple que 0 ≤ η 21
2
≤1 .
Análogamente, la función x = h(Y) que, entre todas las funciones de Y, hace mínima la expresión:
E[(X-h(Y))2]. Es: h(Y) = E(X/Y=y) y se denomina curva de regresión de X sobre Y. De la misma
forma se define la razón de correlación de X sobre Y como: E{[h(Y ) - E(Y )]2 }
η12 =
2
V (X )
y también satisface que 0 ≤ η122 ≤ 1 .
Si X e Y son variables aleatorias independientes, se cumple que f(y/x)=f2(y) y que f(x/y)=f1(x) por
lo que las esperanzas condicionadas coinciden con las esperanzas de las distribuciones
marginales:
E[Y/X=x] = E(Y) = µY y E[X/Y=y] = E(X) = µX.
Rectas de regresión Análisis de la dependencia
Se considera que la función lineal (del tipo Y = α+βX) que mejor representa a la
variable Y es aquella que hace que esperanza del cuadrado de la diferencia entre los
valores de α+βX y los de Y sea la mínima. Este criterio se denomina “principio de los
mínimos cuadrados” y obtiene la función lineal α+βX que hace mínima la expresión:
E{[Y-(α+βX )]2}
Dicha función es:
µ11 µ11
Y = α + βX = α 01 - α10 + X
µ 20 µ 20
V (Y )
Donde ρ es el coeficiente de correlación lineal de X e Y y α+βX es la recta de regresión
lineal de Y sobre X.
En general:
0≤ ρ2 ≤ ( η12 , η21 ) ≤ 1
2 2
26.- Consideremos el experimento aleatorio que consiste en arrojar un dado perfecto en el que
tres caras tienen pintado un 1, 2 caras tienen un 2 y la cara restante tiene pintado un cero. Si el
número que sale en la tirada es el 1, se escoge una urna que contiene 18 bolas numeradas de la
siguiente forma: tres con un 0, seis con un 5 y nueve con un 2, extrayendo una de las bolas
contenida en esta urna. Si el número que sale en la tirada es el 2, se escoge una bola de la urna
que contiene 12 numeradas de la siguiente forma: tres con un 0, seis con un 5 y tres con un 8. Si
el número que sale en la tirada es el 0, se escoge una bola de la urna que contiene 10, numeradas
de la siguiente forma: cinco con un 2 y cinco con un 5.
El experimento aleatorio consiste en tirar un dado, elegir una urna y extraer una bola,
observando los números que aparecen en el dado y en la bola:
1/3 1/4 0
2 5
1/2
1/4 8
Se pide: Análisis de la dependencia
a) Si X1= nº obtenido al tirar el dado y X2= nº de la bola extraída, obtener el recorrido de ambas
variables y el del vector aleatorio cuyas componentes son X1 y X2. Calcular la función de
probabilidad de dicho vector aleatorio.
Dominio de las variables: X1={0, 1, 2}; X2={0,2,5,8}; [X1, X2]= {(0,2); (0,5); (1,0); (1,2); (1,5); (2,0); (2,5); (2,8)}.
Función de probabilidad conjunta:
Se obtiene aplicando el teorema del producto para los valores del dominio del vector aleatorio, obteniendo la
siguiente tabla de probabilidad conjunta con las probabilidades marginales P1 y P2, comprobando que suman 1:
X2 0 2 5 8 P1
X1
0 0 1/12 1/12 0 1/6
1 1/12 1/4 1/6 0 1/2
2 1/12 0 1/6 1/12 1/3
P2 1/6 1/3 5/12 1/12 1
Sean X1, ..., Xn variables aleatorias sobre un (Ω, A , P) de esperanzas matemáticas E(X1), ..., E(Xn) y varianzas Var(X1), ...,
Var(Xn) respectivamente. El vectorµ=(µ1, ..., µn) es el centro de gravedad de la distribución conjunta n-dimensional de (X1,
..., Xn), siendo µi=E[Xi]. La matriz de varianza-covarianzas de la distribución conjunta del vector aleatorio (X1, ..., Xn) como:
Var ( X 1 ) Cov( X 1 , X n )
Cov( X 2 , X 1 ) Var ( X 2 ) Cov( X 2 , X n )
M=
Cov( X , X )
n 1 Var ( X n )
donde Var[Xi] =E[(Xi-E[Xi])2] y Cov(Xi, Xj)= E[(Xi-E[Xi])(Xj-E[Xj])], siendo Cov(Xi,Xj)= Cov(Xj,Xi). Por último, se tiene la
matriz de correlaciones de la distribución conjunta del vector aleatorio (X1, ..., Xn):
ρ11 ρ12 ρ1n
ρ ρ 22 ρ 2n
P = 21
ρ
n1 ρ nn
Cov( X i , X j )
donde: ρ ij = y se cumple que ρij= ρji y ρii=1
Var ( X i )Var ( X j )
M y P son dos matrices simétricas no negativas y del mismo rango, ya que M=SPS, siendo S la matriz diagonal cuyos
elementos diagonales son las desviaciones típicas. Además, se obtiene:
M= Var[X1]∙...∙Var[Xn] ∙ P
0≤M≤ Var[X1]∙...∙Var[Xn]
0≤P≤ ρ11∙...∙ ρnn= 1
En caso de que Cov(Xi, Xj)= 0, si i≠j, se dice que las componentes del vector están incorreladas. En ese caso P es la matriz
identidad I.
Análisis de la dependencia
Regresión n-dimensional (continuación).
Las curvas de regresión introducidas en el tema anterior pueden generalizarse a un número n cualquiera de variables
aleatorias.
En particular se puede generalizar la curva de regresión de la media para el caso de la distribución conjunta del vector
aleatorio. Así el valor condicional de X1 relativo a Xi=xi para i=2,...,n, se obtiene mediante la expresión:
∞
∫
m1 ( X 2 ,..., X n ) = E[ X 1 /( X 2 = x2 ) ... ( X n = xn )] = µ1/ 2,...,n = −∞∞
x1 f ( x1 ,..., xn )dx1
−∞ ∫ f ( x1 ,..., xn )dx1
El lugar geométrico de los puntos :
(µ1/2...n, x2, ..., xn), para todos los valores
posibles de x2, ..., xn , es la superficie de
regresión de de X1 sobre (X2 ... Xn).
(
)
E Xˆ n − X n es mínima
2
A los coeficientes β0, ..., βn-1 se les denomina coeficientes de regresión de Xn sobre (X1, ..., Xn-1), y para su obtención se
procede de forma análoga al caso bivariante, de donde resulta el siguiente sistema de ecuaciones lineales:
σ1 σ2 σ n −1
β
σ 1 12 σ 2 + ρ β + + ρ1, n −1 β n −1 = ρ1n
σn
n n
ρ σ 1 β + σ 2 β + + ρ σ n −1
2 , n −1 β n −1 = ρ 2 n
21
σn
1
σn
2
σn
...
σ σ σ
ρ n −1,1 1 β1 + ρ n −1, 2 2 β 2 + + n −1 β n −1 = ρ n −1,n
σn σn σn
Cuando el rango de M y P sea r = n, el hiperplano de regresión lineal de cada variable aleatoria respecto a las demás está
unívocamente determinado. En el caso de que las n componentes del vector sean incorreladas, todos los coeficientes de
regresión son nulos.
Si el rango de M y P es r < n, puede ocurrir que Mii=0 y, por tanto, algunos de los coeficientes de regresión pueden ser
infinitos o indeterminados ya que, en este caso, existen exactamente n-r relaciones lineales independientes entre las variables
que se cumplen con probabilidad uno, o lo que es lo mismo, la totalidad de la masa de probabilidad se sitúa sobre un
hiperplano de dimensión r contenido en el hiperplano de regresión, el cual queda entonces indeterminado.
Ejemplo. Análisis de la dependencia
27.- De múltiples análisis edafológicos para una misma clase de suelo, se han obtenido los
parámetros, que se muestran a continuación, para las variables aleatorias(*):
Z = índice de absorción del fosfato
X = cantidad de hierro extraíble Variable Media
Y = cantidad de aluminio extraíble. X 177.308
Y 49.3077
4914.56 1625.65 1121.38
Z 29.8462
M= 852.064 480.635
310.141
Cov( X 1 , X 2 ) 1625.65
Como: ρ12 = = = 0.7944
Var ( X 1 ) ⋅ Var ( X 2 ) (4914.56)(852.064)
Cov( X 1 , X 3 ) 1121.38
ρ13 = = = 0.9083
Var ( X 1 ) ⋅ Var ( X 3 ) (4914.56)(310.141)
Resulta que:
Cov( X 2 , X 3 ) 480.635
1 0.7944 0.9083 ρ 23 = = = 0.9350
Var ( X 2 ) ⋅ Var ( X 3 ) (852.064)(310.141)
P = 0.7944 1 0.9350
0.9083 0.9350 1
Se pide:
0.019
= 1− = 0.9999 ≅ 1
154781.729
En la práctica se puede aceptar la dependencia funcional
de Z respecto de X y de Y.
Regresión logística Análisis de la dependencia
El desarrollo de la regresión logística requiere la introducción previa de la 1,2
Esta función es útil porque puede tomar como entrada valores desde infinito 0,4
negativo a infinito positivo, mientras que la salida se limita a valores entre 0 y 1.
0,2
Así, z puede representar la exposición a un conjunto de variables cuantitativas
independientes, mientras que f(z) puede representa la probabilidad de un 0 z
-6 -4 -2 0 2 4 6
103
109
115
121
1
7
13
19
25
31
37
43
49
55
61
67
73
79
85
91
97
resultado en particular (suceso).
La variable z es una medida de la contribución total de todas las variables independientes que se usan en el modelo, en
general se define como z = β0 + β1x1 + … + βmxm, donde los coeficientes βi se interpretan como en la regresión lineal: un
coeficiente de regresión positivo significa que la variable explicativa aumenta la probabilidad del suceso (un coeficiente
de regresión negativo significa que la variable disminuye la probabilidad de ese resultado); un valor alto supone que la
variable influye mucho en la probabilidad del resultado, mientras que un valor casi nulo significa que la variable tiene poca
influencia sobre la probabilidad del resultado.
La regresión logística es una manera útil de describir la relación entre una o más variables independientes (por ejemplo, edad,
precipitación, temperatura, pendiente, etc) y una variable respuesta binaria, expresado como una probabilidad, que tiene sólo
dos valores (como tener una enfermedad o no).
Tomando logaritmos sobre los ratios de probabilidad de ocurrencia de un suceso respecto a la probabilidad de no ocurrencia
la regresión logística se transforma en regresión lineal:
p
logit ( p ) = ln = β 0 + β1 x1 + ... + β m xm
1− p
Y una vez estimados los coeficientes de regresión, se pueden volver al modelo original:
1
p= − ( β 0 + β1 x1 +...+ β m xm )
1+ e
Regresión logística (continuación). Análisis de la dependencia
Para la estimación de los parámetros del modelo β=(β0, β1, … , βm) se parte de n repeticiones del experimento analizado y de
la observación del número de veces que ocurre el suceso analizado, así como el valor que toman las variables independientes
en cada repetición del experimento, en las n repeticiones. Los valores obtenidos se almacenan en las matrices Y y X:
y1 1 x1,1 x1,m Donde Y es una matriz de n filas y 1 columna cuyo contenido será de 0s
y 1 x2,1 x2 , m y 1s según haya ocurrido el suceso analizado en cada una de las n
Y= 2 X=
repeticiones del experimento o no y X es una matriz de n filas y m+1
columnas que almacena el valor de cada variable independiente en cada
y 1 x xn ,m
n n ,1 una de las n repeticiones del experimento.
Σy i n − Σy i
La probabilidad de que se produzca el conjunto de resultados se recogen en Y será: p A (1 − p A ) , siendo pA la probabilidad
de que ocurra el suceso analizado. Los valores de β son los que hacen máximo el logaritmo de la expresión anterior. Como:
LL(β)=Σyiln(pA)+(n-Σyi) ln(1-pA), dichos valores son los que igualan 0 la primera derivada respecto de β y hacen que la
derivada segunda sea menor que 0. Tales derivadas son:
∂LL(β) ∂ 2 LL(β)
U (β) = = XT ⋅ ( Y − p ) H (β) = = XT ⋅ W ⋅ X
∂β ∂β∂β T
( )
donde p es una matriz de n filas y 1 columna cuyos elementos son pi y W una matriz n×n, cuyos elementos en la
− ∑mj=+11 β j ⋅ xi , j
diagonal principal son: pi∙(1-pi) y 0 fuera de dicha diagonal, con: pi = 1 / 1 + e
En general, desde un punto de vista operativo, la obtención de β requiere un procedimiento iterativo. A continuación se
describe el método de Newton-Raphson, para su obtención:
1. Se asigna un valor inicial a los coeficientes de regresión, por ejemplo 0 a todos ellos.
2. En la iteración t, el vector de coeficientes de regresión experimentales se calcula como:
βˆ t = βˆ t -1 + (XT Wt -1X)-1 XT (Y - p t -1 )
3. El segundo paso se repite tantas veces como sea necesario hasta que la diferencia entre la matriz de coeficientes
de regresión en dicha iteración y la matriz de la iteración previa, sea 0 o muy próximo a 0.
Análisis de la interdependencia
Análisis factorial
Busca sintetizar las interrelaciones entre un conjunto de variables observables (X1, …, Xn), en
términos de un número menor de variables no observadas llamadas factores.
El conjunto de variables constituye Se puede establecer una analogía entre las características
un espacio vectorial con las de los vectores geométricos y de las variables aleatorias
operaciones de suma de variables y consideradas como elementos de un espacio vectorial: Así:
de producto por un escalar
donde:
F1,…,Fk (k<<n) son factores comunes a todas las variables; u1,…un son factores
específicos (únicos) de cada variable y los coeficientes {aij; i=1, …, n ; j=1, ..., k} se
denominan cargas factoriales.
[ ]
donde hi2 = Var ∑ j =1 aij Fi y ψ i2 = Var[ui ] se denominan comunalidad y especificidad de la
k
por lo que los factores comunes son los que explican las relaciones existentes entre las variables
del problema.
Si los factores comunes estuvieran incorrelados (Cov[Fi, Fj] = 0, ∀i, j=1, .., k) estaríamos ante un
modelo con factores ortogonales. En caso contrario el modelo se dice que es de factores
oblícuos.
Obtención de los factores.
Análisis de la interdependencia
Para el cálculo de la matriz A, se parte de la identidad fundamental del Análisis Factorial:
P = AA’ + Ψ
donde P es la matriz de correlación de las variables X1, ..., Xn y Ψ = diag(ψi2).
El método más empleado (el factor principal) supone elegir un primer factor de forma que se reduzca al
máximo la varianza del sistema inicial de ecuaciones (como las variables observadas están tipificadas, esta
varianza es n). El segundo factor será el que más disminuya la varianza remanente y se continua así hasta
obtener el número de factores deseados.
Operativamente, se ha desarrollado un procedimiento iterativo que consiste alternar una estimación de la
matriz de especificidades Ψ, con una estimación de la matriz de cargas factoriales A que respete la identidad
P - Ψ = AA’.
a) Se parte de una estimación inicial de la matriz Ψ [Ψ(0) ]. La estimación A(1) se obtiene como la
matriz de los autovectores de la matriz P – Ψ(0), Posteriormente se calcula Ψ(1) a partir de la
identidad: P - Ψ(1) = A(1)A(1)’.
b) En el paso i-ésimo del algoritmo se verifica que: P - Ψ(i) = A(i)A(i)’. Lo que permite la estimación de
A(i) [autovectores de la matriz P - Ψ(i-1)] y de Ψ(i) a partir de que: P -Ψ(i) = A(i)A(i)’
c) Se itera hasta que los valores las estimaciones de A apenas cambien.
Número de factores. Análisis de la interdependencia
La matriz factorial puede presentar un número de factores superior al necesario para explicar la
estructura de los datos originales. Generalmente, hay un conjunto reducido de factores, los
primeros, que contienen casi toda la información. Los otros factores suelen contribuir
relativamente poco. El criterio más utilizado para determinar el número de factores es el Criterio
del porcentaje de la varianza. Consiste en tomar como número de factores el número mínimo
necesario para que el porcentaje acumulado de la varianza explicado alcance un nivel
satisfactorio que suele ser del 75% o el 80%.
Rotación de factores.
Las soluciones que se pueden encontrar para la matriz A no son únicas, puesto que cualquier
transformación ortogonal de A es también una solución. Así, si T es una matriz ortogonal,
entonces TT’ = T’T = I y al aplicar una transformación ortogonal a A se obtiene una solución
distinta a la original. Esta es la base de los métodos de rotación de factores, por lo que si T es una
matriz ortogonal, entonces A* = AT es también una solución.
Si definimos F* = FT como otros factores (F* es el vector F rotado por la matriz ortogonal T).
Se comprueba que P sigue verificando las ecuaciones del modelo, es decir:
P = A*A*’ + Ψ = (AT)(T’A’) + Ψ = AA’ + Ψ
Por tanto, se pueden realizar rotaciones de la matriz de ponderaciones sin alterar el modelo, lo
que puede facilitar la interpretación de las relaciones entre las variables observadas. En este
sentido, parece aconsejable que:
Cada variable no esté saturada en más de un factor;
Dos factores distintos deben presentar distribuciones diferentes de cargas altas y bajas.
Ejemplo. Análisis de la interdependencia
28.- Durante cada hora de varios días, se han medido las concentraciones de diferentes
agentes contaminantes (CO, NO2, NO, SO2 y partículas suspendidas) por metro cúbico
de aire, y se han obtenido los datos que se muestran en la figura inferior. Los datos se
han transformado (tomando logaritmos) y se ha descartado el NO por su gran
correlación con el NO2. Se pide: estudiar la interrelación entre las mediciones
realizadas.
Análisis de la interdependencia