Sie sind auf Seite 1von 89

1.

- CÁLCULO DE
PROBABILIDADES

Esperanza Ayuga
Concepción González García
Susana Martín Fernández
Eugenio Martínez Falero
Contenido:
• Teoría de la probabilidad.
• Variables y vectores aleatorios.
• Relaciones entre variables aleatorias.
CÁLCULO DE PROBABILIDADES

Teoría de la probabilidad:
Espacio medible.
Espacio probabilístico.
Probabilidad condicionada.
Experimentos compuestos.
Espacio medible
Definición de Estadística
Ciencia que utiliza información para dar una guía de actuación, o describir situaciones
prácticas que envuelven incertidumbre (Barnett, 1978)

Conceptos fundamentales
Experimento aleatorio es una situación práctica que envuelve incertidumbre. No se puede
conocer el resultado del experimento antes de su realización. La aleatoriedad puede ser:
Propia del experimento: Lanzar un dado
Forzada: Elegir al azar un punto del plano topográfico.
Sucesos elementales: cada uno de los resultados diferentes (o que se consideran diferentes)
al realizar un experimento aleatorio (w).
Espacio muestral: conjunto formado por todos los sucesos elementales (Ω). Puede ser finito,
infinito numerable o continuo.
Suceso es cualquier afirmación (enunciado) referente al resultado de un experimento
aleatorio, que sólo se puede confirmar o rechazar a la vista del resultado del experimento.
Todo suceso (A) se puede representar como un conjunto cuyos elementos son sucesos
elementales (por lo que es un subconjunto del espacio muestral): A={w1, w2, …}⊆ Ω.
Suceso seguro es el que ocurre siempre. Como conjunto de sucesos elementales tiene
asociado todo el espacio muestral
Suceso imposible es el que no ocurre nunca. Tiene asociado el conjunto vacio (Ф) como
subconjunto del espacio muestral.
Operaciones con sucesos y conjuntos de sucesos Espacio medible
Para que un conjunto de sucesos sea manejable debe ocurrir que se puedan realizar operaciones
entre ellos y que el resultado de tales operaciones sigan siendo sucesos observables

Suceso como:
a) Enunciado relativo a la realización b) Conjunto formado por sucesos
de un experimento aleatorio elementales del espacio muestral
Conjunción lógica de B y C: A= “B y C” Intersección de B y C:
(A = B ⋀ C) A= B ⋂ C = {w∈Ω / w∈B y w∈C}
OPERACIONES

Disyunción lógica de B y C: A= “B o C” Unión de B y C:


(A = B ⋁ C) A= B ⋃ C = {w∈Ω / w∈B o bien w∈C}
Negación de B: A= “noB” Complementario de B:
A = BC = {w∈Ω / w∉B}
Diferencia entre B y C: A= “C” ⋀ “noB” Diferencia entre B y C: A = B – C = B ⋂ CC
estructura

Álgebra de Boole de Enunciados: Álgebra de Conjuntos:


operativa
Mínima

Clase de enunciados cerrada por las Clase de conjuntos cerrada por las
operaciones de conjunción lógica, operaciones de unión, intersección y
disyunción lógica y negación complementación

Teorema de Stone:
Para todo álgebra de Boole de sucesos existe un álgebra de conjuntos que le es
isomorfa y viceversa.
Sucesos en espacios muestrales continuos Espacio medible
Cuando se trabaja con espacios muestrales continuos es necesario extender el concepto de álgebra
a sucesiones infinitas numerables. Así, un σ-álgebra de sub-conjuntos de Ω, es un conjunto (A ),
que satisface simultáneamente las siguientes condiciones:
a. Ф ∈ A
b. ∀B ∈ A ⇒ BC ∈ A ∞
c. Si B1, B2, … es una sucesión contable de elementos de A ⇒  Bn ∈ A
n =1

Toda σ-álgebra está contenida entre dos σ-álgebras extremas: {Ф, Ω} ⊆A ⊆ P(Ω)

Un átomo de A es todo suceso B, tal que el único subconjunto de B en A , además del conjunto
vacio, es el propio B.

Una partición de Ω es un conjunto de sub-conjuntos disjuntos de Ω, cuya unión es el propio Ω.


El conjunto formado por todas las posibles uniones de los elementos de cualquier partición es un
σ-álgebra.

Proposición:
Sea A un σ-álgebra de sub-conjuntos de Ω, entonces ocurre:
i. Ω ∈ A
ii. Si A1, A2, …, Ak ∈ A ⇒ (A1⋃ A2⋃ … ⋃ Ak) ∈ A
iii. Si A1, A2, …, Ak ∈ A ⇒ (A1⋂ A2⋂ … ⋂ Ak) ∈ A ∞
iv. Si A1, A2, … es una sucesión contable de elementos de A ⇒  A n ∈ A
n =1
v. Si A, B ∈ A ⇒ (A – B) ∈ A
Espacio medible

Definición
Toda estructura (Ω, A ) se denomina
espacio medible o probabilizable.
Se denominan así porque son susceptibles de definir una
medida sobre ellas (área, volumen, probabilidad, …)
Ejemplos. Espacio medible
1.- En la siguiente tabla se presentan varios experimentos aleatorios y sus espacios muestrales.
Experimento aleatorio Espacio muestral
Observar el sexo de un recién nacido {Varón, Hembra}
Observar el tiempo de vida de un virus {x / x ∈ [0,∞)}
Contar el número de coches que atraviesan un cruce durante 15 minutos {0, 1, 2, … }
, , , , ,
Lanzar un dado

2.- Dado el experimento aleatorio consistente en lanzar un dado, se pide: construir tres espacios
medibles asociados a este experimento.

Ω= , , , , , A 1 = {Ф, Ω} ; A 2 = {Ф, Par, Impar, Ω} ; A 3 = P(Ω)

3.- Expresar los enunciados de los siguientes sucesos mediante operaciones de conjuntos:

AC⋂BC (A⋂B)C
No más de uno de los
No ocurren ni A ni B
dos (A o B) ocurren
Ocurre A y no ocurre Si ocurre A también
B A⋂BC ocurre B A⊆B
A y B se excluyen
(A⋂BC)⋃(AC⋂B) A⋂B = Ф
Solo ocurre uno de
los sucesos (A o B) mutuamente
Espacio probabilístico
Definición axiomática de probabilidad.
Toda medida (P) aplicada sobre una σ-álgebra (A ), de sub-conjuntos de Ω, en ℝ, que cumpla:
i. P(A) ≥ 0, ∀A∈A
ii. P(Ω) = 1
∞ 
iii. ∀{An}n∈ℕ ⊂ A / Ai ⋂ Aj = Φ, ∀i ≠ j ⇒ P  A n  = ∑n =1 P(A n )

Es una probabilidad.  n =1 

Dada una sucesión de conjuntos


Consecuencias:
{An}n∈ℕ , se define:
i P(Φ) = 0 ∞ ∞

ii ∀A∈A ⇒ P(AC) = 1 – P(A) lim A n =   A n


k =1 n = k

iii ∀A, B∈A ⇒ P(A – B) = P(A) – P(A⋂B) ∞ ∞


lim A n =   A n
iv ∀A∈A ⇒ P(A) ≤ 1 k =1 n = k

∀A, B∈A ⇒ P(A⋃B) = P(A) + P(B) – P(A⋂B) lim A n = lim A n ⇔ ∃ lim A n ⇒


v
∞  ⇒ A n es convergente
vi ∀{An}n∈ℕ ⊂ A ⇒ P  A n  ≤ ∑n =1 P(A n )

 n =1 
vii Continuidad secuencial de la probabilidad:
a) ∀{An}n∈ℕ ⊂ A / An↑ o An↓ ⇒ P(lim A n ) = lim P(A n )
n →∞

b) ∀{An}n∈ℕ ⊂ A ⇒ P(lim A n ) ≤ lim inf P(A n ) ≤ lim sup P(A n ) ≤ P lim A n ( )


viii Lema de Borel-Cantelli: ∀{An}n∈ℕ ⊂ A / ∑

n =1
(
P(A n ) < ∞ ⇒ P lim A n = 0 )
Construcción de espacios probabilísticos. Espacio probabilístico
Toda terna (Ω, A , P) se denomina espacio probabilístico
Teorema:
Sea (Ω, A ) un espacio medible donde Ω está formado, o bien por un número finito de sucesos
elementales (Ω={w1, w2, …, wn}), o bien por un número infinito pero contable de puntos
(Ω={w1, w2, …}). El modo más sencillo de definir una probabilidad es definir un conjunto de
números reales {p1, p2, …, pn} o {p1, p2, …} tales que pi ≥ 0, ∀i, y que:

∑i =1 pi = 1 (espacios muestrales finitos) o ∑i =1 pi = 1 (espacios muestrales infinitos numerables)


n ∞

y hacer: P(wi) = pi y P ( A ) = ∑ wi ∈A
P( wi )

Teorema:
Sea (Ω, A ) un espacio medible donde Ω es un conjunto continuo. Si se define un álgebra (Q)
sobre una partición cualquiera de Ω y una probabilidad sobre dicho álgebra (P) ⇒ ∃| Pe, llamada
extensión de la probabilidad sobre el σ-álgebra engendrado por Q [la menor σ-álgebra que
contiene todos los elementos de Q y que representaremos por σ(Q)] tal que Pe|Q = P y, además:

∀A ∈ P(Ω) ⇒ Pe(A) = inf ∑i =1 P (A ij ) donde j es el índice de los posibles


j
recubrimientos que se pueden realizar sobre
A con sucesiones de subconjuntos de Ω
Acepciones históricas de probabilidad. Espacio probabilístico
La formulación axiomática de la probabilidad como una medida, normaliza el concepto y facilita el cálculo de probabilidades
de operaciones con sucesos.
Sin embargo, para asignar una medida de la incertidumbre de ocurrencia de sucesos es necesario utilizar otras fuentes de
información que concreten, de entre todas las medidas de probabilidad que satisfacen los axiomas formulados, cual es la que
realmente describe el comportamiento aleatorio del experimento analizado.
Para eso se requiere utilizar diferentes tipo de información que se van presentar a lo largo del curso. No obstante,
históricamente se han desarrollado algunas acepciones de probabilidad que son consistentes con la axiomática adoptada. Así:

Acepción clásica (Laplace)


La probabilidad de un suceso se obtiene como el cociente entre el número de casos favorables (número de sucesos
elementales en el suceso analizado) y el número de casos posibles (número de sucesos elementales en el espacio muestral).
Requiere espacios muestrales finitos y que los sucesos elementales sean equiprobables.

Acepción frecuencista (von Mises)


La probabilidad de un suceso es el valor en torno al cual se estabiliza la frecuencia relativa de un suceso.
La frecuencia relativa de un suceso es el cociente entre el número de veces que aparece un suceso (nS) al repetir n veces un
experimento, así: P ( S ) = lim(nS n )
n →∞
Presenta problemas operativos al incluir el concepto de límite.

Acepción subjetiva (Savage)


La probabilidad de un suceso se obtiene como el grado de creencia en la ocurrencia de un suceso sobre la base de la
experiencia personal. Respeta tres principios:
Consistencia: P(A) ≥ P(B) y P(B) ≥ P(C) ⇒ P(A) ≥ P(C)
Racionalidad o coherencia: Si se puede ganar y, caso de que ocurra A, y se está dispuesto a apostar x ⇒ x ≤ y y
P(A) = x/y
Intercambiabilidad: El grado de creencia conjunta de múltiples sucesos es el mismo, cualquiera que sea la secuencia
en que se produzcan los sucesos.
Varia de unas personas a otras y, para una misma persona, varia con el tiempo, en función de su grado de conocimiento del
experimento.
Espacio probabilístico
Ejemplos.
4.- Dado el experimento aleatorio consistente en lanzar un dado, se pide: construir dos medidas
de la probabilidad sobre los sucesos elementales y calcular las probabilidades de los sucesos:
A = “sacar número par”; B = “sacar múltiplo de 3” y C = “sacar número primo”.
A= B= C=
Suceso w1={1} w2={2} w3={3} w4={4} w5={5} w6={6}
{2,4,6} {3,6} {1,2,3,5}
P1 1/6 1/6 1/6 1/6 1/6 1/6 1/2 1/3 2/3
P2 1/12 1/12 1/3 1/12 1/12 1/3 1/2 2/3 7/12

∑ P(S) = ∑w ∈S P( wi )
6
P( wi ) = pi tales que : i =1
pi = 1 y pi ≥ 0, ∀i = 1,...,6
i

5.- Una moneda equilibrada se lanza hasta que aparece la primera cara, se pide: construir un
espacio probabilístico para este experimento.

El espacio muestral será: Ω={ c ; +c ; ++c ; +++c ; ...} y A = P(Ω).


O bien, si se cuentan el número de tiradas necesarias para que salga cara por primera vez, el espacio
muestral equivalente sería: Ω ={1, 2, ...} y A la clase de todos los subconjuntos de enteros positivos.
Una probabilidad que satisface el teorema de construcción de probabilidades sobre espacios numerables
es P(wi) = 1/(2i), i=1, 2, ...; de esta manera ∑ P( wi ) = 1 , además P(wi) ≥ 0, por lo que P define una

i =1
probabilidad.
La probabilidad de cualquier suceso no elemental será: P( A ) = ∑w ∈A P( wi ), ∀A∈A
i
Probabilidad condicionada
Consideremos las dos situaciones siguientes: acertar si la puntuación resultante de arrojar un dado sin saber
nada del resultado es el número 4, o acertarla sabiendo que ha salido un número par. Si para las dos
situaciones anteriores se aplica la acepción clásica de probabilidad:
P{“obtener un 4”} = 1/6 P“número par”{“obtener un 4”} = 1/3
Por tanto, la ocurrencia del suceso ”número par” modifica la probabilidad del suceso “obtener un 4”. Este
hecho marca la principal diferencia entre la probabilidad y cualquier otra medida.
El diferente valor de la probabilidad en un caso y otro se debe en el segundo a la existencia de información
adicional que modifica el espacio muestral.

Definición de probabilidad condicionada.


Dado un espacio probabilístico (Ω, A , P) y un suceso (B), se define la probabilidad
condicionada a B, como: P ( A  B)
PB: A → ℝ, tal que, ∀A∈A ⇒ PB(A) = = P ( A / B)
P (B)
Se demuestra que la probabilidad condicionada cumple los axiomas de Kolmogorov:
i. Como P(A⋂B) ≥ 0 y P(B) ≥ 0 ⇒ PB(A) ≥ 0
ii. PB(Ω) = P(Ω⋂B)/P(B) = P(B)/P(B) = 1
 ∞   ∞ 
P   A   B  (A  B ) P(A n  B)
 n =1  ∑
P ∞
 ∞
 
n
   n =1 n 
= ∑n =1 P(A n / B)

iii. P  A n / B  = = = n =1

 n =1  P (B ) P (B) P(B)
Por tanto, PB es una probabilidad.
Probabilidad condicionada
Resultados en probabilidad condicionada.
Teorema de la multiplicación o regla del producto.
Dados n sucesos S1,...,Sn ocurre que:

P  Si  = P(S1) ⋅ P(S2/S1) ⋅ P(S3/S1  S2 ) ⋅⋅ P(Sn/S1  S2  Sn −1)


n

 i =1 

Teorema de la probabilidad total.


n 
Dados un suceso A y n sucesos S1,...,Sn en un sistema completo de sucesos  Si = Ω y Si Si = Φ, ∀i, j .
Se comprueba que:  i =1 
n
P( A ) = ∑ P(A/Si ) ⋅ P(Si )
i=1

Teorema de Bayes.
Con las mismas hipótesis del teorema anterior y además si P(A) > 0, P(Si) > 0 y las probabilidades de
(A/Si) conocidas, tenemos: P(A/Si ) ⋅ P(Si )
P(Si /A) = n
∑ P(A/Si )⋅ P(Si )
i=1

La probabilidad P(Si) se denomina probabilidad a priori, P(Si/A) probabilidad a posteriori, y P(A/Si)


verosimilitud.

Independencia de sucesos.
Dos sucesos son independientes si P(A/B) = P(A), lo que supone que P(A⋂B) = P(A)∙P(B)
Ejemplos. Probabilidad condicionada
6.- En una caja procedente de un vivero tenemos cinco bulbos de una planta cuyas flores pueden ser rojas o
blancas. En el vivero nos aseguran que en la caja hay tres bulbos que dan flor roja y dos que la dan blanca. Si
denominamos por Ri="el bulbo plantado en i-ésimo lugar da flor roja" y Bi="el bulbo plantado en i-ésimo
lugar da flor blanca“. Calcular la probabilidad de que el primero y el último de los bulbos plantados sean
blancos.

Por la regla de la cadena:


P(B1⋂R2⋂R3⋂R4⋂B5) = P(B1)∙P(R2/B1)∙P(R3/R2⋂B1)∙P(R4/R3⋂R2⋂B1)∙P(B5/R4⋂R3⋂R2⋂B1)
Como:
P(B1) = 2/5; P(R2/B1) = 3/4; P(R3/R2⋂B1) = 2/3; P(R4/R3⋂R2⋂B1) = 1/2 y
P(B5/R4⋂R3⋂R2⋂B1) = 1
Resulta que:
P(B1⋂R2⋂R3⋂R4⋂B5) = 2/5∙3/4∙2/3∙1/2∙1 = 1/10 = 0.1

7.- En dos eras de un vivero forestal A y B se han plantado respectivamente 100 y 200 plantas de cierta
especie. Por diferencias de orientación y tipo de suelo de cada era, se sabe de ocasiones anteriores, que el
porcentaje de plantas que al ser trasplantadas no sobreviven es del 5% en la era A y del 6% en la B. La
probabilidad de que no sobreviva una de estas plantas al adquirirla de este vivero será:

P(A) = 100/300 = 1/3; P(B) = 200/300 = 2/3; P(SC/A) = 0.05 y P(SC/B) = 0.06
Por el teorema de la probabilidad total:
P(SC) = P(SC/A)∙P(A) + P(SC/B)∙P(B) = 1/3∙0.05 + 2/3∙0.06 = 0.0567
Probabilidad condicionada
Ejemplos.
8.- El teorema de Bayes se emplea en problemas de Teledetección, como parte del proceso de identificación de texturas (tipos
de vegetación, suelos, zonas urbanizadas, embalses, secano, etc...) a partir de imágenes, tanto de foto aérea como de satélite.
Así, en un territorio a analizar se aprecian por teledetección dos zonas diferentes (A y B) con porcentajes de la zona del 20%
y del 80% respectivamente. También se sabe que las dos únicas formaciones vegetales son matorral (M) y pinar (P). En el
campo se realizan tres inventarios, resultando que uno es de pinar y dos de matorral. Calcular la probabilidad de que la zona
A sea matorral.

Se puede definir un sistema completo de sucesos {H1, H2}. H1=“A es M y B es P” y H2=“A es P y B es M”


Y se dispone de un suceso C=“de 3 extracciones: 2 son M y 1 es P”
P(C/H1) = P “[(1ºP y 2ºM y 3ºM) o (1ºM y 2ºP y 3ºM) o (1ºM y 2ºM y 3ºP)] cuando los usos de suelo son H1” =
3*.22*.22*.82 = 0.1536
P(C/H1 ) ⋅ P(H1 )
P(C/H2) = 3*.82*.82*.22= 0.49152
0.1536 * 0.5
Por aplicación del teorema de Bayes: P(H1/C) = = = 0.2381
P(C/H1 ) ⋅ P(H1 ) + P(C/H2 ) ⋅ P(H2 ) 0.0768 + 0.49152 * ⋅0.5

9.- Un análisis para detectar una enfermedad en venados descarta la enfermedad en un 95% de los casos cuando el animal
está sano y lo señala como enfermo el 99% de las veces cuando realmente lo está. Se sabe que en la población en estudio el
1% de los venados padecen la enfermedad. Si se captura uno para someterlo al análisis y el resultado lo clasifica como
enfermo, ¿Cuál es la probabilidad de haber cometido un error?.

Si llamamos S=“sano”; E=“enfermo”; P=“el análisis dice que enfermo”; y N=“el análisis dice que está sano”; resulta:
P(S) = 1-0.01 = 0.99; P(E) = 0.01;
P(N/S) = 0.95; P(P/S) = 0.05;
P(P/E) = 0.99; P(N/E) = 0.01
Y la probabilidad de cometer un error se calcula por el teorema de Bayes,
P(P/S) ⋅ P(S ) 0.05 ⋅ 0.99
P(S/P) = = = 0.83
P(P/S) ⋅ P(S ) + P(P/E) ⋅ P(E) 0.05 ⋅ 0.99 + 0.99 ⋅ 0.01
Experimentos compuestos
Los experimentos compuestos estudian los resultados conjuntos de dos o más
experimentos de la misma o distinta clase de pruebas.
Para ello hay que construir un espacio de probabilidad asociado a las experiencias
combinadas a partir de los espacios generados a partir de cada experimento por
separado.
Ejemplos de este tipo son los fenómenos o experimentos aleatorios en los que se
incluye una dimensión temporal (observaciones de una población en distintos instantes
de tiempo) o espacial (disposición espacial de los individuos de una población).

Construcción de un espacio probabilístico conjunto.


Partimos de dos experimentos aleatorios, con sus espacios probabilísticos asociados: E1 con el
(Ω1, A 1, P1) y E2 con el (Ω2, A 2, P2) y se modela la experiencia conjunta E = (E1, E2)

El espacio muestral está formado por los pares ordenados (w1,w2) donde w1∈ Ω1 y w2∈ Ω2,
es decir, por el producto cartesiano Ω = Ω1 × Ω2.
Experimentos compuestos
Construcción de un espacio probabilístico conjunto. (continuación)
El álgebra asociada a E conlleva algunas dificultades:
Por un lado, debe estar formada por elementos que sean subconjuntos de Ω pero:
A 1 × A 2 ={A1×A2⊂ Ω1×Ω2 / A1∈ A 1 y A2∈ A 2}
no es, en general, un álgebra. Además los elementos de A 1 × A 2 son productos cartesianos A1×A2, no pares de
sucesos (A1, A2), es decir A 1 × A 2 no es un producto cartesiano.
Al álgebra engendrada por A 1 × A 2 (conjunto de sucesos obtenidos mediante las operaciones unión,
intersección y complementario de conjuntos del tipo A1×A2), se denomina producto exterior y se representa por
A 1 ⊗ A 2 = g(A 1 × A 2 ).
Conjunto cilíndrico
Dado un suceso cualquiera perteneciente al álgebra A1∈ A 1 se denomina conjunto cilíndrico de base A1 al
conjunto: A1×Ω2 ∈ A 1 × A 2 y se representa por C1(A1).
De igual forma el conjunto cilíndrico de base A2 (∀ A2 ∈ A 2 ) es C2(A2) = Ω1 × A2.
C1(A 1 ) y C2(A 2 ) son sub-álgebras de A 1 ⊗ A 2 .
La correspondencia A1 ↔ C1(A1) define un isomorfismo entre A 1 y C1(A 1 ), e idénticamente A2 ↔ C2(A2)
define un isomorfismo entre A 2 y C2(A 2 ).
Estos isomorfismos permiten ubicar A 1 y A 2 en A 1 ⊗ A 2 .
Así: A 1 → C1(A 1 ) ⇒ A 1 × Ω2 ⊂ A 1 ⊗ A 2 y A 2 → C2(A 2 ) ⇒ Ω1× A 2 ⊂ A 1 ⊗ A 2

Para definir la probabilidad sobre (Ω1 × Ω2, A 1 ⊗ A 2 ), dada la identificación de sucesos y cilindros se tiene:
P[C1(A1)] = P(A1×Ω2 ) = P1(A1) y P[C2(A2)] = P(Ω1 × A2) = P2(A2)
Para calcular probabilidades de sucesos más generales:
 P1 ( A 1 ) × P1 ( A 1 ) si las pruebas son independientes
P( A 1 × A 2 ) = 
 P1 ( A 1 ) × P ( A 2/A 1 ) = P2 ( A 2 ) × P ( A 1/A 2 ) caso contrario
También la probabilidad obtenida para sucesos del tipo A1×A2 (en A 1 × A 2 ) se puede extender a todos los
sucesos de A 1 ⊗ A 2 .
CÁLCULO DE PROBABILIDADES

Variables y vectores aleatorios:


Variable aleatoria: definición.
Distribución de la probabilidad.
Características de la distribución de una variable.
Vectores aleatorios: definición.
Descripción de la probabilidad en vectores.
Variable aleatoria: definición
Cualquier medida sobre los resultados de un experimento aleatorio (X: Ω → ℝ) es una variable
aleatoria, si y sólo si X-1(B) ∈ A , ∀B ∈ ℬ, siendo ℬ el σ-álgebra de los conjuntos de Borel en ℝ
(formada por todos los intervalos abiertos, semi-abiertos y cerrados que se puedan definir en ℝ).

Una variable aleatoria es una aplicación medible, de un espacio medible en (ℝ, ℬ):
X: (Ω, A )→ (ℝ, ℬ)

(X)-1(B) Teorema de la reducción


w1 PX(B)=P[(X)-1(B)] Si ∀a ∈ ℝ, se considera el intervalo
wi (-∞, a] ∈ ℬ , entonces, la siguiente
( ) condición: X-1(-∞, a] ∈ A es la
X(w1) X(wi) X condición necesaria y suficiente para
B que X sea variable aleatoria.
X
(Ω, A ) (ℝ, ℬ)
Toda variable aleatoria (X) definida en ( Ω, A , P) induce una probabilidad sobre un espacio
medible (ℝ, ℬ) y lo convierte en un espacio probabilístico (ℝ, ℬ, PX ), con PX definida de la
siguiente forma:
PX(B) = P[X-1(B)] = P[{w∈Ω/ X(w)∈B}], ∀ B∈ℬ
Variable aleatoria indicador. Variable aleatoria: definición
Sea (Ω, A ), ∀ A∈ A , se define la función indicador (IA) como la aplicación:
IA : Ω → ℝ
w → IA(w), tal que IA(w) = 1 si w ∈ A
0 si w ∉ A
La función indicador es una variable aleatoria ya que:
Ф si a < 0
IA-1(-∞,a] = {w∈Ω/ IA(w) ≤ a } = Ac si 0 ≤ a <1 Si A∈A ⇒ Ф, Ac y Ω ∈A
A si a = 1 Por tanto:
Ω si a > 1 IA es una variable aleatoria
Se puede comprobar (∀A, B∈A ) que:
IA(Ω) = 1 ; IA (Ф) = 0 ; IA⋂B = IA ∙IB ; IA∪B = IA + IB - IA⋂B y IA = 1- IAC

Espacio vectorial de variables aleatorias.


Dado el espacio (Ω, A , P) y V el conjunto de las variables aleatorias definidas sobre él:
Suma: Sean X1 y X2 ∈ V, dos variables aleatorias ⇒ X = X1+ X2 es una variable aleatoria que:
X1+ X2 : Ω → ℝ
w → ( X1+ X2 )(w)= X1 (w)+ X2(w)
El conjunto V con la operación “suma”, de composición interna, tiene estructura de grupo abeliano.
Producto por un escalar: Sea X∈ V y λ un escalar ⇒ λX es una variable aleatoria que:
λX : Ω → ℝ
w → ( λX )(w)= λX (w)
Con la operación “suma” junto a esta última, el conjunto V tiene estructura de espacio vectorial.
Distribución de la probabilidad
Se denomina función de distribución a toda aplicación (F: ℝ → [0, 1]), que cumpla que:
1. F(x)≥ 0, ∀x∈ ℝ.
2. F(x) es monótona no decreciente.
3. F(-∞) = 0 y F(+∞) = 1.
4. La función F(x) es siempre continua por la derecha en todo punto de ℝ (aunque puede
no serlo por la izquierda).

Toda función de distribución induce una ley de probabilidad sobre (ℝ, ℬ), de forma que :
F(x)= PX {X ≤ x} = P{(X)-1(-∞,x]} = P{w/ X(w) ≤ x}
En general: si a, b ∈ ℝ y a < b, entonces P[a < X ≤ b] = F(b) – F(a).

Variable aleatoria discreta. (función de masa)


Llamaremos función de masa o cuantía conjunta de la variable aleatoria X a la función:
pX :ℝ→[0,1] / pX (x) = P(X = x), ∀ x ∈ ℝ

Sea X una variable aleatoria, con función de masa pX y sea DX = { x ∈ ℝ / pX (x) > 0 }. Si DX ≠ Ф
y ∑p X ( x) = 1, en estas condiciones, X es una variable aleatoria discreta y DX se denomina
x ∈D X
soporte de la variable aleatoria.
Distribución de la probabilidad
Variable aleatoria discreta. [continuación]
Teorema Teorema
La función de distribución F(x) se puede ∀B∈ℬ: PX(B) = P[(X)-1 (B)] =
obtener a partir de la función de masa: si B  DX = Φ
 0

F ( x) = ∑ p X ( xi ) =  ∑ p ( x) si B  D ≠ Φ
 x∈(B DX )
X X
xi ≤ x

Variable aleatoria continua. (función de densidad)


Una función f: ℝ →ℝ, es una función de densidad en ℝ si, simultáneamente, ocurre que:
f(x) ≥ 0 , ∀ x∈ℝ
f es integrable Riemann en ℝ (es continua o tiene un número
∞ finito de discontinuidades)
∫-∞
f ( x ) dx = 1
Una variable aleatoria se denomina continua, si su función de distribución se puede expresar
x
como: F ( x) = ∫ f (u )du , siendo f(u) una función de densidad.
-∞

El conjunto CX = { x ∈ ℝ / f (x) > 0} es el soporte del vector aleatorio bidimensional continuo.


Variable aleatoria continua. [continuación] Distribución de la probabilidad
Teorema:
Para una variable aleatoria continua (X), ocurre que:
•F(x) es continua, ∀x ∈ ℝ.
dF ( x)
•Si f es continua en un entorno de x0, entonces, en ese entorno: = f ( x)
dx
•CX = { x∈ ℝ / f (x) > 0 } ≠ Ф
• ∀ B ∈ ℬ: PX (B) = ∫ f (u )du
B
Distribución de la probabilidad
Ejemplo.
10.- Calcular PX( X ≤ 6); PX(X = 6); PX(X > 9) y PX(6’5< X ≤ 7’5) para una variable aleatoria (X)
con la siguiente función de distribución:  0, si x < 5
 x-5
F ( x ) = 2 , si 5 ≤ x < 8
 9
 1, si x ≥ 8
Comprobar que se trata de una función de distribución.

Cálculo de las probabilidades pedidas:


PX( X ≤ 6) = F(6) = 2/9;
PX(X = 6) = F(6+) - F(6) = 0;
PX(X > 9) = 1- PX(X ≤ 9) = 1- F(9) = 0 y
PX(6’5< X ≤7’5) = F(7’5) – F(6’5) = 2/9

Comprobación de que se trata de una función de distribución:

Como:
1
F(x)
1. F(x)≥ 0, ∀x∈ ℝ.
2. F(x) es monótona no decreciente.
2/3
3. F(-∞) = 0 y F(+∞) = 1.
1/3 4. Es continua por la derecha
x
-∞ 0 2 4 6 8 ∞  F(x) es una función de distribución
Ejemplo. Distribución de la probabilidad
11.- Sea el experimento aleatorio consistente en lanzar dos dados equilibrados y observar las
puntuaciones de cada uno. Se define la variable aleatoria X= “suma de las dos puntuaciones
observadas” y se pide demostrar que X es una variable aleatoria discreta y calcular las
probabilidades de los sucesos B1=“obtener una suma par y menor de cinco” y B2=“obtener más
de un siete”.

Ω 1 2 3 4 5 6 X 1 2 3 4 5 6
1 (1,1) (1,2) (1,3) (1,4) (1,5) (1,6) 1 2 3 4 5 6 7
2 (2,1) (2,2) (2,3) (2,4) (2,5) (2,6) 2 3 4 5 6 7 8
3 (3,1) (3,2) (3,3) (3,4) (3,5) (3,6) 3 4 5 6 7 8 9
4 (4,1) (4,2) (4,3) (4,4) (4,5) (4,6) 4 5 6 7 8 9 10
5 (5,1) (5,2) (5,3) (5,4) (5,5) (5,6) 5 6 7 8 9 10 11
6 (6,1) (6,2) (6,3) (6,4) (6,5) (6,6) 6 7 8 9 10 11 12

Así, DX = {2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12} y su función de masa será:


xi 2 3 4 5 6 7 8 9 10 11 12
pX(xi) 1/36 2/36 3/36 4/36 5/36 6/36 5/36 4/36 3/36 2/36 1/36


12
Como: xi = 2
p X ( xi ) = 1 ⇒ X es una variable aleatoria discreta.

P(B1) = pX(2) + pX(4) = 1/36 + 3/36 = 4/36 = 1/9


12
P(B2) = xi =8
p X ( xi ) =15 / 36
Ejemplos. Distribución de la probabilidad
3 / 2 x 2 si − 1 ≤ x ≤ 1
12.- Comprobar si f ( x) =  es función de densidad y calcular su F. de distribución.
 0 resto
Como:
Sólo presenta dos discontinuidades en x=1 y x=-1;
f(x) ≥ 0, ∀x ∈ℝ y 1 ⇒ Se trata de una función de densidad
∞ 1 1 3
∫−∞ f ( x)dx = ∫−1 3 / 2 x dx =  2 x  −1 = 1
2

0 x < −1
x 
 x x3 + 1
Por otra parte: F ( x) = ∫ f (u ) du = ∫ (3/2)t dt = 2
−1 ≤ x ≤ 1
-∞ −1 2


1 x >1

 0 si x ≤ 0
13.- Comprobar si F ( x) =  -λ x es una función de distribución y calcular su función de densidad
1-e si x > 0
Como:
F(x) es una función continua, constante para x≤0 y creciente para x>0.
F(-∞) = 0 y ⇒ Se trata de una función de distribución
F(+∞) = lim [1 − e − λx ] = 1 − e −∞ = 1
x →∞

Por otra parte: f ( x) =


d
dx
( ) ( )
1 − e − λx = − − λe − λx = λe − λx . Luego, la función de densidad será:

 0 si x ≤ 0
f ( x) =  -λ x
 λe si x > 0
Características de la distribución de una variable
Esperanza matemática de una variable aleatoria discreta X: Medidas de
∞ centralización
E[ X ] = ∑x p
xi ∈D X
i X ( xi ), si ∑x
k ≠1
k pk < ∞ E[aX+b] = aE[X]+b
E[X] se denomina media
Esperanza matemática de una variable aleatoria continua X: de la variable aleatoria X
∞ ∞
E[ X ] = ∫ xf ( x)dx, si ∫ x f ( x)dx < ∞ y se suele representar
−∞ −∞
por μ.

Varianza de la variable aleatoria discreta X:


{
Var[ X ] = E ( X − E[ X ]) =
2
} ∑ (x − E[ X ])i
2
p X ( xi )
Medidas de
xi ∈D X
dispersión
Varianza de la variable aleatoria continua X:
{ 2 ∞
}
Var[ X ] = E ( X − E[ X ]) = ∫ ( x − E[ X ]) f ( x)dx
2
−∞
Var[aX+b] = a2Var[X]

Se denomina desviación típica o desviación estandar a la raíz cuadrada, positiva, de la


varianza. Se suele representa por la letra σ y sus propiedades se derivan directamente de las
propiedades de la varianza.

 ∑ g ( xi ) p X ( xi ) para X discreta

En general: E[g(X)] =  xi ∈∞DX
 ∫ g ( x) f ( x)dx para X continua
 −∞
Otras medidas Características de la distribución de una variable
Momentos respecto al origen:
= E [( X − α ) ] = ∑ (−1)
k
k 
 ∑ x p X ( xi ) si X es discreta
k
µk k
 j α k − jα1
 k− j j

 i 1
 
αk =  xi ∈∞Dx j =0

∫ x k f ( x)dx si X es continua De hecho: Var[X] = E[X 2] - (E[X])2


 -∞
Momentos respecto a la media:
 ∑ ( xi -μ) k p X ( xi ) si X es discreta
Momentos absolutos:
  ∑ xi k p X ( xi ) si X es discreta
μk =  xi ∈∞Dx 
∫ ( x-μ) k f ( x)dx si X es continua βk =  xi ∈∞Dx
 -∞ ∫ x k f ( x)dx si X es continua
 -∞
Mediana:
Se denomina mediana de la distribución de una variable aleatoria X, al valor (Me) que cumple, a
la vez, las dos condiciones siguientes: P[X < Me] ≤1/2 y P[X ≤ Me] ≥1/2.

Moda:
La moda (Mo) es el valor máximo de la función de masa o el máximo de la función de densidad.

Coeficiente de variación:
σ
El coeficiente de variación (CV) es una medida adimensional de la dispersión: CV = .100
µ
Recorrido: Si m = Xmin y M = Xmax , el recorrido (Re) es: Re = M-m
Otras medidas Características de la distribución de una variable
Cuantiles:
Los cuantiles de orden q, con 0<q<1, son los valores (xq ∈ℝ) que cumplen: P[X ≤ xq] = q
La mediana es el cuantil de orden 1/2.
Los cuantiles de orden q = 1/4, 1/2, 3/4 se denominan cuartiles.
Al tamaño del intervalo (x1/4, x3/4) se le llama recorrido intercuartil o intercuartílico
(RIQ) y se utilizan como medida de dispersión.
Los cuantiles de orden q = 1/10, 2/10,..., 9/10 se denominan deciles.
Los cuantiles de orden q = 1/100, 2/100,..., 99/100 se denominan percentiles.
µ3
Coeficiente de asimetria: γ1 = 3 (distribuciones simétricas con respecto a E[X] ⇒ γ1=0)
σ
µ4
Coeficiente de curtosis (medida del apuntamiento): γ 2 = − 3 (γ2>0 ⇒ muy apuntada)
σ 4

Teorema de Tchevichev:
P[ X − μ > rσ ] ≤ 2 ≡ P[μ − rσ ≤ X ≤ μ + rσ ] > 1 − 2
1 1
r r
Para r = 2 el teorema establece que cualquier variable aleatoria (X ) tiene una
probabilidad de, al menos 1 – (1 /22 )= ¾, de tomar valores entre dos desviaciones
típicas de la media, es decir tres cuartos, o mas, de las observaciones de cualquier
variable estarán en el intervalo µ ± 2σ.
Características de la distribución de una variable
Función característica.
Para una variable aleatoria (X), se define su función característica como:
φX: ℝ → ℂ  ∑ e itx p X ( xi ) si X es discreta
i
-∞ 
t → φX(t) = E[e ] = ∫ e dFX (x) =  x ∈∞D
itX itx i x
- −∞
∫ e itx f ( x)dx si X es continua
 -∞

Su nombre proviene del hecho de que una vez conocida la función característica se
puede determinar la función de distribución de la v.a. y recíprocamente. Así:
1 ∞
f ( x) =
2π ∫ - -∞
e −itxϕ (t )dt
X

1 T −itx
T →∞ 2T ∫ −T
p X ( x) = lim e ϕ (t )dt
X

Una propiedad importante de la función característica es que permite determinar los


momentos respecto del origen:

ϕ Xk ) (0)
αk =
ik
Ejemplo. Características de la distribución de una variable
14.- Una variable tiene por función de densidad una función de la forma: f(x)= k(x2-2x).
Determinar el dominio de esta función y el valor de k para que sea realmente una función de
densidad. Calcular la media y la varianza de la variable X. Obtener el coeficiente de simetría.

Para ser una verdadera función de densidad de probabilidad, f(x)≥0 y ∫ℝf(x)dx=1, por tanto,
Si k>0, (x2-2x)≥0 y como (x2-2x) = x(x-2), o bien x>0 y (x-2)>0⇒ x>2, o bien x<0 y (x-2)<0 ⇒
x<0 y en estos conjuntos de valores ∫ℝf(x)dx→∞.
Si k<0, (x2-2x)≥0 y como (x2-2x) = x(x-2), el único caso con resultados posibles en la recta de los
números reales es que x>0 y (x-2)<0 ⇒ 0<x<2, región en la que ∫ℝf(x)dx está acotada. En este
caso, calculamos k para que se cumpla la segunda propiedad de la función de densidad.
2
2  x3 2 8  4k 3
∫0 − = − =  −  = − = ⇒ = −
2
k ( x 2 x ) dx k  x  k 4 1 k
3 0 3  3 4
Por otra parte:
2
−3 2 2 − 3  x 4 2 x3  3  16 
4 ∫0
α1 = µ = x ( x − 2 x ) dx =  −  = − 4 −  =1
4 4 3 0 4 3 6 1
σ 2 = α 2 − α12 = − 1 =
−3 2 2 2
2
− 3  x5 2 x 4  3  32  6 5 5
4 ∫0
α2 = x ( x − 2 x ) dx =  −  = −  − 8 =
4 5 4 0 4 5  5
2
−3 2 3 2 − 3  x6 2 x5  3  32 32  16
4 ∫0
α3 = x ( x − 2 x ) dx =  −  = −  − =
4 6 5 0 4 3 5  5
16  6  8 µ 85
µ3 = α3-3α1α2 +2α13= − 3  + 2 = ⇒ γ1 = 33 = =8 5 >0
5 5 5 σ (1 5 5 )
Características de la distribución de una variable
Ejemplos.
15.- Una variable aleatoria X tiene una media con valor μ = 8, una varianza σ2 = 9 y su
distribución de probabilidad es desconocida. Acotar: P (−4 < X < 20).

P (−4 < X < 20) = P[ 8 – (4) (3) < X < 8 + (4) (3) ] ≥ 15/16
Teorema de Tchevichev

16.- Sea X una variable aleatoria discreta, con soporte DX={0, 1, …, n} y función de masa:
n!
p X ( xi ) = P( X = xi ) = p xi (1 - p ) n - xi , p ∈ [0,1] , xi ∈ D X
xi !(n - xi )!
Calcular la media y la varianza de X.

La función característica es: φX(t) = [eit p + (1-p)]n, t ∈ ℝ

En consecuencia: φX(1)(t) = inp y φX(2)(t) = i2np[np+(1- p)]

De donde se deduce: E[X] = α1 = np, E[X2] = α2 = np[np+(1-p)] , Var[X] = α2 – (α1 )2 = np(1-p)


Vectores aleatorios: definición
Un vector aleatorio es un conjunto de n medidas realizadas sobre los resultados de un
experimento aleatorio:
(X1, X2, …, Xn): (Ω, A ) → (ℝn, ℬn)
w → [X1(w), X2(w), …, Xn(w)] = (x1, x2, …, xn)∈ℝn (∀w∈Ω)
si dichas medidas permitan transferir las probabilidades definidas sobre el experimento a las
mediciones del vector. Para lo cual se requiere que la aplicación anterior sea medible, es decir:
(X1, X2, …, Xn)-1(B) ∈A , ∀B∈ ℬn

De esta forma, dada una P sobre (Ω, A ), resulta que:


PX 1 , X 2 ,..., X n (B) = P[(X1, X2, …, Xn)-1(B)], ∀B∈ ℬn
es una probabilidad sobre (ℝn, ℬn).
X2 En realidad, no es necesario comprobar
B que: (X1, X2, …, Xn)-1(B) ∈A , ∀B∈ ℬn .
(X1, X2)-1(B) [X1(w1), X2(w1)] Basta con verificar que se cumple el
w1 [X1(w2), X2(w2)] siguiente teorema:
w2 Teorema:
wi [X1(wi), X2(wi)]
−1
Si (X1, X2)-1 {(-∞, x1]×(-∞, x2]} ∈A ,
PX 1 X 1 (B) = P[( X 1 , X 2 ) (B)] ∀x1, x2 ∈ ℝ ⇒ (X1, X2) es un vector
aleatorio.
X1 (La extensión natural del anterior
(X1, X2)
(ℝ , ℬ2)
teorema para n>2 también es válida)
(Ω, A ) 2
Vectores aleatorios: definición
Ejemplo.
17.- Sea el experimento aleatorio consistente en lanzar un dado y sea el espacio probabilístico:

Ω= , , , , , = {w1, w2, w3, w4, w5, w6}; A = P(Ω) y P(wi)=1/6

Se define el vector (X1, X2), donde X1=“-1 si sale par y 1 en caso contrario” y X2=“-0.5 si sale una
cara menor o igual a 4 y 2 en caso contrario”. Comprobar que (X1, X2) es un vector aleatorio
X1<-1 y X2<-0.5 ⇒ ( X1, X2)-1{(-∞, x1]×(-∞, x2]} = Φ ∈P(Ω)
-1≤X1<1 y X2<-0.5 ⇒ ( X1, X2)-1{(-∞, x1]×(-∞, x2]} = Φ ∈P(Ω)
1≥X1 y X2<-0.5 ⇒ ( X1, X2)-1{(-∞, x1]×(-∞, x2]} = Φ ∈P(Ω)
X2 X <-1 y -0.5≤X <2
1 2 ⇒ ( X1, X2)-1{(-∞, x1]×(-∞, x2]} = Φ ∈P(Ω)
-1≤X1<1 y -0.5≤X2<2 ⇒ ( X1, X2)-1{(-∞, x1]×(-∞, x2]} = {w2, w4}∈P(Ω)
2 1≥X1 y -0.5≤X2<2 ⇒ ( X1, X2)-1{(-∞, x1]×(-∞, x2]} = {w1, w2, w3, w4}∈P(Ω)
X1<-1 y 2≥X2 ⇒ ( X1, X2)-1{(-∞, x1]×(-∞, x2]} = Φ ∈P(Ω)
-1≤X1<1 y 2≥ X2 ⇒ ( X1, X2)-1{(-∞, x1]×(-∞, x2]} = {w2, w4, w6}∈P(Ω)
1≥X1 y 2≥ X2 ⇒ ( X1, X2)-1{(-∞, x1]×(-∞, x2]} = Ω∈P(Ω )

Como ∀x1, x2 ∈ ℝ ocurre que:


-1 1 X1
(X1, X2)-1 {(-∞, x1]×(-∞, x2]} ∈ P(Ω) ⇒
-.5
⇒ (X1, X2) es un vector aleatorio.
Descripción de la probabilidad en vectores
Función de distribución.
Cualquier función F: ℝ2 → ℝ que satisface las siguientes propiedades se denomina
función de distribución del vector (X, Y).
i. F(x,y) ≥ 0.

ii. F(-∞,y)= lim F ( x, y ) = 0, ∀ y ∈ℝ F(x,-∞)= lim F ( x, y ) = 0, ∀ x ∈ ℝ.


x →∞ y →∞
iii. F(∞,∞)= lim F ( x, y ) = 1 .
x →∞
y →∞
iv. F(x,y) es monótona no decreciente. Si x1< x2 e y1< y2 ⇒ F(x1,y1) ≤ F(x2,y2).

v. F(x,y) es continua a la derecha respecto a cada una de las variables.

Toda función de distribución induce una ley de probabilidad sobre (ℝ2, ℬ2), de forma
que :
F(x,y)= PXY {X ≤ x, Y ≤ y} = P{(X,Y)-1((-∞,x]×(-∞,y])} = P{w/ X(w) ≤ x ⋂ Y(w) ≤ y}

En general, la probabilidad de cualquier recinto rectangular es:


PXY{x ≤ X ≤ x+∆1x, y ≤ Y ≤ y+∆2y} = F(x+∆1x, y+∆2y)- F(x+∆1x, y)-F(x, y+∆2y)+F(x,y)
Descripción de la probabilidad en vectores
Vector aleatorio bidimensional discreto. (función de masa)
Llamaremos función de masa o cuantía conjunta del vector aleatorio
(X,Y) a la función: pXY :ℝ2→ℝ/ pXY (x, y) = P(X = x, Y = y), ∀ (x,y) ∈ ℝ2

Sea (X, Y ) un vector aleatorio, con función de masa pXY y sea


DXY = { (x,y) ∈ ℝ2 / pXY (x, y) > 0 }. Si DXY ≠ Ф y ∑ p XY ( x, y ) = 1 ,
( x , y )∈D XY
en estas condiciones, (X,Y) es un vector aleatorio discreto y DXY se
denomina soporte del vector.

Teorema Teorema
La función de distribución ∀B∈ℬ2: PXY(B) = P[(X,Y)-1 (B)] =
conjunta F(x,y) se puede obtener a
 0 si B  DXY = Φ
partir de la función de masa: 
=  ∑ p XY ( x, y ) si B  DXY ≠ Φ
F ( x, y ) = ∑p
xi ≤ x , y j ≤ y
XY ( xi , y j ) ( x , y )∈(B DXY )
Descripción de la probabilidad en vectores
Vector aleatorio bidimensional continuo. (función de densidad)
Una función f: ℝ2 →ℝ, es una función de densidad en ℝ2 si:
f(x, y) ≥ 0 , ∀ (x,y)∈ℝ2
f es integrable Riemann en ℝ2
∞ ∞
∫ ∫
−∞ −∞
f ( x, y )dxdy = 1

Un vector aleatorio bidimensional se denomina continuo, si su función


de distribución se puede expresar como:
x y
F ( x, y ) = ∫ ∫ f (u, v)dudv
−∞ −∞

siendo f(u,v) una función de densidad.

El conjunto CXY = { (x,y) ∈ ℝ2 / f (x, y) > 0} es el soporte del vector


aleatorio bidimensional continuo.
Descripción de la probabilidad en vectores
Vector aleatorio bidimensional continuo.
Teorema:
En un vector aleatorio bidimensional continuo ocurre que:
•F(x, y) es continua, ∀(x, y) ∈ ℝ2.
• Si f es continua en un entorno de (x0, y0), entonces, en ese
entorno:
∂ ∂ F ( x, y )
2 2
F ( x, y )
= = f ( x, y )
∂ x∂ y ∂ y∂x

•CXY = { (x,y)∈ ℝ2 / f (x, y) > 0 } ≠ Ф

• ∀ B ∈ ℬ2: P (B) = ∫∫ B
f (u, v)dudv
Descripción de la probabilidad en vectores
Distrib. marginales.
En un espacio probabilístico (Ω,A, P), un vector aleatorio supone una aplicación (X,Y): Ω →ℝ2.
A su vez, las aplicaciones ℝ2→ℝ [(X,Y)→X] y ℝ2→ℝ [(X,Y)→Y] son funciones medibles de ℬ2
en ℬ y se denominan proyecciones de la distribución conjunta de (X,Y) sobre X y sobre Y
respectivamente. Las distribuciones de estas proyecciones son las distribuciones marginales. Así,
para un vector aleatorio cualquiera (X,Y):
La función de distribución marginal de X es:
FX ( x) = lim F ( x, y ) = lim P [(X ≤ x) × (Y ≤ y)] = P[(X ≤ x) × ℝ] = P[(X ≤ x)] = F(x)
y →∞ y →∞
La función de distribución marginal de Y es:
FY ( y ) = lim F ( x, y ) = lim P [(X ≤ x) × (Y ≤ y)] = P[ℝ × (Y ≤ y)] = P[(Y ≤ y)] = F(y)
x →∞ x →∞

Las funciones de masa marginales de un vector aleatorio discreto (X,Y) son:


p X ( x) = ∑p
y j ∈DY
XY ( x, y j ) ; pY ( y ) = ∑p
xi ∈D X
XY ( xi , y )

Siendo los soportes DX y DY las proyecciones del soporte DXY sobre ℝ.

Para un V. A. (X,Y) continuo, con función de densidad conjunta f(x,y), las funciones de densidad
marginales de cada variable del vector se definen como:
∞ ∞
f X ( x) = ∫ f ( x, y )dy ; fY ( y ) = ∫ f ( x, y )dx
−∞ −∞

Sus soportes (CX y CY ) serán las proyecciones de CXY sobre cada eje.
Descripción de la probabilidad en vectores
Distrib. condicionadas.
Caso discreto
Sea (Ω,A, P) un espacio probabilístico y (X, Y) un V. A. discreto definido sobre él, con
función de masa conjunta pXY(x,y) y funciones de probabilidad marginales pX(x) y pY(y).

Si Y=y0∈DY; Y-1(y0) = {w∈Ω/ Y(w)= y0}∈A. Entonces, para cualquier suceso S∈A, se
puede determinarla probabilidad condicionada de S a Y= y0:
P[Y = y0 ] (S) = P(S /[Y = y0 ])
Así, la aplicación (X / [Y= y0]) induce una ley de probabilidades en (ℝ2, ℬ2), a partir de
la ley de probabilidades P[Y=y0] definida en (Ω,A ), de forma que:
P( X /[Y = y0 ]) ( X , y0 ) = P[Y = y0 ] {w ∈ Ω / X ( w) = x} =
P{[ w ∈ Ω / X ( w) = x] ∩[ w ∈ Ω / Y ( w) = y0 ]}
= =
P{w ∈ Ω / Y ( w) = y0 }
p XY ( x, y0 )
= = P ( X / y0 ) = p X / y0 ( x / y )
pY ( y0 )

p XY ( x0 , y )
Análogamente: P (Y / x0 ) = = pY / x0 ( y / x)
p X ( x0 )
Descripción de la probabilidad en vectores
Distrib. condicionadas.
Caso continuo
Sea (Ω,A, P) un espacio probabilístico y (X, Y) un V. A. continuo definido sobre él, con
función de densidad conjunta f(x,y) y funciones de probabilidad marginales fX(x) y fY(y).
En este caso la probabilidad en puntos concretos del dominio de definición no está
definida: PX(X= x0) = PY(Y= y0) = 0. Por lo que las probabilidades condicionadas a
valores puntuales de X o Y tampoco lo están. La distribución de X condicionada a
Y∈(y-h, y+h) se puede definir cuando h>0 y P[y-h <Y≤ y+h]>0, de la siguiente forma:
P[( X ≤ x) ∩ ( y - h < Y ≤ y + h)]
P[X ≤ x / y-h < Y ≤ y+h] =
P[ y - h < Y ≤ y + h]

f ( x, y )
La función de densidad correspondiente será: fX/Y(x / y)= .
fY ( y )
f ( x, y )
De la misma forma, la función de densidad de Y respecto a X será: fY/X(y /x)= .
f X ( x)

f ( x1 ,  , xn )
En general: f ( x1 ,  , xk / xk +1 ,  , xn ) =
f xk +1 ,, xn ( xk +1 ,  , xn )
Descripción de la probabilidad en vectores
Distrib. condicionadas.
Independencia
En el caso bidimensional (n=2) la condición necesaria y suficiente para
que dos variables aleatorias X e Y, definidas sobre un mismo espacio
probabilístico (Ω,A, P) sean independientes es:
F(x,y)=F1(x)F2(y), ∀ (x,y) ∈ ℝ2
En este caso, el producto de las distribuciones marginales de X e Y
determinan la distribución conjunta.

Dos variables aleatorias discretas (X e Y) son independientes si:


P[X=xi; Y=yj] = P[X=xi]∙P[Y=yj], ∀(xi,yj)∈DXY
O bien si pX/Y(xi/yi) = pX(xi) o pY/X(yi/xi) = pY(yi), ∀(xi,yi)∈DXY

Si X e Y son continuas, entonces son independientes si


f(x,y)= fX(x) fY(y), ∀(x,y)∈CXY
O bien si fX/Y(x/y) = fX(x) o fY/X(y/x) = fY(y), ∀(x,y)∈CXY
Descripción de la probabilidad en vectores
Momentos.
Dado un vector aleatorio bidimensional (X,Y) y una función medible g: ℝ2→ℝ, se define la
esperanza matemática de g como:
Caso discreto:
E[ g ( X , Y )] = ∑ g ( x, y) p XY ( x, y), siempre que ∑ g ( x, y) p XY ( x, y) < ∞
( x, y )∈D XY
Caso continuo:
∞ ∞
E[ g ( X , Y )] = ∫ ∫ g ( x, y ) f ( x, y )dxdy, siempre que ∫ ∫ g ( x, y ) f ( x, y )dxdy < ∞
-∞ -∞

Los momentos más empleados son:


Momentos kl respecto al origen: αkl = E[XkYl].
Especialmente se utilizan:
α10 = E[X] y α01 = E[Y]
Momentos kl respecto a las medias: μkl =E[(X- α10)k(Y- α01)l].
Especialmente se utilizan:
μ20 = Var[X] = σX2 ; μ02 = Var[Y] = σY2 ; μ11 = Cov[X, Y] = α11-α01α10

Otra característica que describe los vectores aleatorios es el coeficiente de correlación:


μ Cov( X , Y )
ρ = 11 =
σ X σY Var ( X ) Var (Y )
 -1≤ ρ ≤ 1
 Si X e Y son independientes ⇒ ρ=0
Descripción de la probabilidad en vectores
Función característica.
Una función con propiedades análogas a la función característica de una variable
aleatoria es la función característica del vector aleatorio (X,Y):
E[ei(tX+uY)] = ϕ(t,u)

Como en el caso invariante, la función característica determina completamente la


distribución de probabilidades. Además, en el caso de que las componentes del vector
sean independientes se obtienen dos importantes resultados:

ϕ ( X ,Y ) (t , u ) = ϕ X (t ) ⋅ ϕY (u ), ∀ t, u ∈ℝ (el recíproco también es cierto)

ϕ X +Y (t ) = ϕ X (t ) ⋅ ϕY (t ), ∀ t ∈ℝ (el recíproco no tiene por qué ser cierto)

También la función característica de un vector permite determinar los momentos


respecto del origen: 1  ∂ j + kϕ (t , u ) 
α jk =  
i j + k  ∂ j t ∂ k u  t =0
u =0
Descripción de la probabilidad en vectores
Ejemplo.
18.- Se considera el experimento aleatorio consistente en lanzar sucesivamente dos
dados y observar el resultado de la primera tirada y la suma de la puntuación obtenida
en ambos dados. El resultado del experimento se muestra en la tabla adjunta, en la
primera columna aparece el resultado de la primera tirada y en la primera fila, los
puntos observados en la segunda tirada; los valores del vector aleatorio considerado son
los del interior de la tabla.
Ω 1 2 3 4 5 6
1 (1,2) (1,3) (1,4) (1,5) (1,6) (1,7)
2 (2,3) (2,4) (2,5) (2,6) (2,7) (2,8)
3 (3,4) (3,5) (3,6) (3,7) (3,8) (3,9)
4 (4,5) (4,6) (4,7) (4,8) (4,9) (4,10)
5 (5,6) (5,7) (5,8) (5,9) (5,10) (5,11)
6 (6,7) (6,8) (6,9) (6,10) (6,11) (6,12)

Se pide: obtener la función de masa conjunta y las funciones de masa marginales;


determinar si las variables analizadas son independientes y calcular la función de masa
de la suma de los dos dados condicionada a que el primer dado muestre un 5.
Descripción de la probabilidad en vectores
Para X=“puntos obtenidos al tirar el primer dado” e Y=“suma de los los puntos obtenidos al
tirar los dos dados”, la función de probabilidad conjunta, junto con las marginales se
muestran en la tabla siguiente:
X 1 2 3 4 5 6 pY(yj)
Y

2 1/36 0 0 0 0 0 1/36
3 1/36 1/36 0 0 0 0 2/36
4 1/36 1/36 1/36 0 0 0 3/36
5 1/36 1/36 1/36 1/36 0 0 4/36
6 1/36 1/36 1/36 1/36 1/36 0 5/36
7 1/36 1/36 1/36 1/36 1/36 1/36 6/36
8 0 1/36 1/36 1/36 1/36 1/36 5/36
9 0 0 1/36 1/36 1/36 1/36 4/36
10 0 0 0 1/36 1/36 1/36 3/36
11 0 0 0 0 1/36 1/36 2/36
12 0 0 0 0 0 1/36 1/36
pX(xi) 1/6 1/6 1/6 1/6 1/6 1/6 1

Como pXY(1,2) = 1/36 ≠ (1/6) (1/36) = pX(1) pY(2) ⇒ X e Y no son independientes

P(y/x=5) = pY/x=5(5, y) = pXY(5, y) / pX(5). Por tanto, la función de masa condicionada será:
Y 2 3 4 5 6 7 8 9 10 11 12
P(y/x=5) 0 0 0 0 1/6 1/6 1/6 1/6 1/6 1/6 0
Descripción de la probabilidad en vectores
Ejemplo.
19.- Para los puntos de una zona, se han estudiado dos características: la pendiente y la litología. Ambas se han transformado
en variables aleatorias de forma que:
− 1 si la pendiente es ≤ 5% 0 en zonas arcillosas
X = Y =
 1 si la pendiente es > 5% 1 en zonas de esquistos
y se tiene la siguiente función de masa:
X -1 1 p.j
Y
0 1/6 1/6 1/3
1 1/3 1/3 2/3
pi. 3/6 3/6 1

Determinar si ambas variables son independientes.

Para determinar si son o no independientes las variables, se debe comprobar, en todos


los puntos, que la probabilidad conjunta sea igual al producto de probabilidades
marginales. En cuanto se detecte un solo punto en que no se cumple esto, se puede
afirmar que las variables no son independientes. Como:
P[X= -1; Y=0] = 1/6 = (3/6)∙(1/3) = P[X= -1]∙P[Y=0]
P[X= -1; Y=1] = 1/3 = (3/6)∙(2/3) = P[X= -1∙P[Y=1]
P[X=1; Y=0] = 1/6 = (3/6)∙(1/3) = P[X=1∙P[Y=0]
P[X=1; Y=1] = 1/3 = (3/6)∙(2/3) = P[X=1]∙P[Y=1]
Resulta que X e Y son independientes.
Ejemplo. Descripción de la probabilidad en vectores
20.- Sea la siguiente función de densidad conjunta del vector (X,Y) :
f(x,y) = x2+(xy/3) , sobre 0<x<1, 0<y≤2 y f(x,y) = 0 en el resto
cuya representación gráfica se muestra a continuación. Se pide determinar las distribuciones
marginales; las condicionadas; comprobar si ambas
variables son independientes y obtener los principales
momentos.
Distribuciones marginales:
 2 xy  2x
f1 ( x) = ∫
2
 x + dy = 2 x + , si 0 < x ≤ 1
2
0
 3 3
1 xy  1 y
f 2 ( y ) = ∫  x 2 + dx = + , si 0 < y ≤ 2
0
 3 3 6
Distribuciones condicionadas:
 2 xy
 x + 3 3x + y
 = si 0 < x ≤ 1; 0 < y ≤ 2
f ( y / x) =  2 2 x 6 x + 2
 2x + 3

 0 resto
 2 xy
x + 3 x (6 x + 2 y )
 = si 0 < x ≤ 1; 0 < y ≤ 2
f ( x / y) =  1 y 2+ y
 3+ 6
Independencia: 
 0 resto
Como f(x) f(y) ≠ f(x,y) ⇒ X e Y no son independientes
Descripción de la probabilidad en vectores
Momentos:
1
 2 2x   2 x 4 2 x3  13
α10 = E[ X ] = ∫
1
x  2 x + dx =  +  =
0
 3   4 9  0 18
2
1 y   y2 y3  20 10
α 01 = E[Y ] = ∫
2
y + dy =  +  = =
0
3 6  6 18 0 18 9
1 2
 2 xy  2 x y x3 y 2   y2 y3 
4
2 1 43
α11 = ∫ ∫  x + xydxdy = ∫  +  dy =  +  =
0 0
 3 0
 4 9 0  8 27  0 54
1
2 2x   2 x5 2 x 4  17
α 20 = ∫
1
x  2 x + dx = 
2
+  =
0
 3   5 12  0 30
2
2 1 y  y 3 y 4  14
α 02 = ∫
2
y  + dy =  +  =
0
3 6  9 24  0 9
43  13  10 
µ11 = Cov[ X , Y ] = α11 − α10α 01 = −    = −0.006173
54  18  9 
2
17  13 
µ 20 = Var[ X ] =σ 2
X = α 20 − α =
2
10 −   = 0.045062
30  18 
2
14  10 
µ 02 = Var[Y ] = σ = α 02 − α = −   = 0.320188
2
Y
2
01
9 9
µ11
ρ= = −0.051392
σ XσY
Ejemplo. Descripción de la probabilidad en vectores

21.- Dado el vector aleatorio (X,Y) con la siguiente función de densidad conjunta
1 - y < x < y, 0 < y < 1
f ( x, y ) = 
0 en el resto
Comprobar que, aunque el coeficiente de correlación es 0, las variables que lo componen no son
independientes.
y
 x2 
f1 ( x) = ∫ dy = 1 ⇒ µ1 = ∫ xdx =   = 0
1 y

−y
0
 2 −y
1
 2 y3  2
f 2 ( y ) = ∫ dx = 2 y ⇒ µ 2 = ∫
y 1
2 y dy = 
2
 =
--y 0
 3 0 3
y
 x2  2
α11 = ∫ ∫ xydxdy = ∫
1 y 1
  ydy = 0 ⇒ µ11 = α11 - µ1µ 2 = 0 - 0  = 0 ⇒ ρ = 0
0 -y 0
 2 −y 3

Por otro lado, f(x,y) = 1 y f1(x)∙f2(y) = 2y ⇒ f(x,y) ≠ f1(x)∙f2(y), luego las variables
aleatorias X e Y no son independientes.
Ejemplo. Descripción de la probabilidad en vectores
22.- Dada la siguiente función de densidad conjunta para el vector (X,Y) bidimensional:
6 xy 2 0 < x < 1, 0 < y < 1
f ( x, y ) = 
 0 en el resto
Calcular la función de distribución y comprobar que las variables X e Y son independientes.

Función de distribución
1 si : (1 ≤ x, 0 < y ), (1 ≤ x, 1 ≤ y ) o (0 < x, 1 ≤ y )
 x y
F ( x, y ) = P ( X ≤ x, Y ≤ y ) = ∫ ∫ 6uv 2 dudv = x 2 y 3 si : (0 < x < 1, 0 < y < 1)
0
0 0

 en el resto

Distribuciones marginales
1
f X ( x) = ∫ 6 xy 2 dy = 2 x, 0 < x <1
0
1
fY ( x) = ∫ 6 xy 2 dx = 3 y 2 , 0 < y <1
0

Distribuciones condicionadas
6 xy 2 
f X /Y ( x / y) = = 2 x = f X ( x), 0 < x < 1
3y2 
 ⇒ INDEPENDIENTES
6 xy 2
fY / X ( y / x) = = 3 y 2 = fY ( y ), 0 < y < 1
2x 
CÁLCULO DE PROBABILIDADES

Relaciones entre variables aleatorias:


Tipos de relaciones entre variables aleatorias.
Transformaciones de las variables de un vector.
Transformaciones asimétricas.
Análisis de la dependencia.
Análisis de la interdependencia.
Tipos de relaciones entre variables aleatorias
Dependencia funcional.
∀yi ⇒ ∃| xi / yi = g(xi) [de X respecto de Y]
y3
Y y=g(x)
Dependencia aleatoria.
∀yi ⇒ ∃ x1, x2, …/ P[x∈B/Y=yi]=∫B fi(x/yi)dx y2
Y ocurre que ∃j / fi(x/yi)≠ fj(x/yj)
La ocurrencia de un valor en Y, modifica la
probabilidad de que X tome determinados valores
y1
Independencia.
∀yi ⇒ ∃ x1, x2, …/ P[x∈B/Y=yi]=∫B fi(x/yi)dx x1 x2 x3 X
Y ocurre que fi(x/yi)= fj(x/yj), ∀i, j

Y CXY Y CXY
y3 y3
y2 E[X/Y] y2 E[X/Y]
y1 y1
X X
Transformaciones de las variables de un vector
Caso continuo.
Sea (X,Y) un vector aleatorio con función de densidad conjunta f(x,y) y sea la transformación:
 z = g1 ( x, y )  x = h1 ( z , t )
(Z,T): ℝ2→ℝ2 , tal que :  , para la cual existe la inversa de la transformación:  . Tanto
t = g 2 ( x , y )  y = h2 ( z , t )
la transformación, como su inversa, son continuas y, además, existen y son continuas las derivadas parciales:
∂x ∂x ∂y ∂y
, , , . Si el jacobiano (J) de la inversa de la transformación es no nulo en el recorrido de la
∂ z ∂t ∂ z ∂t
∂x ∂x
transformación:
J= ∂z ∂t ≠ 0
∂y ∂y
∂z ∂t
entonces, el vector aleatorio (Z,T), resultante de la transformación del (X,Y), es continuo y su función de
densidad conjunta es:
fZT(z,t) = fXY [h1(z,t), h2(z,t)] |J|

Caso discreto.
Sea X= (X1, ..., Xn) un vector aleatorio n-dimensional discreto con función de distribución conjunta
F(x1, ..., xn) y se define Y= (Y1, ..., Yr) = (g1(X), ..., gr(X)), con r ≤ n, entonces la función de distribución del
vector Y, transformado del X es:

FY(y) = P[Y1≤ y1, ..., Yr≤ yr] = P[g1(X)≤ y1, ..., gr(X)≤ yr] = ∑p X 1 ... X n ( x1 ,..., xn )
x1 ... xn tales que:
g1 ( X ) ≤ y1 ,..., g r ( X ) ≤ y r
Transformaciones de variables de un vector
Ejemplo.
23.- Sea la variable aleatoria discreta (X,Y) con función de masa:
X 1 2 3 4
Y

0 0.16 0.08 0.32 0.24


1 0.04 0.02 0.08 0.06

Obtener la función de probabilidad de Z=X·Y.

El soporte de la variable Z, obtenida mediante la transformación z = xy, es DZ = {0, 1, 2, 3, 4}

La probabilidad:
P[Z= 0] = P[X=1;Y=0]+...+P[X=4;Y=0] = 0.16+0.08+0.32+0.24 = 0.8
P[Z= 1] = P[X=1;Y=1] = 0.04
P[Z= 2] = P[X=2;Y=1] = 0.02
P[Z= 3] = P[X=3;Y=1] = 0.08
P[Z= 4] = P[X=4;Y=1] = 0.06

Por tanto, la función de masa de la nueva variables es:


Z 0 1 2 3 4
pZ(z) 0.8 0.04 0.02 0.08 0.06
Ejemplo. Transformaciones de variables de un vector
24.- Calcular la distribución de probabilidades para la suma y el cociente de dos variables
aleatorias cuando se trata de dos variables independientes (X1 y X2) con funciones de densidad:
1 si 0 ≤ x ≤ 1
f X 1( x) = f X 2( x) =
0 resto
Y cuando son las componentes de un vector aleatorio continuo (X1, X2) con función de densidad:
1 si 0 ≤ x1 ≤ 1, 0 ≤ x2 ≤ 1
f X 1 X 2( x1, x2 ) =
0 resto

Para el cálculo de la distribución de la suma se realizan las siguientes transformaciones:


∂x1 ∂x1
Z1 = X 1 + X 2   X 1 = Z1 − T1  ∂z1 ∂t1 1 −1
⇒  ⇒ J1 = ∂x ∂x = = 1 ⇒ f Z1T1 ( z , t ) = f X 1 X 2 ( z - t , t ) 1
T1 = X 2   X 2 = T1  2 2 0 1

∂z1 ∂t1 ⇒ f Z 1 ( z ) = ∫ f Z T ( z , t )dt
-∞ 1 1

Para el cálculo de la distribución del cociente se realizan las siguientes transformaciones:


∂x1 ∂x1
Z 2 = X 1 X 2   X 1 = Z 2 ⋅ T2  ∂z ∂t 2 t z
⇒   ⇒ J 2 = ∂x2 =
∂x2 0 1
=t ⇒ f Z 2T2 ( z , t ) = f X 1 X 2 ( zt , t ) t
T2 = X 2   X 2 = T2  2

∂z 2 ∂t 2 ⇒ f Z 2 ( z) = ∫ f Z 2T2 ( z , t )dt
-∞
X2X2 Transformaciones
T de variables de un vector
T
1.51.5 1.5
1.5
Z=X1 + X2
0≤x
0<x1≤1
1<1 T= X2 0≤z-t≤1
Distribución
0<z-t<1

11 11
de la suma
0.50.5 0≤x
0<x2≤1
2<1 0.5
0.5 0≤t≤1
0<t<1

00 00
00 0.5
0.5 11 1.5
1.5 XX1 1 00 0.5
0.5 11 1.5 Z

Para X1, X2 (variables independientes):


1×1 = 1 (0 ≤ z − t ≤ 1, 0 ≤ t ≤ 1)
f Z1T1 ( z , t ) = f X 1 X 2 ( z − t , t ) 1 = f X 1 ( z − t ) f X 2 (t ) = 
 0 (fuera del recinto anterior)
Para el vector (X1, X2):
1 (0 ≤ z − t ≤ 1, 0 ≤ t ≤ 1)
f Z1T1 ( z , t ) = f X 1 X 2 ( z − t , t ) 1 = 
0 (fuera del recinto anterior)
1.5
f(z)

1×du = [u ] 0 = z
z 1
∫ si 0 ≤ z ≤ 1
z
0

∫ 1×du = [u ]
∞ 1
f Z1 ( z ) = ∫ f Z1T1 ( z , t )dt = = 1 − z si 1 < z ≤ 2
1
z 0.5
−∞ z
0 en el resto
0
0 0.5 1 1.5 z
X2 Transformaciones de variables de un vector
T
1.5 Z=X1 / X2 1.5 1,5

0≤zt≤1
0≤x1≤1 T= X2
1 1 1
Distribución
0≤t≤1
del cociente
0.5 0≤x2<1 0.5 0,5

0 0 0

0 0.5 1 1.5 X1 0 0.5


1 3
1 1.5 2 2.5
5 7 9 11 13 15 17 19 21 23 25 27 29 31 33 35 37 39 41 43 45 47 49 51 53 55 5
Z

Para X1, X2 (variables independientes):


1×1× t = t (0 ≤ zt ≤ 1, 0 ≤ t ≤ 1)
f Z 2T2 ( z , t ) = f X 1 X 2 ( zt , t ) t = f X 1 ( zt ) f X 2 (t ) t = 
 0 (fuera del recinto anterior)
Para el vector (X1, X2):
t (0 ≤ zt ≤ 1, 0 ≤ t ≤ 1)
f Z 2T2 ( z , t ) = f X 1 X 2 ( zt , t ) t = 
0 (fuera del recinto anterior)
0,6
1
1 t 
2
1 f(z)
∫0 = = si 0 ≤ z ≤ 1
0,5
t du  
 0
2 2 0,4

1z 0,3
∞ 1z t 2  1
f Z1 ( z ) = ∫ f Z 2T2 ( z , t )dt = ∫ tdu =   = 2 si z > 1 0,2
−∞ 0
20 2z 0,1

0 en el resto 0

01 11
0.5 121
1 31
11
1.5 41
21
2 31
51
2.5 41
61
3 51
3.5 61 z
Transformaciones Transformaciones
asimétricas asimétricas
Como se deduce de la expresión general de la distribución de probabilidades de las transformaciones de vectores aleatorios:
fZT(z,t) = fXY [h1(z,t), h2(z,t)] |J|, las transformaciones no lineales inducen cambios en el modelo de distribución de la
transformación.
Las no-linealidades pueden ser cóncavas, convexas o una combinación de ambas. Como se verá más adelante (Teorema 2),
en general, las transformaciones convexas (una sonrisa) son buenas y las transformaciones cóncavas (un puchero) con malas.
Tal vez nunca lleguemos a conocer la distribución de X, pero se puede jugar con sus transformaciones T[X] y forzar
modificaciones en ella hasta que nos encontremos cómodos con las transformaciones.
Ejemplo. Sea X la intensidad de un terremoto en una zona concreta y T[X] el número de personas que mueren por culpa
del seísmo. Se puede comprobar que T[X] es mucho más predecible que X, (obligando a las personas a no pasar por
ciertas zonas, cumpliendo estrictamente ciertas normas de edificación o diseñando vías de evacuación y de suministro
de agua y energía resistentes).
Ejemplo. X es número de vehículos que circulan en una ciudad en una hora determinada, T[X] es el tiempo de
desplazamiento de un individuo entre dos puntos. Puede conseguirse que T[X] sea más predecible que X, (haciendo que
la persona tome el metro o se desplace a pié).
Al ser posible que no se llegue a conocer la distribución de X, especialmente, las probabilidades pequeñas de sus sucesos
extremos, el siguiente teorema es muy operativo.
Cuando T[X] es creciente y convexa hacia la izquierda y luego es cóncava hacia la derecha, la probabilidad de
Teorema 1 T[X] tome valores extremos es menor de que sucedan valores extremos en X (la distribución de probabilidad
de T[X] es de colas más finas que la de X)
En la naturaleza no hay nada sin un final o un límite, así pues, las cosas terminan siendo convexas en un extremo y cóncavas
en otro. Por tanto, se reduce la probabilidad de ocurrencia de sucesos extremos.
Respuesta
T[X] Respuesta
El aumento de dosis puede terminar
T[X] siendo tóxico o, simplemente,
Dosis ineficiente. Pero los crecimientos
X
ilimitados no se producen en la
Dosis
naturaleza
X
Transformaciones y fragilidad Transformaciones asimétricas
La fragilidad es la mayor o menor facilidad de que un sistema colapse (sin posibilidad de regeneración) ante un suceso (o resultado) externo. Por
extensión se considera la probabilidad de ocurrencia del suceso (resultado) negativo que colapse el sistema. Como se ha comentado puede ser
difícil determinar la distribución de probabilidades de una variable de un sistema, pero, en ocasiones, las transformaciones de una variable son
más predecibles que la variable original y, en muchos casos, es lo que interesa conocer de un sistema

Teorema-2 Cuando la transformación de una variable (T[X]) es monótonamente convexa (cóncava) , la distribución de probabilidades de la
transformación es asimétrica a la izquierda (derecha)
DISTRIBUCIONES DE LAS T[X]

Probabilidad Probabilidad

TRANSFORMACIONES DE X (T[X])

Distribución robusta:
a) LINEAL resultados positivos y
negativos pero todos de
magnitud pequeña.
DISTRIBUCIÓN DE X
Resultados Resultados
Probabilidad Distribución frágil-TI: resultados positivos de gran magnitud y
Probabilidad negativos también de gran magnitud. La posibilidad de que se
produzca un resultado desfavorable grave puede acabar con el
sistema. Es una distribución rara porque la simetría es muy
infrecuente en la naturaleza.

b) CONVEXA
Distribución anti-frágil: posibilidad de resultados positivos de gran magnitud y son menos
probables (cuando no imposibles) los resultados desfavorables de gran magnitud. La “cola”
derecha de resultados favorables es mayor que la izquierda.
Resultados
Resultados

Probabilidad

Distribución frágil-TII: posibilidad de grandes, aunque improbables, resultados


c) CONCAVA negativos (pero muchas veces ignorados) y de resultados positivos pequeños pero
muy probables. La posibilidad de que se produzca un resultado desfavorable grave
puede acabar con el sistema.

Resultados
Medida de la fragilidad
Transformaciones asimétricas
La medida de los efectos de la no-linealidad en las transformaciones se denomina sesgo de convexidad (concavidad) y es la diferencia entre la
distribución de una variable y la de su transformada. Este sesgo se puede cuantificar.

La fragilidad se puede medir como el incremento de área de la cola izquierda de la función de densidad (por debajo de un cierto nivel k de la
variable respuesta) –es decir: aumento de probabilidad de que se produzcan resultados negativos –, en respuesta a cualquier cambio en algún
parámetro de la distribución de una variable (principalmente en la varianza de la variable).
Supongamos que se conoce el modelo de distribución de la
variable X [X≈f(x)] y se tiene una transformación de X (Y=T[X]).
Ejemplo
Un gobierno realiza una estimación del desempleo previsto para los
El hecho de que Y sea incierto (aunque estimable) produce un
tres años siguientes y calcula un promedio de 9%. Entonces aplica sus
sesgo cuando se considera como una variable estocástica en lugar
modelos econométricos que determinan que, para ese nivel de
de un parámetro fijo. Dicho sesgo se puede calcular como la
desempleo (si se mantienen las políticas que ha aprobado el
diferencia entre la función f (integrada para los valores
parlamento), se prevé un déficit de 200000 millones. Analicemos estos
potenciales de Y) y la f estimada para un único valor de Y
datos:
considerado como la media de esta.
En todos los países, esta estimación pasa por alto que el
desempleo es una variable aleatoria, de hecho, el empleo ha
Para un nivel k -por debajo del cual se producen resultados que
fluctuado un 1% a lo largo de un período de tres años. Si se
colapsan el sistema-, la fragilidad (wB) se calcula comparando
mantuviera esta fluctuación, tendíamos los siguientes efectos:
ambas integrales por debajo de k, con objeto de captar el efecto
• Desempleo al 8% → Déficit de 75000 millones [D(8%)]
sobre la cola izquierda:
-mejora de 125000 millones-
wB (k ) ≡ ∫ ∫ f ( x / y ) ϕ ( y ) dy dx − ∫ f ( x / y ) dx
k k

− ∞ DY −∞ • Desempleo al 9% → Déficit de 200000 millones [D(9%)]


• Desempleo al 10% → Déficit de 550000 millones [D(10%)]
donde : y = ∫ y ϕ ( y ) dy (media esperada de Y ) y
DY -empeoramiento de 350000 millones-
ϕ es la distribución de Y para su dominio DY El sesgo por la concavidad de la transformación que resulta de
la subestimación del déficit es 112500 millones, puesto que:
medida a la que podemos aproximarnos mediante estimaciones
½{D(8%)+D(10%)}=312000 (no 200000)
puntuales de f (para X≤k) a partir de dos valores de Y separados
Este ejemplo ilustra
de un punto intermedio por ΔY (desviación media de Y) y sondear
a) Cómo se ignora el carácter estocástico de una variable
wB como:
1
[ ]
w *B (k ) = f ( X / Y + ∆Y ) + f ( X / Y − ∆Y ) − f ( X / Y )
2
aleatoria, que se considera fija
b) Que la concavidad o convexidad de la función de la variable
k influye más que la propia variable
de modo que: wB (k ) = ∫ w *B ( x)dx
−∞ Este error en la planificación se presenta no solo en las planificaciones
La estrategia heurística consiste en introducir alteraciones en las de presupuestos, sino en toda actividad burocratizada de planificación
colas para sondear w*B(X), para cualquier valor de X. (proyectos ambientales, de construcción, etc.)
Fragilidad e incertidumbre.
Transformaciones asimétricas
Es la mayor o menor facilidad de que un sistema colapse (sin posibilidad de regeneración) ante un suceso (o resultado) externo. Por extensión se
considera la probabilidad de ocurrencia del suceso (resultado) negativo que colapse el sistema.
La fragilidad se puede medir como el incremento de área de la cola izquierda de la función de densidad (por debajo de un cierto nivel k de la
variable respuesta) –es decir: aumento de probabilidad de que se produzcan resultados negativos –, en respuesta a cualquier cambio en algún
parámetro de la distribución de una variable (principalmente en la varianza de la variable).

DISTRIBUCIONES DE LAS T[X]

Probabilidad

TRANSFORMACIONES DE X (T[X]) Incertidumbre


baja La inyección de incertidumbre hace que nos
movamos de una forma de campana a otra con
a) LINEAL Incertidumbre un pico mas bajo, lo que provoca un
elevada incremento de las sorpresas , tanto positivas
como negativas
DISTRIBUCIÓN DE X
Resultados
Probabilidad
Probabilidad

Incertidumbre baja

El incremento de incertidumbre acrecienta la


b) CONVEXA probabilidad de resultados muy favorables.
Incertidumbre elevada LAS TRANSFORMACIONES CONVEXAS SE
LLEVAN BIEN CON LA INCERTIDUMBRE

Resultados
Resultados

Probabilidad

Incertidumbre baja
Ganancias limitadas y pérdidas mayores. El
c) CONCAVA incremento de incertidumbre genera un
aumento de los resultados negativos.
Incertidumbre LAS TRASNFORMACIONES CONCAVAS SE
elevada LLEVAN MAL CON LA INCERTIBUMBRE.

Resultados
Ejemplo. Transformaciones asimétricas
25.- Dada una distribución bi-variante continua y T1 [X ] = X 2 (Convexa)

uniforme (mismo caso del ejercicio 24, pero con


otro rango de variación –soporte-, para evitar
asíntotas), con la siguiente función de densidad
conjunta:
1 si 0.5 ≤ x ≤ 1.5, 0 ≤ y ≤1
f ( X ,Y ) ( x, y ) =
0 resto
y, por tanto, con la siguiente fd marginal de X:
1 si 0.5 ≤ x ≤ 1.5 X
f X ( x) =
0 resto
Calcular las distribuciones de probabilidad de T2 [X ] = 1-X 2 (Concava)

las dos siguientes transformaciones de X (una


convexa y otra cóncava) :
T1 [X ] = X 2 y T2 [X ] = 1 − X 2
Y analizar los riesgos y beneficios de ambas
transformaciones

X
Transformaciones asimétricas
a) Como: T1 [X ] = X 2 , hacemos:
∂x ∂x
1
Z=X  X = Z 
2
∂z ∂t = 0 1
2
⇒  ⇒ J = ∂y 2 z = ⇒
T = Y − X  Y = T − Z  ∂y 2 z
−1 1
∂z ∂t

1.5
T
1.5
0.5 ≤ x ≤ 1.5 ⇒
0,5≤x≤1,5 0.5 ≤ z ≤ 1.5 ⇒
1 1
0.25 ≤ z ≤ 2.25
0 ≤ y ≤1 ⇒
0.5 0≤y≤1 0.5
0 ≤ t − z ≤1 ⇒
0 0 z ≤ t ≤ 1+ z
0 0.5 1 1.5 X 0 0.5 1 1.5 2 2.5 Z

0≤z-t≤1 a ≤ x ≤ b ⇒ a2 < z < b2


0.25≤z≤2.25

1 1 2 z si 0.25 < z < 2.25 y z < t < z + 1


⇒ f ZT ( z , t ) = f XY ( z , t − z ) =
2 z  0 en el resto

[t ]z =
∞ z +1 1 1 1
⇒ f Z ( z ) = ∫ f ZT ( z , t )dt = ∫
z +1
dt = (para 0.25 < z < 2.25)
-∞ z
2 z 2 z 2 z
Transformaciones asimétricas
b) Como: T2 [X ] = 1 − X 2, hacemos:
∂x ∂x
−1
Z = 1− X  X = 1− Z 
2
∂z ∂t = 0 1
⇒   ⇒ J = ∂y ∂y 2 1− z = ⇒
T = Y − X + 1  Y = T − Z 
2
−1 1 2 1− z
∂z ∂t

0.5 ≤ x ≤ 1.5 ⇒ 0.5 ≤ 1 − z ≤ 1.5 ⇒ -0.25 > -1 + z > -2.25 ⇒ − 1.25 ≤ z ≤ 0.75
0 ≤ y ≤ 1 ⇒ 0 ≤ t − z ≤ 1 ⇒ z ≤ t ≤ 1+ z

a ≤ x ≤ b ⇒ 1 − b2 < z < 1 − a2

1 1 2 1 − z si − 1.25 < z < 0.75 y z < t < z + 1


⇒ f ZT (z,t) = f XY ( 1 − z ,t − z ) =
2 1− z  0 en el resto

[t ]z =
∞ z +1 1 1 1
⇒ f Z ( z) = ∫ f ZT ( z , t )dt = ∫
z +1
dt = (para − 1.25 < z < 0.75)
-∞ z
2 1− z 2 1− z 2 1− z
Transformaciones asimétricas
c) Análisis de resultados
La transformación convexa T1[x]
Probabilidad incrementa de probabilidad de obtener
buenos resultados
f(x)
La transformación cóncava T2[x]
aumenta la probabilidad de obtener
f(T1[x]) pobres resultados
Resultados

Resultados positivos que pasan de Si aumentara la varianza de X, su


ser imposibles [en X] a tener cierta soporte [a,b] aumentaría
probabilidad de ocurrir en T1[x]
(disminuyendo a y aumentado b), por
Probabilidad lo que el soporte de T1[x] -(a2,b2)-
aumenta, incrementando mucho los
f(x) sucesos buenos que pueden ocurrir y
algo (mucho menos) los sucesos
f(T2[x]) malos. A las transformaciones
convexas les favorece la volatilidad
Resultados
Resultados negativos que pasan de Si aumentara la varianza de X, solo
ser imposibles [en X] a tener cierta aumentaría la probabilidad de malos
probabilidad de ocurrir en T2[x]
resultados en T2[x] .
Transformaciones de la naturaleza Transformaciones asimétricas
En la naturaleza, la opción sustituye al conocimiento.
 La opción supone enfrentarse a posibles resultados aleatorios (normalmente asimétricos) y elegir entre ellos mediante un
proceso racional (la racionalidad presupone conservar lo bueno, deshacerse de lo malo y retener la ganancia).
 La naturaleza sabe cómo seleccionar: incluso dentro del seno materno genera muchos más embriones de los que necesita y
cerca de la mitad sufre un aborto espontáneo (esto es mucho más fácil que hacer que diseñar un bebé perfecto al primer
intento).
 Al elegir siempre lo mejor para ella, los sistemas biológicos evolucionan hacia un estado mejor que el anterior. Aunque es
evidente que la evolución se puede detener en sub-óptimos y no alcanzar un óptimo global, a la naturaleza no le faltan ni
catástrofes que reorganizan el sistema para buscar una nueva evolución, ni tiempo para conseguirla*.

A las opciones (a diferencia de las decisiones humanas inteligentes basadas en el conocimiento) no les
preocupan los resultados medios, solo le interesan los resultados favorables.
 La vida se beneficia de la no linealidad de las opciones que genera aprovechando el incremento de probabilidad de obtener
resultados positivos de gran magnitud sobre otros resultados desfavorables menos probables
 Una evidencia de la no linealidad es la sobre-compensación (en lugar de la mera adaptación)**

La sobre-compensación conduce a otro de los secretos de la naturaleza (la redundancia).


 Los niveles de redundancia están siempre presentes en la gestión de riesgos por los sistemas naturales (los seres vivos
contamos con capacidad extra para muchas cosas –tenemos dos pulmones, sistemas neuronales y circulatorios
sobredimensionadas, …) mientras que los diseños humanos tienden a ser sobrios.
 Aunque la redundancia es ambigua, da la impresión de desaprovechamiento si no ocurre algo fuera de lo normal, resulta que
ese algo siempre acaba ocurriendo***.

*La superioridad operativa de la naturaleza (que surge de la opcionalidad y no del conocimiento) no puede hacernos caer en la falacia naturista: las reglas
éticas no se basan en la opcionalidad.
** Por ejemplo, si todos los miembros de una especie necesitan un cuello de medio metro para sobrevivir, tras varias generaciones, la población que sobreviva
tendrá -en término medio- un cuello mayor de medio metro (en general: un proceso estocástico sometido a una barrara tendrá una media observada mayor que
la barrera, puesto que no solo superan la barrera los sucesos iguales, sino los superiores a la barrera)
*** En realidad ocurre que hay muchos sucesos con probabilidad pequeña –y realmente incalculable a pesar del Teorema 1- y alguno acaba siempre por ocurrir.
Los gestores humanos de riesgo buscan en el pasado el peor de los escenarios ocurridos para calcular riesgos futuros –lo que se denomina prueba de estrés-
(la peor recesión histórica, la peor guerra o los peores índices de desempleo), pero no se dan cuenta que cuando ese escenario existió, superó al peor de su
época.
Análisis de la dependencia
Curvas de regresión
La curva de regresión de Y sobre X es la función y = g(X) que hace que la expresión: E[(Y-g(X))2]
sea mínima, es: g(x) = E(Y/X=x).

El siguiente coeficiente indica el nivel de dependencia funcional entre ambas variables, desde el
punto de vista de las curvas de regresión
E{[ g ( X ) - E( X )]2 }
η21 =
2
V (Y )
Se denomina razón de correlación de Y sobre X o bien, coeficiente de determinación general de
Y sobre X y cumple que 0 ≤ η 21
2
≤1 .

Análogamente, la función x = h(Y) que, entre todas las funciones de Y, hace mínima la expresión:
E[(X-h(Y))2]. Es: h(Y) = E(X/Y=y) y se denomina curva de regresión de X sobre Y. De la misma
forma se define la razón de correlación de X sobre Y como: E{[h(Y ) - E(Y )]2 }
η12 =
2

V (X )
y también satisface que 0 ≤ η122 ≤ 1 .

Si X e Y son variables aleatorias independientes, se cumple que f(y/x)=f2(y) y que f(x/y)=f1(x) por
lo que las esperanzas condicionadas coinciden con las esperanzas de las distribuciones
marginales:
E[Y/X=x] = E(Y) = µY y E[X/Y=y] = E(X) = µX.
Rectas de regresión Análisis de la dependencia
Se considera que la función lineal (del tipo Y = α+βX) que mejor representa a la
variable Y es aquella que hace que esperanza del cuadrado de la diferencia entre los
valores de α+βX y los de Y sea la mínima. Este criterio se denomina “principio de los
mínimos cuadrados” y obtiene la función lineal α+βX que hace mínima la expresión:
E{[Y-(α+βX )]2}
Dicha función es:
 µ11  µ11

Y = α + βX =  α 01 - α10  + X
 µ 20  µ 20

Y se denomina regresión lineal mínimo cuadrática de Y sobre X.


El mínimo valor de E[(Y-α-βX)2] (para los parámetros de la expresión anterior) es la
varianza residual: σY2(1-ρ).

De forma análoga se obtiene que la función lineal X = γ+δY, es la regresión lineal


mínimo cuadrática de X sobre Y cuando:
 µ  µ
X = γ + δY =  α10 - 11 α 01  + 11 Y
 µ 02  µ 02
También se deduce la varianza residual de la recta de regresión de X sobre Y, que es:
E[(X-γ-δY)2] = σX2(1-ρ).
Análisis de la dependencia
Relación entre curvas y rectas de regresión
De los valores de η21
2
y ρ2 se puede deducir a siguiente relación:
E{[ g ( X ) - α - βX ]2 }
η =ρ +
2
21
2

V (Y )
Donde ρ es el coeficiente de correlación lineal de X e Y y α+βX es la recta de regresión
lineal de Y sobre X.

En general:

0≤ ρ2 ≤ ( η12 , η21 ) ≤ 1
2 2

La igualdad del coeficiente de correlación a la razón de correlación de Y sobre X es


equivalente a la linealidad de la curva de regresión de Y sobre X. Se dice entonces que Y
presenta una correlación lineal con X. Conviene observar que, en general, la correlación
lineal no es recíproca: la curva de Y sobre X puede ser una recta sin que la curva de
regresión de X sobre Y lo sea. Lo mismo ocurre tratándose de la igualdad entre el
coeficiente de correlación y el de determinación de X sobre Y.
Ejemplo. Análisis de la dependencia
25.- Dado el vector (X, Y) con función de densidad f(x,y) = 6x en el recinto 0<x<y<1, y nula en el
resto del plano XY. y=x
a) Comprobar que es una función de densidad conjunta y dibujar su soporte. 1
Una función de densidad cumple que:
1
 x 2 x3 
6 xdydx = 1 : ∫0 6 x[ y ] dx = 6∫0 (x-x )dx = 6 −  = 1
1 1
f ( x,y ) = ∫ ∫
1 1 1
2
x
0 x
 2 3 0
b) Obtener las funciones de densidad marginales. 0,0 1
f1 ( x) = 6( x-x 2 ) , 0 < x < 1 y f1(x) = 0 en el resto. f 2 ( y ) = ∫0 6 xdx = 3 x
y
[ ]
2 y
0 = 3 y 2 , 0 < y < 1 y f2(x) = 0 en el resto.
c) Obtener las funciones de densidad condicionadas.
6x 6x 1
f ( x/y ) = , 0 < x < y < 1 y f 1 (x) = 0 en el resto. f ( y/x ) = = , 0 < x < y < 1 y f2(x) = 0 en el resto.
3y2 6 x( 1-x) ( 1-x)

d) Calcular la curva de regresión de X sobre Y. Obtener el coeficiente de determinación y


comprobar si es buena la aproximación de valores de X mediante esta curva
2  x3 
y 2
y 2x2  y 0 < y <1
E ( X/Y = y ) = ∫ dx = 2   =  3 Por ser una recta, coincidirá con la recta de regresión
de Y sobre X y η YX = ρ
2 2 2
0 y y  3 0  0
 resto
1 1 
E[ X ] = ∫ x6(x-x 2 )dx = µ11 1 / 40 1
2  ⇒ Var[ X ] = 3 −  1  = 1
2
0 ρ= = = = 0'57735
1 3 10  2  20 σ 1σ 2 1 / 20 3 / 80 3
E[ X ] = ∫ x 6(x-x )dx = 
2 2 2
0 10 
1 3 
E[Y ] = ∫ y( 3 y 2 )dy =  2
0 4 ⇒ Var[Y ] = 3 −  3  = 3 Existe una correlación apreciable entre ambas, pero no
3
1
( )
E[Y 2 ] = ∫ y 2 3 y 2 dy = 
0 5
5  4  80 es suficiente para realizar una buena aproximación a
valores de X mediante los valores de Y.
1 y 2 1
E[ XY ] = ∫ ∫ 6 x 2 ydxdy = ⇒ µ11 = E[ XY ] − E[ X ]E[Y ] =
0 0 5 40
Ejemplo. Análisis de la dependencia

26.- Consideremos el experimento aleatorio que consiste en arrojar un dado perfecto en el que
tres caras tienen pintado un 1, 2 caras tienen un 2 y la cara restante tiene pintado un cero. Si el
número que sale en la tirada es el 1, se escoge una urna que contiene 18 bolas numeradas de la
siguiente forma: tres con un 0, seis con un 5 y nueve con un 2, extrayendo una de las bolas
contenida en esta urna. Si el número que sale en la tirada es el 2, se escoge una bola de la urna
que contiene 12 numeradas de la siguiente forma: tres con un 0, seis con un 5 y tres con un 8. Si
el número que sale en la tirada es el 0, se escoge una bola de la urna que contiene 10, numeradas
de la siguiente forma: cinco con un 2 y cinco con un 5.
El experimento aleatorio consiste en tirar un dado, elegir una urna y extraer una bola,
observando los números que aparecen en el dado y en la bola:

Tirar el dado nº en dado y elección urna sacar bola y observar nº.


1/2 2
0
1/2 5
1/6
1/6 0
1 2
1/2 1/2
1/3 5

1/3 1/4 0
2 5
1/2
1/4 8
Se pide: Análisis de la dependencia
a) Si X1= nº obtenido al tirar el dado y X2= nº de la bola extraída, obtener el recorrido de ambas
variables y el del vector aleatorio cuyas componentes son X1 y X2. Calcular la función de
probabilidad de dicho vector aleatorio.
Dominio de las variables: X1={0, 1, 2}; X2={0,2,5,8}; [X1, X2]= {(0,2); (0,5); (1,0); (1,2); (1,5); (2,0); (2,5); (2,8)}.
Función de probabilidad conjunta:
Se obtiene aplicando el teorema del producto para los valores del dominio del vector aleatorio, obteniendo la
siguiente tabla de probabilidad conjunta con las probabilidades marginales P1 y P2, comprobando que suman 1:
X2 0 2 5 8 P1
X1
0 0 1/12 1/12 0 1/6
1 1/12 1/4 1/6 0 1/2
2 1/12 0 1/6 1/12 1/3
P2 1/6 1/3 5/12 1/12 1

b) Calcular las medias y varianzas de las variables X1 y X2.


E[X1] = Σx1p1= 0 + 1∙(1/2) + 2∙(1/3) = 7/6= 1.16
E[(X1)2]= Σ(x1)2p1= 0 + 1∙(1/2) + 4∙(1/3) =11/6 y Var[X1] = (11/6) - (7/6)2 = 17/36 = 0.47
E[X2] = Σx2p2= 0 + 2∙(1/3) + 5∙(5/12) + 8∙ (1/12) = 41/12 = 3.42
E[(X2)2] = Σ(x2)2p2= 0 + 4∙(1/3) + 25∙(5/12) + 64∙(1/12) = 205/12 y Var[X2] = (205/12) - (41/12)2 = 5.41
c) Obtener E[X2/X1=2].
Para obtener la esperanza condicionada debemos emplear la función de probabilidad condicionada que se obtendrá
directamente de las probabilidades de los números contenidos en la urna que se selecciona cuando en el dado sale
un 2, así:
X2 P(X2/x1=2) X2P(X2/x1=2)
0 1/4 0
5 1/2 5/2
8 1/4 8/4
TOTAL 1 9/2 Luego E[X2/X1=2] = 9/2 = 4.5
Regresión múltiple Análisis de la dependencia
Regresión n-dimensional
Los vectores aleatorios pueden tener un número de componentes mayor de las dos que habitualmente se han utilizado en este
tema. El objetivo de la regresión múltiple es construir un modelo que relacione una variable dependiente con múltiples
variables independientes o de predicción.

Sean X1, ..., Xn variables aleatorias sobre un (Ω, A , P) de esperanzas matemáticas E(X1), ..., E(Xn) y varianzas Var(X1), ...,
Var(Xn) respectivamente. El vectorµ=(µ1, ..., µn) es el centro de gravedad de la distribución conjunta n-dimensional de (X1,
..., Xn), siendo µi=E[Xi]. La matriz de varianza-covarianzas de la distribución conjunta del vector aleatorio (X1, ..., Xn) como:
 Var ( X 1 )   Cov( X 1 , X n ) 
 
 Cov( X 2 , X 1 ) Var ( X 2 )  Cov( X 2 , X n ) 
M= 
   
 
 Cov( X , X )
 n 1   Var ( X n ) 

donde Var[Xi] =E[(Xi-E[Xi])2] y Cov(Xi, Xj)= E[(Xi-E[Xi])(Xj-E[Xj])], siendo Cov(Xi,Xj)= Cov(Xj,Xi). Por último, se tiene la
matriz de correlaciones de la distribución conjunta del vector aleatorio (X1, ..., Xn):
 ρ11 ρ12  ρ1n 
 
ρ ρ 22  ρ 2n 
P =  21
    
 
ρ
 n1   ρ nn 
Cov( X i , X j )
donde: ρ ij = y se cumple que ρij= ρji y ρii=1
Var ( X i )Var ( X j )
M y P son dos matrices simétricas no negativas y del mismo rango, ya que M=SPS, siendo S la matriz diagonal cuyos
elementos diagonales son las desviaciones típicas. Además, se obtiene:
M= Var[X1]∙...∙Var[Xn] ∙ P
0≤M≤ Var[X1]∙...∙Var[Xn]
0≤P≤ ρ11∙...∙ ρnn= 1
En caso de que Cov(Xi, Xj)= 0, si i≠j, se dice que las componentes del vector están incorreladas. En ese caso P es la matriz
identidad I.
Análisis de la dependencia
Regresión n-dimensional (continuación).
Las curvas de regresión introducidas en el tema anterior pueden generalizarse a un número n cualquiera de variables
aleatorias.

En particular se puede generalizar la curva de regresión de la media para el caso de la distribución conjunta del vector
aleatorio. Así el valor condicional de X1 relativo a Xi=xi para i=2,...,n, se obtiene mediante la expresión:


m1 ( X 2 ,..., X n ) = E[ X 1 /( X 2 = x2 )  ...  ( X n = xn )] = µ1/ 2,...,n = −∞∞
x1 f ( x1 ,..., xn )dx1

−∞ ∫ f ( x1 ,..., xn )dx1
El lugar geométrico de los puntos :
(µ1/2...n, x2, ..., xn), para todos los valores
posibles de x2, ..., xn , es la superficie de
regresión de de X1 sobre (X2 ... Xn).

Esta superficie de regresión verifica la


condición de minimizar la expresión:
E[{X1-m1(X2, ..., Xn)}2]

Igualmente se definen las superficies de


regresión de la media de Xi sobre el resto
de variables aleatorias.
Análisis de la dependencia
Hiperplano de regresión
Dado un vector aleatorio n-dimensional cuya distribución conjunta tiene los momentos de segundo orden finitos, se define el
hiperplano de regresión lineal mínimo-cuadrática de Xn sobre (X1, ..., Xn-1)
xˆn = β 0 + β1 x1 +  + β n −1 xn −1 = g ( x1 ,  , xn −1 )
como aquel que se ajusta mejor a la masa de distribución n-dimensional en el sentido mínimo-cuadrático, es decir, tal que:


( 
)
E  Xˆ n − X n  es mínima
2

A los coeficientes β0, ..., βn-1 se les denomina coeficientes de regresión de Xn sobre (X1, ..., Xn-1), y para su obtención se
procede de forma análoga al caso bivariante, de donde resulta el siguiente sistema de ecuaciones lineales:

 σ1 σ2 σ n −1
β
 σ 1 12 σ 2 + ρ β +  + ρ1, n −1 β n −1 = ρ1n
σn
 n n

 ρ σ 1 β + σ 2 β +  + ρ σ n −1
2 , n −1 β n −1 = ρ 2 n
 21
σn
1
σn
2
σn
 ...
 σ σ σ
ρ n −1,1 1 β1 + ρ n −1, 2 2 β 2 +  + n −1 β n −1 = ρ n −1,n
 σn σn σn

cuya resolución permite obtener: M nk σ n Pnk


β k = (−1) k = (−1) k
M nn σ k Pnn
donde Mnkes el menor del elemento n, k de la matriz de varianzas-covarianzas M yPnkes el menor del elemento n, k de
la matriz de correlaciones P.

Finalmente: β 0 = E[ X n ] − E[ X 1 ]β1 − ... − E[ X n −1 ]β n −1


Análisis de la dependencia
Hiperplano de regresión (continuación).
El coeficiente de correlación de Xn y X̂ n se puede considerar como una medida de la correlación entre Xn y el resto de las
variables aleatorias (X1, ..., Xn-1). A este coeficiente se le llama coeficiente de correlación múltiple entre Xn y (X1, ..., Xn-1) :
Cov( X n , Xˆ n ) P
ρ n ,(1,...,n −1) = = 1−
Var ( X n )Var ( Xˆ n ) Pnn
donde P es la matriz de correlaciones de (X1, ..., Xn) y Pnn el menor del elemento n, n de P. Se puede comprobar que:
0 ≤ ρ n2,(1,...,n −1) ≤ 1
Un elemento importante, relacionado con este coeficiente de correlación, es la diferencia εn = Xn - X̂ n que recibe el nombre de
residuo de Xn respecto a (X1, ..., Xn-1), donde es el valor obtenido por la relación lineal. Cuando se analizan dos variables [por
ejemplo: X1 y X2], sus residuos representan la variabilidad de X1 y X2 que permanece tras eliminar sus mejores estimaciones
lineales en función de (X3,..,Xn). Por ello, podemos considerar el coeficiente de correlación entre estos dos residuos como una
medida de la correlación de X1 y X2 después de suprimir la parte de variación que se debe a la influencia de (X3, ..., Xn). A este
parámetro se denomina coeficiente de correlación parcial de X1 y X2 respecto a (X3, ..., Xn):
Cov(ε 1 , ε 2 ) M12 P12
ρ1, 2 3, 4,...,n = =− =−
Var (ε 1 )Var (ε 2 )
M11 M 22 P11 P22
Cuando exista correlación entre X1 y X2 el coeficiente de correlación parcial será en general distinto del total: ρ1, 2 3, 4,...,n ≠ ρ12

Cuando el rango de M y P sea r = n, el hiperplano de regresión lineal de cada variable aleatoria respecto a las demás está
unívocamente determinado. En el caso de que las n componentes del vector sean incorreladas, todos los coeficientes de
regresión son nulos.

Si el rango de M y P es r < n, puede ocurrir que Mii=0 y, por tanto, algunos de los coeficientes de regresión pueden ser
infinitos o indeterminados ya que, en este caso, existen exactamente n-r relaciones lineales independientes entre las variables
que se cumplen con probabilidad uno, o lo que es lo mismo, la totalidad de la masa de probabilidad se sitúa sobre un
hiperplano de dimensión r contenido en el hiperplano de regresión, el cual queda entonces indeterminado.
Ejemplo. Análisis de la dependencia
27.- De múltiples análisis edafológicos para una misma clase de suelo, se han obtenido los
parámetros, que se muestran a continuación, para las variables aleatorias(*):
Z = índice de absorción del fosfato
X = cantidad de hierro extraíble Variable Media
Y = cantidad de aluminio extraíble. X 177.308
Y 49.3077
 4914.56 1625.65 1121.38 
  Z 29.8462
M= 852.064 480.635 
 310.141 

Cov( X 1 , X 2 ) 1625.65
Como: ρ12 = = = 0.7944
Var ( X 1 ) ⋅ Var ( X 2 ) (4914.56)(852.064)
Cov( X 1 , X 3 ) 1121.38
ρ13 = = = 0.9083
Var ( X 1 ) ⋅ Var ( X 3 ) (4914.56)(310.141)
Resulta que:
Cov( X 2 , X 3 ) 480.635
 1 0.7944 0.9083  ρ 23 = = = 0.9350
  Var ( X 2 ) ⋅ Var ( X 3 ) (852.064)(310.141)
P =  0.7944 1 0.9350 
 0.9083 0.9350 1 
Se pide: 

(*) Datos obtenidos del articulo:


Adsorption of Phosphate, Arsenate, Methanearsonate and Cacodylate by Lake and Stream Sediments: Comparisons with
Soils” (J. of Environ. Qual., 1984, pp. 499-504).
a) Ajustar el modelo lineal Z= β0+ β1X+ β2Y. Análisis de la dependencia
1625.65 1121.38
M 31 σ 3 P31 852.064 480.635
β1 = (−1)1 = (−1)1 =− = 0.11273
M 33 σ 1 P33 4914.56 1625.65
1625.65 852,064
4914.56 1121.38
M 32 σ 3 P32 1625.65 480.635
β 2 = (−1) 2 = (−1) 2 = = 0.349
M 33 σ 2 P33 4914.56 1625.65
1625.65 852.064

β 0 = E[ X 3 ] − E[ X 1 ] ⋅ β1 − E[ X 2 ] ⋅ β 2 = 29.8462 − (177.302) ⋅ 0.11273 − (49.3077) ⋅ 0.349 = −7.35066

El hiperplano de regresión es: Ẑ = -7.35066 + 0.112733∙X + 0.349∙Y

b) Calcular el coeficiente de correlación múltiple.


Cov[ Z n , Zˆ n ] P
Como: ρ 3,(1, 2 ) = = 1− =
Var[ Z ] ⋅ Var[ Z ]
n n
ˆ P33

0.019
= 1− = 0.9999 ≅ 1
154781.729
En la práctica se puede aceptar la dependencia funcional
de Z respecto de X y de Y.
Regresión logística Análisis de la dependencia
El desarrollo de la regresión logística requiere la introducción previa de la 1,2

función logística: f(z)


z 1
e 1
f ( z) = z = 0,8
e + 1 1 + e- z
0,6

Esta función es útil porque puede tomar como entrada valores desde infinito 0,4
negativo a infinito positivo, mientras que la salida se limita a valores entre 0 y 1.
0,2
Así, z puede representar la exposición a un conjunto de variables cuantitativas
independientes, mientras que f(z) puede representa la probabilidad de un 0 z
-6 -4 -2 0 2 4 6

103
109
115
121
1
7
13
19
25
31
37
43
49
55
61
67
73
79
85
91
97
resultado en particular (suceso).
La variable z es una medida de la contribución total de todas las variables independientes que se usan en el modelo, en
general se define como z = β0 + β1x1 + … + βmxm, donde los coeficientes βi se interpretan como en la regresión lineal: un
coeficiente de regresión positivo significa que la variable explicativa aumenta la probabilidad del suceso (un coeficiente
de regresión negativo significa que la variable disminuye la probabilidad de ese resultado); un valor alto supone que la
variable influye mucho en la probabilidad del resultado, mientras que un valor casi nulo significa que la variable tiene poca
influencia sobre la probabilidad del resultado.

La regresión logística es una manera útil de describir la relación entre una o más variables independientes (por ejemplo, edad,
precipitación, temperatura, pendiente, etc) y una variable respuesta binaria, expresado como una probabilidad, que tiene sólo
dos valores (como tener una enfermedad o no).

Tomando logaritmos sobre los ratios de probabilidad de ocurrencia de un suceso respecto a la probabilidad de no ocurrencia
la regresión logística se transforma en regresión lineal:
 p 
logit ( p ) = ln  = β 0 + β1 x1 + ... + β m xm
1− p 
Y una vez estimados los coeficientes de regresión, se pueden volver al modelo original:
1
p= − ( β 0 + β1 x1 +...+ β m xm )
1+ e
Regresión logística (continuación). Análisis de la dependencia
Para la estimación de los parámetros del modelo β=(β0, β1, … , βm) se parte de n repeticiones del experimento analizado y de
la observación del número de veces que ocurre el suceso analizado, así como el valor que toman las variables independientes
en cada repetición del experimento, en las n repeticiones. Los valores obtenidos se almacenan en las matrices Y y X:
 y1  1 x1,1  x1,m  Donde Y es una matriz de n filas y 1 columna cuyo contenido será de 0s
   
y  1 x2,1  x2 , m  y 1s según haya ocurrido el suceso analizado en cada una de las n
Y= 2 X=
  
repeticiones del experimento o no y X es una matriz de n filas y m+1
  
    columnas que almacena el valor de cada variable independiente en cada
y  1 x  xn ,m 
 n  n ,1 una de las n repeticiones del experimento.
Σy i n − Σy i
La probabilidad de que se produzca el conjunto de resultados se recogen en Y será: p A (1 − p A ) , siendo pA la probabilidad
de que ocurra el suceso analizado. Los valores de β son los que hacen máximo el logaritmo de la expresión anterior. Como:
LL(β)=Σyiln(pA)+(n-Σyi) ln(1-pA), dichos valores son los que igualan 0 la primera derivada respecto de β y hacen que la
derivada segunda sea menor que 0. Tales derivadas son:
∂LL(β) ∂ 2 LL(β)
U (β) = = XT ⋅ ( Y − p ) H (β) = = XT ⋅ W ⋅ X
∂β ∂β∂β T

( )
donde p es una matriz de n filas y 1 columna cuyos elementos son pi y W una matriz n×n, cuyos elementos en la
− ∑mj=+11 β j ⋅ xi , j
diagonal principal son: pi∙(1-pi) y 0 fuera de dicha diagonal, con: pi = 1 / 1 + e

En general, desde un punto de vista operativo, la obtención de β requiere un procedimiento iterativo. A continuación se
describe el método de Newton-Raphson, para su obtención:
1. Se asigna un valor inicial a los coeficientes de regresión, por ejemplo 0 a todos ellos.
2. En la iteración t, el vector de coeficientes de regresión experimentales se calcula como:
βˆ t = βˆ t -1 + (XT Wt -1X)-1 XT (Y - p t -1 )
3. El segundo paso se repite tantas veces como sea necesario hasta que la diferencia entre la matriz de coeficientes
de regresión en dicha iteración y la matriz de la iteración previa, sea 0 o muy próximo a 0.
Análisis de la interdependencia
Análisis factorial
Busca sintetizar las interrelaciones entre un conjunto de variables observables (X1, …, Xn), en
términos de un número menor de variables no observadas llamadas factores.

El conjunto de variables constituye Se puede establecer una analogía entre las características
un espacio vectorial con las de los vectores geométricos y de las variables aleatorias
operaciones de suma de variables y consideradas como elementos de un espacio vectorial: Así:
de producto por un escalar

Norma Dirección y sentido


Vectores Longitud del vector: Ángulo respecto a un vector fijo cos(θ) = ±1 (θ = 0° ó 180°) ⇒ misma dirección.
espaciales Módulo (θ), en particular, su coseno: cos(θ) = 0 (θ = 90° ó 270°) ⇒ máxima separación.
Variables Variación de la variable: ρ = ±1 (y media=0) ⇒ Y = αX ⇒ misma dirección.
aleatorias Coeficiente de correlación (ρ): ρ = 0 ⇒ X e Y incorreladas ⇒ máxima separación.
Deviación típica

Cuando las variables no observadas (factores) forman


una base del espacio vectorial de variables (o de un sub-
espacio que contenga a las variables observadas):

Intensidad de la relación entre las variables observadas


se puede medir por
Distancia entre ellas en la proyección sobre los factores.
Formulación del problema.
Análisis de la interdependencia
Sean X1, X2,…, Xn las n variables objeto de análisis que supondremos que están tipificadas
(E[Xi]=0 y Var[Xi]=1, i=1,…, n). El modelo del Análisis Factorial viene dado por
las ecuaciones:

X1 = a11F1 + a12F2 +…+ a1kFk + ψ1u1


X2 = a21F1 + a22F2 +…+ a2kFk + ψ2u2

Xn = an1F1 + an2F2 +…+ ankFk + ψnun

donde:
F1,…,Fk (k<<n) son factores comunes a todas las variables; u1,…un son factores
específicos (únicos) de cada variable y los coeficientes {aij; i=1, …, n ; j=1, ..., k} se
denominan cargas factoriales.

Expresado en forma matricial este modelo es: x = Af + ψu. Donde:


 X1   F1   u1   a11 a12  a1k  ψ 1 
         
 
X  
F  
u  a a  a 2k  ψ 2 
x =  2 , f =  2 , u =  2 , A= 21 21
y ψ =   
       
         
X  F  u  a  ψ 
 n  k  n  n1 an 2  ank   n
Variables Factores Factores Matriz de cargas factoriales Cargas de las
observables comunes únicos unicidades
Análisis de la interdependencia
Se supone, además, que los factores comunes están a su vez tipificados (E[Fi] = 0; Var[Fi] = 1),
que los factores específicos tienen media 0 y están incorrelados (E[ui]= 0; Cov[ui, uj] = 0 si i≠j; j,
i=1,…,n) y que ambos tipos de factores están incorrelados (Cov[Fi, uj] = 0, ∀i=1, .., k; j=1, …, n).

A partir de las hipótesis anteriores:

Var[ X i ] = ∑ j =1 aij2 +ψ i2 = hi2 +ψ i2 ; i = 1,..., n


k

[ ]
donde hi2 = Var ∑ j =1 aij Fi y ψ i2 = Var[ui ] se denominan comunalidad y especificidad de la
k

variable Xi, respectivamente.

Además, se tiene que:


( k k
)
Cov[ X i , X l ] = Cov ∑ j=1 aij F j + ui , ∑ j=1 alj F j + ul = ∑ j=1 aij alj ,
k
∀i ≠ l

por lo que los factores comunes son los que explican las relaciones existentes entre las variables
del problema.

Si los factores comunes estuvieran incorrelados (Cov[Fi, Fj] = 0, ∀i, j=1, .., k) estaríamos ante un
modelo con factores ortogonales. En caso contrario el modelo se dice que es de factores
oblícuos.
Obtención de los factores.
Análisis de la interdependencia
Para el cálculo de la matriz A, se parte de la identidad fundamental del Análisis Factorial:
P = AA’ + Ψ
donde P es la matriz de correlación de las variables X1, ..., Xn y Ψ = diag(ψi2).

Igualando cada elemento de la matriz P con la combinación lineal correspondiente al 2º


miembro de la ecuación anterior resultan n2 ecuaciones, que es el número de elementos de P.
Pero la matriz P es simétrica y posee sólo n(n+1)/2 elementos distintos, que es el número real de
ecuaciones de que se dispone. En consecuencia es necesario incorporar criterios adicionales para
la obtención de los elementos de A lo que da lugar a diferentes procedimientos para el cálculo de
las cargas factoriales.

El método más empleado (el factor principal) supone elegir un primer factor de forma que se reduzca al
máximo la varianza del sistema inicial de ecuaciones (como las variables observadas están tipificadas, esta
varianza es n). El segundo factor será el que más disminuya la varianza remanente y se continua así hasta
obtener el número de factores deseados.
Operativamente, se ha desarrollado un procedimiento iterativo que consiste alternar una estimación de la
matriz de especificidades Ψ, con una estimación de la matriz de cargas factoriales A que respete la identidad
P - Ψ = AA’.
a) Se parte de una estimación inicial de la matriz Ψ [Ψ(0) ]. La estimación A(1) se obtiene como la
matriz de los autovectores de la matriz P – Ψ(0), Posteriormente se calcula Ψ(1) a partir de la
identidad: P - Ψ(1) = A(1)A(1)’.
b) En el paso i-ésimo del algoritmo se verifica que: P - Ψ(i) = A(i)A(i)’. Lo que permite la estimación de
A(i) [autovectores de la matriz P - Ψ(i-1)] y de Ψ(i) a partir de que: P -Ψ(i) = A(i)A(i)’
c) Se itera hasta que los valores las estimaciones de A apenas cambien.
Número de factores. Análisis de la interdependencia
La matriz factorial puede presentar un número de factores superior al necesario para explicar la
estructura de los datos originales. Generalmente, hay un conjunto reducido de factores, los
primeros, que contienen casi toda la información. Los otros factores suelen contribuir
relativamente poco. El criterio más utilizado para determinar el número de factores es el Criterio
del porcentaje de la varianza. Consiste en tomar como número de factores el número mínimo
necesario para que el porcentaje acumulado de la varianza explicado alcance un nivel
satisfactorio que suele ser del 75% o el 80%.

Rotación de factores.
Las soluciones que se pueden encontrar para la matriz A no son únicas, puesto que cualquier
transformación ortogonal de A es también una solución. Así, si T es una matriz ortogonal,
entonces TT’ = T’T = I y al aplicar una transformación ortogonal a A se obtiene una solución
distinta a la original. Esta es la base de los métodos de rotación de factores, por lo que si T es una
matriz ortogonal, entonces A* = AT es también una solución.

Si definimos F* = FT como otros factores (F* es el vector F rotado por la matriz ortogonal T).
Se comprueba que P sigue verificando las ecuaciones del modelo, es decir:
P = A*A*’ + Ψ = (AT)(T’A’) + Ψ = AA’ + Ψ
Por tanto, se pueden realizar rotaciones de la matriz de ponderaciones sin alterar el modelo, lo
que puede facilitar la interpretación de las relaciones entre las variables observadas. En este
sentido, parece aconsejable que:
Cada variable no esté saturada en más de un factor;
Dos factores distintos deben presentar distribuciones diferentes de cargas altas y bajas.
Ejemplo. Análisis de la interdependencia
28.- Durante cada hora de varios días, se han medido las concentraciones de diferentes
agentes contaminantes (CO, NO2, NO, SO2 y partículas suspendidas) por metro cúbico
de aire, y se han obtenido los datos que se muestran en la figura inferior. Los datos se
han transformado (tomando logaritmos) y se ha descartado el NO por su gran
correlación con el NO2. Se pide: estudiar la interrelación entre las mediciones
realizadas.
Análisis de la interdependencia

Das könnte Ihnen auch gefallen