Estadística Matemática

Mtodos Matemticos I
Estadstica Matemtica
J.A. Caballero
c Universidad de Crdoba 4 de junio de 2013

ndice general
Contents
Preface
1. Variables A. y sus Distribuciones
1.1. Sobre la idea de Probabilidad . . . . . . . . . . . . . . . . . . . . . .
1.1.1. Experimentos Aleatorios . . . . . . . . . . . . . . . . . . . . .
1.1.2. Espacio Muestral . . . . . . . . . . . . . . . . . . . . . . . . .
1.1.3. Idea de Probabilidad: Kolmogorov . . . . . . . . . . . . . . . .
1.1.4. Idea Clsica de Probabilidad: Regla de Laplace . . . . . . . .
1.1.5. Idea Emprica de Probabilidad: Von Mises . . . . . . . . . . .
1.1.6. Propiedades de la Probabilidad . . . . . . . . . . . . . . . . .
1.2. Probabilidad Condicionada . . . . . . . . . . . . . . . . . . . . . . . .
1.3. Combinatoria . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.3.1. Variaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.3.2. Variaciones con Repeticin . . . . . . . . . . . . . . . . . . . . 13
1.3.3. Permutaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
1.3.4. Combinaciones . . . . . . . . . . . . . . . . . . . . . . . . . . 15
1.3.5. Combinatoria en R . . . . . . . . . . . . . . . . . . . . . . . . 16
1.4. Concepto de Variable Aleatoria . . . . . . . . . . . . . . . . . . . . . 20
1.5. Distribucin de Probabilidad de una V.A. . . . . . . . . . . . . . . . 21
1.6. La Funcin de Distribucin de una V.A. . . . . . . . . . . . . . . . . 21
1.7. Variables Aleatorias Discretas . . . . . . . . . . . . . . . . . . . . . . 22
i
NDICE GENERAL
ii
1.8. Modelos de Variables Aleatorias Discretas . . . . . . . . . . . . . . . 23

1.8.1. Uniforme
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
1.8.2. Bernoulli . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
1.8.3. Binomial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
1.8.4. Muestreo con-sin Reemplazamiento . . . . . . . . . . . . . . . 25
1.8.5. Hipergeomtrica . . . . . . . . . . . . . . . . . . . . . . . . . . 25
1.8.6. Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
1.8.7. Relacin entre los Modelos Discretos . . . . . . . . . . . . . . 28
1.9. Variables Aleatorias Continuas . . . . . . . . . . . . . . . . . . . . . . 29
1.10. El Concepto de V.A. Continua . . . . . . . . . . . . . . . . . . . . . . 29
1.11. Modelos de V. A. Continuas . . . . . . . . . . . . . . . . . . . . . . . 32
1.11.1. Uniforme
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
1.11.2. Normal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
1.11.3. Gamma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
1.11.4. Exponencial . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
1.11.5. Chi-Cuadrado . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
1.11.6. F-Snedecor . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
1.11.7. t-Student . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
1.12. Otras Distribuciones . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
1.12.1. Breit-Wigner . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
2. Muestreo y Estimacin
39
2.1. Estimacin y Contrastes . . . . . . . . . . . . . . . . . . . . . . . . . 39

2.2. Estimacin de Parmetros . . . . . . . . . . . . . . . . . . . . . . . . 39
2.3. Mxima Verosimilitud . . . . . . . . . . . . . . . . . . . . . . . . . . 40
2.3.1. Funcin de verosimilitud . . . . . . . . . . . . . . . . . . . . . 40
2.3.2. El Principio de Mxima Verosimilitud . . . . . . . . . . . . . . 40
2.3.3. Ecuacin de Verosimilitud . . . . . . . . . . . . . . . . . . . . 41
2.3.4. Ecuacin Log-Verosimilitud . . . . . . . . . . . . . . . . . . . 41
2.4. Propiedades deseables para un estimador . . . . . . . . . . . . . . . . 43
NDICE GENERAL
iii
2.4.1. Estimador insesgado . . . . . . . . . . . . . . . . . . . . . . . 44

2.4.2. Estimador consistente . . . . . . . . . . . . . . . . . . . . . . 44
2.4.3. Invarianza del E.M.V. bajo transformaciones unvocas . . . . . 44
2.4.4. Invarianza Asinttica del E.M.V. . . . . . . . . . . . . . . . . 45
2.5. Estimacin mediante Intervalos . . . . . . . . . . . . . . . . . . . . . 48
2.5.1. Intervalos de Confianza para la Media
. . . . . . . . . . . . . 49
2.5.2. Reflexiones sobre el uso de I.C. . . . . . . . . . . . . . . . . . 52

3. Test de Hiptesis
55
3.1. Test de Hiptesis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55

3.2. Test de Hiptesis Paramtricas . . . . . . . . . . . . . . . . . . . . . 56
3.2.1. Tipos de Errores . . . . . . . . . . . . . . . . . . . . . . . . . 56
3.3. El P-Value . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
3.4. Test para la Media . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
3.4.1. Test para una Media . . . . . . . . . . . . . . . . . . . . . . . 59
3.4.2. Test para dos Medias . . . . . . . . . . . . . . . . . . . . . . . 60
3.4.3. Test para ms de dos Medias . . . . . . . . . . . . . . . . . . 60
4. Regresin
61
4.1. Introduccin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
4.2. Regresin Lineal Simple . . . . . . . . . . . . . . . . . . . . . . . . . 62
4.2.1. Estimacin de los Coeficientes del modelo . . . . . . . . . . . 63
4.2.2. Estimacin del Error Tpico de la Regresin . . . . . . . . . . 66
4.3. Tests de Hiptesis para los Coeficientes del Modelo . . . . . . . . . . 68
4.3.1. Tests sobre la Pendiente . . . . . . . . . . . . . . . . . . . . . 68
4.3.2. Test sobre la Ordenada en el Origen
. . . . . . . . . . . . . . 69
4.4. I.C. para los Coeficientes de la Recta de Regresin . . . . . . . . . . . 71

4.5. Intervalo para la respuesta media para un valor de x . . . . . . . . . . 71
4.6. Intervalo para una prediccin . . . . . . . . . . . . . . . . . . . . . . 71
4.7.
Precauciones en el Uso de la Regresin . . . . . . . . . . . . . . . . . 73
NDICE GENERAL
iv
4.8. Verificaciones sobre el Modelo . . . . . . . . . . . . . . . . . . . . . . 73

4.9. Anlisis de Residuos . . . . . . . . . . . . . . . . . . . . . . . . . . . 74
4.10. Autocorrelacin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
4.11. El Coeficiente de Determinacin . . . . . . . . . . . . . . . . . . . . . 76
4.12. El Coeficiente de Correlacin . . . . . . . . . . . . . . . . . . . . . . . 76
4.13. Datos Aislados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78
4.14. Diagnostico de la Regresion . . . . . . . . . . . . . . . . . . . . . . . 78
4.15. Transformaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79
4.16. Demostraciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80
Bibliography
81
ndice de figuras
1.1. La variacin (Ana, Paco, Luis) interpretada como una aplicacin biyectiva
12
1.2. La repeticin (Ana, Ana, Ana) interpretada como una aplicacin . . . . . 14

1.3. La permutacin {Ana, Luis, Paco, Pepe} interpretada como una aplicacin biyectiva 15
1.4.
La funcin de densiadad de la Normal Estandard
. . . . . . . . . . . . . . . . . . . . . . 33
2.1.
100 I.C. para la media de una va Normal con sigma=1
. . . . . . . . . . . . . . . . . . . . 53
vi
NDICE DE FIGURAS
ndice de cuadros
vii
viii
NDICE DE CUADROS
Prlogo
Este libro pretende ser una ayuda para los alumnos de primero de Fsicas de
la Facultad de Ciencias de la Universidad de Crdoba. En concreto para hacerles
mas fcil seguir la parte, denominada Probabilidad y Estadstica, de la asignatura
de Mtodos Matemticos I.
NDICE DE CUADROS
Captulo 1
Variables A. y sus Distribuciones
Captulo donde veremos contenidos necesarios para entender el resto de la materia.
1.1.
Sobre la idea de Probabilidad
Esta parte de la asignatura est dedicada a la estadstica matemtica, un

concepto o idea bsica para el estudio de ella es el de Probabilidad. Existen diversas
aproximaciones al concepto de probabilidad, en este prrafo veremos alguna de ellas.
1.1.1.
Experimentos Aleatorios
Un experimento o un fenmeno se dice aleatorio si tiene las siguientes caracteristicas: Se conocen todos los posibles resultados del experimento pero no se puede
predecir su resultado, adems se puede repetir bajo las mismas condiciones iniciales.
En todo caso el experimento debe ser claramente explicitado, es decir su formulacin
no puede dar lugar a ambiguedad. Un resultado concreto de una experiencia aleatoria se denomina suceso. Cuando estudiamos una experimento aleatorio necesitamos
trabajar con sus resultados, es decir con los sucesos. Si pudieramos trabajar, en lugar
de con sucesos, con nmeros sera mas cmodo. Eso se consigue con el concepto de
variable aleatoria, que modela los sucesos en el conjunto de los nmeros reales. El
concepto de variable aleatoria sirve para modelizar los resultados de un experimento
aleatorio por medio de los nmeros reales.
3
CAPTULO 1. VARIABLES A. Y SUS DISTRIBUCIONES
1.1.2.
Espacio Muestral
Dada una experiencia aleatoria la pareja (, A) se llama Espacio Muestral o

Espacio Probabilizable. En donde es el conjunto de todos los resultados o sucesos
posibles de la experiencia y A es un -campo1 , de subconjuntos de ; por comodidad
siempre que se habla de espacio muestral se indica solo .
El nmero de elementos que contiene puede ser numerable o infinito nonumerable, de acuerdo con ello se distinguen dos tipos de espacios muestrales, Discretos si es numerable, y Continuos si es infinito no-numerable. En el caso
Discreto el -campo asociado es el generado por P ()
Ejemplo 1.1.1 Se considera el siguiente experimento: arrojar dos dados tradicionales y anotar el resultado obtenido en cada una de las caras superiores. Determinar
el espacio muestral. Destacar el subconjunto asociado a los sucesos A=No aparece
ningn 6, B=la suma de tantos es 7.
Ejemplo 1.1.2 Se considera la experiencia aleatoria, durabilidad de un tubo fluorescente, nmero de horas funcionando ininterrumpdamente. Determinar el espacio
muestral asociado.
Ejemplo 1.1.3 Se considera el experimento donde se controla la durabilidad, nmero de horas funcionando ininterrumpdamente, de K tubos fluorescentes. El experimento finaliza cuando se agota el ltimo de los tubos. Determinar el tipo de
espacio muestral.
Definicin 1.1.1 Algunos sucesos del espacio muestral reciben nombre especial:
Suceso Seguro Es el que, tras de realizarse el experimento aleatorio, siempre
ocurre.
Suceso Imposible Es el que, tras de realizarse el experimento aleatorio, nunca ocurre.
Suceso Simple Es el que est formado por un subconjunto unitario de
Suceso Compuesto Es el que est formado por varios simples.
Sucesos Incompatibles o Disjuntos Son aquellos que no pueden ocurrir
a la vez.
1
Una clase no vaca A se dice que es un -campo o una -lgebra, si es cerrada para uniones
numerables, para complementarios y contiene al vaco.
1.1. SOBRE LA IDEA DE PROBABILIDAD
Sucesos Contrarios o Complementarios Dado un suceso cualquiera A, el

suceso contrario o complementario se nota A y es el que forzozamente ocurre
cuando no ocurre A. De manera que un suceso y su contrario, adems de ser
incompatibles su unin constituyen un suceso seguro.
1.1.3.
Idea de Probabilidad: Kolmogorov
Un espacio de probabilidad est formado por una terna (, A, P ) cuyos elementos son el espacio muestral, es decir la pareja (, A), y P es una funcin especial
que se denomina una Probabilidad y se define as,
Una funcin de conjuntos, P : A R es una Probabilidad, si verifica los
axiomas de Kolmogorov:
1. P () = 1
2. A A
3. P (
es
i=1 Ai ) =
P (A) 0
P (Ai )
si
Ai Aj = i 6= j
1=1
Ejemplo 1.1.4 Sea el experimento aleatorio lanzar un dado tradicional y anotar

la puntuacin que aparece en la cara superior. Consideremos la f : P() R tal
#(A)
. Comprobar que es una
que a cada subconjunto A le asigna f (A) =
6
probabilidad.
La forma de asignar la probabilidad del ejemplo anterior, es de uso clsico;
particularmente en experimentos aleatorios basados en juegos de azar. Se puede formalizar, bajo ciertas condiciones, constituyendo entonces la Regla de Laplace.
1.1.4.
Idea Clsica de Probabilidad: Regla de Laplace
. En un espacio muestral finito y si todos los n-sucesos elementales son equidefine una probabilidad en el espacio muestral. La
probables, entonces P (A) = #(A)
n
regla de Laplace expresa que la funcin de probabilidad en un suceso toma de valor el
cociente entre el nmero de resultados favorables a su realizacin y el total de casos
posibles, es decir la frecuencia relativa del suceso.
La definicin de Laplace adolece de las siguientes dificultades: 1) Excluye a los
nmeros irracionales, 2) Solo admite n finito y 3) Solo considera sucesos elementales
equiprobables.
1.1.5.
Idea Emprica de Probabilidad: Von Mises
Consideremos una experiencia aleatoria y sea S uno de sus posibles sucesos

elementales. Si repetimos esa experiencia n veces en las mismas condiciones y observamos que el suceso S ha ocurrido en h de ellas decimos que la Frecuencia del
Suceso S es h.
La frecuencia as definida verifica: 0 f (S) n , y para dos sucesos elementales S1 y S2 la f (S1 S2 ) = f (S1 ) + f (S2 ).
. Es fcil
La Frecuencia Relativa del Suceso S se define como fr (S) = f (S)
n
probar que las frecuencias relativas verifican las propiedades siguientes. Si B es un
suceso y B1 , B2 son sucesos elementales , y E el espacio muestral: a) fr (B) 0 , b)
fr (E) = 1 , c) fr (B1 B2 ) = fr (B1 ) + fr (B2 ). Observar el parecido con los axiomas
de Kolmogorov.
Empricamente puede aceptarse que, cuando el nmero de veces que se repite la
experiencia va aumentando, la frecuencia relativa de un suceso tiende a estabilizarse.
Este hecho, se conoce con el nombre de Ley de Estabilidad o de Regularidad
de las Frecuencias Relativas:
Si el nmero n, de veces que una experiencia aleatoria se repite aumenta, la razn entre el nmero de ocurrencias de un suceso concreto S y n tiende a estabilizarse
hacia un valor P (S). Escribiremos
fr (S) P (S) cuando n >> 1
e interpretamos la anterior relacin en el sentido de que la diferencia P (S) fr (S)
puede hacerse tan pequea como deseemos sin ms que aumentar n, es decir aumentar el nmero de repeticiones. Llamaremos a P (S) la Probabilidad del Suceso S.
Esta probabilidad, al haberla definido as , cumple las propiedades de las frecuencias
relativas y se llama, considerandola en todo el espacio muestral, Distribucin o
Ley de Probabilidad Emprica.
Por similitud se denomina una Distribucin o Ley Terica de Probabilidad a la que se establece por medio de los axiomas de Kolmogorov.
La forma en que se asignan probabilidades en la prctica, ha dado lugar a
diferentes teorias, si estais interesados en el tema podeis consultar Savage[11]. Desde
luego no es nica, como muestra el siguiente ejercicio.
Ejercicio 1.1.2 Sea el experimento lanzar un dado tradicional y anotar la puntuacin que aparece en la cara superior. Definimos para cada suceso A, la funcin P (A)
de la siguiente manera:
P () = 0 , P ({1}) =
r
6
1.2. PROBABILIDAD CONDICIONADA

P ({2}) =
(6r)
6
P ({3}) = P ({4}) = P ({5}) = P ({6}) = 0

Siendo r [0, 6]. Verificar que es una probabilidad. (Por tanto se sigue que hay la
posibilidad de definir infinitas probabilidades sobre un espacio muestral).
Ejercicio 1.1.3 Sea f (x) = xK3 una funcin real de Rvariable real definida en [1, ).
Se consideran
los intervalos A R donde existe A f (x)dx y se define en ellos
R
P (A) = A f (x)dx. Probar que P es una Probabilidad si y solamente si k = 2 .
1.1.6.
Propiedades de la Probabilidad
A partir de los axiomas que debe verificar una Probabilidad se pueden deducir
toda una serie de propiedades. Veamos las bsicas:
Propiedad 1.1.4 Si A, B A con A B, entonces P (A) P (B)
En palabras, la anterior propiedad viene a decir que, si un suceso B es mayor
que otro A, en el sentido de que al realizarse A se realiza B, entonces la probabilidad
de B es mayor o igual que la de A.
Propiedad 1.1.5 Si A, B A entonces P (A
B) = P (A) + P (B) P (A
B)
Esta propiedad se conoce con el nombre de Regla de la Suma o Ley de la

Suma. Expresa que la probabilidad de que ocurra uno de dos sucesos, es la suma de
sus probabilidades menos la probabilidad de que ocurran simultneamente.
= 1 P (A)
Propiedad 1.1.6 A A es P (A)
En palabras, la probabilidad del suceso contrario A de A, es uno menos la
probabildiad del suceso A.
1.2.
Probabilidad Condicionada
Con frecuencia tener informacin acerca de un suceso puede afectar a las probabilidades de otro, por ejemplo cal es la probabilidad de que llueva maana si
hoy ha llovido?. La nocin de probabilidad condicionada, ayuda a saber si el conocimiento de la ocurrencia de un determinado suceso puede afectar a las probabilidades
de otros.
Supongamos que (, B, P) es un espacio de probabilidad y en l sean A, B dos
sucesos tal que P (B) > 0, definimos:
Definicin 1.2.1 Se llama probabilidad condicionada del suceso A dado que ocuy se representa
rri el B, o probabildiad de A condicionada a B, al cociente P P(AB)
(B)
por P (A|B):
P (A B)
P (A|B) =
P (B)
En realidad la definicin proporciona una nueva funcin de probabilidad; induce
un nuevo espacio de probabilidad como expresa el siguiente teorema.
Teorema 1.2.2 Dado un suceso B de un espacio de probabilidad (, B, P) tal que
P (B) > 0. La funcin P (|B) = PP(B)
es una probabilidad sobre el -algebra B ,
(B)
formada por los conjuntos de la forma A B, con A B.
Si observais la frmula de la definicin de la probabilidad condicional, permite
expresar la probabilidad de la ocurrencia simultnea de los sucesos A y B de la forma
P (A B) = P (B) P (A|B). Es posible generalizar ese resultado:
Teorema 1.2.3 (Regla de la Multiplicacin) Si A1 , A2 , A3 , . . . es una sucesin
numerable de sucesos verificando P (A1 ) > 0, P (A1 A2 ) > 0, P (A1 A2 A3 ) > 0, . . .
entonces
P (A1 A2 An ) = P (A1 )P (A2 |A1 )P (A3 |A1 A2 ) P (An |A1 A2 . . .An1 )
En ocasiones la ocurrencia de un suceso B no altera la probabilidad de que ocurra otro suceso A, es decir P (A|B) = P (A). Entonces se dice que A es independiente
de B.
Definicin 1.2.4 (Independencia Estadstica) El suceso A es independiente
de B si P (A|B) = P (A).
En el caso de que sea A independiente de B la frmula P (A B) = P (B)
P (A|B) se convierte en P (A B) = P (B) P (A) resultado que se puede usar como
una definicin equivalente de independencia, o como propiedad:
1.2. PROBABILIDAD CONDICIONADA
Propiedad 1.2.5 Si A independiente de B P (A B) = P (A) P (B)

Propiedad 1.2.6 Si A es independiente de B entonces B es independiente de A.
Por lo que en lugar de decir que uno es independiente del otro se suele decir
que ambos son independientes, o mutuamente independientes.
La relacin binaria ser independiente es pues simtrica. Sin embargo no es
transitiva. En los casos en que si se verifique los tres sucesos son independientes dos
a dos. Lo que sugiere la siguiente definicin:
Definicin 1.2.7 Un conjunto de sucesos Ai se dice que son independientes dos a
dos si lo son Ai , Aj i 6= j i, j = 1, 2, . . . , n
No hay que confundir la anterior definicin con la de sucesos independientes
en el caso de mas de dos, que se d ahora:
Definicin 1.2.8 Un conjunto de sucesos Ai se dice que son mutuamente independientes si P (A1 A2 An ) = P (A1 ) P (A2 ) P (An )
El siguiente contraejemplo de Bernstein prueba que mutuamente independientes no es lo mismo que independientes dos a dos.
Ejemplo 1.2.1 (Bernstein) Sea una experiencia aleatoria en la que consiste en
cuatro puntos (cuatro sucesos elementales) 1 , 2 , 3 , 4 y asignemos P (i ) = 14 .
Sean los tres sucesos: A1 = {1 , 2 } , A2 = {1 , 3 } , A3 = {1 , 4 }. Mostrar
que son independientes dos a dos, pero no son mutuamente independientes.
Teorema 1.2.9 (Probabilidad Total) Sea {Ai }, i = 1, 2, . . . , n, . . . una coleccin
finita o infinita numerable de sucesos, tales que:
Ai = ,
Ai Aj = ,
P (Ai ) > 0 i, j
i=i
para cualquier suceso B se cumple que:

P (B) =
X
i=1
P (B|Ai ) P (Ai )
i 6= j
10
Teorema 1.2.10 (Bayes) Sea {Ai }, i = 1, 2, . . . , n, . . . una coleccin numerable

de sucesos, tales que:
Ai = ,
Ai Aj = ,
P (Ai ) > 0 i, j
i 6= j
i=i
para cualquier suceso B se cumple que:

P (B|Ai )P (Ai )
P (Ai |B) = P
i=1 P (B|Ai )P (Ai )
Vienen ahora una serie de ejercicios, de aplicacin de los axiomas y de las
propiedades que de ellos se deducen:
Ejercicio 1.2.11 Se puede definir una probabilidad sobre un = ?
Ejercicio 1.2.12 Se puede definir una probabilidad sobre un tal que para dos
sucesos A y B se cumple que: P (A) = 0,9 P (B) = 0,05 P (A B) = 0,3?
Ejercicio 1.2.13 Sea = {a, b, c, d, e, f, g}. Es posible un espacio de probabilidad
(, B(), P ) tal que:
P ({b, d}) =
1
4
P ({f }) =
1
4
P ({g}) = 0
Ejercicio 1.2.14 La compaia de Cervezas Alcazaba, envasa en botellas una cerveza especial en cada una de sus cuatro factorias situadas en Crdoba, Granada, Sevilla
y Madrid. Las factorias primera y segunda producen, respectivamente, el 35 % y el
25 % del total de la produccin; en tanto que la tercera y cuarta producen, cada una,
y el 20 %. La experiencia nos dice que la primera de las factorias produce un 8 % de
envasados defectuosos, la segunda el 6 %, la tercera y cuarta el 5 %. Tomamos una
botella al azar, (a)Cal es la probabilidad de que sea defectuosa?, (b) Tomamos la
botella y observamos que es defectuosa cal es la probabilidad de que proceda de la
factoria de Crdoba?.
Ejercicio 1.2.15 Consideremos una prueba que se realiza en la sangre para detectar una cierta enfermedad. La prueba d positiva en el 97 % de las veces que la
enfermadad est presente, y d un falso positivo en el 0,4 % de los casos. Supongamos que el 0,5 % de la poblacin actual tienen la enfermedad. Si se elige al azar a
una persona, se le realiza la prueba y d positivo, cal es la probabilidad de que
est enfermo?.
1.3. COMBINATORIA
1.3.
11
Combinatoria
Como hemos indicado anteriormente, el uso de la regla de Laplace para asignar

probabilidades, implica la necesidad de calcular el nmero de resultados favorables
a su realizacin as como el total de casos posible. Esa tarea a veces no es fcil
sobretodo si el espacio muestral es grande. Para ayudarnos se puede recurrir a la
Combinatoria. Hasta hace unos aos estaba incorporado al curriculum de los estudios
de enseanza media el estudio de la Combinatoria, o del Anlisis Combinatorio.
Al menos sus nociones mas bsicas. Dado que ello ya no ocurre, en los siguientes
prrafos nos ocuparemos de esas nociones bsicas.
La Combinatoria o Anlisis Combinatorio se ocupa de como se agrupan y como
se cuentan los elementos de un conjunto finito teniendo en cuenta que, los grupos
que se pueden formar, pueden diferenciarse unos de otros, bien por el orden en que
estn colocados los elementos, bien por el nmero de ellos o si pueden repetirse los
elementos.
Definicin 1.3.1 Cardinal de un Conjunto. Si un conjunto A tiene n elementos
diremos que su cardinal es n, lo que se simboliza de la siguiente forma card(A) = n
o tambin por #(A) = n .
Definicin 1.3.2 Factorial de un Nmero. Dado un numero natural n, distinto
de cero, su factorial que simbolizaremos por n!,
n! = n (n 1) (n 2) 3 2 1
por convenio adoptamos que el factorial de cero es uno; es decir 0! = 1.
1.3.1.
Variaciones
Definicin 1.3.3 Variaciones Dado un conjunto A con n elementos se llaman

Variaciones, o Variaciones Ordinarias o Variaciones sin repeticin de esos n elementos tomados de r en r, con r n, a cada una de las agrupaciones ordenadas que
podemos formar con r de ellos sin repetir ninguno. De manera que, una variacin se
diferencia de otra, o por tener un elemento distinto o por tenerlo en orden diferente.
Ejemplo 1.3.1 Dado el conjunto A = {3, 7, 12} las variaciones de sus elementos,
tomados de 2 en 2, son {3, 7} {7, 3} {3, 12} {12, 3} {7, 12} {12, 7}
Proposicin 1.3.4 El nmero de Variaciones de n elementos tomados de r en r,
que simbolizaremos por Vn,r es
Vn,r =
n!
= n (n 1) (n 2) ... (n r + 1)
(n r)!
12
Ejemplo 1.3.2 Con los elementos del conjunto A = {x, y, z, t, i}, las variaciones
de 3 de sus elementos que se pueden obtener es V5,3 = 5 4 3
> prod(5:3)
[1] 60
Ejemplo 1.3.3 Si un conjunto A tiene #(A) = 32 las variaciones de sus elementos,
tomados de 7 en 7 que se pueden obtener es V32,7 = 32 31 30 29 28 27 26
> prod(32:26)
[1] 16963914240
Proposicin 1.3.5 Si A es un conjunto con n elementos y B otro con r, con r n.
Entonces el nmero de aplicaciones inyectivas que se pueden establecer de B en A
es Vn,r
Corolario 1.3.6 Dado un conjuto A con n elementos, cualquier variacin de sus
elementos tomados de r en r, puede ser interpretada como una aplicacin inyectiva
del conjunto I = {1, 2, 3, ..., r} en A
As dado el conjunto de alumnos A = {P aco, Luis, Ana, P epe} la variacin
(Ana, Paco, Luis) puedes ser interpretada
Figura 1.1: La variacin (Ana, Paco, Luis) interpretada como una aplicacin biyectiva
1.3. COMBINATORIA
1.3.2.
13
Variaciones con Repeticin
Definicin 1.3.7 Variaciones con Repeticin Dado un conjunto A con n elementos se llaman Variaciones con repeticin de esos n elementos tomados de r en
r, con r n, a cada una de las agrupaciones ordenadas que podemos formar con r
de ellos, repetidos o no. De manera que, una Variacin con repeticin se diferencia
de otra, o por tener al menos un elemento distinto o por tenerlos en orden diferente.
Ejemplo 1.3.4 Dado el conjunto A = {3, 7, 12} las variaciones con repeticin de
sus elementos, tomados de 2 en 2, son {3, 3}{3, 7}{3, 12}{7, 3}{7, 7}{7, 12}{12, 3}
{12, 7}{12, 12}
Proposicin 1.3.8 El nmero de Variaciones con repeticin de n elementos tomados de r en r, que simbolizaremos por V Rn,r V Rnr es V Rn,r = V Rnr = nr
Ejemplo 1.3.5 Con los elementos del conjunto A = {x, y, z, t, i}, las variaciones
con repeticin de 3 de sus elementos que se pueden obtener es V R5,3 = V R53 = 53
> 5^3
[1] 125
Ejemplo 1.3.6 Si un conjunto A tiene #(A) = 32 las variaciones de sus elementos,
7
tomados de 7 en 7 que se pueden obtener es V R32,7 = V R32
= 327
> 32^7
[1] 34359738368
Proposicin 1.3.9 Si A es un conjunto con n elementos y B otro con m, con
n m. Entonces el nmero de aplicaciones que se pueden establecer de A en B es
V Rn,m = V Rnm
Corolario 1.3.10 Dado un conjuto A con n elementos, cualquier variacin de sus
elementos con repeticin de r, puede ser interpretada como una aplicacin del conjunto I = {1, 2, 3, ..., r} en A
As dado el conjunto de alumnos A = {P aco, Luis, Ana, P epe} la variacin
con repeticin de 3 (Ana, Ana, Ana) puedes ser interpretada
14
Figura 1.2: La repeticin (Ana, Ana, Ana) interpretada como una aplicacin
1.3.3.
Permutaciones
Definicin 1.3.11 Si tenemos un conjunto A, finito no vacio, cuyo cardinal es

card(A) = #(A) = n , se llaman Permutaciones, o Permutaciones Ordinarias,
o Permutaciones sin Repeticin de esos n elementos a las distintas agrupaciones
ordenadas que se pueden formar con todos ellos. Al total de ellas se simboliza con
Pn
Proposicin 1.3.12 Si un conjunto A, finito no vacio, tiene card(A) = #(A) = n
el total de sus permutaciones es Pn = n!
Ejemplo 1.3.7 Si en un curso A hay #(A) = 20 alumnos, cada ordenacin de
todos ellos constituye una permutacin de ellos. Por tanto pueden ser ordenados de
P20 = 20! formas diferentes.
> factorial(20)
[1] 2.43290200818e+18
Cuando los nmeros son grandes o pequeos R usa la notacin cientfica. Con
el mandato print podemos aumentar, el nmero de dgitos.
> print(factorial(20), 14)
[1] 2432902008176640000
El segundo argumento de print, controla la cantidad de dgitos significativos.
Hay que tener en cuenta que R trabaja en doble precisin y solo dispone de 16 dgitos
significativos.
1.3. COMBINATORIA
15
Proposicin 1.3.13 Sean dos conjunto A y B tales que #(A) = #(B) = n entonces el nmero de aplicaciones biyectivas de A en B es Pn = n!
Corolario 1.3.14 Cada forma de ordenar todos los elementos de un conjunto A,
es decir cada permutacin de los elementos de A, puede ser interpretada como la
imagen de una aplicacin biyectiva del conjunto {1, 2, 3, ..., n} en el conjunto A
As dado el conjunto de alumnos A = {P aco, Luis, Ana, P epe} la permutacin
{ Ana, Luis, Paco, Pepe} puede ser interpretada
Figura 1.3: La permutacin {Ana, Luis, Paco, Pepe} interpretada como una aplicacin biyectiva
1.3.4.
Combinaciones
Definicin 1.3.15 Combinaciones. Si tenemos un conjunto A cuyo card(A) =

#(A) = n se llaman Combinaciones, o Combinaciones Ordinarias, o Combinaciones
sin Repeticin de esos n elementos tomados de r en r a las distintas agrupaciones
se pueden formar
con r distintos elementos de A. El total de ellas se simboliza con
n
r
Cn,r o Cn o r
Corolario 1.3.16 De las definiciones de Combinacin y Variacin se puede deducir:
Dos combinaciones del conjunto A del mismo orden, se diferencian en, al
menos, un elemento.
La diferencia entre las combinaciones y las variaciones ordinarias radica en el
hecho de que, las combinaciones, no tienen en cuenta el orden.
16
Proposicin 1.3.17 Dado un conjunto A, cuyo card(A) = #(A) = n, el nmero

de Combinaciones de sus n elementos que se pueden formar tomados de r en r, con
r n es

n
Vn,r
n (n 1) ... (n r + 1)
r
=
=
Cn,r = Cn =
r
r!
n!
Definicin
1.3.18 Nmero Combinatorio. Los nmeros obtenidos de la forma

n
se denominan Nmeros Combinatorios o tambin Nmeros Binomiales.
r
Proposicin 1.3.19 Los nmeros combinatorios o binomiales verifican las siguientes propiedades: a) n1 = n , b) nn = 1
Proposicin 1.3.20 Dado un conjunto A, cuyo card(A) = #(A) = n, el nmero
de Combinaciones de sus n elementos que se pueden formar tomados de r en r es
el nmero de subconjuntos de A, que con r elementos podemos formar.
Definicin 1.3.21 Muestra sin Reemplazamiento. Dada una poblacin de objetos o personas, una muestra de ella sin reemplazamiento de tamao r, es cualquier
subconjunto suyo que tenga r elementos. Por lo que, la anterior proposicin se puede
expresar en trminos estadsticos de la siguiente forma:
Proposicin 1.3.22 El nmero de muestras sin reemplazamiento de tamao r, que
n,r
podemos obtener de un conjunto con n elementos es Cn,r = Cnr = nr = Vn!
1.3.5.
Combinatoria en R
Para calcular el nmero de Permutaciones, la funcin factorial directamente

lo calcula.
Por ejemplo si un conjunto A est formado por A={x, y, z, t, v } cuyo cardinal
es card(A)=5 , el nmero de permutaciones de los elementos de A es:
> factorial(5)
[1] 120
Podemos hacerlo todo en R.
> A<-c("x","y","z","t","v""")
> factorial(length(A))
[1] 120
1.3. COMBINATORIA
17
En la primera linea se ha introducido el conjunto A y sus elementos como

si fuera un vector de una dimensin y cuatro componentes. Cada componente del
vector A o elemento del conjunto A, se introduce entrecomillado, para indicar que
es alfanumrico.
En la segunda linea la funcin factorial obtiene el nmero de permutaciones, tomando como argumento el resultado de la funcin length(A) que calcula el
nmero de elementos que tiene A
Para calcular el nmero de Combinaciones, la funcin choose directamente
lo calcula.
Para el anterior conjunto A formado por A={x, y, z, t, v } el nmero de
combinaciones de los elementos de A tomados de 3 en 3 es:
> A<-c("x","y","z","t","v")
> choose(length(A),3)
[1] 10
8
C17
Si queremos
conocer el valor de un nmero combinatorio, por ejemplo C17,8 =

17
= 8
> choose(17,8)
[1] 24310
Para calcular el nmero de Variaciones en R no hay una funcin directa, las
n,r
por lo que Vn,r = Vnr = Cn,r r!
calculamos usando la relacin Cn,r = Cnr = nr = Vr!
Para el anterior conjunto A formado por A={x, y, z, t, v } el nmero de
variaciones de los elementos de A tomados de 3 en 3 es V5,3 = V53 = C5,3 3!
> choose(5,3)*factorial(3)
[1] 60
En los prrafos anteriores hemos indicado como calcular el nmero de Permutaciones, Combinaciones y el de Variaciones. A continuacin veremos como obtenerlas. Para ello necesitamos instalar algn paquete adicional.
Instalacin de Paquetes
R es la versin GNU ( http://www.gnu.og ) de un lenguaje de programacin,
orientado a objetos, denominado S. Se distribuye bajo licencia GNU GPL.
18
Cuando se instala R se instalan el Sistema Base y adems una serie de paquetes adicionales, cuya cantidad puede variar de una versin a otra. En la actualidad
la versin base no tiene la posibilidad de obtener las Combinaciones ni las Permutaciones ni las Variaciones. Existen en CRAN un par de paquetes con los que se
pueden obtener. Son los paquetes combinat y el paquete gtools. Si deseamos ver el
listado de paquetes disponibles consultar en http://cran.r-project.org/web/packages/
En el mismo enlace anterior se puede consultar la documentacin sobre cada
uno de los paquetes. Lo que obviamente hay que hacer para informarse de que funcin
y como trabaja es la que necesitamos.
Ejemplo 1.3.8 Para el conjunto B formado por B={x,z,t} vamos a obtener las
permutaciones de los elementos de B que ya sabemos son un total de 3! = 3 2 1 = 6
> install.packages("combinat")
> library(combinat)
> B<-c("x","z","t")
> permn(B)
[[1]]
[1] "x" "z" "t"
[[2]]
[1] "x" "t" "z"
[[3]]
[1] "t" "x" "z"
[[4]]
[1] "t" "z" "x"
[[5]]
[1] "z" "t" "x"
[[6]]
[1] "z" "x" "t"
Observad que, adems de instalar el paquete install.packages(combinat")
necesitamos cargarlo con el mandato library(combinat")
Se nos ha creado el objeto permn(B) que es un vector de seis componentes.
Si deseamos ver la tercera de ella, basta:
1.3. COMBINATORIA
19
> permn(B)[3]
[[1]]
[1] "t" "x" "z"
Ejemplo 1.3.9 Para el conjunto H formado por H={m,j,17,k} vamos a obtener las
combinaciones de los elementos de H que ya sabemos son un total de C4,3 = C43 =
V4,3
4
= 3! = 4
3
> combn(H,3)
[,1] [,2]
[1,] "m" "m"
[2,] "j" "j"
[3,] "17" "k"
[,3]
"m"
"17"
"k"
[,4]
"j"
"17"
"k"
El mandato combn(H,3) crea una matriz. Por ello nos muestra una matriz
de 3 filas y cuatro columnas. Las combinaciones aparecen como las columnas de esa
matriz. Si deseamos tomar una de ellas, por ejemplo la tercera, basta:
> combn(H,3)[,3]
[1] "m" "17" "k"
Observad que no h asido necesario volver a cargar, puesto que ya lo estaba, el paquete.
Ejercicio 1.3.23 Considera el conjunto formado por los alumnos de nuestra clase:
Cuantos grupos de 4 podemos formar?
De cuantas formas podemos elegir dos representantes de la clase?
De cuatas formas podemos elegir un delegado y un subdelegado?
Ejercicio 1.3.24 Si en una clase de 23 alumnos, 9 son mujeres. Si elegimos al
azar dos alumnos Cual es la probabilidad de que ambos sean mujeres?
Ejercicio 1.3.25 Si rellenamos una quiniela de futbol con un signo doble en una
columna y otro triple en otra, que probabilidad tenemos de acertar un pleno?
Ejercicio 1.3.26 Cuanto aumenta nuestra probabilidad de ganar un pleno de la
primitiva, si en lugar de jugar una sola apuesta, jugamos diez apuestas?
20
Ejercicio 1.3.27 Calcular la probabilidad de que un cupn de la ONCE termine

en 3. Si ayer el cupn premiado, termin en 3, compara, hoy, un cupn terminado
en 3?
Ejercicio 1.3.28 dados los nmeros 1, 2, 3, 4, 5, 6, calcular la suma de los nmeros
formados con sus permutaciones.
Ejercicio 1.3.29 En un rectngulo OBAC, su lado OB = n y el OC = p con
n, P Z. Dividimos el rectngulo en n p lineas paralelas a los lados. Sea P una
poligonal quebrada que partiendo de O, termina en A. Probar que todas las posibles
poligonales P tienen la misma longitud y calcular el nmero de ellas que hay.
1.4.
Concepto de Variable Aleatoria
Dado un experimento aleatorio con una ley de probabilidad P sobre su espacio

muestral , si a cada uno de los resultados simples es posible asignar un valor
numrico que en general representaremos por X, diremos que X es una variable
aleatoria sobre y que P es una Probabilidad para ella. Formalmente:
Definicin.- Dado un espacio muestral (, A) consideremos la -algebra de los conjuntos de Borel sobre la recta real (R, B), decimos que
una aplicacin X : R
1
es una variable aleatoria si verifica que X (, x] A, x R. En palabras: la
imagen inversa de cualquier intervalo de la forma (, x] es un suceso.
Hagamos notar que el -campo de Borel sobre R, puede ser engendrado por
otros, conjuntos adems de por los conjuntos de la forma {(, x] : x R}, por lo
que es mas general la siguiente definicin:
X : R es una variable aleatoria si X 1 (B) A, B B
en palabras: la imagen inversa de cualquier boreliano es un suceso.

Notacin. Puesto que X 1 (, x] = { : X() (, x]} , X 1 (, x] =
{ : X() x} , que se abrevia [X x]. Por analoga [X < x] = { :
X() < x} y [X = x] = { : X() = x} .
Ejemplo 7. Sea X la variable aleatoria nmero de caras obtenidas en dos lanzamien
tos de una moneda justa. Quien es ? Quien es A?. Describir X 1 (, x] .
Ejemplo 8. Sea X la variable aleatoria "nmero de caras obtenidas en tres lanzamientos de una moneda justa". Quien es ?, quien es A?. Describir X 1 (, x].
Describir los sucesos: [X 20 4], [10 3 < X 20 4]
1.5. DISTRIBUCIN DE PROBABILIDAD DE UNA V.A.
1.5.
21
Distribucin de Probabilidad de una V.A.
Teorema. Sea (, A, P ) y una v.a. X : R definamos PX : B [0, 1] as

PX (B) = P (X 1 (B)). Se verifica que: (R, B, PX ) es un espacio de probabilidad.
Demostracin,
1. B B
PX (B) = P (X 1 (B)) 0
2. PX (R) = P (X 1 (R)) = P () = 1
3. P
Dada {i Bi } ,Bi Bj 6= , i 6 j : PX (i Bi ) = P (X 1 (i Bi )) = P (i X 1 (Bi )) =
1
(i Bi ))
i P (X
Definicin. Dado un espacio de probabilidad (, A, P ) y sobre su espacio muestral
una v.a. X, sta induce un nuevo espacio de probabilidad (R, B, PX ) que se llama
Espacio de Probabilidad Inducido por la v.a. X
1.6.
La Funcin de Distribucin de una V.A.
Sea un espacio de probabilidad (, A, P ) y su inducido (R, B, PX ) por la variable aleatoria X.

Definicin. Se llama Funcin de Distribucin de la v.a. X a la FX : R [0, 1]
definida:
FX (x) = PX (, x] = P [X x] x R
Ejemplo 9. Considerar la variable aleatoria del ejemplo 8 y dibujar la grfica de su
funcin de distribucin.
Teorema.(Propiedades de la Funcin de Distribucin) Sea FX la f.d. de una v.a. X:
1. Es No-Decreciente.
2. Es contnua por la derecha.
3. FX () = 0 , FX (+) = 1
4. FX (x ) = FX (x) P (X = x)
22

5. El conjunto de discontinuidades de FX es numerable.
De las propiedades anteriores solo intentar probar la primera. Si quereis ver la

demostracin de las otras consultar, por ejemplo Loeve (pag. 176).
Teorema. Sea F es una funcin F : R [0, 1] tal que verifica las (1) (2) y (3) del
anterior teorema. Entonces (, A, P ) y una v.a. X tal que FX F .
1.7.
Variables Aleatorias Discretas
Definicin. Una variable aleatoria X se llama Discreta si {xn } numerable y

tal que P (X {xn }) = 1.
Definicin. Se llama Soporte de la variable aleatoria X al conjunto numerable {xn }
en donde P (X {xn }) = 1.
Ejemplo 10. Sea la variable aleatoria lanzar un dado legal y anotar la puntuacin
obtenida. Observar que es Discreta. Mostrar su soporte. Dibujar su funcin de distribucin.
Ejemplo 11. Un experimento trata de determinar la fiabilidad de un interruptor
elctrico. Para ello se le coloca en una mquina que lo acciona hasta que falla y en
ese momento se anota el nmero de interrupciones que ha realizado correctamente.
Identificar el soporte de la variable aleatoria de inters.
Definicin. Se llama Funcin Masa de Probabilidad de una v.a. discreta X a la

pX (x) =
P [X = x] si x Soporte
0
en otro caso
Propiedades. La funcin masa de probabilidad pX de una v.a. discreta X con soporte

D verifica:
1. pX (x) 0
2.
P
xn D
pX (xn ) = 1
1.8. MODELOS DE VARIABLES ALEATORIAS DISCRETAS
1.8.
23
Modelos de Variables Aleatorias Discretas
Vamos a ver algunos modelos de variables aleatorias discretas, aquellos que

consideramos mas usuales.
1.8.1.
Uniforme
Una variable aleatoria discreta que toma sus valores en un conjunto finito D,
se llama Uniforme y lo notaremos X U (D) si su f.m.p. es
pX (x) =
1
,
#(D)
xD
Probar, como ejercicio, que verifica las propiedades de una f.m.p.

Ejemplo 12. Sea la v.a. X el nmero que aparece al lanzar un dado honesto. Determinar la funcin de probabilidad de X y dibujarla.
1.8.2.
Bernoulli
Una variable aleatoria X se llama de Bernoulli de parmetro p, con p (0, 1),

y lo notaremos X b(p) si su f.m.p. es

pX (x) =
px (1 p)(1x) , si x = 0, 1
0, en otro caso
Probar, como ejercicio, que verifica las propiedades de una f.m.p.; es claro que
su soporte es {0, 1} en donde toma, respectivamente, las probabilidades 1 p y p.
En muchos contextos los valores 0 y 1 del soporte se asocian con sucesos "fracaso
"xito", o al revs dependiendo de a cual de ellos deba asignarsele la probabilidad p.
2
Ejemplo 13. El ciclo de un semforo es 15seg. verde, 5seg. mbar y 55seg. rojo.
Supongamos que las condiciones de trfico son tales que la llegada al semforo es
una experiencia aleatoria, que es igualmente probable llegar en cualquier momento
al semforo, que es un "xito"si est en verde y "fracaso.en cualquiera de las otras
dos. Expresar la f.m.p. de la v.a. X nmero de xitos en un ensayo.
Observacin. Una v.a. de Bernoulli con p =
1
2
es una v.a. Uniforme.
24
1.8.3.
Binomial
Sean n Z + y p [0, 1], diremos que una v.a. es una Binomial de parmetros
n y p, y lo notaremos X B(n, p) si su f.m.p. es
n x
p (1 p)nx , si x = 0, 1, . . . , n
x
pX (x) = P (X = x) =
0,
en otro caso
Probar, como ejercicio, que verifica las propiedades de una f.m.p.
Ejemplo 14. Volvamos al ejemplo del semforo y consideremos 25 llegadas, sin relacin entre ellas, describir la f.m.p. de la v.a. nmero de xitos en las 25 llegadas.
Observacin. Una v.a. Binomial puede describirse como la repeticin de un nmero
finito de pruebas tipo Bernoulli, que son independientes, y con igual parmetro p.
Ejemplo 15. Una empresa suministra los fusibles en paquetes de 10 unidades. Elegimos al azar uno de esos paquetes y anotamos el nmero de fusibles no aptos.
Identificar la variable aleatoria y dar sus posibles valores.
Ejemplo 16. Supongamos que una moneda est desequilibrada de tal forma que al
lanzarla es doblemente probable que salga cara a que salga cruz. Supongamos la
experiencia aleatoria lanzar esa moneda tres veces y anotamos el nmero de caras
obtenidas. Determinar la funcin de probabilidad de la v.a. asociada a la experiencia.
Calcular la probabilidad de que el nmero de caras obtenidas sea como mximo 2.
Ejemplo 17. Un sistema consta de cinco componentes, al menos tres de ellos deben
estar en buen estado para que el sistema funcione correctamente. Los componentes funcionan independientemente unos de los otros. Cada uno de ellos tiene una
1
probabilidad p = e 2 de funcionar correctamente al menos 500 dias. Calcular la
probabilidad de que el sistema funcione correctamente al menos 500 dias.
Ejemplo 18. Tenemos un cristal con dos tipos de impurezas, una de ellas absorbe
un fotn sin liberar un electrn y la otra libera un electrn cuando absorbe un fotn.
Hay el mismo nmero de impurezas de cada tipo, pero las zonas de absorcin de las
del primer tipo es 99 veces mas grande que las del segundo tipo. Las dimensiones del
cristal son las necesarias para absorber todos los fotones. Se lanzan sobre el cristal
200 fotones, cal es la probabilidad de que al menos tres electrones sean liberados?.
Ejemplo 19. Se sabe que un 5 % de las particulas "lanzadas.atraviesan una zona de
campo magntico, cuantas particulas debemos lanzar para que la probabilidad de
25
que al menos queden 30 atrapadas sea al menos del 95 % ?
1.8.4.
Muestreo con-sin Reemplazamiento
Consideremos una poblacin de N objetos que estan numerados desde 1 hasta

N . Seleccionamos al azar uno de tales objetos, anotamos su nmero y lo devolvemos
a su poblacin. Un procedimiento de seleccin tal como ese, lo denominaremos una
prueba o ensayo simple de muestreo con reemplazamiento. Si este ensayo simple lo
repetimos n veces obtenemos una muestra de tamao n con reemplazamiento.
Nota. Si muestreamos en poblaciones finitas, interesndonos por un carcter dicotmico de los individuos, la v.a. binomial surge cuando hay Muestreo con Reemplazamiento.
Ejemplo 20. En una caja que contiene 50 fusibles sabemos que 10 de ellos son no aptos. Si extraemos, con reemplazo, una muestra de 20 de ellos, calcular la probabilidad
de que todos sean no aptos.
1.8.5.
Hipergeomtrica
Sean N, n, a Z + verificando 1 n N , 0 a N ; diremos que una v.a.

es una Hipergeomtrica de parmetros N n y a, y lo notaremos X H(N, n, a) si
su f.m.p. es
(
pX (x) = P (X = x) =
a
(xa)(Nnx
)
si max(0, n (N a)) x mn(n, a)
N
(n)
0
en otro caso
26
Cuando muestreamos sin reemplazamiento es frecuente que aparezca la distribucin

hipergeomtrica. Supongamos el siguiente esquema: Sea una poblacin de tamao N
en la que hay a individuos que presentan un carcter y el resto, N a que no lo
presentan; extraemos, sin reemplazo, una muestra de n individuos y nos preguntamos
el nmero de ellos que presentan el carcter en estudio.
Ejemplo 21. Supongamos que disponemos de 300 condensadores, de los que 100 proceden de la factoria F. Si se eligen al azar 10 , cal es la probabilidad de que al
menos tres de ellos procedan de la factoria F?.
Verificar que la funcin que define la v.a. Hipergeomtrica, es una f.m.p. es algo
ms complejo que en los otros tipos de v.a. que hemos visto anteriormente.
Las variables hipergeomtricas aparecen en dos contextos que nos parece adecuado
mostraros. Uno de ellos en el Control de Calidad y otro en una tcnica especial para
estimar el tamao de una poblacin animal.
Ejemplo 22. (Aceptacin de una muestra en un Control) Es frecuente que a
una planta o fbrica lleguen cantidades grandes de un item en lotes. Para encontrar,
la cantidad de esos item que en cada lote llegan defectuosos, podemos, obviamente,
verificarlos todos. Lo que en muchas ocasiones no es posible por diversas razones,
por ejemplo econmicas. Por ello el receptor de los item toma una muestra sin
reemplazo de ellos, los verifica y si el nmero de ellos defectuosos no supera una
cantidad preestablecida, acepta el lote. Supongamos que un lote tiene 200 item de los
que el proveedor dice que no hay mas del 10 % defectuosos, si el control consiste en
muestrear 10 de los item y aceptar el lote si no hay ms de 2 defectuosos cal es
la probabilidad de aceptar el lote?.
Ejemplo 18. Tenemos un cristal con dos tipos de impurezas, una de ellas absorbe
un fotn sin liberar un electrn y la otra libera un electrn cuando absorbe un fotn.
Hay el mismo nmero de impurezas de cada tipo, pero las zonas de absorcin de las
del primer tipo es 99 veces mas grande que las del segundo tipo. Las dimensiones del
cristal son las necesarias para absorber todos los fotones. Se lanzan sobre el cristal
200 fotones, cal es la probabilidad de que al menos tres electrones sean liberados?.
Ejemplo 23. (Capturo-Marco-Suelto-Capturo) Se trata de una tcnica para estimar el tamao de una poblacin animal. Supongamos que deseamos conocer aproximadamente, estimar, la cantidad N de termitas que existen en un termitero. Actuamos as: Capturamos a de ellas, las marcamos de alguna manera para despues
identificarlas. Las soltamos y esperamos el tiempo necesario para que se mezclen
con el resto de la poblacin. Pasado ese tiempo, capturamos n termitas en las que
contamos y hay x0 que estn marcadas, ese valor sirve para estimar N . Para ello
27
basta observar que la v.a. X "nmero de marcadas que hay en la recaptura.es una
( a )( N a )
X H(N, n, a) por lo que pX (x0 ) = P (X = x0 ) = x0 Nnx0 que, al ser N desco(n)
nocido, es una funcin que depende de N .
f (N ) =
a
x0
N a
nx0

N
n
si obtenemos su mximo este se encuentra para N = a xn0 por lo que ese valor es una
estimacin del tamao de la poblacin.
1.8.6.
Poisson
Diremos que una v.a. es una Poisson de parmetro y lo escribiremos X

P() si su f.m.p. es

pX (x) = P (X = x) =
e x! , si x = 0, 1, 2, . . .
0,
en otro caso
Veamos algunos casos tpicos que pueden ser modelados por una variable aleatoria de Poisson.
Ejemplo 24. La compaia de software microSOL tiene un linea telefnica de ayuda
al cliente para sus 100,000 clientes. Supongamos que por trmino medio los clientes
que llaman durante una hora es 20. La v.a. X nmero de clientes que llaman durante
una hora admite un modelo de Poisson.
Ejemplo 25. Consideremos una fuente radiactiva: una masa de 12gr. de un material
radiactivo homogneo, emitiendo por trmino medio 10 partculas en un tiempo t. La
v.a. X nmero de partculas emitidas en ese periodo de tiempo t admite un modelo
de Poisson.
Ejemplo 26. Supongamos que una impresora de alta velocidad comete errores aleatorios en la impresin, haciendo por trmino medio 2 errores por pgina. La v.a. X
nmero de errores por pgina admite un modelo de Poisson.
Propiedad. (Frmula de recursin) Si P [X = k] es la probabilidad de Poisson con
parmetro , de observar k sucesos, entonces, P [X = k + 1] = k+1

P [X = k].
28
1.8.7.
Relacin entre los Modelos Discretos
Pretendemos mostrar que determinados modelos de variables aleatorias discretas que hemos visto, "tienden.en un sentido que precisaremos mas adelante a otros
tal como esquematizamos,
BernoulliBinomial Pretendemos indicar en esta relacin algo que ya hemos dicho: que el modelo binomial se puede considerar como la repeticin, en determinadas
condiciones, del modelo de Bernoulli.
BinomialPoisson Si X B(n, p), entonces puede ser aproximadamente modelada por una variable aleatoria de Poisson Y P() con = n p.
lm np = > 0. Entonces, si es P la
Teorema. Si X B(n, p), si se verifica que n
p0
f.m.p. de X se cumple que,

lm P [X = x] = e
n
p0
x
x!
demostracin.- Desarrollar el lmite

n x
lm P [X = x] = n
p (1 p)nx
lm
n
x
p0
p0
En palabras vulgares el teorema afirma que las probabilidades de una X
B(n, p) pueden ser calculadas aproximadamente por las probabilidades de otra v.a. de
Poisson Y P() con = np, cuando n sea grande y p pequeo. La aproximacin
es buena para n 30 y np 5.
Ejemplo 27. La probabilidad de que un determinado componente electrnico sea defectuoso es de 0,001. Si una caja contiene 200 de tales componentes, cal es la
1.9. VARIABLES ALEATORIAS CONTINUAS
29
probabilidad de que al menos dos de ellos sean defectuosos?.

HipergeomtricaBinomial Nos referimos aqu al hecho de que en determinadas condiciones los muetreos sin reemplazo y con reemplazo pueden ser considerados "similares"Para una hipergeomtrica
pX (x) = P (X = x) =
a
x
N n
nx

N
n
si desarrollamos esta expresin podremos observar que para valores de

x
,
a
nx
,
N a
n
N
pequeos, por ejemplo del orden de 0,1 resulta la f.m.p. de la binomial.

HipergeomtricaPoisson Aqu nos referimos a que en ocasiones puede darse
las condiciones para poder realizar una doble aproximacin,
Hipergeomtrica Binomial Poisson
1.9.
Variables Aleatorias Continuas
Sin mucho esfuerzo podemos detectar experiencias aleatorias con cuyos resultados no es posible definir una variable aleatoria discreta. Es decir una v.a. que toma
valores diferentes con probabilidades no nulas en un conjunto discreto de valores.
Por ejemplo la duracin de una vlvula electrica, la radiacin solar diaria en un
mes concreto, el tiempo de trabajo de una CPU en un da. Si con estas experiencias
definimos una v.a. debera de tomar valores en un intervalo de nmeros reales. Ese
tipo de v.a. reciben el nombre de continuas y en este tema pretendemos ver algunas
distribuciones de probabilidad de v.a. de esa clase.
1.10.
El Concepto de V.A. Continua
La definicin formal de v.a. continua se hace a partir de la Funcin de Distribucin. Sea un espacio de probabilidad (, A, P ) y sobre l definida una v.a. X,
consideremos su Funcin de Distribucin F , decimos,
30
Definicin. La variable aleatoria X se llama Continua si su Funcin de Distribucin F es absolutamente continua.Al ser la funcin absolutamente continua significa
que es continua y posee derivada, salvo quizas un conjunto de medida nula. (Cualquier intervalo finito contiene, como mximo, un numero finito de puntos donde no
es derivable). Por ello tiene sentido escribir:
d
F (x)
= f (x), f
dx
que se conoce con el nombre de Funcin de Densidad de la v.a. X. Por tanto

si una variable aleatoria X es continua, entonces posee Funcin de Densidad. El
recproco es cierto, aunque no hay unicidad.
Propiedades de la Funcin de Densidad. Si f es la Funcin de Densidad de la v.a.
continua X se verifica que,
f (x) 0, x R
R
f (x)dx = 1
Demostracin. Ambas son prcticamente inmediatas. La primera se deduce de

que F es monotona no decreciente. La segunda del teorema fundamental del clculo
integral,
Zx
F (x) = P [X x] =
Z+
f (t)dtpor lo que
f (t)dt = P [X +] = P [x ] = F (+).
Observar la analoga de las anteriores propiedades con las propiedades de la

f.m.p. de una v.a. Discreta.
Teorema. Si f es una funcin definida sobre R que verifica,
f (x) 0, x R
R
f (x)dx = 1
es la Funcin de Densidad de alguna v.a. Continua.

Propiedad. Si f es la Funcin de Densidad de una v.a. continua X que toma valores
en D entonces es,
1.10. EL CONCEPTO DE V.A. CONTINUA
31
Z
P (B) =
f (x)dx
BDR
En particular
Z
P (a X b) = P (a < X < b) =
f (x)dx
a
Demostracin. De nuevo el teorema fundamental del Rclculo integral y en particular

b
la regla de Barrow. Como consecuencia P (X = b) = b f (x)dx = 0 es decir P (X =
x) = f (x) 6= 0 que era vlida para v.a. discretas ( que tienen a f como funcin masa
de probabilidad ) no lo es para v.a. que son continuas y tienen a f como funcin
de densidad. Ello en principio puede prestarse a equvocos que no son tales si nos
detenemos a pensarlo.
Ejemplo 28. Sea X una v.a. cuya funcin de distribucin es
0 si x < 0
x si x [0, 1]
F (x) =
1 si x > 1
Dibujar su grfica y determinar su funcin de densidad.
Ejemplo 29. Sea la funcin

f (x) =
3x2 si 0 x 1
0
en otro caso
Probar que es una funcin de densidad, encontrar la funcin de distribucin.

Ejemplo 30.- Una variable aleatoria continua X tiene de funcin de densidad

f (x) =
k exp3x si x > 0
0
si x 0
Determinar el valor de k y calcular la P (0,5 X 1).

Ejemplo 31. Una v.a. continua X tiene de funcin de densidad

f (x) =
6x(1 x) si x (0, 1)
0
si x 6 (0, 1)
32
Calcular la P (X < 14 ) y la P (X > 12 ).

Ejemplo 32. Supongamos que en una ciudad el consumo diario de agua (en millones
de litros) es una variable aleatoria cuya funcin de densidad es

f (x) =
x
1
x exp 3
9
si x > 0
si 0 x 0
Cal es la probabilidad de que, en un da, el consumo de agua no exceda de 6

millones de litros. Si la capacidad de reserva diaria de la ciudad es de 9 millones de
litros, Cal es la probabilidad de que un da se agote la reserva?.
1.11.
Modelos de V. A. Continuas
Vamos a ver algunos modelos de variables aleatorias continuas, aquellos que

consideramos mas usuales.
1.11.1.
Uniforme
Este tipo modela la eleccin al azar de un punto sobre un segmento [a, b] de

manera que subintervalos iguales posean igual probabilidad. Tambin modela el angulo de parada de una ruleta, de un dial, de una rueda bien equilibrada, tras de un
largo nmero de giros, tomando de segmento [0, 2]. Tambin modela los errores
de redondeo causados por ignorar todos los digitos n lugares mas all de la coma
decimal, tomando de segmento [0, 10n ]. Su funcin de densidad es:
f (x) =
1.11.2.
1
ba
a<x<b
Normal
La familia de distribuciones normales es, sin dudar, la ms importante de todas

en las aplicaciones prcticas y en la teora. Varias razones avalan esa afirmacin. En
breve podemos significar que proporciona buenas aproximaciones a la distribucin de
muchos fenmenos de azar en el mundo real y juega un papel clave en los mtodos
estadsticos.
Una v.a. X es Normal de parmetros y , lo que indicaremos X N (, )
si tiene de funcin de densidad
1.11. MODELOS DE V. A. CONTINUAS
33
1 x 2
1
f (x) = e 2 ( ) , < x <
2
Figura 1.4:
La funcin de densiadad de la Normal Estandard
Las caracteristicas de la curva (dominio, simetrias, asintotas, inflexiones, extremo absoluto ) se observan en la grfica y pueden probarse por los mtodos habituales del anlisis.
Podes intentar probar que la f , antes definida, es una funcin de densidad.
Tipificar: La siguiente propiedad es el fundamento para una operacin muy frecuente
en el trabajo con v.a. normales.
Propiedad.- Si X es una v.a. que sigue una ley normal N (, ) entonces la nueva
sigue una ley normal N (0, 1)
v.a. que se construye definiendo Z = X
Consecuencia.- La grfica de la funcin de densidad de la normal tipificada es similar, salvo quizs una dilatacin y una traslacin, a la de una normal no tipificada.
Consecuencia.- La Normal Tpica o normal N (0, 1) tiene de funcin de densidad
1 z2
(z) = e 2
2
< z <
La Funcin de Distribucin de la N (0, 1) es
34

Zz
(z) =
Zz
(t)dt =
1 t2
e 2 dt
2
Notaciones.- Es usual notar una v.a. Normal tipificada por la letra Z, as como
reservar las letras y respectivamente, para la funcin de densidad y la funcin
de distribucin de la normal tipificada. Puesto que la funcin de densidad de la
N (0, 1) es simtrica respecto el eje de ordenadas es
(z) = 1 (z)
ello hace que muchas tablas y o calculadoras, solo proporcionen la "mitad"de

los valores.
Ejemplo 33. Supongamos que la v.a. X es una N (0, 1). Calcular: a) P (X < 1,25)
, b) P (X > 1,25) , c) P (1 < X < 2) , d) P (X < 1,25) , e) P (X > 0,90) , f )
P (|X| < 0,9)
Ejemplo 34. Supongamos que la v.a. Z es una N (0, 1) y que 0 < < 1. Calcular el
valor de c tal que P (|Z| < c) = 1
Ejemplo 35. Supongamos que la estatura de una persona elegida aleatoriamente de
una poblacin homognea de adultos sigue una ley normal de media 1,69 y desviacin
tpica 4, ambas en centimetros. Determinar:
1. La probabilidad de que elegido al azar una persona de tal poblacin resulte
tener su estatura comprendida entre 1,60 y 1,78
2. Los cuartiles de la distribucin de estaturas.
Ejemplo 36. En una poblacin de 1000 animales se van a seleccionar a los 50 de
mayor peso. Si el peso P es una v.a. tal que P N (5,5, 1,6) , determinar a partir
de que peso tenemos que seleccionar,
Propiedad.
Y1 N (1 , 12 ) , Y2 N (2 , 22 ) = a1 Y1 +a2 Y2 N (a1 1 +a2 2 , a21 12 +a22 22 )

La propiedad se puede extender a la suma de un nmero finito de v.a. normales.
La propiedad tiene una aplicacin inmediata al caso de la suma y diferencia
de dos v.a. normales.
35
Ejemplo 37.- Supongamos que la estatura de un animal macho elegido aleatoriamente de una poblacin homognea de adultos sigue una ley normal de media 1,40 y
desviacin tpica 3 y supongamos que la estatura de un animal hembra elegido aleatoriamente de una poblacin homognea de adultos sigue una ley normal de media
1,60 y desviacin tpica 4. Si elegimos al azar un macho y una hembra, encontrar la
probabilidad de cada uno de los siguientes sucesos: a) La estatura de la hembra es
superior a la del macho ; b) Sus estaturas difieren en menos de 3cm. ; c) La media
de la estaturas es superior a 1,80. Como consecuencia se puede extraer la siguiente,
Propiedad. Si X1 , X2 , , Xn son v.a. i.i.d. normales con media y varianza 2
entonces,

X
1.11.3.
N (0, 1)
Gamma
Esta v.a. puede modelar el tiempo de espera hasta observad la r-esima ocurrencia de un suceso cuando ocurren al azar con promedio por unidad de tiempo.
Una v.a. continua X cuya funcin de densidad es
(x)r1 ex , x > 0
(r)
f (x) =
La Funcin Gamma , es una funcin especial que se define

Z
(r) =
xr1 ex dx
>0
Una interesante propiedad de la funcin gamma dice que

(r + 1) = (r)
Observa que la funcin de densidad de una v.a. depende de dos parmetros,
los mismos que la funcin gamma, el parmetro r que se denomina de "forma"(shape)
y el parmetro que se denomina de escala. Existen muchas situaciones prcticas
en que la densidad de una v.a. puede ser aproximada por una gamma con parmetros
adecuados.
36
1.11.4.
Exponencial
Las v.a. exponencial puede modelar el tiempo de desintegracin de particulas

radioactivas. Tambin puede modelar el tiempo de espera requerido para observar la
primera ocurrencia de un suceso de un tipo especificado, cuando los sucesos de
ese tipo ocurren al azar a un promedio por unidad de tiempo. Ejemplos de ello
puede ser el tiempo hasta que una pieza falla. Su funcin de densidad es
f (x) = ex
x>0
La distribucin exponencial es un caso particular de de la distribucin gamma.

Ejemplo 38. En el supuesto de una placa homgenea de grosor h , 0 x h, que es
bombardeada con un flujo de neutrones, la variable aleatoria X recorrido libre de un
neutrn o recorrido entre un choque y otro puede ser modelada por una exponencial
de densidad f (x) = ex . La constante se denomina seccin completa y es
caracterstica de la materia.
1.11.5.
Chi-Cuadrado
La distribucin Chi-Cuadrado es un caso particular de una v.a. Gamma (r =

= 12 ). Puede definirse directamente as: Una v.a. sigue una distribucin ChiCuadrado con n grados de libertad, lo que escribiremos X 2 (n) si su funcin
de densidad es
n
,
2
f (x) =
n
n
1
x 2 1 e 2
n
2 ( 2 )
n
2
para x > 0, n Z
Interesantes propiedades relacionadas con ella y la normal son,

P
P
Propiedad. Si Xi 2 (ni ) = S = Xi 2 ( ni )
Propiedad. El cuadrado de una v.a. Normal tpica es una Chi-Cuadrado con 1 grado
de libertad,
Si X N (0, 1) = X 2 2 (1)
Como consecuencia de las anteriores se obtiene la siguiente propiedad, que
puede usarse tambin para definir una v.a. 2 con n grados de libertad,
Propiedad. Si {Xi }son i.i.d. y {Xi }ni=1 N (0, 1) = X1 2 +X2 2 + +Xn 2 2 (n)
37
Es decir: La suma de n v.a. i.i.d. normales tpicas es una v.a. Chi-Cuadrado

con n grados de libertad
1.11.6.
F-Snedecor
Esta variable aleatoria modela al cociente

2
U
m
V
n
de otras dos, U y V , que son
independientes y con distribucin (m) y (n). Se usa mucho en el ANOVA. Es

posible definirla directamente pero la forma ms usual es hacerlo es a partir de la
propiedad,
Propiedad. Si X1 2 (n) y X2 2 (m) , la distribucin de la v.a. F =
X1
n
X2
m
se
conoce con el nombre de distribucin F de Snedecor con n grados de libertad en el

numerador y m grados de libertad en el denominador.
Observa que F es una v.a. positiva como cociente de dos que lo son.
1.11.7.
t-Student
En el caso de que una v.a. X N (, ) la distribucin de la v.a.
N (0, 1) , lo que podra ser utilizado para inferir sobre , si fuese conocida. Una
solucin lgica es sustituir por la desviacin tpica s de la muestra. En ese caso, la
ya NO es N (0, 1). El problema de determinar la distribucin de

distribucin de X
esa v.a. fue resuelto por Willian Gosset en 1908, trabajador de una cervecera. Por
motivos laborales escondi sus trabajos bajo el seudnimo de Student. Por ello
se conoce con el nombre de t de Student. El mismo

la distribucin de la v.a. X
Gosset encontr que el aspecto de la distribucin depende de n, parmero que se

conoce con el nombre de grados de libertad. Es posible dar una definicin directa
as,
Una v.a. X sigue una distribucin t-Student con n grados de libertad y escribiremos X t(n) si su funcin de densidad es
)
( n+1
x2 n+1
2
(1 + ) 2
f (x) = n
n
( 2 ) n
para x R, n Z +
Las caracteristicas grficas (asintotas, extremos, inflexiones) de esa funcin de

densidad son iguales a las de la grfica de la densidad de la normal tpica. Incluso su
trazado es muy similar, tanto ms cuanto mayor sea n. Por lo que estas propiedades
grficas son fciles de deducir para vosotros.
38
Propiedad. Una v.a. X t(n) es asintticamente una N (0, 1)

Propiedad. Si Z N (0, 1) y X 2 (n) entonces
Z
q t(n)
X
n
La siguiente propiedad indica que el cuadrado de una v.a. t-Student es una v.a.
F-Snedecor.
Propiedad. Si X t(n) entonces X 2 F (1, n)
1.12.
Otras Distribuciones
1.12.1.
Breit-Wigner
Se trata de una versin particular de la de Cauchy, y tiene especial importancia

en fsica nuclear. En mecnica cuntica, se prueba que un estado que decae exponencialmente con el tiempo, el ancho de energa del estado puede ser modelado
por una distribucin de densidad
f (E) =
1
2
(E E0 )2 + ( 2 )2
Ejemplo 39. Mediante un dibujo mostrar que la distribucin normal standard y la

Breit-Wigner simple son de aspecto parecido.
Ejemplo 40. Calcular la media de una distribucin de Breit-Wigner.
Sugerencias para el Examen
1. De las anteriores distribuciones, interesa es que sepais manejar la tabla
de cada distribucin. En concreto saber calcular probabilidades de succesos
asociados a esas variables.
2. Saber manipular la funcin de densidad y la de distribucin de variables aleatorias discretas y continuas.
3. Los ejercicios que aparecen como ejemplos.
Captulo 2
Muestreo y Estimacin
2.1.
Estimacin y Contrastes
Entre los problemas que aborda la Inferencia, dos fundamentales son el de

Estimacin de Parmetros y el del Contraste de Hiptesis. A partir de unos datos
se pretende, con el primero, estimar uno o mas parmetros de una distribucin y,
con el segundo, aceptar o n una hiptesis.
2.2.
Estimacin de Parmetros
Supongamos que un experimento nos ha proporcionado unos datos y que, estamos seguros esos datos, pueden considerarse realizaciones de una variable aleatoria
X de la que conocemos la forma de la funcin de densidad f , pero desconocemos un
parmetro que interviene en su formulacin. Y pretendemos estimarlo. Ejemplo [7],
supongamos que tenemos ciertos datos de una distribucin angular, consistente en
un conjunto de valores cos i para cada interacin entre particulas, en donde i es el
angulo que, las particulas observadas, forman con una determinada direccin. Supongamos que es correcto suponer que la densidad de esa distribucin es de la forma
y = f (cos ) = N (1 + ab cos2 ), donde N es una constante, (en ocasiones conocida
por Constante de Normalizacin)
de forma que la funcin f sea una funcin de
R
densidad, es decir que la f (cos ) d cos = 1. La estimacin de parmetros busca
estimar los valores de a y b de acuerdo con los datos que poseemos.
Formalmente el problema de la estimacin de parmetros consiste en: sea una
39
40
CAPTULO 2. MUESTREO Y ESTIMACIN
variable aleatoria X, con funcin de densidad f (X; ), de la que conocemos su forma

pero desconocemos el parmetro
. Es decir estamos

considerando toda una familia
k
de funciones de densidad f (X; )| IR de candidatas para la variable
aleatoria X y deseamos, mediante la eleccin de un valor para , concretar una de
ellas.
Los principales mtodos de estimacin de parmetros son: a) Mxima Verosimilitud, b) Momentos, c) Mnimos Cuadrados. De ellos solo nos ocuparemos del
primero.
2.3.
Mxima Verosimilitud
Este mtodo comienza por extraer una m.a.s. (X1 , X2 , X3 , . . . , Xn ). Con ella
se forma la denominada funcin de densidad conjunta de la muestra:
f (x1 , x2 , x3 , . . . , xn ; ) =
n
Y
f (xi , )
i=1
2.3.1.
Funcin de verosimilitud
Observar que la funcin de densidad conjunta es, para una muestra concreta, solo funcin del parmetro , por lo que tiene sentido la siguiente definicin.
Llamamos funcin de verosimilitud, a la funcin L del parmetro
L() = f (x1 , x2 , x3 , . . . , xn ; ) =
n
Y
f (xi , )
i=1
Insistimos: la funcin de verosimilitud es, para una muestra concreta, solo funcin
del parmetro .
2.3.2.
El Principio de Mxima Verosimilitud
Ideado por Gauss y desarrollado por Fisher, consiste en elegir para estimar
. Siendo el valor que maximiza la funcin de mxima verosimilitud, es decir
n
Y
i=1
>
f (xi , )
n
Y
f (xi , ) ,
i=1
En consecuencia tal extremo puede no existir y puede, caso de existir, no ser nico.
2.3. MXIMA VEROSIMILITUD
2.3.3.
41
Ecuacin de Verosimilitud
En general si L() es derivable, la obtencin de los mximos sigue el camino

habitual: igualar a cero la primera derivada, obtener las raices y verificar que, en
ellas, la derivada segunda es negativa.
d L()
=0 y
d
d2
L() < 0
d 2
(1)
La ltima ecuacin se llama Ecuacin de Verosmilitud. Pero es ms fcil, en

Q
lugar de resolver esa ecuacin de verosimilitud d dL() = 0, dd ni=1 f (xi , ) = 0,
aplicando que la funcin logaritmo neperiano es montona, por lo que los mximos
de L() y los de ln L() coinciden, entonces resolvemos , en lugar de la ecuacin
antes citada, la que indicamos a continuacin
n
Y
d
ln
f (xi , ) = 0
d i=1
2.3.4.
(2)
Ecuacin Log-Verosimilitud
La anterior ecuacin se llama Ecuacin de LogVerosimilitud y admite

estas expresiones:
d
ln L() = 0
d
d X
ln f (xi , ) = 0
d i=1
(3)
Ejemplo 2.3.1 Sea X b(p), su funcin masa de probabilidad es f (x, p) = px (1

p)1x para x = 0, 1. Vamos a estimar el parmetro p (0, 1) por el mtodo de M.L.
L(p) = L(X1 , X2 , . . . , Xn ; p) =
n
Y
f (xi , p) =
i=1
ln L(p) = (
n
X
i=1
xi ln p + (n
n
Y
pxi (1 p)1xi = p
Pn
i=1 xi
P
n n
i=1 xi
(1 p)
i=1
n
X
i=1
xi ) ln(1 p)
d
ln L(p) = 0
dp
P
P
X 1
X
1
(1 p) xi p(n xi )
(
xi ) + (n
xi )
(1) = 0
=0
p
1p
p(1 p)
42

P
= Xi . Se debe verificar que es un mximo, sustituyendo su valor

de donde p = X
n
en la derivada segunda
X
X
d2
2
ln
L(p)
=
(1)p
(
X
)
(n
Xi )(1 p)2 =
i
2
dp
P
P
(1)(1 p)2 ( Xi ) (n Xi )p2
=
< 0 , p (0, 1) , xi = 0, 1 i
p2 (1 p)2
Ejemplo 2.3.2 Sea X P(). Su funcin masa de probabilidad es f (x, ) =
x
P (X = x) = e x! con x = 0, 1, 2, . . . y > 0 desconocido, que vamos a estimar por
el mtodo de mxima verosimilitud.
Dada la muestra (X1 , X2 , . . . , Xn ) la funcin de verosimilitud es
L() =
n
Y
f (xi , ) =
i=1
n
Y
e xi
i=1
xi !
y el
ln L() = n + (
n
X
i=1
Xi ) ln ln(
n
Y
xi !)
i=1
por lo que
Pn
xi
d
ln L() = n + i=1
d
Pn
x
i
= i=1 , queda verificar que en efecto es un
si igualamos a cero tenemos que
n
mximo.
Ahora ilustramos el mtodo con ejemplos (ver p.e. [9] ) donde el parmetro
desconocido es un vector y en consecuencia hay que estimar sus componentes. Supongamos que tenemos n datos que procedentes de una distribucin normal, de la
que desconocemos su media y varianza.
Ejemplo 2.3.3 Deseamos estimar la media y la varianza suponiendo que los datos
siguen una distribucin es Normal.
~ con ~ = (, 2 ) IR2 . La funcin
Sea X N (, ). Es decir X N ()
~ = 1 e 1 ( x )2 , dada una muestra {Xi }n la funcin de
de densidad es f (x, )
i=1
2
Qn 2 1 1 xi 2
1 P
2
(x
)
1
i
~
~ =
2
verosimilitud es L() = i=1 2 e 2 ( ) = (2)n e 2
luego ln L()
P
n ln( 2) 21 2 ni=1 (xi )2
2.4. PROPIEDADES DESEABLES PARA UN ESTIMADOR
d
ln L(~ ) = 0
d~
d
ln L(~ ) = 0 21 2
d
d
ln L(~ ) = 0 2n2
d 2
Pn
2(xi )(1)
i=1
Pn
(x )2
+ i=124i
=0
43
=0
Resolviendo obtenemos
Pn
(2.1)
(2.2)
xi
= i=1
n
Pn
2
2
i=1 (xi )
=
n
queda por verificar que ~ = (

,
2 ) es un mximo.
En muchas ocasiones es difcil resolver la ecuacin de verosimilitud, en el
supuesto de que sta tenga solucin. Pero adems si se da el caso de tener varias
raices esa ecuacin, puede ser tambin problemtico localizar la que corresponde a
un mximo absoluto. A continuacin vemos un ejemplo en donde la ecuacin de
verosimilitud necesita ser resuelta numricamente.
Ejemplo 2.3.4 Estimacin del parmetro de una ley de Cauchy.
Supongamos que una variable aleatoria, sigue una ley de Cauchy X C(),
1
su funcin de densidad es f (x, ) = 1 1+(x)
2 con < x < por lo que L() =
Qn 1
Pn
1
ln 1+(xi
i=1 1+(xi )2 la ecuacin log-verosimilitud es ln L() = n ln

P i=1 1
d
2
) , la condicin de extremo d ln L() = 0 nos proporciona [1+(xi )2 ] 2(xi
Pn 2(xi )
)(1) = 0 de donde resulta la
i=1 1+(xi )2 = 0 ecuacin que en general no
admite solucin explcita, por lo que se resuelve mediante mtodos numricos aproximados, en la mayora de las ocasiones mtodos basados en el de Newton-Raphson,
en donde hay que cuidar la eleccin de la estimacin inicial pues es la que har que
las sucesivas iteraciones vayan aproximandose a un mximo.
2.4.
Propiedades deseables para un estimador
Para cada una de las muestras o datos considerados, un estimador proporciona

un valor. Genricamente por tanto podemos considerar una distribucin de valores
asociada al estimador.
44
2.4.1.
Estimador insesgado
Una propiedad deseable de un estimador es que el promedio de la distribucin

de los valores que puede tomar coincida con el valor del parmetro que queremos
aproximar. Dicho en palabras mas simples, si pudiramos repetir un nmero infinito
de veces el estimador el valor medio de ellos debera de ser el verdadero valor del
parmetro. Si ocurre eso, decimos que el estimador es insesgado. Formalmente para
definirlo, se usa el concepto de esperanza matemtica, segn l, si es un estimador
= .
del parametro , decimos que es si E[]
h i
Si no es insesgado, la diferencia E se llama Sesgo del estimador.
2.4.2.
Estimador consistente
Adems de que un estimador sea insesgado, nos interesa que la dispersin de

los valores que puede tomar sea la ms pequea posible, para que la precisin de la
estimacin sea la mayor posible. Por consiguiente, una buena propiedad adicional
de un estimador insesgado es que su varianza tienda a cero si el nmero de observaciones n crece hacia infinito. En este caso, se dice que el estimador es consistente.
Los estimadores
y 2 de Mxima Verosimilitud obtenidos para el caso de una
2
poblacin N (, ), son ambos consistentes. Pero solo
es insesgado.
El 2 no es insesgado, es decir no cumple E[2 ] = 2 . En Pconcreto verifica
n
2
(Xi X)
2 . Sin embargo si tomamos de estimador 2 = i=1(n1)
SI es
que E[2 ] = n1
n
2
un estimador insesgado de la varianza .
Esa es la razn por la que, cuando se trabaja con muestras, procedentes de
poblaciones normales se use la cuasivarianza y no la varianza de la muestra. Aunque,
en el caso de que la muestra sea muy grande la diferencia es muy pequea. Ya que
dividir por n 1 en lugar de por n ocasiona poca diferencia.
Pn
Pn
2
2
(Xi X)
2
2
i=1 (Xi X)
Varianza: s = i=1
Cuasivarianza: S =
n1
n
2.4.3.
Invarianza del E.M.V. bajo transformaciones unvocas
En algunos problemas es necesario estimar no un parmetro sino una funcin

de l, en ese caso es til el siguiente Teorema de Zehna que establece la invarianza
del E.M.V. bajo transformaciones unvocas.
Teorema.- Si es E.M.V. para , si = g() es una aplicacin, entonces = g()

es E.M.V. de g()
45
Vamos a ilustrar el teorema anterior con uno de los ejemplos ms clsicos, el de la

distribucin de la variable aleatoria log-normal. Se dice que una variable aleatoria
X sigue una ley log-normal, si la variable aleatoria Y = ln X sigue una ley Normal.
La media de la variable aleatoria log-normal es
Z
(t)2
2
1
= E[X] =
et e 22 dt = e+ 2
2
puesto que para la v.a. Y el E.M.V. de es

= Y y el de 2 es
2 =
tenemos que el E.M.V. de es = eY +
2.4.4.
Pn
2
i=1 (Yi Y )
2n
Pn
)2
i=1 (Yi Y
, en virtud del teorema anterior.
Invarianza Asinttica del E.M.V.
El ejemplo de la N (, ), donde obtenamos un estimador insesgado y otro

sesgado, muestra que, en el caso de muestras pequeas, hay que tener cuidado con los
E.M.V. . La razn estriba en que el mtodo busca la Moda de una funcin muestral.
En concreto la moda de la funcin de verosimilitud. Y en general la moda muestral
es peor estimador que la media. Si embargo asintticamente el comportamiento es
bueno. Es decir para muestras grandes los E.M.V. tienen buen comportamiento. Ello
es de esperar ya que para muestras grandes la moda tiende a aproximarse a los otros
estimadores de la media, la media muestral y la mediana.
Puede demostrarse que, en condiciones bastante generales, los E.M.V. son
asintticamente consistentes y eficientes. Para muestras grandes, es decir para valores de n grandes, tienen varianza asinttica minima.
Ejemplo 2.4.1 Supongamos que tenemos una serie de n meddas x1 , x2 , . . . , xn de
una cantidad, cada una con una precisin i conocida pero distintas en general.
Esta situacin es corriente cuando se toman medidas de una cantidad con distintos
instrumentos, en ese caso los errores difieren de unas a otras. Supongamos que cada
medda es la realizacin de una v.a. normal. Deseamos encontrar el E.M.V. de esa
cantidad.
La funcin de densidad para cada medda es
f (xi , ) =
i 2
12 (
xi 2
)
i
12 (
xi
i
la funcin de verosimilitud es
L() =
n
Y
i=1
i 2
)2
46
la funcin logverosimilitud es
ln L() =
n
X
i=1
1
1 (xi )2
1
ln 2 ln i2
2
2
2
i2
su derivada primera igualada a cero es

d
ln L() =
d
n
X
i=1
n
P
xi
=0
i2
que tiene la solucin
i=1
n
P
i=1
xi
i2
1
i2
Ejemplo 2.4.2 Para una poblacin que sigue una ley binomial con n = 5 y parmetro p desconocido. Es decir X 7 B(5, p). Imaginemos que tenemos un valor
observado de Xi = 4 queremos dibujar la funcin de verosimilitud, as como la
log-verosimilitud. A la vista de ella indicar cal sera el valor ms verosimil para p
Ejemplo 2.4.3 De [9] Supongamos que hemos hecho una serie de n medidas de
la misma cantidad X1 , X2 , . . . , Xn cada medida posee una varianza conocida i2 ,
diferente para cada una de las medidas. Supongamos que las medidas se distribuyen
con ley normal. Encontrar el E.M.V. de la cantidad y la varianza del estimador.
Ejemplo 2.4.4 Generar 50 datos de una ley de Cauchy con parmetro de forma
= 0 y de escala = 1. A partir de esos datos, y suponiendo que sabemos proceden
de una poblacin de Cauchy con parmetro desconocido y conocido = 1.
Estimar mediante mxima verosmilitud el parmetro .
Una v.a. se dice que sigue una ley de Cauchy estandard si su funcin de den1
sidad es f (x) = 1 1+x
R.
2 con soporte en toda la recta real I
Una v.a. se dice que sigue una Ley de Cauchy con parmetro de forma y de
escala si su funcin de densidad es f, (x) = 1 f ( x
) siendo f la densidad de la
Cauchy estandard.
Para generar la muestra, es decir los 50 datos aleatorios procedentes de una
Cauchy(0, 1)
> n<-50
> set.seed(73)
> muestra<-rcauchy(n)
47
Ahora definimos la funcin de log-verosimilitud que es la que debemos maximizar.

> logverosimil<-function(mu,x){
+ sum(-dcauchy(x,location=mu,log=TRUE))
+ }
Observar dos detalles. Primero que la funcin de densidad aparece con signo
negativo, ello es debdo a que, vamos a maximizarla con un mandato de R denominado nml que solo minimiza. Segundo que en la funcin dcauchy aparece comlo
argumento la opcin log=TRUE, ello es para que nos d el logaritmo de los valores
de la densidad, requeridos para la logverosimilitud.
El mandato nlm minimiza la funcin usando un algoritmo del tipo de Newton
y necesita un valor inicial
> mu.inicial<-median(muestra)
> resultado<-nlm(logverosimil, mu.inicial, x=muestra )
> mu.hat<-resultado$estimate
> mu.hat
[1] -0.08885035
Observar que el valor estimado
= 0,0888503 es muy cercano al verdadero
=0
Ejemplo 2.4.5 Generar 80 datos de una ley de Cauchy con parmetro de forma
= 0 y de escala = 1. A partir de esos datos, y suponiendo que sabemos proceden
de una poblacin de Cauchy con parmetro desconocido y tambin desconocido.
Estimar mediante mxima verosmilitud los dos parmetros.
Se trata de retocar la funcin anterior para hacerla que dependa del vector ~ = (, )
cuyas componentes son los parmetros que se quieren estimar.
generamos la muestra
> n<-80
> set.seed(34)
> muestra<-rcauchy(n)
Ahora definimos la funcin de log-verosimilitud que es la que debemos maximizar.
48
> logverosimil<-function(theta,x){
+ sum(-dcauchy(x,location=theta[1],sacle=theta[2],log=TRUE))
+ }
Observar que, al ser theta un vector, theta[1] se refiere a su primera componente y theta[2] a su segunda.
>
>
>
>
theta.inicial<-c(median(muestra),IQR(muestra)/2)
resultado<-nlm(logverosimil, theta.inicial, x=muestra)
theta.hat<-resultado$estimate
theta.hat
2.5.
Estimacin mediante Intervalos
Anteriormente hemos hablado acerca del problema de la estimacin puntual de

un parmetro . Con ella se busca un estimador de manera que con l, y con la
muestra obtenida una vez realizado un experimento, tenemos una estimacin del
parmetro desconocido .
Ahora el problema a considerar sigue siendo el mismo: tenemos una v.a X con
funcin de densidad f (X; ), de la que conocemos su forma pero desconocemos el
parmetro y deseamos tener alguna idea de como es. La respuesta se d, ahora, de
una manera distinta. Solucionamos la estimacin del parmetro desde
un enfoque
distinto, se trata de encontrar un cierto intervalo aleatorio I(X) = T1 (X), T2 (X)
de manera que I(X) cubra el verdadero valor del parmetro con una probabilidad
fijada de antemano. Observar que hemos denotado el intervalo como una funcin de
la variable aleatoria X, se hace para destacar que el intervalo es dependiente de la
muestra. Es un intervalo aleatorio.
Definicin 2.5.1 (Intervalo Aleatorio) Sea una v.a X con funcin de densidad
f (X; ) , IR, de la que conocemos su forma pero desconocemos el parmetro
.
Dada una muestra {X1 , X2 , . . . , Xn } de variables aleatorias independientes e
igualmente distribuidas que X, un intervalo

I(X) = T1 (X1 , X2 , . . . , Xn ), T2 (X1 , X2 , . . . , Xn )
tal que I(X) y sus extremos dependiendo de la muestra pero no de se dice
que es un Intervalo Aleatorio para .
2.5. ESTIMACIN MEDIANTE INTERVALOS
49
Definicin 2.5.2 (Intervalo de Confianza) Sea un nmero real tal que 0 <
< 1, un intervalo aleatorio I(X), como el anteriormente definido, se denomina
Intervalo de Confianza al nivel 1 si:

P T1 (X1 , X2 , . . . , Xn ) T2 (X1 , X2 , . . . , Xn ) 1
2.5.1.
Intervalos de Confianza para la Media
Vamos a ver solo una situacin muy concreta de las variadas que existen. El
caso de estimacin por intervalos del parmetro media de una poblacin.
I.C. para la Media de una poblacin Normal con varianza Conocida.
Si sabemos que X 7 N (, 2 ) con 2 conocida, a partir de una muestra
{X}ni=1 se tiene el siguiente I.C. a nivel 1 (es equivalente decir con probabilidad
1 o tambin con error ):
(2.3)

z1 , X
+ z1
X
2
2
n
n
en donde z1 2 es el cuantil 1
de la N (0, 1).
Observar que el radio del intervalo es z1 2 n

Ejemplo 2.5.1 Vamos a usar un fichero de datos denominado airquality. Es un
dataframe que contiene 6 columnas y 154 filas. Cada columna es una muestra con
meddas de calidad del aire tomadas en New York en 1973. El fichero est dentro
del paquete base de R. De l extraemos la muestra denominada Ozone. Que contiene
meddas o datos del nivel de Ozono. Vamos a suponer que esos datos proceden de
una v.a. Normal, de media desconocida y varianza conocida 2 = 1089. Queremos
calcular un I.C. para la media de esa v.a. con un error = 0,05, o tambin se puede
decir con probabilidad 0,95
>
>
>
>
>
>
>
data() # lista los ficheros de datos en el paquete base

data(airquality) # carga el fichero de datos denominado airquality
airquality # vemos por pantalla el ficheros
# la primera linea contiene los nombres de los datos de cada columna
airquality$Ozone # carga datos de la columna denominada Ozone
# los datos codificados como NA son datos que no estan disponibles
mean(airquality$Ozone,na.rm=TRUE) # la media de los datos
50
>
>
>
>
>
>
>
#
>
#
>
>
>

sigma<-sqrt(1089) # desviacion tipica, raiz cuadrada de la varianza
alfa<-0.05 # introducimos el valor del error
n<-length(airquality$Ozone) # numero de datos se obtiene con length
# el mandtao length cuenta a los NA
# el mandato na.omit crea un vector sin los NA
n<-length(na.omit(airquality$Ozone))
radio<-qnorm(1-alfa/2)*sigma/sqrt(n) # el radio del intervalo
llamamos ExtSupIntervalo al extremo superior del ...
ExtSupIntervalo<-mean(airquality$Ozone,na.rm=TRUE)+radio
llamamos ExtInfIntervalo al extremo inferior del ...
ExtInfIntervalo<-mean(airquality$Ozone,na.rm=TRUE)-radio
ExtInfIntervalo # para verlo
ExtSupIntervalo # para verlo
En definitiva el I.C, calculado, con esos datos, es el (36,12403, 48,13459)

que contiene a la media de la v.a. Normal, con una probabilidad del 0,95. Pero no
aseguramos que la contenga. Nuestro resultado es en probabilidad.
I.C. para la Media de una poblacin Normal con varianza Desconocida.
El caso anterior es poco usual, ya que si se desconoce la media lo lgico es que se
desconozca tambin la varianza. En este caso sustituimos la (que es desconocida)
por S la cuasidesviacin tpica de la muestra,
Si sabemos que X 7 N (, 2 ) con 2 desconocida, a partir de una muestra
{X}ni=1 es posible el siguiente I.C. a nivel 1 (es equivalente decir con probabilidad
1 o tambin con error ) al:

+ t1 S
t1 S , X
X
2
2
n
n
(2.4)
en donde t1 2 es el cuantil 1
de la t[n 1].
Observar que, ahora, el radio del intervalo es t1 2 Sn

Ejemplo 2.5.2 Sigamos con los datos del ejemplo anterior. Vamos a suponer que
esos datos proceden de una v.a. Normal, de media desconocida y varianza desconocida. Queremos calcular un I.C. para la media de esa v.a. con un error = 0,07,
o tambin se puede decir con probabilidad 0,93
> data(airquality)
51
> airquality$Ozone
> n<-length(na.omit(airquality$Ozone))
> alfa<-0.07
> radio<-qt(1-alfa/2,n-1)*sqrt(var(airquality$Ozone, na.rm=TRUE))/sqrt(n)
> ExtSupIntervalo<-mean(airquality$Ozone,na.rm=TRUE)+radio
> ExtInfIntervalo<-mean(airquality$Ozone,na.rm=TRUE)-radio
> ExtInfIntervalo
[1] 36.52755
> ExtSupIntervalo
[1] 47.73107
En definitiva el I.C, calculado, con esos datos, es el (36,52755, 47,73107)
que contiene a la media de la v.a. Normal, con una probabilidad del 0,97. Pero no
aseguramos que la contenga. Nuestro resultado es en probabilidad. Ahora el I.C.
es mas preciso (mas chico) pero con menor probabilidad.
I.C. para la Media de una poblacin con una Ley cualquiera y con varianza
finita.
Este es el caso mas general, sabemos que X 7 L(, 2 ). Donde es desconocido todo, la Ley L que sigue, la media que tiene y la varianza 2 que tiene. En
ese caso, a partir de una muestra {X}ni=1 de tamao n 100 un I.C. aproximado
a nivel 1 (es equivalente decir con probabilidad 1 o tambin con error )
para la media de la poblacin es:

+ z1 S
z1 S , X
X
2
2
n
n
(2.5)
en donde z1 2 es el cuantil 1
de la N (0, 1).
Observar que, ahora, el radio del intervalo es z1 2 Sn

Avisos:
En la anterior frmula S es la cuasidesviacin tpica de la muestra, pero dado
que n 100 es igual usar la desviacin tpica de la muestra.
Tomar n 100 es un criterio de aproximacin. Algunos autores lo rebajan.
Por ejemplo a n 60
Si fuera la varianza de la poblacin conocida, en ese caso se toma ella en lugar
de la de la muestra. Y puede reducirse el tamao de la muestra a n 30
52
Ejemplo 2.5.3 Sigamos con los datos del ejemplo anterior. Vamos a suponer que
esos datos proceden de una v.a. con Ley Desconocida, de media desconocida y
varianza desconocida. Queremos calcular un I.C. para la media de esa v.a. con un
error = 0,04, o tambin se puede decir con probabilidad 0,96
> data(airquality)
> airquality$Ozone
> n<-length(na.omit((airquality$Ozone))
> alfa<-0.04
> radio<-qnorm(1-alfa/2)*sqrt(var(airquality$Ozone, na.rm=TRUE))/sqrt(n)
> ExtInfIntervalo<-mean(airquality$Ozone,na.rm=TRUE)-radio
> ExtSupIntervalo<-mean(airquality$Ozone,na.rm=TRUE)+radio
> ExtInfIntervalo
[1] 35.83899
> ExtSupIntervalo
[1] 48.41963
En definitiva el I.C, calculado es el (35,83899, 48,41963) que contiene a la

media de la v.a. desconocida, con una probabilidad del 0,96. Pero no aseguramos
que la contenga. Nuestro resultado es en probabilidad. Adems ahora el I.C. es
aproximado. Expresamos: los datos pproporcionan un I.C que aproximadamente
es (35,83899, 48,41963) con una probabilidad del 0,94 o error del 6 % .
2.5.2.
Reflexiones sobre el uso de I.C.
Interpretacin del I.C.

La primera de la reflexiones a realizar es insistir en el caracter aleatorio de los
I.C., se tratan de intervalos donde los extremos son variables aleatorias. El intervalo
puede cubrir o no al parmetro, con cierta probabilidad que llamamos nivel de confianza. La interpretacin frecuentista ayuda a recordarlo: Si repetimos 100 veces la
experiencia y con cada muestra obtenemos un I.C., de esos 100 I.C., hay 100(1 )
que cubren al verdadero, pero desconocido valor del parmetro, es nuestro intervalo
uno de esos? no lo sabemos con seguridad, solo podemos responder en probabilidad.
A continuacin ponemos una grfica en donde aparecen 50 Intervalos de Confianza para la media de una v.a. N (, 1). se han usado 50 muestras aleatorias, todas
de tamao 100. Aparecen en rojo los I.C. que no han capturado a lamedia.
Figura 2.1:
100 I.C. para la media de una va Normal con sigma=1
53
54
Factores que Influyen en el I.C.

Tres factores determinan el intervalo: la Muestra su Tamao y la Confianza.
La Muestra influye en el sentido de que dos muestras distintas, aunque tengan
igual tamao, es muy probable que den valores distintos del estadstico por lo que los
extremos del intervalo sern distintos.
El Tamao Muestral influye de dos maneras. En primer lugar porque si los
tamaos muestrales son distintos, (una muestra tiene ms observaciones), lo ms
probable es que den distintos valores del estadstico concluyendose como antes. Y en
segundo lugar porque afecta al radio: si n aumenta el radio se hace ms pequeo,
proporcionando un Intervalo ms pequeo. ( SI recordamos el caso de I.C. para la
media, uno de los factores del radio es 1n por lo que cuando n aumenta ese factor
disminuye). El efecto es proporcionar un Intervalo ms pequeo. Ms preciso. Una
razn mas para recomendaros que siempre que sea posible tomeis muestras muy
grandes.
La Confianza (1 ) , o equivalentemente el Error , influyen sobre el radio
ya que este viene afectado por un factor ( en el caso del I.C. para la media por z1 2
o t1 2 que depende del error ). Si deseamos, como es lgico, un Error pequeo el
correspondiente valor de z1 2 ( o el de t1 2 ) ser ms grande por lo que el intervalo
es mayor. El aumento de Confianza o la disminucin de Error, como queramos
enfocarlo, se hace a costa de perder precisin. Lo que no pasaba con el tamao
muestral. Ello nos lleva a plantearnos como de grande tomar una muestra para
lograr una precisin sin tocar la Confianza. Este problema se conoce con el nombre
del problema del tamao muestral.
Captulo 3
Test de Hiptesis
3.1.
Test de Hiptesis
En general el objetivo de la estimacin paramtrica es encontrar valores de

uno o ms parmetros de una distribucin de probabilidad, usando los valores de
una muestra. Por ejemplo en un problema de estimacin mediante intervalos de
confianza el objetivo es encontrar un intervalo que cubra con cierta confianza a un
parmetro del que depende la distribucin poblacional. Siempre basndonos en una
muestra extraida de la poblacin.
Existen situaciones en las que se tienen argumentos para pensar que el verdadero valor de ese parmetro es uno concreto, y lo que se pretende es confirmar o
rechazar, a partir de los valores observados de la muestra, ese pensamiento. Ese es
el objetivo de los Test de Hiptesis Paramtricos, o Contrastes de Hiptesis Paramtricos, o Pruebas de Hiptesis Parmetricas.
Se trata de un objetivo ms concreto del problema ms amplio, que contempla
la posibilidad de formular una hiptesis cualquiera sobre la distribucin poblacional.
Por ejemplo otro tipo de pruebas consideran hiptesis acerca de si la distribucin
poblacional tiene una forma concreta (es una normal, t-student, . . . ), tales puebas
se denominan Contrastes de Ajuste, o Pruebas de Ajuste, o Test de Ajustes.
55
56
CAPTULO 3. TEST DE HIPTESIS
3.2.
Test de Hiptesis Paramtricas
Sea una variable aleatoria X cuya distribucin depende de un parmetro .

El conjunto numrico en donde ese parmetro puede tomar valores lo denominamos
espacio paramtrico . Supongamos que es posible admitir que el verdadero valor
del parmetro pertenece o a un subconjunto 0 o a otro disjunto 1 del espacio ,
entonces podemos considerar dos hiptesis:
Hiptesis H0 : { 0 } ,
Hiptesis H1 : { 1 }
De la variable aleatoria X extraemos una muestra aleatoria simple {Xi }ni=1 ,

que llamamos observaciones muestrales o datos. Basndonos en los valores de las
observaciones muestrales pretendemos tomar la siguiente decisin:
Aceptar H0 : { 0 }
Rechazarla , y entonces aceptar H1 : { 1 }
puede ocurrir que H1 sea la negacin de H0 pero no siempre tiene porque ser as.
Un Test de Hiptesis para contrastar H0 , llamada hiptesis nula,
contra H1 , llamada hiptesis alternativa, se caracteriza por una particin del
espacio muestral R en dos regiones R = R0 R1 de manera que si {xi }N
i=1 es una
muestra de X :
Si {xi }N
i=1 R0 se decide aceptar H0
Si {xi }N
i=1 R1 se rechaza H0 ( aceptando la alternativa H1 )
La asignacin de la muestra a una regin se hace segn los valores que toma
un estadstico para la muestra. Por lo tanto es una asignacin en probabilidad. Ese
estadstico se llama el Estadstico del Test de Hiptesis.
A la regin R1 que implica el rechazo de H0 , se le llama Regin Crtica del
Test.
3.2.1.
Tipos de Errores
En relacin con la decisin adoptada en un test de hiptesis se pueden cometer dos tipos de errores al aceptar o rechazar H0 :
Error de tipo I (eI ) : Rechazar H0 cuando es Cierta
Error de tipo II (eII ) : Aceptar H0 cuando es Falsa
El siguiente cuadro muestra las cuatro situaciones posibles:
3.3. EL P-VALUE
57
XXX
XXX
acepto
XXX
verdad
XXX
H0
H1
H0
H1
Correcto
eII
eI
Correcto
Las probabilidades de los errores P (eI ) y P (eII ) son:

= P (eI ) = P ({xi }N
i=1 R1 | 0 )
observad que esta probabilidad depende del test , que es quien nos caracteriza R1 ,
y depende tambin del verdadero H0 y se le llama el nivel de significacin del
test o el tamao de la regin crtica. La otra probabilidad es
= P (eII ) = P ({xi }N
i=1 R0 | 1 )
esta probabilidad, , depende del test y del verdadero 1 y su complemento a
uno se le llama la Potencia del Test.
1 = P ({xi }N
i=1 R1 | 1 )
la potencia es la probabilidad de que los datos sean conformes con H1 cuando es
cierta H1 .
Por ltimo veamos algunas definiciones relacionadas con los contrastes de hiptesis:
Hiptesis Simple.- Si el conjunto 0 consta de un solo elemento, la hiptesis H0 se
llama Simple, en ese caso la P (eI ) tiene valor nico. Si 0 consta de ms de un
elemento, la hiptesis H0 se llama Compuesta y el valor de P (eI ) depende de los
elementos . Lo mismo se puede decir de la H1
Test Significativo.- Un test se dice estadsticamente significativo cuando concluye
aceptando la hiptesis alternativa. Lo cal NO significa que sea cierta, sino que los
datos son ms conformes con ella.
Test No Significativo.- Un test se dice estadsticamente NO significativo cuando
concluye aceptando la hiptesis nula. Lo cal NO significa que sea cierta, sino que los
datos son ms conformes con ella. Muchos paquetes de software dicen entonces:Fail
to reject the null hypotesis o bin No significative evidence for H1.
3.3.
El P-Value
Supongamos que, en relacin con el valor desconocido de la media de una

poblacin, de la que sabemos sigue una ley Normal, tenemos un test de hiptesis
simple H0 : { = 5} y alternativa compuesta H1 : { 6= 5} , si al tomar una
58
= 5,8 cal es la conclusin del Test?. La

muestra concreta se obtiene una X
decisin depende del error que consideremos. Por ejemplo para este caso, vamos
a suponer que = 1 y n = 25, y vamos calcular las regiones crticas para los
casos = 0,01 y = 0,5. Vemos que valores de grandes proporcionan regiones
crticas grandes. En resumen si no estamos dispuestos a tolerar un error grande,
muy probablemente de l obtendremos una regin crtica que nos har aceptar H0 .
Conforme vayamos siendo menos exigentes con , es decir permitiendo que sea ms
grande, irn apareciendo regiones crticas cercanas a la no aceptacin de la H0 , hasta
llegar un momento en que ocurre eso.
Valor P.- Para una muestra concreta Al error de la primera regin crtica que
rechaza H0 es a lo que llamamos P-Valor o nivel crtico del Test.
Repetimos que el valor de P se obtiene con una muestra concreta. Entonces si
P es pequeo, el error de la primera regin crtica que rechaza H0 es pequeo, por lo
que las evidencias que con esa muestra se tiene en contra de H0 es grande. Cuanto
ms pequeo sea P mayor evidencia proporcionan los datos en contra de
H0 .
Dar el valor de P es ms informativo, en el sentido de que conocido ste sabemos
que:
Para un < P se decide H0
Para un P se decide H1
Recordemos:
? Los valores pequeos de P indican mayor evidencia para rechazar H0
? El valor P se obtiene a partir de una muestra concreta.
? El valor de lo elige el experimentador en funcin directamente proporcional
a lo que quiera arriesgar a que se produzca una decisin favorable a H1 cuando
no es cierta.
Esto quiere decir que si, por ejemplo, para una muestra concreta obtenemos
un valor de P = 0,001, indica que para valores de < 0,001 se acepta la H0 , y para
valores de 0,001 se decide H1 . En resumen existen fuertes evidencias en contra
de H0 ya que sta solo se aceptara si elegimos valores pequeos de ( < 0,001
), es decir si elegimos que la probabilidad de aceptar H1 cuando H0 es cierta es
pequea, por ejemplo para = 0,0005 < P = 0,001 aceptariamos H0 . Mientras que si
NO damos importancia al hecho de decidir errneamente a favor de H1 cuando H0
es cierta, podemos tomar un ms grande, por ejemplo = 0,07 y entonces aceptar
H1 .
3.4. TEST PARA LA MEDIA
Si P = 0,001 =
59
para = 0,0005 elegimos H0
para = 0,07
elegimos H1
Por ltimo digamos que, en el caso de no tener evidencias a favor de asignar

un determinado valor a , existe un acuerdo no escrto de tomar = 0,05
3.4.
Test para la Media
El parmetro en estudio es la media de una poblacin. Distinguiremos entre

que se trate el caso de una, de dos o de mas dos, muestras a comparar. En todos
ellos es fundamental saber si los datos en estudio pueden considerarse realizaciones
de una variable aleatoria normal, brevemente y abusando del lenguaje, si los datos
son "normales". Ello tiene menos trascendencia en el caso de que la(s) muestra(s)
en estudio tenga(n) un tamao grande, pues entonces se recurre al teorema central
del limite. Pero en ese caso se incorpora a los resultados ademas de la incertidumbre
en probabilidad el hecho de ser un resultado aproximado. Notemos que la expresin grande es sujetiva por lo que podemos encontrar diferencias de unos autores a
otros1 No hay problematica si consideraremos grande una muestra de tamao 100 o
mayor.
3.4.1.
Test para una Media
En estos se trata de estudiar cuando la media de la poblacin de la que procede

una muestra tiene un determinado valor. Por ejemplo, la forma mas usual del test
es {H0 : = a} frente a {H1 : 6= a}
En Poblaciones Normales de varianza 2 conocida (One-Sample Normal Test) , el
N (0, 1)
estadistico que resuelve el test es U = (Xa)
En Poblaciones Normales de varianza desconocida (One-Sample t-Test), el esta

distico que resuelve el test es U = (Xa)
t (n1) observar que al ser desconocida la
s
n
desviacin tpica de la poblacin, se usa la desviacin tipica s de la muestra.

Si no podemos partir de poblaciones Normales es posible usar los resultados anteriores de forma aproximada usando el teorema central del lmite. Para ello debemos
tener una muestra grande; an ms grande si la varianza es desconocida.
1 ()
60
3.4.2.
Test para dos Medias
Se trata de contrastar las medias de las poblaciones de las que proceden dos
muestras. La forma ms usual del test es {H0 : 1 = 2 } frente a {H1 : 1 6= 2 }
En 2 Poblaciones Normales de Igual Varianza (Two-Sample T-test) el estadistico
Y )
(X
que resuelve el test es U = q
t(n1 +n2 2) en donde n1 y n2 son los tamaos
1
1
sp
de las dos muestras y

s2p =
s2p
n1
+n
se conoce con el nombre de Pooled Variance, cuyo valor es
(n1 1)s21 +(n2 1)s22

(n1 +n2 2)
En 2 Poblaciones Normales con Distinta Varianza El problema se conoce con el

nombre de Behrens-Fisher el estadstico es parecido al anterior pero con un denominador diferente y siguiendo una ley t con M grados de libertad, siendo M un entero
que se calcula aplicando una regla 2 Satterthwaite.
Cuando las observaciones pueden considerarse relacionadas (paired samples) tomamos la muestra formada por las diferencias y le aplicamos lo dicho para una muestra.
3.4.3.
Test para ms de dos Medias
El problema de contrastar ms de dos medias es muy amplio y constituye todo

un gran apartado de la Inferencia, que se conoce con el nombre (paradjicamente)
de Anlisis de la Varianza.
2()()
Captulo 4
Regresin
4.1.
Introduccin
El Anlisis de Regresin es una tcnica estadstica para investigar y modelar

la relacin existente entre dos variables aleatorias. Una primera accin que podemos
realizar para tratar de determinar, aunque solo sea intuitivamente, si existe algn
tipo de relacin entre dos v.a. (X, Y ), es tomar una muestra de ellas {(xi , yi )}ni=1 y
representarla. La nube de puntos nos d una idea acerca de si puede considerarse
que haya relacin entre las variables X e Y y tambin de la forma que puede tener
esa relacin.
Vamos a usar los datos relatados en el libro de Drapper y Smith pgina 352,
los valores de X son cantidad de humo, que denominaremos CHumo, arrojados
diariamente a la atmsfera por una instalacin industrial. Los valores de Y son la
temperatura media del da en grados Fahrenheit, que denominaremos GradosF.
(X, Y ) = {(10,98, 35,3), (11,13, 29,7), (12,51, 30,8), (8,4, 58,8), (9,27, 61,4), (8,73, 71,3),
(6,36, 74,4), (8,5, 76,7), (7,82, 70,7), (9,14, 57,5), (8,24, 46,4), (12,19, 28,9), (11,88, 28,1),
(9,57, 39,1), (10,94, 46,8), (9,58, 46,5), (10,09, 59,3), (8,11, 70,0), (6,83, 70,0), (8,88, 74,5),
(7,68, 72,1), (8,47, 58,1), (8,86, 44,6), (10,36, 33,4), (11,08, 28,6)}
Para leerlos desde R lo hacemos como es habitual con el mandato read.table
datos<-read.table("DS.txt",header=T,sep=",")
attach(datos)
Al haber cogido el dataframe con attach, si tecleamos CHumo vemos la pri61
62
CAPTULO 4. REGRESIN
mera columna que contiene los valores de la variable cantidad de humo arrojada. De
igual manera podemos ver la segunda columna GradosF que contiene los valores de
la variable temperatura, meddas en grados Fahtrenheit.
Mediante un anlisis de regresin lineal puede ser abordado el objetivo siguiente: Determinar si la variable X "GradosF"puede ser usada para predecir los valores
de la variable Y Humo".
Pero deseamos trabajar con grados centigrados, por ello vamos a derivar una
variable nueva "GradosC.en la que aparezcan las temperaturas en grados Centgrados.
Para ello recordamos la relacin entre las escalas en grados centigrados y fahrenheit:
(T F 32)
Tc
= (21232)
.
100
GradosC<-100*(GradosF-32)/180
Volvamos al objetivo de determinar si la variable GradosC puede ser usada
para pronosticar los valores de la variable CHumo, mediante un modelo de regresin
lineal simple. Vamos a dibujar un diagrama de puntos con ellos. Por la sencilla razn
de que un modelo de regresin lineal simple es admisible si los datos se ajustan a
una linea recta de pendiente distinta de cero, entonces el primer paso en este estudio
de Regresin debera de ser representarlos. Ello nos puede proporcionar una primera
informacin de si tiene sentido plantearse ese modelo.
plot(GradosC,CHumo)
Si quereis ver un ejemplo en donde, al hacer el diagrama de puntos, de inmediato se observa que no tiene sentido un modelo de regresin lineal simple, cargar
de la libreria MASS un archivo de nombre mcycle que contiene una serie de datos
de una experiencia, para validar el uso de casco, en donde se simula un choque de
una moto.
library(MASS)
data(mcycle)
attach(mcycle)
plot(mcycle)
4.2.
Regresin Lineal Simple
El modelo de Regresion Lineal Simple es de la forma Y = + X + .

La variable independiente X recibe el nombre de variable regresora o tambin de
4.2. REGRESIN LINEAL SIMPLE
63
variable de prediccin, ya que con ella se pretende predecir los valores que tomara
la variable dependiente Y , que recibe el nombre de variable respuesta. El simbolo
nota a una variable aleatoria llamada Error. Si llamamos y = + x , el modelo
implica que cada dato (x, y) puede ser obtenido de la forma y = y + , es decir cada
valor de la variable respuesta se puede expresar a partir de y mas un valor de la
variable error, es usual llamar a ese valor Error o Residuo. Segn eso, para cada
xi la diferencia entre el valor observado yi y el que se obtiene yi al sustituir en la
ecuacin de regresin lineal se llama Error o Residuo ei
i)
ei = yi yi = yi (
+ x
; i = 1, 2, . . . ,n
los residuos juegan un importante papel en el anlisis de la validez del modelo de

regresin y en la verificacin de las hiptesis que previamente deben cumplirse.
Las siguientes hiptesis se incluyen en el modelo:
La relacin entre X e Y es lineal.
Los residuos NO estn correlacionados: El valor de un error no depende del
valor de otro cualquiera.
Para cada valor de X, x = x0 , se cumple que la v.a. N (0, 2 )
Para cada valor de X, x = x0 , la variable aleatoria Y |x0 tiene de media y
varianza:
E[Y |x0 ] = + x0
; V [Y |x0 ] = V ( + x0 + ) = 2
Lo anterior nos indica que la media de Y es una funcin lineal de X y que su

varianza no depende de X. Adems al ser no correlacionados, los errores, ello nos
indica que las respuestas y tambin lo son.
Los coeficientes y se denominan coeficientes de la regresin y en concreto
el coeficiente es la ordenada en el origen y el coeficiente es la pendiente de la
regresin.
La pendiente puede interpretarse como el cambio en la media de la distribucin de Y producido cuando X aumenta en una unidad.
Si el rango de x incluye al 0 entonces puede interpretarse como el valor de la
media de la distribucin de la v.a. Y |x = 0 si no es as no admite esa interpretacin.
4.2.1.
Estimacin de los Coeficientes del modelo
Los coeficientes del modelo de regresin son desconocidos y deben ser estimados
a partir de una muestra. El mtodo de los mnimos cuadrados puede ser usado para
64
CAPTULO 4. REGRESIN
estimarlos. El mtodo consiste en tomar aquellos valores de esos coeficientes tal que
hacen mnima la suma de los cuadrados de los Residuos:
S(, ) =
n
X
yi (+xi )
2
i=1
la solucin de ese problema proporciona que la ecuacin de regresin lineal es
y=
+ x
SXX =
siendo:
SXY
donde =
SXX
n
P
(xi x)2
i=1
,
= y x
SXY =
n
P
(xi x)(yi y)
i=1
Los coeficientes del modelo que han sido estimados por el mtodo de los mnimos cuadrados, poseen buenas propiedades: 1) Son insesgados; 2) Son de mnima
varianza.
El mandato de R para hacer un aregresin lineal es lm (linear models).
lm(y~x, data)
El primer argumento de este comando es una expresin y x en la que se indica
la variable respuesta o dependiente (y) y cul es la variable regresora o independiente (x). El segundo argumento, llamado data especifica cul es el fichero en el que
se encuentran las variables. Si las variables las hemos tomado con attach no es
necesario poner el argumento data.
lm(CHumo~GradosC)
Call:
lm(formula = CHumo ~ GradosC)
Coefficients:
(Intercept)
11.0685
GradosC
-0.1437
Si el resulatdo lo asignamos a un objeto llamado regresion. Este objeto es una

lista que contiene la informacin sobre el anlisis de regresin; y con el comando
summary obtenemos un resumen de los principales resultados
regresion<-lm(CHumo~GradosC)
65
summary(regresion)
Call:
Residuals:
Min
1Q Median
-1.6789 -0.5291 -0.1221
3Q
0.7988
Max
1.3457
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 11.06847
0.28052 39.458 < 2e-16 ***
GradosC
-0.14369
0.01894 -7.586 1.05e-07 ***
--Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
Residual standard error: 0.8901 on 23 degrees of freedom
Multiple R-squared: 0.7144,Adjusted R-squared: 0.702
F-statistic: 57.54 on 1 and 23 DF, p-value: 1.055e-07
Los coeficientes (obtenidos por el mtodo de mnimos cuadrados) de la recta
de regresin lineal que predice la variable CHumo en funcin de la variable GradosC
vienen en la columna Estimate de la tabla Coefficients de la salida anterior.
tambin pueden ser obtenidos mediante:
coefficients(regresion)
(Intercept)
GradosC
11.0684711 -0.1436916
De forma anloga se pueden obtener los residuos o errores
residuals(regresion)
1
2
3
4
5
6
0.17496361 -0.12207708 1.34573449 -0.52906210 0.54849250 0.79879656
7
8
9
10
11
12
-1.32373449 0.99987151 -0.15910065 0.10716060 -1.67893790 0.87405997
13
14
15
16
17
18
0.50019701 -0.93168736 1.05299358 -0.17129764 1.20085225 0.07501926
19
20
21
22
23
24
-1.20498074 1.20424838 -0.18734048 -0.51494219 -1.20262955 -0.59671091
25
-0.25988864
66
CAPTULO 4. REGRESIN
Ytambin las prediciones o valores ajustados

fitted.values(regresion)
1
2
3
4
5
6
7
8
10.805036 11.252077 11.164266 8.929062 8.721507 7.931203 7.683734 7.500128
9
10
11
12
13
14
15
16
7.979101 9.032839 9.918938 11.315940 11.379803 10.501687 9.887006 9.751298
17
18
19
20
21
22
23
24
8.889148 8.034981 8.034981 7.675752 7.867340 8.984942 10.062630 10.956711
25
11.339889
La recta de regresin obtenida y = 11,06847 0,14369x , pasa por el punto
(X, Y ), como podeis comprobar, bien mediante un grfico

plot(GradosC,CHumo)
lines(GradosC,fitted(lm(CHumo~GradosC)),col=2)
points(mean(GradosC),mean(CHumo),pch=19)
Ese punto se conoce con el nombre de centroide de la muestra.
Puesto que el centroide es un punto de la recta de regresin y conocemos su
pendiente estimada podemos decir que una forma alternativa del modelo de regresin
lineal simple es: y y = (x x) +
Conviene insistir que los coeficientes estimados para el modelo se han hecho
con una muestra de datos concreta, por lo que el modelo de regresin slo es
vlido en el rango de la muestra.
4.2.2.
Estimacin del Error Tpico de la Regresin
Para realizar contrastes sobre los coeficientes estimados del modelo es necesario, previamente, estimar la varianza 2 de los errores. Pero para estimar la varianza
2 de los errores, deberiamos disponer de gran cantidad de observaciones para al menos un valor x0 de X. Esta situacin ideal rara vez se d, por lo que no nos queda
mas remedio que estimar 2 a partir de todos los residuos. Lo que no deja de ser
una contradicin, ya que ellos son dependientes del modelo. Una estimacin de 2
es
n
n
X
X
SSE
= M SE siendo SSE =
e2i =
(yi yi )2
2 =
n2
i=1
i=1
67
La denominacin de M SE indica que es la Mean Square Error, es decir la

Media de los Errores al Cuadrado. Por lo que su raiz cuadrada, es decir
recibe el
nombre de Error Tpico de la Regresin, no olvidar que en teora la media de los
errores es 0. Observar que el Error Tpico,
, viene en las mismas unidades que
la variable Y , y es un buen indicador de la calidad del ajuste es decir de la calidad
del modelo. Valores pequeos de l indica buen ajuste, al contrario valores grandes.
Sin olvidar que eso es vlido en la medda que se cumplan las condiciones de validez
del modelo. Por ello:
Es importante no olvidar que
(el Error Tpico de la Regresin) es dependiente
del modelo. Por tanto cualquier error en su elaboracin o cualquier violacin de las
hiptesis del modelo repercute sobre la capacidad de
para informar acerca de la
validez del modelo. Esta capacidad consiste en lo siguiente:
En concreto
mide la variabilidad de los datos alrededor de la recta de regresin. Cuanto ms grande sea
ms grandes son las diferencias entre las observaciones yi y las predicciones yi y menos bueno ser el modelo para predecir Y por
medio de X.
La funcin summary(regresion) nos d, tambie, ese error tpico de la regresin
summary(regresion)
Call:
Residuals:
Min
1Q Median
-1.6789 -0.5291 -0.1221
3Q
0.7988
Max
1.3457
Coefficients:
0.28052 39.458 < 2e-16 ***
GradosC
-0.14369
0.01894 -7.586 1.05e-07 ***
--Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
68
CAPTULO 4. REGRESIN
aparece en la antepenltima fila: Residual standard error: 0.8901

Podemos preparar una funcin que nos lo calcule:
errortipico.regresion<-function(modelo){
+ errores<-residuals(modelo)
+ grados<-df.residual(modelo)
+ error<-sqrt(sum(errores^2)/grados)
+ return(error)}
de manera que una vez adoptado como modelo el de
regresion<-lm(CHumo~GradosC)
basta ejecutar esa funcin, para obtener el error tpico de la regresin:
errortipico.regresion(regresion)
[1] 0.8901245
4.3.
Tests de Hiptesis para los Coeficientes del Modelo
Hemos dicho que los estimadores de los coeficientes del modelo son insesgados
y de mnima varianza. En concreto:

E
=
h

x2 i
2 1
+
;
V
=
n SXX

E =

2
V =
SXX
resultado al que se puede llegar a partir de las expresiones obtenidas para

y para
. Al final del tema teneis la deduccin de la varianza de .

Una interesante tarea es calcular, con R y esas frmulas, la varianza de los
coeficentes de un modelo concreto. Por ejemplo, el que estamos siguiendo.
4.3.1.
Tests sobre la Pendiente
La hiptesis sobre la relacin lineal, una de las bsicas para la validez del
modelo, puede ser contrastada con dos pruebas. Bien con un test t sobre la pendiente
o bien con un test F sobre la pendiente. Generalmente los paquetes estadsticos dan
uno u otro, pocos dan ambos.
4.3. TESTS DE HIPTESIS PARA LOS COEFICIENTES DEL MODELO
69
La importancia del test sobre la pendiente se explica as:

Si consideramos el test {H0 : = 0 ; H1 : 6= 0 ; } y aceptamos la hiptesis nula
H0 : = 0 se deduce que la E Y |x0 = + x0 = para cualquier x0 . Es decir
de la muestra no se deduce relacin entre las variables. Por tanto no tiene sentido
hacer ese anlisis de regresin lineal.
Con la funcin summary() podemos ver el resultado de ese test
summary(regresion)
Call:
Residuals:
Min
1Q Median
-1.6789 -0.5291 -0.1221
3Q
0.7988
Max
1.3457
Coefficients:
0.28052 39.458 < 2e-16 ***
GradosC
-0.14369
0.01894 -7.586 1.05e-07 ***
--Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
La linea que comienza con,
GradosC
-0.14369
0.01894
-7.586 1.05e-07 ***
nos d el valor de la pendiente, su error tpico, el valor del estadstico del test y,
lo importante, el p-valor. Observar que d un p-valor= 1,05e 07 muy pequeo, lo
que recordemos es una evidencia muy fuerte en contra de H0 : = 0. Por tanto es
aceptable suponer linealidad.
4.3.2.
Test sobre la Ordenada en el Origen
Podemos hacer un test bilateral H0 : = 0
H1 : 6= 0 .
70
CAPTULO 4. REGRESIN
Un caso particularmente importante es H0 : = 0 H1 : 6= 0 pues si = 0

el modelo pasa por el origen de coordenadas, lo que puede o no ser exigible en funcin
de la naturaleza de la experiencia aleatoria de donde proceden los datos. Es decir
algunas aplicaciones implican que el modelo a utilizar debe de pasar por el origen de
coordenadas.
Estos modelos, con ordenada en el origen = 0, se conocen con el nombre de
Regression through the Origin, o tambin por No-Intercept Model1 Incluso cuando el
trmino independiente no es significativamente distinto de cero, no est claro cuando
debe ser aceptado un tal modelo.
De nuevo el mandato summary(regresion) nos da el resultado de ese test
summary(regresion)
Call:
Residuals:
Min
1Q Median
-1.6789 -0.5291 -0.1221
3Q
0.7988
Max
1.3457
Coefficients:
0.28052 39.458 < 2e-16 ***
GradosC
-0.14369
0.01894 -7.586 1.05e-07 ***
--Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
la linea que comienza con:
0.28052
39.458
< 2e-16 ***
nos d el valor del termino independiente de la ecuacin de la recta, su error tpico,

el valor del estadstico del test y, lo importante, el p-valor. Observar que d un pvalor=< 2e 16 muy pequeo, lo que recordemos es una evidencia muy fuerte en
contra de H0 : = 0. Por tanto es aceptable suponer que l arecta de regresin no
pasa por el origen.
1(?)
4.4. I.C. PARA LOS COEFICIENTES DE LA RECTA DE REGRESIN
4.4.
71
I.C. para los Coeficientes de la Recta de Regresin
Los intervalos de confianza para los parmetros y se obtienen con el comando confint. Que tiene un argumento, level que permite elegir el nivel de confianza
(si no se indica toma el valor por defecto que es 0.95):
confint(regresion)
2.5 %
97.5 %
(Intercept) 10.4881806 11.6487616
GradosC
-0.1828771 -0.1045062
confint(regresion,level=0.9)
5 %
95 %
(Intercept) 10.5877036 11.5492386
GradosC
-0.1761566 -0.1112267
4.5.
Intervalo para la respuesta media para un valor

de x

Para un valor dado de X = x0 , la E Y |x0 = + x0 es lo que esperamos
obtener de respuesta en promedio para el valor de X = x0 . Una estimacin puntual
0.
de dicha media es y0 =
+ x

Es posible calcular un intervalo de confianza para la E Y |x0 . Con los intervalos de confianza para todos los posibles valores del rango de X obtendremos, al
dibujar los extremos de esos intervalos, unas lineas, entre la de regresin que se
conocen con el nombre de bandas de confianza.
El mandato que nos proporciona estos intervalos es
predict(regresion,interval="confidence")
4.6.
Intervalo para una prediccin
Una de las principales aplicaciones del anlisis de regresin es la prediccin de

una nueva observacin correspondiente a un valor de la variable regresora X.
72
CAPTULO 4. REGRESIN
0 . Pero y0 es una
Para un valor de X = x0 una prediccin de Y es y0 =
+ x
estimacin de los valores y0 que puede tomar la Y |X = x0 .
Para un x0 es posible calcular el intervalo de prediccin. Y si eso lo hacemos
para cualquier x0 obtenemos el intervalo de prediccin, y dibujamos los extremos
obtendremos dos lineas, entre elllas estar la recta de regresin, que se denominan
lineas de prediccin.
Em nadato de R que nos permite obtener esos inetrvalos es
predict(regresion,interval="prediction")
Notas:
1) Los intervalos que se deducen de (5) y (6) toman su radio menor, cuando
es x = x0 y van aumentando cuando lo hace |
x x0 |
2) Interesa notar la diferencia con el resultado del apartado anterior: En el
apartado anterior el intervalo obtenido es una previsin para una media, para un parmetro. En este apartado se trata de hacer una previsin para una
observacin, para un valor de Y .
3) Las lineas de prediccin forman una franja ms ancha que la determinada
por las bandas de confianza. Debido a que las primeras se generan con un
intervalo que tienen, igual centro, pero radio mayor que el intervalo que genera
a las segundas.
4) Si retomamos juntas las notas 1) y 3) concluimos que las inferencias en
regresin lineal es tanto ms buena cuanto ms cerca se haga del centroide de
la nube de puntos.
Para pintar todo.
plot(GradosC,CHumo)
lines(GradosC,fitted(lm(CHumo~GradosC)),col=2)
ic1<-predict(regresion,interval="confidence")
ic2<-predict(regresion,interval="prediction")
lines(GradosC, ic1[, 2], lty = 2)
lines(GradosC, ic1[, 3], lty = 2)
lines(GradosC, ic2[, 2], lty = 2,col="blue")
lines(GradosC, ic2[, 3], lty = 2,col="blue")
4.7. PRECAUCIONES EN EL USO DE LA REGRESIN
4.7.
73
Precauciones en el Uso de la Regresin
Algunos errores frecuentes y algunas precauciones que debemos tomar en el uso

de la regresin son:
(1) No es correcto inferir fuera del rango de la muestra de la variable regresora.
(2) Hay que tener cuidado con los valores aislados ( outliers ). Conviene verificarlos
por si son fruto de algn error. Se trata de puntos de la nube, que estn claramente
separados de los dems. Pueden estar separados en la direccin del eje de abcisas o
de ordenadas.
(3) Un anlisis de regresin puede indicar una fuerte relacin entre dos variables.
Pero eso NO quiere decir que exista relacin de Causalidad.
(4) No es lo mismo hacer una regresin de Y sobre X que de X sobre Y . En general
los resultados son distintos. Pues las distancias que se minimizan son distintas. La
decisin sobre cual hacer depende de cual sea nuestro inters en predecir: Si Y a
partir de X o al revs.
(5) Algunas aplicaciones implican que el modelo a utilizar debe de pasar por el origen
de coordenadas. La recta tendr de ordenada en el origen = 0. Estos modelos se
conocen con el nombre de Regression through the Origin, o tambin por No-Intercept
Model.
4.8.
Verificaciones sobre el Modelo
El modelo de regresin lineal hace unas suposiciones que son necesarias verificar:
(1) La relacin entre X e Y es lineal.
(2) Para cada valor de X los errores N (0, 2 )
LO que implica tres hiptesis:
a)Los errores son normales.
b)Los errores tienen de media cero.
c)Los errores tienen igual varianza.
(3) Los errores NO estn correlacionados.
74
CAPTULO 4. REGRESIN
Adems de las anteriores hay otra genrica: se supone que la muestra es alea-
toria.
Una planificacin correcta de la experiencia puede asegurarnos la ltima de
las hiptesis, la aleatoriedad. Ms dificil es verificar las hiptesis contenidas en (2).
Si dispusieramos de muchas observaciones para cada valor de X, un test de Normalidad (p.e. DAgostino, o Shapiro-Wilks, o Stephens) puede verificarnos la (2-a)
; un test de Bartlett puede verificarnos la homogeneidad de varianzas. Usualmente
no se disponen de varias observaciones para cada valor de X por lo que hay que
recurrir a otras alternativas. Una de las metodologias ms empleadas es el Anlisis
de Residuos.
4.9.
Anlisis de Residuos
Standardized Residuals
En el modelo los errores tienen de media cero y su varianza puede ser estimada
E
= M SE ; algunas veces se trabaja con ellos tipificados, reciben el nombre
por
= SS
n2
de standardized residuals es decir Errores Tipificados, para ello se hace
ei
di =
, i = 1, 2, . . . , n
M SE
2
Los grficos de Residuos o de los Residuos tipificados ayudan a detectar deficiencias del modelo. Se espera que en general, para un modelo correcto, los residuos
standarizados estn la mayora entre 2 y 2. La opcin StandardizedResiduals
permite sacar una lista con ellos.
Los residuos tipificados pueden tambin ayudar a detectar No Normalidad si
recordamos que en una Normal tpica el 68 % de los valores deben estar entre 1 y
+1 ; el 95 % debe estar entre 2 y +2 ; el 99,7 % debe estar entre 3 y +3. Si la
muestra es pequea estos valores deben ser sustituidos por los de una t(n 2)
Normal Probability Plot:
Consiste en dibujar en el eje de abcisas los residuos tipificados y ordenados y
en el eje de ordenadas los valores esperados para los anteriores. La base terica es
que si los residuos tipificados N (0, 1) entonces la nube de puntos

d[i] , E d[i]
estn aproximadamente en linea recta
Observar que

(i 12 )
E d[i] F 1 [
] ,
n
i = 1, 2, . . . , n
4.10. AUTOCORRELACIN
75

Las E d[i] se denominan Expected Normal Values o tambin Rankits. Algunas
veces el grfico se hace en lugar de con los residuos tipificados, con los residuos. Hay
que tener cuidado con ello.
Al fin y al cabo un Normal Probability Plot es una prueba grfica de normalidad. Es preferible hacer directamente una prueba o test de Normalidad.
Plot de Residuos frente a Predicciones:
Un grfico de los residuos ei frente a sus correspondientes yi puede ser usado
para detectar: Homogeneidad de las varianzas; Linealidad; Puntos aislados.
Plot de Residuos frente a X:
Cumple un papel similar al anterior grfico.
4.10.
Autocorrelacin
Recordemos que otra hiptesis del modelo es que los errores estn NO correlacionados. A veces suele fallar. Sobretodo en datos de tipo temporal. El problema se
conoce con el nombre de Autocorrelacin cuando es posible aceptar un oden natural,
y su presencia hace que el modelo de regresin lineal posea serios inconvenientes:
Los coeficientes son insesgados pero no de mnima varianza.
Si la autocorrelacin es positiva,M SE sobreestima a 2 , se obtiene una falsa
impresin de buen ajuste (intervalos pequeos , etc.)
La causa ms comn de la aparicin de este problema es que se ha omitido
una variable regresora.
Plot de Residuos frente Tiempo: Este grfico ayuda a detectar la autocorrelacin.
Si hay autocorrelacin positiva los residuos de igual signo ocurren en cluster.
Si hay autocorrelacin negativa los residuos cambian de signo muy rapidamente.
Test para detectar Autocorrelacin: Existen algunos test para tratar de
detectar autocorrelacin. El ms conocido es el Test de Durbin-Watson: El test supone que los errores responden a lo que se denomina un modelo Autoregresivo de
Primer Orden:
t = t1 + at
at N (0, 2 )
:||<1
76
CAPTULO 4. REGRESIN
siendo el coeficiente de autocorrelacin. El test tiene la formulacin H0 : = 0

n
P
frente a H1 : > 0 el estadstico para el test es d =
(et et1 )2
i=2
n
P
i=2
n
P
el valor de se estima por r =
e2t
et et1
i=2
n
P
i=2
e2t1
entre d y r existe la relacin d 2(1 r) y 0 < d < 4. Puesto que r es una

estimacin de , bajo la hiptesis de que = 0 ser d 2 y cuando = 1 debe estar
d0
Durbin y Watson (1951) probaron que es posible encontrar un intervalo cerrado
[Dizqda , Ddcha ] de manera que:
Si d < Dizqda se rechazaH0
Si d > Ddcha NO se rechazaH0
Si d [Dizqda , Ddcha ]No se Concluye
los valores [Dizqda , Ddcha ] estn tabulados.
En el caso, menos usual de sospechar autocorrelacin negativa el test debe ser
formulado H0 : = 0 frente a H1 : < 0 el estadstico para el test es ahora 4 d.
4.11.
El Coeficiente de Determinacin
La cantidad R2 = SSSY YR = 1 SSSY EY se llama Coeficiente de Determinacin.

Puesto que la cantidad SY Y es una medida de la variabilidad total sin considerar el
efecto de la regresin, y puesto que la cantidad SSE es una medida de la variabilidad
residual, que queda tras de eliminar la explicada por la regresin. Entonces R2 puede
ser interpretado como la proporcin de variabilidad que explica la variable regresora
X.
Como 0 SSE SY Y se deduce que 0 R2 1.
Valores de R2 prximos a 1 indica que la mayor parte de la variabilidad de Y
es explicada por el modelo de regresin.
4.12.
El Coeficiente de Correlacin
Un modelo de regresin lineal permite detectar si los valores de una variable

estan relacionados con los de otra. Pero no dice el grado de la relacin. Un error
4.12. EL COEFICIENTE DE CORRELACIN
77
frecuente es creer que est dado por la inclinacin de la pendiente.

Para detectar asociacin entre dos variables X e Y se puede usar el Coeficiente
de Correlacin
SXY
r=
SXX SY Y
los valores posibles de r [1, +1] su signo nos dice el sentido de la asociacin y
su magnitud nos d la fuerza de esa asociacin, as:
Si r 0 las variables son incorreladas.
Si r2 1 las variables se dice fuertemente correladas. Cuanto ms proxima a
1 est r2 ms fuerte es la correlacin.
Cuando r 1 la correlacin es negativa. Cuando r +1 la correlacin es
positiva.
La idea de Correlacin es un aspecto de la Regresin Lineal. Entre los coeficientes de Determinacin y el de Correlacin existe la
SSR
SXY
=
= R2
r2 =
SY Y
SY Y
El coeficiente de correlacin que en cada experiencia obtenemos es muestral,
por tanto una estimacin del verdadero poblacional, que llamamos . Se puede hacer
un test de hiptesis sobre l:
r
H0 : = 0, H1 : 6= 0 para ello
(n 2)r2
t(n 2)
1 r2
Coeficiente de Correlacin Parcial: Tal como en el caso de la regresin lineal la

existencia de asociacin entre dos variables NO quiere decir que una sea la CAUSA
de la otra. Puede ocurrir que Si sea la causa que No lo sea o que una tercera variable
lo sea.
Un ejemplo clsico es:
Dadas tres variables X, Y, Z se define el Coeficiente de Correlacin Parcial
entre X e Y al margen (quitando el efecto) de Z de la siguiente forma:
rXY rXZ rY Z
rXY.Z = p
2
(1 rXZ
)(1 rY2 Z )
Como antes, el coeficiente de correlacin parcial que en cada experiencia obtenemos es muestral, por tanto una estimacin del verdadero poblacional. Se puede
hacer un test de hiptesis sobre l:
78
CAPTULO 4. REGRESIN
s
H0 : XY.Z = 0 , H1 : XY.Z 6= 0 para ello
4.13.
2
(n 3)rXY.Z
t(n 3)
2
1 rXY.Z
Datos Aislados
Un anlisis de residuos puede no detectar valores aislados, si usamos el criterio de llamar as slo a los que tienen residuos grandes. Puede haber datos con
residuo nulo y que estn muy separados del resto. Conviene pues distinguir entre
valores aislados en la direccin del eje "X.o en la del eje "Y", o que lo estn en ambos sentidos. Lo que importa es ver si esos valores ejercen gran influencia sobre el
modelo, en el sentido de que ste cambie sustancialmente, cuando en su elaboracin
si-o-no se toman esos valores. Ello supone hacer un doble trabajo, primero hacemos
el anlisis de regresin con esos puntos aislados y despues sin ellos.
Leverage : Es una medda para determinar si un punto es aislado en la direccin
del eje "X", se nota por hi y se define
hi =
(xi x)2
1
+P
n
n
(xi x)2
i=1
siendo n el nmero de de datos. Este coeficiente varia en hi [0, 1] y su valor

esperado o promedio es np , donde p es el nmero de coeficientes del modelo, dos en el
caso que nos ocupa de regresin lineal simple. Decir cuando un valor del coeficiente de
Leverage es alto o bajo es subjetivo y por ende podemos encontrar criterios variados.
Los mas usuales son los que consideran valores de leverage grandes aquellos que
superan al doble-o-triple del promedio. En cualquier caso conviene recordar que solo
debemos estar atentos a aquellos valores de alto leverage si influyen de forma clara
en el modelo.
Una medida de los aislados en la direccin del eje "Y.es los residuos estandarizados , standardized residual
4.14.
Diagnostico de la Regresion
Es corriente hacer un diagnostico de una regresin tomando para ello los valores de:
4.15. TRANSFORMACIONES
79
De R2 ( medida del porcentaje de variacin de la variable y que puede ser explicado

por la variacin de la variable explicativa )
De s, ( el error tpico de la regresin o el error tpico de los residuos ).
De un test F sobre la posibilidad de relacin lineal ( overall F -test ).
Esos valores proporcionan una importante informacin sobre la validez del
modelo, pero la decisin final no debe de hacerse solo sobre la base de esos valores.
Anscombe 1973, muestra cuatro muestras muy diferentes de datos con los mismos
valores de s de R2 y el mismo modelo de regresin:
4.15.
Transformaciones
La hiptesis de que existe relacin lineal entre X e Y puede ser desechada por
un test de falta de ajuste o un test sobre la pendiente o simplemente observando la
nube de puntos y los grficos de residuos.
Sin embargo el modelo de regresin lineal es tan simple que muchos se empean
en aplicarlo an cuando fallen algunas de las hiptesis necesarias para aplicar el
modelo. Si la que falla es la linealidad, una posible salida es aplicar un cambio de
escala o un cambio de variable al objeto de que tras de l no falle la linealidad.
El problema no es simple pues hay que decidir dos cosas: Qu cambio hacer?
y Arreglando la linealidad haremos que fallen otras de las hiptesis?
Lo ideal, como siempre, sera hacer un cambio de manera que todas las hiptesis
necesarias para el modelo lineal salieran beneficiadas. Fundamentalmente:
Se logra aspecto lineal.
Se mejora la normalidad.
Se mejora la homogeneidad de las varianzas.
Generalmente las dos ltimas se consiguen conjuntamente con lo que se llaman
Transformaciones estabilizadoras de la Varianza.
En cuanto a la primera se consigue conociendo curvas planas. Los casos ms
frecuentes son:
Si la nube de puntos parece ajustarse a una parbola y = ax2 + b entonces el
cambio z = x2 hace que la nube se ajuste a la recta y = az + b.
Si la nube de puntos parece ajustarse a una hiprbola y = a x1 + b entonces el
cambio z = x1 hace que la nube se ajuste a la recta y = az + b.
80
CAPTULO 4. REGRESIN
Si la nube de puntos parece ajustarse a una exponencial y = a expbx entonces

tomando logaritmos log y = x log b + log a hace que la nube se ajuste a esa recta.
El crecimiento exponencial es muy tpico enbiologa, crecimiento de bacterias,
crecimientos en general, fenmenos de decadencia.
Por ltimo es necesario tener presente que no todas las curvas son transformables en lineas rectas. Por lo que en ocasiones, a la vista de la nube de puntos,
conviene directamente acudir a un modelo de regresin curvilnea.
4.16.
Demostraciones
Bibliografa
[1] Feller, W. An Introduction to Probability Theory and Its Applications
Vol.I, Wiley, New York 1968.
[2] Gutierrez R., Martinez A., Rodriguez C. Curso Bsico de Probabilidad Ed.
Pirmide, California 1986.
[3] Gutierrez R., Martinez A., Rodriguez C. Inferencia Estadstica Ed. Pirmide, California 1986.
[4] Halmos, P.R. Measure Theory Springer Verlag, New York 1974.
[5] Horgan J., Probability with R Wiley-Blackwell, California 1986.
[6] Love, M. Probability Theory. Springer Verlag, New York 1973.
[7] Louis Lyons, Statistics for Nuclear and Particle Physicists Cambridge
University Press 1996.
[8] Martin A., Luna J. Bioestadstica Ed. Norma, California 1986.
[9] B.P. Roe Probability and Statistics in Experimental Physics SpringerVerlag, New York 1998.
[10] Rohatgi, V.K. An Introduction to Probability. Theory and Mathematical Statistics Wiley, xxx 1976.
[11] Savage L.J. The foundations of statistics Dover publications, New York
1972.
81
ndice alfabtico
Axionas de Kolmogorov de Probabilidad,
5
Cardinal, 11
Combinaciones, 15
Combinatoria en R, 16
Espacio Muestral, 4
Experimentos Aleatorios, 3
Factorial de un nmero, 11
Frecuencias y Probabilidad, 6
Instalacin de Paquetes, 17
Muestra sin Reemplazamiento, 16
Nmero Combinatorio, 16
Permutaciones, 14
Probabilidad Condicionada, 7
Probabilidad Emprica, 6
Probabilidad Terica, 6
Propiedades de la Probabilidad, 7
Regla de la Multiplicacin, 8
Regla de Laplace, 5
Sucesos Indepemdientes, 8
Sucesos Seguro, Imposible, Simple, Compuesto, Incompatible, Contrario,
Complementario, 4
Teorema de Bayes, 10
Teorema de La Probabilidad Total, 9
Variable Aleatoria, 20
Variaciones, 11
Variaciones con Repeticion, 13
82

Estadística Matemática

Hochgeladen von

Dokumentinformationen

Originaltitel

Copyright

Verfügbare Formate

Dieses Dokument teilen

Dokument teilen oder einbetten

Freigabeoptionen

Stufen Sie dieses Dokument als nützlich ein?

Sind diese Inhalte unangemessen?

Copyright:

Verfügbare Formate

Estadística Matemática

Hochgeladen von

Copyright:

Verfügbare Formate

Mtodos Matemticos I

1. Variables A. y sus Distribuciones

1.1. Sobre la idea de Probabilidad . . . . . . . . . . . . . . . . . . . . . .

1.1.1. Experimentos Aleatorios . . . . . . . . . . . . . . . . . . . . .

1.1.2. Espacio Muestral . . . . . . . . . . . . . . . . . . . . . . . . .

1.1.3. Idea de Probabilidad: Kolmogorov . . . . . . . . . . . . . . . .

1.1.4. Idea Clsica de Probabilidad: Regla de Laplace . . . . . . . .

1.1.5. Idea Emprica de Probabilidad: Von Mises . . . . . . . . . . .

1.1.6. Propiedades de la Probabilidad . . . . . . . . . . . . . . . . .

1.2. Probabilidad Condicionada . . . . . . . . . . . . . . . . . . . . . . . .

1.8. Modelos de Variables Aleatorias Discretas . . . . . . . . . . . . . . . 23

2.1. Estimacin y Contrastes . . . . . . . . . . . . . . . . . . . . . . . . . 39

2.4.1. Estimador insesgado . . . . . . . . . . . . . . . . . . . . . . . 44

2.5.2. Reflexiones sobre el uso de I.C. . . . . . . . . . . . . . . . . . 52

3.1. Test de Hiptesis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55

4.4. I.C. para los Coeficientes de la Recta de Regresin . . . . . . . . . . . 71

Precauciones en el Uso de la Regresin . . . . . . . . . . . . . . . . . 73

4.8. Verificaciones sobre el Modelo . . . . . . . . . . . . . . . . . . . . . . 73

1.2. La repeticin (Ana, Ana, Ana) interpretada como una aplicacin . . . . . 14

La funcin de densiadad de la Normal Estandard

100 I.C. para la media de una va Normal con sigma=1

Sobre la idea de Probabilidad

Esta parte de la asignatura est dedicada a la estadstica matemtica, un

CAPTULO 1. VARIABLES A. Y SUS DISTRIBUCIONES

Dada una experiencia aleatoria la pareja (, A) se llama Espacio Muestral o

1.1. SOBRE LA IDEA DE PROBABILIDAD

Sucesos Contrarios o Complementarios Dado un suceso cualquiera A, el

Idea de Probabilidad: Kolmogorov

Ejemplo 1.1.4 Sea el experimento aleatorio lanzar un dado tradicional y anotar

Idea Clsica de Probabilidad: Regla de Laplace

CAPTULO 1. VARIABLES A. Y SUS DISTRIBUCIONES

Idea Emprica de Probabilidad: Von Mises

Consideremos una experiencia aleatoria y sea S uno de sus posibles sucesos

1.2. PROBABILIDAD CONDICIONADA

P ({3}) = P ({4}) = P ({5}) = P ({6}) = 0

Esta propiedad se conoce con el nombre de Regla de la Suma o Ley de la

CAPTULO 1. VARIABLES A. Y SUS DISTRIBUCIONES

1.2. PROBABILIDAD CONDICIONADA

Propiedad 1.2.5 Si A independiente de B P (A B) = P (A) P (B)

para cualquier suceso B se cumple que:

CAPTULO 1. VARIABLES A. Y SUS DISTRIBUCIONES

Teorema 1.2.10 (Bayes) Sea {Ai }, i = 1, 2, . . . , n, . . . una coleccin numerable

para cualquier suceso B se cumple que:

Como hemos indicado anteriormente, el uso de la regla de Laplace para asignar

Definicin 1.3.3 Variaciones Dado un conjunto A con n elementos se llaman

CAPTULO 1. VARIABLES A. Y SUS DISTRIBUCIONES

Variaciones con Repeticin

CAPTULO 1. VARIABLES A. Y SUS DISTRIBUCIONES

Definicin 1.3.11 Si tenemos un conjunto A, finito no vacio, cuyo cardinal es

Definicin 1.3.15 Combinaciones. Si tenemos un conjunto A cuyo card(A) =

CAPTULO 1. VARIABLES A. Y SUS DISTRIBUCIONES

Proposicin 1.3.17 Dado un conjunto A, cuyo card(A) = #(A) = n, el nmero

Para calcular el nmero de Permutaciones, la funcin factorial directamente

En la primera linea se ha introducido el conjunto A y sus elementos como

CAPTULO 1. VARIABLES A. Y SUS DISTRIBUCIONES

CAPTULO 1. VARIABLES A. Y SUS DISTRIBUCIONES

Ejercicio 1.3.27 Calcular la probabilidad de que un cupn de la ONCE termine

Concepto de Variable Aleatoria

Dado un experimento aleatorio con una ley de probabilidad P sobre su espacio

1.5. DISTRIBUCIN DE PROBABILIDAD DE UNA V.A.

Distribucin de Probabilidad de una V.A.

Teorema. Sea (, A, P ) y una v.a. X : R definamos PX : B [0, 1] as

La Funcin de Distribucin de una V.A.