Capitulo 2

Capítulo 1
Introducción a la inferencia
estadística
1
Capítulo 2
Estimación puntual
Con mucha frecuencia, incluiremos un subíndice en el símbolo usado para denotar la
función de distribución y la función de masa o densidad, teórica y de la muestra, y también
re…riéndonos una probabilidad, y en esperanzas y varianzas: F , f , P , E y V . Con ésto,
se hace referencia explícita a que sus valores dependen del valor de .
Suponemos que la distribución teórica pertenece a cierta familia paramétrica
F = fF : 2 g , con Rk ,
y que el verdadero valor de , aunque …jo, es desconocido.
Consideramos una muestra (m.a.s.) X1 ; : : : ; Xn de F , esto es, X1 ; : : : ; Xn son vaiid
con distribución F . La función de masa o de densidad teórica (la de las Xi ) es f (x), según
la distribución teórica sea discreta o continua, y la función de masa o de densidad de la
muestra es
f (x1 ; : : : ; xn ) = f (x1 ) f (xn ) (2.1)
Estudiamos en este capítulo el problema de la estimación puntual, que consiste en la
elección de estadísticos adecuados de modo que sus realizaciones tomen valores cercanos al
valor del parámetro, proporcionando entonces información sobre este valor desconocido.
1
2. Estimación puntual
2.1. De…nición de estimador
Un estimador (puntual) de es un estadístico, esto es, una función de la muestra, en
cuya expresión no interviene el parámetro desconocido . Su recorrido debe estar contenido
en el espacio paramétrico. Entonces, un estimador de es una función
T : ! , (2.2)
siendo el espacio muestral el conjunto de posibles muestras (x1 ; : : : ; xn ). La distribución
teórica F determina una distribución sobre , cuya función de masa o densidad viene
dada por
f (x1 ; : : : ; xn ) = f (x1 ) f (xn ) . (2.3)
Entonces, T es una variable aleatoria:
T = T (X1 ; : : : ; Xn ) .
Al valor del estimador obtenido con una muestra concreta (x1 ; : : : ; xn ) se le denomina
estimación de . Es la realización T (x1 ; : : : ; xn ) de la v.a. T .
Por ejemplo, si consideramos el estimador T = X y obtenemos la muestra, de tamaño
n = 3, (x1 ; x2 ; x3 ) = (50 2; 20 8; 40 3), entonces obtenemos la estimación T = x = 40 1.
El problema de la estimación puntual consiste en seleccionar un estimador adecuado,
de modo que, cuando obtengamos la realización muestral, el valor de la estimación sea
“cercano” al de .
Se requieren entonces, y se estudiarán en este tema, procedimientos para obtener esti-
madores de y criterios para valorar la conveniencia de uno u otro.
Ejemplo 1. Consideremos una muestra X1 ; X2 de una distribución teórica B (1; p), con
= [0; 1] (cerrado aquí para simpli…car las explicaciones). Los estadísticos T1 = X y

1
T2 = 3 (X1 + 2X2 ) son estimadores de p, puesto que no interviene p en su expresión y
toman valores en .
Tengase en cuenta que T1 y T2 son variables aleatorias y toman distintos valores según la
2
2.1 De…nición de estimador
muestra obtenida, según se presenta en la siguiente tabla.
(x1 ; x2 ) = 00 01 10 11
Probabilidad (1 p)2 p (1 p) p (1 p) p2
(2.4)
T1 0 1=2 1=2 1
T2 0 2=3 1=3 1
Es sencillo comprobar que E [T1 ] = E [T2 ] = p, y

2
V [T1 ] = V X = y (2.5)
2
1 1 2 5 2
V [T2 ] = V 3 (X1 + 2X2 ) = 3 (V [X1 ] + 4V [X2 ]) = , (2.6)
9
con 2 = p (1 p). Ésto es válido para cualquiera que sea el valor de p, …jo pero desconocido.
1 5 5
Obsérvese V [T1 ] < V [T2 ] para todo p, puesto que 2 = 10 < 9. Si debemos elegir entre
ambos estimadores, parece preferible entonces elegir T1 .
Ésto no quiere decir que siempre obtengamos mejores estimaciones con T1 que con T2 . Por
ejemplo, si fuera p = 2=3 y obtuvieramos (x1 ; x2 ) = (0; 1), entonces la estimación T1 = 1=2
es obviamente peor que la estimación T2 = 2=3 = p. Sin embargo, cualquiera que sea p
(también con p = 2=3), en promedio nos alejaremos mas de p (medido con la varianza) con
T2 que con T1 .
Es frecuente denotar a un estimador de (y también a la estimación) por b (esto es,
en vez de T u otro símbolo utilizamos el símbolo b).
Por otra parte, algunas veces el objetivo es estimar no ya directamente sino una
función g ( ). Por ejemplo, para una distribución Exp ( ) se tiene que la esperanza es
= 1= , y podríamos estar interesados en estimar = g ( ) = 1= en vez de . El
estimador se puede denotar por b = gd

( ).
Si queremos estimar , entonces g ( ) = .
En lo sucesivo, haremos referencia a una familia paramétrica nombrando solamente el
tipo de distribución en cuestión, y en raras ocasiones volveremos a utilizar el símbolo F.
3
Así, cuando decimos en el próximo ejemplo que consideramos una B (1; p), se debe entender
que el valor de p es desconocido, y que queremos obtener información sobre su valor, y de
este modo la familia de posibles distribuciones teóricas es F = fB (1; p) : 0 < p < 1g.
Ejemplo 2. Para cualquier familia paramétrica, se tiene que la media muestral X es un
estimador de la esperanza de la distribución teórica: b = X.
Consideremos una muestra de una B (1; p). La proporción de éxitos es X, que es un esti-
mador de = p. Podemos expresarlo escribiendo pb = X.
Consideremos una muestra de una (p; a). En este caso = (p; a) y = g (p; a) con
g (p; a) = p=a, y entonces b = g\

(p; a) = X es un estimador de g (p; a).
2.2. Estadísticos su…cientes
La muestra aleatoria puede contener información super‡ua, que no aporta nada al
conocimiento del parámetro. Sería importante saber eliminar esta información super‡ua
para poder simpli…car la selección del estimador adecuado, limitándonos a estimadores que
solamente utilizan la información relevante.
La muestra X1 ; : : : ; Xn aporta información sobre el valor del parámetro desconocido
en la medida en que su distribución depende de . Por ejemplo, X se distribuye alrededor
de (puesto que E X = ).
Un estadístico T = T (X1 ; : : : ; Xn ) se denomina estadístico su…ciente si la distribución
de la muestra condicionada por el valor del estadístico no depende de . Entonces, dado el
valor que ha tomado el estadístico su…ciente, la muestra no aporta mas información sobre
el parámeto desconocido.
Un estadístico su…ciente agota toda la información que posee la muestra sobre el
parámetro desconocido. Para hacer inferencias sobre se puede utilizar simplemente el
valor T (x1 ; : : : ; xn ) de un estadístico su…ciente, sin utilizar la muestra completa x1 ; : : : ; xn .
Por ejemplo, para hacer inferencias sobre el parámetro de una distribución de Bernoulli
no hace falta registrar la secuencia completa de ceros y unos obtenida, sino solamente el
4
2.2 Estadísticos su…cientes
número de unos:
Ejemplo 3. Comprueba que la distribución de una muestra (X1 ; : : : ; Xn ) de una B (1; )

Pn
condicionada a que T = t, con T = i=1 Xi , no depende de , y por tanto T es un
estadístico su…ciente.
Solución: Calculamos la función de masa de la distribución condicionada que se pide.
Para x1 ; : : : ; xn 2 f0; 1g y t 2 f1; : : : ; ng se tiene que
P fX1 = x1 ; : : : ; Xn = xn ; T = tg
P fX1 = x1 ; : : : ; Xn = xn =T = tg = ,y (2.7)
P fT = tg
P
P fX1 = x1 ; : : : ; Xn = xn g si t = ni=1 xi
P fX1 = x1 ; : : : ; Xn = xn ; T = tg = P
0 si t 6= ni=1 xi
P
Teniendo en cuenta que T B (n; ), si t = ni=1 xi se tiene que
P fX1 = x1 ; : : : ; Xn = xn g
P fX1 = x1 ; : : : ; Xn = xn =T = tg = (2.8)
P fT = tg
x1 + +xn (1 )n (x1 + +xn )
1
= = , (2.9)
n t (1 n t n
)
t t
Pn
y si t 6= i=1 xi se tiene que P fX1 = x1 ; : : : ; Xn = xn =T = tg = 0. Entonces, esta dis-
tribución condicionada no depende de , y por tanto T es un estadístico su…ciente.
Por fortuna, no hace falta realizar estos cálculos para buscar un estadístico su…ciente.
El siguiente resultado, denominado teorema de factorización, permite identi…car los es-
tadísticos su…cientes de un modo sencillo:
Se veri…ca que un estadístico T (X1 ; : : : ; Xn ) es su…ciente si y solo si f (x1 ; : : : ; xn )
admite ser expresada como
f (x1 ; : : : ; xn ) = g (T (x1 ; : : : ; xn )) h (x1 ; : : : ; xn ) , (2.10)
siendo g una función que solo depende de la muestra a traves de T y h una función que
no depende de .
Ejemplo 4. Obtén estadísticos su…cientes, mediante el teorema de factorización, para las
distribuciones a) B (1; ), b) P ( ), c) U (0; ).
5
Solución: a) Los argumentos x1 ; : : : ; xn intervienen en la función de masa a traves de

P P
t = ni=1 xi , y esto lleva a obtener que T = ni=1 Xi es un estadístico su…ciente:
f (x1 ; : : : ; xn ) = x1 + +xn
(1 )n (x1 + +xn )
= t
(1 )n t
, (2.11)
y entonces f (x1 ; : : : ; xn ) admite una expresión del tipo (2.10), con g (t) = t (1 )n t
y
h = 1 (constante).
b) La función de masa es
x1 + +xn t n
X
n n
f (x1 ; : : : ; xn ) = e =e , con t = xi , (2.12)
x1 ! xn ! x1 ! xn !
i=1
y entonces f (x1 ; : : : ; xn ) admite una expresión del tipo (2.10), con g (t) = e n t y
P
h (x1 ; : : : ; xn ) = x1 ! 1 xn ! . Por tanto T = ni=1 Xi es un estadístico su…ciente.
c) La función de densidad es, si x1 ; : : : ; xn > 0,
n
f (x1 ; : : : ; xn ) = I x(n) < , (2.13)
que solo depende de la muestra a traves de x(n) . Entonces T = X(n) es un estadístico
su…ciente, puesto que podemos expresar f (x1 ; : : : ; xn ) como en (2.10), con
g (t) = nI ft < g y h = 1.
El estadístico su…ciente no es único.
Por ejemplo, la muestra completa, T = (X1 ; : : : ; Xn ), es siempre un estadístico su…-
ciente. Para comprobarlo, simplemente hay que tener en cuenta que, obviamente, la mues-
tra agota toda la información que posee la muestra sobre ; o que la distribución de
(X1 ; : : : ; Xn ) condicionada con T = t, con t = (x1 ; : : : ; xn ), es degenerada en t, y entonces
no depende de ; o, utilizando el teorema de factorización, que f (x1 ; : : : ; xn ) admite una
expresión del tipo (2.10), con h = 1.
También, si T es su…ciente y S es un estadístico cualquiera, entonces (T; S) es su…ciente.
Ésto es así porque (T; S) contiene al menos la misma información que S y que T , y T agota
toda la información, y por tanto así ocurre con (T; S). Puesto que T agota la información,
entonces S no aporta información, como componente del par (T; S), y es irrelevante para
6
el estudio de . Entonces, en la práctica debemos usar solamente T para el estudio de , y
prescindir de S.
Puesto que queremos utilizar de un modo adecuado la información que aporta la mues-
tra sobre el parámetro desconocido, parece razonable utilizar estimadores que sean estadís-
ticos su…cientes o funciones de ellos.
Por simplicidad, conviene entonces elegir el estadístico su…ciente “mas pequeño”, el
estadístico su…ciente minimal. La elección del “mas pequeño” se concreta en el sentido de
“aquel que mas resume la información completa que aporta la muestra sobre ”, que no es
exactamente lo mismo que aquel con menor dimensión.
Un estadístico su…ciente T se denomina su…ciente minimal si, para cualquier otro es-
tadístico su…ciente T 0 , existe una función ' tal que T = '(T 0 ).
El estadístico su…ciente minimal es único salvo transformaciones biyectivas (una trans-
formación biyectiva preserva la información).
Por ejemplo, si el estadístico T1 = X es su…ciente minimal (sm), entonces el estadístico

P
T2 = ni=1 Xi también lo es, puesto que existe una transformación biyectiva que transforma
el uno en el otro: se tiene que T2 = h (T1 ), con h (t) = nt, y h es biyectiva (es una función
lineal con pendiente n, con 0 < n < 1).
Una manera cómoda de averigüar si existe una transformación biyectiva que transforma
un estadístico T1 en otro T2 , es estudiar si T2 se puede expresar en función de T1 , y en caso
a…rmativo, comprobar si se puede despejar T1 con unicidad en esta expresión. Por ejemplo,
P
si T1 = X y T2 = ni=1 Xi , entonces T2 = nT1 y, despejando, se obtiene T1 = T2 =n. Puesto
que hemos podido despejar con unicidad, se tiene que existe una transformación biyectiva
que transforma T1 en T2 , y entonces si uno de ellos es sm, el otro también lo es.
Habitualmente, es posible identi…car el estadístico sm a partir de la factorización del
teorema de factorización. Sin embargo, es conveniente disponer de un procedimiento general
para su obtención. El siguiente resultado, que es consecuencia del teorema de factorización,
es útil para la obtención del estadístico su…ciente minimal.
7
Se veri…ca que un estadístico T (X1 ; : : : ; Xn ) es su…ciente minimal si y solo si el cociente
f (x1 ; : : : ; xn )
(2.14)
f (x01 ; : : : ; x0n )
no depende de cuando T (x1 ; : : : ; xn ) = T (x01 ; : : : ; x0n ) y sí depende de en caso contrario,
cuando T (x1 ; : : : ; xn ) 6= T (x01 ; : : : ; x0n ).
Ejemplo 5. Determina el estadístico su…ciente minimal para las siguientes distribuciones
teóricas: a) B (1; ), b) P ( ), c) Exp ( ), d) U (0; ).
Solución: Denotamos por C = C (x1 ; : : : ; xn ) al cociente ff (x

(x1 ;:::;xn )
0 ;:::;x0 ) . Escribimos nx
1 n
Pn
en vez de i=1 xi , puesto que es mas breve. La clave de la obtención del estadístico sm
es identi…car en C (x1 ; : : : ; xn ) los factores en los que no se puede separar de la muestra
(x1 ; : : : ; xn ), de modo que estos factores no se pueden expresar a su vez como un producto
de una función de y una función de la muestra. Los estadísticos a traves de los cuales se
expresan estos factores, en los que no se puede separar de la muestra, son los estadísticos
sm buscados. Estos factores, son potencias en los apartados a-c, y es una función indicatriz
en d.
a) Se tiene que
n(x x0 )
nx (1 )n nx
n(x x0 ) n(x x0 )
C = nx0
= (1 ) = , (2.15)
nx0 (1 )n 1
que no depende de (vale 1) cuando x = x0 , y sí depende de cuando x 6= x0 . Por tanto, X

P
es sm. Como se comentó antes, T = ni=1 Xi es también sm. Ya sabíamos por los ejemplos
3 y 4a que T es su…ciente, y ahora hemos comprobado que es además sm.
b) Se tiene que
nx
n 0
e x1 ! xn ! n(x x0 ) x1 ! x0n !
C = nx0
= , (2.16)
e n x1 ! xn !
x01 ! x0n !
que no depende de cuando x = x0 (puesto que 0 = 1), y sí depende de cuando x 6= x0 .

P
Por tanto, X, ó ni=1 Xi , es sm.
c) Se tiene que
ne nx
n (x x0 )
C = ne nx0
=e , (2.17)
8
que no depende de cuando x = x0 (puesto que e0 = 1), y sí depende de cuando x 6= x0 .

P
Por tanto, X, ó ni=1 Xi , es sm.
d) Se tiene que
n o n o
nI x(n) < I x(n) <
C = n o= n o . (2.18)
n I x0 < I x0 <
(n) (n)
Cuando x0(n) = x(n) se tiene que C = 1, y por tanto no depende de . Cuando x0(n) 6= x(n) ,
C sí depende de . Entonces X(n) es sm.
Ejemplo 6. Determina el estadístico sm para una N ( ; ) en los siguientes casos:
a) = (con = 0 conocida),
b) = (con = 0 conocida),
c) = ( ; ).
Solución: La función de densidad de la muestra es
n=2 1 Pn
f (x1 ; : : : ; xn ) = (2 ) n
exp 2 i=1 (xi )2 (2.19)
2
(obtenida en el capítulo 1).
a) Desarrollando el cuadrado y simpli…cando, se obtiene
n=2 n 1 Pn 2 Pn 2
f (x1 ; : : : ; xn ) = (2 ) 0 exp 2 i=1 xi 2 i=1 xi +n , (2.20)
2 0
y de aquí
n Pn Pn o
n=2 n 1 2 2
(2 ) 0 exp 2 2 i=1 xi 2 i=1 xi +n
C = n 0
Pn Pn o (2.21)
n=2 n 1 02 0 2
(2 ) 0 exp 2 2 i=1 xi 2 i=1 xi + n
0
1 Pn 2 Pn 02
= exp 2 i=1 xi i=1 xi 2n x x0 , (2.22)
2 0
que no depende de cuando x = x0 (puesto que 0 = 0, y en este caso se tiene que

n P P o
1 n 2 n 02
C = exp 2 02 i=1 xi i=1 xi , expresión en la que no interviene ), y sí depende
P
de cuando x 6= x0 . Por tanto, X, ó ni=1 Xi , es sm.
9
b) Se tiene que
n Pn o
n=2 n exp 1 2
(2 ) 2 2 i=1 (xi 0)
C = n o (2.23)
n=2 n exp 1 Pn 0 2
(2 ) 2 2 i=1 (xi 0)
1 Pn 2 Pn 2
= exp 2 i=1 (xi 0) i=1 x0i 0 . (2.24)
2
Téngase en cuenta que 0 es una cantidad conocida. Consideremos el estadístico T (x1 ; : : : ; xn ) =

Pn 2
i=1 (xi 0 ) . Se tiene que C no depende del parámetro desconocido cuando T (x1 ; : : : ; xn ) =
1
T (x01 ; : : : ; x0n ) (puesto que 2 2 0 = 0, y en este caso C = e0 = 1), y sí depende de
cuando T (x1 ; : : : ; xn ) 6= T (x01 ; : : : ; x0n ). Por tanto, T = T (X1 ; : : : ; Xn ) es sm. Entonces,

1 1 Pn 2
nT = n i=1 (xi 0) también es un estadístico sm.
c) Se tiene que
n=2 n exp 1 Pn 2
Pn 2
(2 ) 2 2 i=1 xi 2 i=1 xi + n
C ; = n=2 Pn 02 Pn (2.25)
n exp 1 0 2
(2 ) 2 2 i=1 xi 2 i=1 xi + n
1 Pn 2 Pn 02 Pn Pn 0
= exp i=1 xi i=1 xi 2 i=1 xi i=1 xi . (2.26)
2 2
Pn Pn 2
Sea T (x1 ; : : : ; xn ) = i=1 xi ; i=1 xi . Se tiene que el cociente C ; no depende del
parámetro = ( ; ) cuando T (x1 ; : : : ; xn ) = T (x01 ; : : : ; x0n ), y sí depende de cuando
T (x1 ; : : : ; xn ) 6= T (x01 ; : : : ; x0n ). Por tanto, T = T (X1 ; : : : ; Xn ) es sm. Se tiene que el
estadístico
X; s2 (2.27)
también es sm (y también lo es X; S 2 ), puesto que se transforma en

Pn Pn 2
T = i=1 Xi ; i=1 Xi = (T1 ; T2 ) biyectivamente: se tiene que
2
T1 T2
2 T1
X= y s = , (2.28)
n n n
2
y despejando se obtiene T1 = nX y T2 = n s2 + X . Puesto que se ha despejado con
unicidad, entonces, efectivamente, la transformación es biyectiva y X; s2 es sm.
Prescindiremos del teorema de factorización, puesto que la obtención del estadístico sm
a partir del cociente en (2.14) mejora el resultado del teorema, proporcionando no solo un
estadístico su…ciente, sino el sm.
10
2.3 Estimadores consistentes y centrados
2.3. Estimadores consistentes y centrados
Es conveniente, y así ocurre en la mayoría de los casos, que el estimador utilizado sea
consistente.
Una sucesión de estimadores T1 ; T2 ; : : :, asociada a los sucesivos tamaños muestrales n,
se denomina consistente para estimar una función g ( ) del parámetro si
p
Tn ! g ( ) para todo 2 . (2.29)
Una sucesión consistente para g ( ) = es la media muestral X = X n para sucesivos

p
valores de n. Por la ley débil de los grandes números se tiene que X ! sea cual sea
el verdadero valor de , y entonces la sucesión de medias muestrales X 1 X 2 ; : : : es consis-
tente para la media poblacional . No se hará referencia explícita a la sucesión y se dirá
simplemente que la media muestral es un estimador consistente para la media poblacional.
La consistencia de la media es válida para cualquier distribución teórica (con …nita).
Por ejemplo, para una distribución teórica (p; a), con = (p; a) y = p=a, se tiene que
X es consistente para g (p; a) = p=a.
Recuérdese que es …jo pero desconocido, y entonces la condición en (2.29) de que la
convergencia sea para todo 2 asegura la convergencia a g ( ) cualquiera que sea el

p
verdadero valor de . Por ejemplo, si fuera = 20 1, entonces X ! 20 1, y si fuera = 50 7,
p
entonces X ! 50 7.
La siguiente propiedad establece condiciones para la esperanza y la varianza del esti-
mador que aseguran la consistencia: si
l m E [Tn ] = g ( ) y l m V [Tn ] = 0 para todo 2 , (2.30)

n!1 n!1
entonces la sucesión T1 ; T2 ; : : : es consistente para g ( ).
En general, todos los momentos muestrales son consistentes para los correspondientes
momentos poblacionales, puesto que convergen casi seguro y por tanto en probabilidad.
Ésto también es válido para los cuantiles.
11
Puesto que la muestra tiende, cuando n ! 1, a dar información completa sobre la
distribución teórica, entonces cabe pedirle a un estimador que tienda a dar información
completa sobre g ( ), lo que ocurre en caso de ser consistente.
La consistencia hace referencia al comportamiento cuando n tiende a in…nito, y por
tanto no aporta nada por si misma sobre el comportamiento del estimador para un tamaño
de muestra dado. Sin embargo, nos asegura que podemos conseguir un estimador con una
distribución tan concentrada cerca de g ( ) como se quiera, eligiendo n su…cientemente
grande.
Se denomina sesgo de T al estimar g ( ) a la cantidad
bT (g ( )) = E [T ] g( ) . (2.31)
Se dice que T es insesgado o centrado para g ( ) si el sesgo es nulo.
Consideraremos algunos estimadores que son centrados y otros que no lo son, pero en
este último caso el sesgo siempre tenderá a 0 cuando n ! 1 (estimador asintóticamente
insesgado).
Ejemplo 7. La media muestral y la cuasivarianza muestral son estimadores centrados
para la media y la varianza poblacional, puesto que
E X = y E S2 = 2
. (2.32)
El sesgo de la varianza muestral como estimador de la varianza poblacional es:
2 n 1 1
bs 2 = E[s2 ] 2
= 2 2
= 2
, (2.33)
n n
que tiende a 0 cuando n ! 1. Por tanto, la varianza muestral es asintóticamente insesgada
para la varianza poblacional.
12
2.4 Error cuadrático medio como medida de la bondad de un estimador
2.4. Error cuadrático medio como medida de la bondad de
un estimador
Para medir la bondad de un estimador (cómo es de bueno) tendremos que medir de
algún modo si los valores que toma se alejan mucho del verdadero valor del parámetro (o
de la función del parámetro g ( ) que se considere). Puesto que el estimador es una v.a., y
distintas realizaciones (a partir de distintas muestras que se obtuvieran) tomarían distintos
valores, algunos mas lejanos y otros mas cercanos, debemos considerar un valor promedio
(una esperanza).
Consideremos un estimador T de . Si obtenemos la estimación T = t, entonces la lejanía
al verdadero valor se puede medir simplemente como la distancia j tj entre la estimación
y el valor que estamos estimando. Pero también podemos considerar otras nociones de
distancia que pueden contemplar una penalización por el error cometido al tomar t como si
fuera el verdadero valor de ; por ejemplo, los costes económicos consecuencia de la toma
de esa decisión.
Esta penalización se expresa mediante la función de pérdida L ( ; t). Algunos ejemplos
de función de pérdida son los siguientes.
L ( ; t) = j tj es el error absoluto de la estimación. (2.34)
L ( ; t) = ( t)2 es el error cuadrático de la estimación. (2.35)

j tj
L ( ; t) = es el error relativo de la estimación. (2.36)
c si j tj > "
L ( ; t) = penaliza con un coste c los (2.37)
0 si j tj "
errores mayores que ".
La función de pérdida usada habitualmente es el error cuadrático. Es la única que
estudiamos.
A la perdida esperada E [L ( ; T )], que es función de , se la denomina función de
riesgo, y se la denota por RT ( ). En nuestro caso de pérdida cuadrática la función de riesgo

h i
es RT ( ) = E ( T )2 , y se denomina error cuadrático medio de T como estimador de
13
. Se suele denotar por ECMT ( ) ó ECM ( ):

h i
ECM ( ) = E ( T )2 . (2.38)
El error cuadrático medio de T como estimador de g ( ) es

h i
ECM (g ( )) = E (T g ( ))2 . (2.39)
Se veri…ca que
ECM (g ( )) = V [T ] + bT (g ( ))2 , (2.40)
como comprobamos a continuación:

h i
ECM (g ( )) = E (T E [T ] + E [T ] g ( ))2 (2.41)
h i h i
=E (T E [T ])2 + E (E [T ] g ( ))2 (2.42)
+ 2E [(T E [T ]) (E [T ] g ( ))] , (2.43)
y, puesto que
E [(T E [T ]) (E [T ] g ( ))] = (E [T ] g ( )) E [(T E [T ])]
= (E [T ] g ( )) (E [T ] E [T ]) = 0 ,
se tiene que
ECM (g ( )) = V [T ] + (E [T ] g ( ))2 + 0 = V [T ] + bT (g ( ))2 . (2.44)
De aquí se obtiene que, si T es insesgado, entonces su ECM coincide con su varianza.
Si T1 y T2 son dos estimadores para g ( ), se dice que T1 es preferible a T2 si
RT1 ( ) RT2 ( ) para todo 2 y (2.45)
RT1 ( ) < RT2 ( ) para algún 2 . (2.46)
Sería deseable encontrar un estimador que fuera preferible a todos los demás, pero
en muchas ocasiones no existe. Puede ocurrir que RT1 ( ) < RT2 ( ) para algúnos y
RT1 ( ) > RT2 ( ) para otros, y en este caso ni es T1 preferible a T2 ni T2 preferible a T1 .
14
2.4 Error cuadrático medio como medida de la bondad de un estimador
Sin embargo, si nos retringimos a estimadores que veri…can ciertas condiciones puede
ocurrir que sí exista uno preferible a todos los demás.
En concreto, más adelante estudiaremos un método que pérmite, en algunas ocasiones,
obtener un estimador centrado que es preferible a cualquier otro estimador centrado. Para
ello, y en general en toda la inferencia paramétrica, el concepto de estadístico su…ciente es
fundamental.
Ejemplo 8. Consideremos una m.a.s. de tamaño n de una distribución N ( ; ). Se tiene

p
que M N ; p2 , siendo M la mediana muestral. Comprueba que la mediana mues-
2 n
tral es un estimador consistente de . Comprueba que la media muestral es preferible a la
mediana muestral.
p
Solución: Puesto que M N ; p2 , se tiene que
2 n
p 2
l m E [M ] = y l m V [M ] = l m p2 = 0 para todo , (2.47)
n!1 n!1 n!1 2 n
y entonces la mediana es un estimador consistente de . (Ya sabemos que la media también
es consistente).
Se tiene que X N ; pn , y entonces

2
ECM X = V X + bX ( )2 = V X +( )2 = V X = . (2.48)
n
p
2
Se tiene que 2 = 10 25. Para n grande, el ECM de la mediana vale
2 2
ECM (M ) = V [M ] + bM ( )2 ' 10 252 + bM ( )2 10 56 . (2.49)
n n
De hecho, se tiene que
l m bM ( ) = l m (E [M ] ) = l m E [M ] = =0,
n!1 n!1 n!1
aunque es su…ciente utilizar la acotación en (2.49). Por tanto,

2 2 2
ECM X = < 10 56 10 56 + bM ( )2 ' ECM (M ) . (2.50)
n n n
Hemos comprobado que, al menos para n grande, el estimador X es preferible a M para
estimar en poblaciones normales. De hecho, ésto mismo ocurre para todo n.
15
2.5. Métodos de obtención de estimadores
Hasta ahora, hemos estudiado distintas nociones generales sobre estimadores. Hemos
introducido las nociones de estimador consistente y estimador centrado. Hemos estudiado
una medida de la bondad de un estimador, el ECM . Hemos desarrollado la noción de
estadístico su…ciente.
Hemos considerado algunos estimadores, como la media muestral (estimador de la es-
peranza poblacional), pero no hemos estudiado ningún método general de obtención de
estimadores. En este apartado estudiamos el método de los momentos, el método de máxi-
ma verosimilitud, y el procedimiento de obtención del estimador centrado de uniformemente
mínima varianza.
El método de los momentos se basa en estimar momentos poblacionales mediante mo-
mentos muestrales, y a partir de ahí se obtienen estimadores de los parámetros. No siempre
da lugar a buenos estimadores.
El método de máxima verosimilitud se basa en obtener el valor del parámetro que
maximiza la función de masa o densidad para una muestra dada. Tiene propiedades que
hacen que sea el método mas usado (por ejemplo, el estimador es función del estadístico
sm).
En algunos casos existe un estimador centrado que es preferible a todos los demás (el
mejor estimador centrado), y se veri…ca que este estimador es función del estadístico sm.
Estudiaremos el estimador centrado de uniformemente mínima varianza.
2.5.1. Método de los momentos
Los momentos poblacionales son función del parámetro = ( 1; : : : ; k) 2 Rk .
El método de los momentos (mm) consiste en estimar los momentos poblacionales
mediante los correspondientes momentos muestrales, y estimar 1; : : : ; k despejando.
Se plantean k ecuaciones con los k primeros momentos. Por ejemplo, la primera ecuación
(k = 1) es “ = X” (recuérdese que = E [X]). Si el sistema no tiene solución única se
añaden momentos posteriores a los k primeros hasta que la solución sea única.
16
2.5 Métodos de obtención de estimadores
Se suelen utilizar momentos respecto del origen. Utilizando momentos centrales el re-
sultado suele ser el mismo que utilizando momentos respecto del origen, pero no siempre
es así. Además, el momento de orden 1 debe ser tomado respecto del origen, puesto que el
central es nulo.
Obsérvese que es un abuso de notación escribir = X, puesto que aquí no es el valor
del parámetro, …jo pero desconocido, sino que es una variable en una ecuación. Por esta
razón escribimos la igualdad entre comillas.
Ejemplo 9 Determina el estimador de por el mm para las siguientes distribu-
ciones teóricas:
a) B (1; ), b) Exp ( ), c) U (0; ), d) U ( ; ), e) (p; a), con = (p; a).
Solución:
a) Estimamos E [X] = = mediante la media muestral, y entonces b = X.
b) Estimamos E [X] = = 1= mediante la media muestral, lo que proporciona la
ecuación “ 1 = X”. Despejando, se obtiene “ = 1=X”, y entonces el estimador es b = 1=X.
c) Estimamos E [X] = = =2 mediante la media muestral, lo que proporciona la
ecuación “ 2 = X”. Despejando, se obtiene “ = 2X”, y entonces el estimador es b = 2X.
Obsérvese que b no es función del estadístico sm X(n) . No es un buen estimador. En la
hoja de problemas se obtienen estimadores de basados en X(n) preferibles al estimador
2X.
Además, el estimador b = 2X, puede dar lugar a malas estimaciones. Por ejemplo, si
obtenemos la muestra (x1 ; x2 ; x3 ) = (10 3; 80 9; 20 1), con n = 3, se tiene que x = 40 1, y la
estimación vale b = 2 40 1 = 80 2. Puesto que X2 U (0; ) y x2 = 80 9, tiene que ser 80 9,
y entonces la estimación b = 80 2 es claramente inadecuada.
+( )
d) Se tiene que E [X] = = 2 = 0, que no proporciona ninguna ecuación para
(“0 = X” no vale) y entonces debemos considerar el momento de orden 2. En algunas
ocasiones, como en este ejemplo, los estimadores son diferentes si consideramos momentos
respecto del origen o centrales.
17
El momento poblacional central de orden 2 es la varianza
2 ( ( ))2 2
V [X] = = = , (2.51)
12 3
y se estima mediante el momento muestral central de orden 2, que es la varianza muestral

2 p
s2 , obteniéndose la ecuación “ 3 = s2 ”. Despejando, se obtiene “ = s 3”, y entonces el
estimador es
p
b= s 3 . (2.52)
El momento poblacional de orden 2 respecto del origen es
2 2
E X 2 = V [X] + E [X]2 = + 02 = , (2.53)
3 3
P
y se estima mediante el momento muestral de orden 2 respecto del origen, que es n1 ni=1 Xi2 ,
P q P
2
obteniéndose la ecuación “ 3 = n1 ni=1 Xi2 ”. Despejando, se obtiene “ = n3 ni=1 Xi2 ”,
y entonces el estimador es v
u n
u X
e= t3 Xi2 . (2.54)
n
i=1
e) Puesto que hay dos parámetros desconocidos, planteamos dos ecuaciones.
Además de la esperanza E [X] = = p=a (momento de orden 1), consideramos la varianza
V [X] = 2 = p=a2 (momento central de orden 2), obteniendo las ecuaciones “ ap = X”

2
y “ ap2 = s2 ”. Despejando, se obtiene “a = X
s2
”y “p = X
s2
”, y entonces el estimador de
= (p; a) es !
2
b = (b X X
p; b
a) = ; .
s2 s2
2.5.2. Método de máxima verosimilitud
Dada una realización muestral (x1 ; : : : ; xn ), denominamos función de verosimilitud a
L ( ) = L ( ; x1 ; : : : ; xn ) = f (x1 ; : : : ; xn ) , (2.55)
que es la función de masa o densidad f (x1 ; : : : ; xn ), pero con (x1 ; : : : ; xn ) …jo y considerada
como función de .
18
La estimación de máxima verosimilitud de , b = b(x1 ; : : : ; xn ), asociada a la muestra
(x1 ; : : : ; xn ), es el valor de que maximiza L ( ):
L( b) = max L ( ) . (2.56)
2
La correspondiente v.a. b = b(X1 ; : : : ; Xn ) es el estimador de máxima verosimilitud (emv)
de .
Ejemplo 9. Consideremos dos urnas: U1 (2b; 8n) y U2 (9b; 1n). Alguién elige una urna y
extrae una bola al azar. No nos informa de cual ha sido la urna elegida, pero nos dice que
la bola extraida ha resultado ser blanca. ¿Cual ha sido la urna de la cual se ha extraido la
bola blanca?.
Solución: Podría ser cualquiera de las dos, puesto que en cada una de ellas hay alguna
bola blanca. Pero si tuvieramos que decantarnos, parece mas verosimil (en un sentido
coloquial) que la urna haya sido U2 , puesto que la probabilidad de que al extraer una bola
ésta sea blanca, es mayor para U2 que para U1 . Con este razonamiento, se está siguiendo
el principio de máxima verosimilitud dado por (2.56), como comprobamos a continuación.
Consideremos la v.a. X = X1 (muestra de tamaño 1) que vale 1 si se obtiene bola
blanca y vale 0 si se obtiene negra (Bernoulli). Sea 1 = 00 2 y 2 = 00 9, que son las
probabilidades de obtener bola blanca en la primera y segunda urna respectivamente. Con
estos elementos, podemos formular la situación del enunciado del siguiente modo: tenemos
una muestra de tamaño 1 de una distribución teórica de Bernoulli con espacio paramétrico
= f 1; 2 g. Obtenemos la estimación de máxima verosimilitud (mv) asociada al dato
x = 1 (bola blanca).
La función de verosimilitud es
1
L ( ) = L( ; x = 1) = f (1) = (1 )1 1
= . (2.57)
Entonces, L ( 1 ) = 1 = 00 2 y L ( 2 ) = 2 = 00 9, y por tanto
max L ( ) = max L ( ) = max fL ( 1 ) ; L ( 2 )g (2.58)

2 2f 1; 2g
= max 00 2; 00 9 = 00 9 = L ( 2 ) . (2.59)
19
Entonces, L( b) = max 2 L ( ) = L ( 2 ), y por tanto b = 2 es la estimación mv de ,
correspondiente a la urna U2 .
Si L ( ) es continua y derivable, entonces podemos encontrar el punto de máximo b
mediante el método habitual: determinando los máximos locales entre los puntos críticos
y buscando entre ellos (y la frontera del soporte) el máximo global b. En los casos mas
habituales con L ( ) derivable, L ( ) tiene un único máximo local que es el máximo global.
Omitiremos el cálculo de la derivada segunda cuando éste sea el caso.
Además, disponemos del siguiente resultado que simpli…ca los cálculos: el valor de
para el cual una función L ( ) se maximiza, es el mismo para el cual la función log L ( )
se maximiza. La razón de este resultado es que el logaritmo es una función creciente y,
por tanto, cuanto mayor sea L ( ) mayor es log L ( ). También se puede comprobar de un
d
modo simple (para L derivable) observando que la ecuación d log L ( ) = 0 coincide con
d
la ecuación d L ( ) = 0 (que es, L0 ( ) = 0) si L ( ) > 0:
d L0 ( )
0= log L ( ) = si y solo si L0 ( ) = 0 .
d L( )
Si L ( ) es un producto de funciones exponenciales, es mas rápido derivar log L ( ) (que
es suma de productos) que L ( ). Ésto ocurre con muchas de las distribuciones teóricas
usadas habitualmente.
Ejemplo 10. Determina el emv de para las siguientes distribuciones teóricas:
a) B (1; ), b) P ( ), c) Exp ( ), d) U (0; ).
Solución:
a) Se tiene que L ( ) = f (x1 ; : : : ; xn ) = nx (1 )n(1 x)

y entonces
log L ( ) = nx log + n (1 x) log (1 ) ,y

d nx n (1 x)
log L ( ) = .
d 1
Resolviendo la ecuación “ dd log L ( ) = 0”se obtiene la solución única “ = x”. La solución
de la ecuación es el estimador de que buscamos, y entonces el emv es b = X.
20
b) Se tiene que log L ( ) = n + nx log log (x1 ! xn !) , y
d nx
log L ( ) = n+ =0,
d
que tiene solución “ = x”. Entonces, b = X es el emv de .
d n
c) log L ( ) = n log n x , y d log L ( ) = nx = 0 , que tiene solución
“ = 1=x”. Entonces, b = 1=X es el emv de .
d) Por simplicidad, conviene modi…car la función de densidad de la muestra de
la U (0; ), f (x1 ; : : : ; xn ) = nI x(n) < , utilizando una desigualdad no extricta en la
función I: I x(n) . Haciendo ésto, modi…camos el soporte en un conjunto de proba-
bilidad 0, y no afecta a la distribución. Con ello, la función de verosimilitud es L ( ) =

nI x(n) , y se tiene que
(
n 0 si 0 < < x(n)
L( ) = I x(n) = n
. (2.60)
si x(n)
d n n 1 n
Se tiene que d = n < 0 para > 0, y entonces es decreciente para x(n) .
Por tanto, L ( ) se maximiza con = x(n) , y entonces b = X(n) es el emv de .
Ejemplo 11. Determina el emv de para la distribución teórica N ( ; ) en los siguientes
casos: a) = , con = 0 conocida, b) = , con = 0 conocida, c) = ( ; ).
Pn
Solución: Se tiene que log L ( ) = n2 log (2 ) n log 2
1
2 i=1 (xi )2 .
P P
a) dd log L ( ) = 2 1 2 ni=1 2 (xi )2 1 ( 1) = 1
2 ( ni=1 xi n ) = 0 tiene
0 0
solución “ = x”. Entonces, b = X es el emv de .

d n 1 3
Pn 2
b) La ecuación d log L ( ) = 2 ( 2) i=1 (xi 0) = 0 se puede
Pn 2
expresar como 1 n+ 1
2 i=1 (xi 0)
= 0 , que tiene solución
q P q P
“ = n1 ni=1 (xi 2
0 ) ”. Entonces, b =
1
n
n
i=1 (Xi
2
0 ) es el emv de .
c) En este caso, para encontrar el máximo hay que resolver el sistema

9
d 1 Pn >
=
d log L ( ; ) = 2 ( i=1 xi n )=0
(2.61)
d 1 1 Pn 2 >
;
d log L ( ; ) = n + 2 i=1 (xi ) =0
21
q P q P
n
que tiene solución “ = x y = 1
n i=1 (xi )2 = 1 n
n i=1 (xi x)2 = s ”. Entonces,
b = (b; b) = X; s es el emv de = ( ; ).
Habitualmente, el emv es consistente. En algunas ocasiones es centrado y en otras no.
El emv tiene propiedades, como las que siguen a continuación y el teorema 14, que hacen
que sea un método de estimación muy utilizado.
Propiedades del estimador de máxima verosimilitud
1.- Un emv siempre es función del estadístico su…ciente minimal. Aunque con frecuencia
el mismo emv es un estadístico su…ciente, no siempre lo es.
2.- No siempre es único, aunque habitualmente lo es.
3.- Si b es el emv de , entonces g( b) es el emv de g ( ).
La propiedad 3 es muy útil, como se muestra en los ejemplos 12 y 13. Proporciona el
emv de cualquier función g ( ) del parámetro a partir del emv de , y de un modo muy
b
sencillo: gd
( ) = g( b). Por ejemplo, el estimador de 2 es ( b)2 , y el de e es e .
Esta ‡exibilidad del emv no la tienen otros tipos de estimadores. Por ejemplo, si b
es centrado para , se tiene que g( b) = ( b)2 no es centrado para g ( ) = 2, puesto que
E[g( b)] 6= g ( ):
E[g( b)] = E[( b)2 ] = V [ b] + E[ b]2 = V [ b] + 2

6= 2
= g( ) . (2.62)
Hemos supuesto que V [ b] 6= 0, lo que ocurre si b tiene distribución no degenerada. Un
estimador degenerado (que toma un valor constante) no ofrece ninguna utilidad.
Ejemplo 12. El número de fallos en bobinas de cable de 1 km sigue una distribución
de Poisson. Se puede comprobar si una bobina tiene algún fallo conectando el principio
y el …nal de la bobina a un circuito eléctrico y comprobando si circula la corriente (si se
enciende un piloto conectado en este circuito). De 1.000 bobinas se comprobó que 78 de
ellas tenían algún fallo. Determina el emv para el número medio (el número esperado) de
fallos por bobina.
22
Solución: De los datos, lo único que se puede estimar directamente es la probabilidad,
llamémosla p, de que una bobina tenga algún fallo (mediante la proporción 00 078 de bobinas
con fallos). Sin embargo, la utilización del supuesto paramétrico de que el número de fallos
es de Poisson, y el uso de la propiedad 3 de los emv, permite estimar el numero medio de
fallos.
Disponemos de una muestra de una Bernoulli (hemos observado si hay fallo o no). Para
i = 1; : : : ; n, con n = 1.000, sea Xi la v.a. que vale 1 si la bobina i-ésima tiene algún fallo
y vale 0 si no tiene fallo. Se tiene que X1 ; : : : ; Xn es una m.a.s. de una B (1; p). Se ha
P
observado una realización x1 ; : : : ; xn de esta muestra con ni=1 xi = 78.
Sea Z la v.a. “número de fallos en una bobina”. No hemos observado Z, pero sabemos
que Z P ( ) para algún valor de . El número esperado de fallos es la esperanza de la
P ( ), que es igual a . Queremos entonces estimar .
La probabilidad de que una bobina tenga algún fallo, se expresa en términos de X y
de Z como P fX = 1g y P fZ > 0g, respectivamente. Ésto permite relacionar p con , y
estimar mediante el emv de p y el uso de la propiedad 3. Se tiene que
0
p = P fX = 1g = P fZ > 0g = 1 P fZ = 0g = 1 e =1 e . (2.63)
0!
Despejando, se obtiene = g(p) = log(1 p). El emv de p (el parámetro de la B (1; p))
es pb = X (ejemplo 10a) y, por la propiedad 3 de los emv, se tiene que el emv de = g(p)
es
b = g(b
p) = log(1 pb) = log(1 X) . (2.64)
Con este estimador se obtiene la siguiente estimación:
b= log(1 x) = log(1 0;078) = 00 0812 . (2.65)
Ejemplo 13. Obtén el emv para el séptimo decil de una distribución teórica normal.
Solución: Suponemos que ninguno de los parámetros es conocido, puesto que no se
dice nada al respecto. El séptimo decil (es un cuantil) es el valor d = x00 7 tal que
23
P fN ( ; ) dg = 00 7. Lo expresamos en función de y , y obtenemos el estimador
utilizando la propiedad 3 y el ejemplo 11c. Se tiene que
n o
d
P fN ( ; ) dg = P N (0; 1) = 00 7 , (2.66)
n o
d
y entonces P N (0; 1) > = 00 3. Puesto que P fN (0; 1) > 00 52g = 00 3015, se tiene
d
que = 00 52, y despejando se obtiene que el séptimo decil es
d= + 00 52 = g ( ; ) . (2.67)
Por el ejemplo 11c se tiene que el emv de ( ; ) es (b; b) = (X; s), y por la propiedad
3 se tiene que
db = b + 00 52b = X + 00 52s . (2.68)
También podemos estimar x00 7 mediante el correspondiente cuantil muestral c00 7 . Sin
embargo, este estimador no utiliza la información de la que disponemos de que la distribu-

b El estimador
ción teórica es normal, lo que se traduce en que su ECM es mayor que el de d.
db es función del estadístico sm para el parámetro = ( ; ) de la normal.
En el siguiente teorema se presenta otra propiedad muy útil del emv. Bajo ciertas
condiciones que se cumplen con frecuencia, la distribución del emv es asintóticamente
normal. Además, si el emv es único, entonces es consistente. Sólo se considera aquí el caso
en que el parámetro es unidimensional, esto es, k = 1.
Teorema 14. Supongamos que R es abierto, y que f (x) satisface las siguientes
condiciones:
d3
1.- Existe la derivada log f (x) , y su valor absoluto está acotado por una función K(x)
d 3
tal que E [K(X)] k para todo .
d 1 d2
2.- Se tiene que E log f (X) = 0 y E log f (X) = 0 .
d f (X) d 2
3.- Se tiene que i ( ) > 0, con
" #
2
d
i( ) = E log f (X) .
d
24
Bajo estas condiciones, si bn = bn (X1 ; : : : ; Xn ) es una sucesión de estimadores de máxima
verosimilitud consistente para , se tiene que

!
bn 1
N ;p (2.69)
n i( )
para todo 2 .
Por otra parte, si el emv es único, entonces la sucesión bn siempre es consistente.
A la función i ( ) de la condición 3 se la denomina información de Fisher, y es una
medida de la información que aporta una muestra de tamaño 1 sobre ; obsérvese que la
desviación típica en (2.69) es menor cuanto mayor sea la información i ( ). Por (2.69) se
h i
tiene para n grande que V bn ' n1 i(1 ) . Una expresión alternativa para i ( ), cuando se
cumple la condición 2, es la siguiente:
d2
i( ) = E log f (X) . (2.70)
d 2
En algunas ocasiones es mas sencillo calcular i ( ) de esta manera.
La información que aporta una m.a.s. de tamaño n sobre es n i ( ).
Las condiciones 1 y 2 pueden ser difíciles de comprobar, pero se cumplen con frecuencia.
En algunas ocasiones puede ser mas sencillo comprobar (2.69) de un modo directo que
comprobar 1 y 2. De cualquier modo, en lo sucesivo nos limitaremos a calcular i ( ) para
obtener la distribución asintótica (2.69). En todos los casos que consideramos se cumplen
1 y 2.
Ejemplo 15. Determina la distribución asintótica del emv b para el parámetro de las
siguientes distribuciones teóricas: a) B (1; ), b) P ( ), c) Exp ( ).
Solución: En el ejemplo 10 se obtienen los emv b para estos casos.
a) Puesto que f (x) = x (1 )1 x

, se tiene que f (X) = X (1 )1 X
(es una
25
v.a. transformada de X), y log f (X) = X log + (1 X) log (1 ). Se tiene que
d X 1 X X
log f (X) = = , y de aquí se obtiene (2.71)
d 1 (1 )
" #
X 2
1 h i
i( ) = E = E (X )2 (2.72)
(1 ) 2 (1 )2
1 (1 ) 1
= 2V [X] = = . (2.73)
2 (1 ) 2 (1 )2 (1 )
La primera igualdad en (2.73) se obtiene teniendo en cuenta que EX = . Se tiene que

b = X y, por el teorema 14, se tiene que
p !
(1 )
X N ; p . (2.74)
n
Obsérvese que este resultado ya fue obtenido anteriormente utilizando el TCL, puesto que
= y (1 )= 2 .
b) Se tiene que log f (X) = + X log log (X!) , y
d X X
log f (X) = 1 + = , y de aquí se obtiene (2.75)
d" #
X 2
1 h i 1 1 1
i( ) = E = 2 E (X )2 = 2 V [X] = 2 = (2.76)
Se tiene que b = X y, por el teorema 14, se tiene que

p !
X N ;p . (2.77)
n
(También fue obtenido utilizando el TCL).
d 1
c) Se tiene que log f (X) = log X ,y log f (X) = X , y de aquí se
d
obtiene " #
2
1 1
i( ) = E X = V [X] = 2
(2.78)
Se tiene que b = 1=X y, por el teorema 14, se tiene que
1
N ;p . (2.79)
X n
Este resultado no es una aplicación inmediata del TCL.
26
Aunque ya es innecesario, también obtenemos i ( ) utilizando la expresión (2.70). Se
tiene que
d2 d d d 1 1
2
log f (X) = log f (X) = X = 2
,y (2.80)
d d d d
2 2
i( ) = E 1= = 1= . (2.81)
2.5.3. Estimador centrado de uniformemente mínima varianza
Un estimador T , centrado para g ( ) y con varianza …nita, se dice que es un estimador
centrado de uniformemente mínima varianza (ECUMV ) para g ( ) si, para cualquier otro
estimador T 0 centrado para g ( ) y con varianza …nita, se tiene que
V [T ] V [T 0 ] para todo 2 . (2.82)
El error cuadrático medio coincide con la varianza para un estimador centrado, y entonces
un ECUMV es un estimador centrado preferible a cualquier otro estimador centrado.
Si existe el ECUMV, es único. Aunque no siempre existe, sí existe en muchos casos. El
siguiente teorema es básico para su obtención.
Teorema 16. (de Rao-Blackwell) Sea S un estadístico su…ciente para una familia paramétri-
ca fF : 2 g (por ejemplo, el sm). Para cualquier estimador T1 centrado para g ( ),
T2 = E [T1 =S] (2.83)
es un estimador de g ( ) que satisface las siguientes propiedades:
a) En la expresión de T2 no interviene .
b) T2 es centrado para g ( ).
c) V [T2 ] V [T1 ] para todo 2 , con igualdad si y solo si T2 = T1 .
Demostración
a) Puesto que la distribución de la muestra condicionada por el valor de S no
depende de , entonces así ocurre con cualquier función de la muestra, y en particular con
27
T1 . Entonces, la esperanza condicionada basada en esa distribución condicionada, E [T1 =S],
no depende de (podemos tachar ). Por tanto, T2 es un estimador.
b) E [T2 ] = E [E[T1 =S]] = E [T1 ] = g ( ).
c) V [T1 ] = V [E[T1 =S]] + E [V [T1 =S]] V [E[T1 =S]] = V [T2 ]. Además,

h h ii
E [V [T1 =S]] = E E (T1 E[T1 =S])2 =S (2.84)
h h ii h i
= E E (T1 T2 )2 =S = E (T1 T2 )2 , (2.85)
que vale 0 si y solo si T2 = T1 .
En este apartado 2.5.3 estamos considerando solo estimadores centrados, y entonces el
ECM coincide con la varianza. El teorema 16 proporciona un método para mejorar un
estimador centrado T1 , obteniéndose un estimador T2 que es, o preferible o igual a T1 .
La esperanza condicionada T2 = E [T1 =S] es función del estadístico sm S, y entonces el
ECUMV, si existe, debe ser función de S: si un estimador T1 no es función de S, entonces
T2 = E [T1 =S] es distinto de T1 (uno es función de S y el otro no), y preferible a T1 (por
el teorema 16), y por tanto T1 no puede ser el ECUMV.
Obsérvese que si aplicamos el teorema ahora a T2 en vez de a T1 , obtenemos de nuevo
T2 :
E [T2 =S] = E [T2 1=S] = T2 E [1=S] = T2 .
Frecuentemente existe una única función h del estadístico su…ciente minimal S que es
centrada para g ( ). En este caso, por el teorema 16, h(S) debe ser el ECUMV, y además
h(S) = E [T1 =S] para cualquier estadístico centrado T1 .
La unicidad de esta función h está relacionada con la noción de “completitud”, que no
estudiamos. En todos los ejemplos de este apartado 2.5.3 el estadístico sm es “completo”,
y de aquí se obtiene que el ECUMV es el único estimador centrado función del estadístico
sm. En algunos casos, esta función centrada se obtiene de un modo sencillo, y en otros hay
que calcular E [T1 =S] directamente.
Ejemplo 17. Para las siguientes familias paramétricas y funciones g del parámetro, el
ECUMV para g ( ) es la única función centrada del estadístico sm, que llamamos SM
28
(reservamos el símbolo S para la cuasidesviación típica muestral). Determína el ECUMV
para g ( ).
a) B (1; ), g ( ) = , b) P ( ), g ( ) = , c) N ( ; ) ( = ( ; )), g ( ; ) = ,
d) N ( ; ) ( = ( ; )), g ( ; ) = 2.
Solución: a) Se tiene que SM = X es sm (y función del sm por tanto) y es insesgado
para = . Por tanto, X es el ECUMV para .
b) Se tiene que SM = X es sm (y función del sm por tanto) y es insesgado
para = . Por tanto, X es el ECUMV para .
c) Se tiene que SM = X; S 2 es sm y X es función de SM . Además, X es
centrado para , y por tanto X es el ECUMV para .
d) Se tiene que SM = X; S 2 es sm y S 2 es función de SM . Además, S 2 es
centrado para 2, y por tanto S 2 es el ECUMV para 2.
Ejemplo 18. Consideremos una m.a.s. de un distribución teórica B (1; ). Se tiene que el
ECUMV para g ( ) = (1 )= 2 es la única función centrada del estadístico sm SM .
Determínalo considerando el estimador centrado T que vale 1 si X1 = 1 y X2 = 0, y 0 en
caso contrario, y calculando E [T =SM ].
Solución: Se tiene que SM = X. No parece sencillo encontrar de un modo directo una
función centrada del estadístico sm X (aunque de hecho en el apartado b se obtiene una
tal función). Utilizamos el teorema 16 para encontrar la función centrada que, como se
indica en el enunciado, es única, y es por tanto el ECUMV. Para ello, podemos partir
de cualquier estimador centrado y, de hecho, cuanto mas simple sea mas sencillos son los
cálculos. Partimos de un estimador que es muy malo por si mismo, pero que es simple.
1 si X1 = 1; X2 = 0
Sea T1 = . Se tiene que T1 es centrado, puesto que
0 en caso contrario
E [T1 ] = 1 P fT1 = 1g + 0 P fT1 = 0g = 1 P fX1 = 1; X2 = 0g (2.86)
= P fX1 = 1g P fX2 = 0g = (1 ) = g( ) . (2.87)
Pn
Resulta ahora mas cómodo considerar el estadístico sm en la forma SM = i=1 Xi , que
29
tiene distribución B (n; ). Se tiene que
E [T1 =SM = s] = 1 P fT1 = 1=SM = sg + 0 P fT1 = 0=SM = sg (2.88)
= P fX1 = 1; X2 = 0=SM = sg (2.89)

P
P fX1 = 1; X2 = 0; ni=1 Xi = sg
= (2.90)
P fSM = sg
P
P fX1 = 1; X2 = 0; ni=3 Xi = s 1g
= (2.91)
P fSM = sg
P
P fX1 = 1g P fX2 = 0g P f ni=3 Xi = s 1g
= (2.92)
P fSM = sg
P fB (1; ) = 1g P fB (1; ) = 0g P fB (n 2; ) = s 1g
= (2.93)
P fB (n; ) = sg
(1 ) n 2 s 1
s 1 (1 )n s 1 n 2
s 1 s (n s)
= = n = . (2.94)
n s
s (1 )n s s
n (n 1)
Por tanto, el ECUMV para g ( ) = (1 )= 2 es
SM (n SM ) n
E [T1 =SM ] = = X 1 X .
n (n 1) n 1
Ejemplo 19. El ECUMV para la función del parámetro g ( ) = P fX > 0g = 1 e de
una distribución teórica P ( ) es único. Determínalo.
Solución: No es sencillo encontrar de un modo directo una función centrada del estadís-
P
tico sm SM = ni=1 Xi . Utilizamos el teorema 16 para encontrar la función centrada que,
como se indica en el enunciado, es única (es el ECUMV). Partimos de un estimador que es
muy malo por si mismo, pero que es simple.

1 si X1 > 0
Sea T1 = . Se tiene que T1 es centrado, puesto que
0 si X1 = 0
E T1 = 1 P fT1 = 1g + 0 P fT1 = 0g = 1 P fX1 > 0g + 0 P fX1 = 0g (2.95)
= P fX1 > 0g = 1 P fX1 = 0g = 1 e = g( ) . (2.96)
30
Se tiene que (la distribución de Poisson es reproductiva)
E[T1 =SM = s] = 1 P fT1 = 1=SM = sg + 0 P fT1 = 1=SM = sg (2.97)
= P fT1 = 1=SM = sg = 1 P fT1 = 0=SM = sg (2.98)
=1 P fX1 = 0=SM = sg (2.99)

P
P fX1 = 0; ni=1 Xi = sg
=1 (2.100)
P fSM = sg
P
P fX1 = 0; ni=2 Xi = sg
=1 (2.101)
P fSM = sg
P
P fX1 = 0g P f ni=2 Xi = sg
=1 (2.102)
P fSM = sg
P fP ( ) = 0g P fP ((n 1) ) = sg
=1 (2.103)
P fP (n ) = sg
s
(n 1) [(n 1) ]
e e s! (n 1)s
=1 s =1 . (2.104)
e n [ns!] ns
Por tanto, el ECUMV para g ( ) = P fX > 0g es
nX
(n 1)SM 1
E [T1 =SM ] = 1 =1 1 . (2.105)
nSM n
Puesto que el estimador de máxima verosimilitud de es b = X (ejemplo 10a), por la
propiedad 3 de los estimadores de máxima verosimilitud se tiene que el emv para la función
b
del parámetro g ( ) = 1 e es gd
( )=1 e =1 e X. Para n grande se tiene que
1 n 1,
este estimador es muy cercano al ECUMV, en (2.105), puesto que l mn!1 1 n =e
y entonces
n X
1
E [T1 =SM ] = 1 1 '1 e X
= gd
( ). (2.106)
n
Si T1 es el ECUMV para g1 ( ) y T2 es el ECUMV para g2 ( ), se tiene que T = aT1 +bT2
es el ECUMV para g ( ) = ag1 ( ) + bg2 ( ).
Ejemplo 20. Consideremos una m.a.s. de un distribución teórica B (1; ). Determína el
ECUMV para g ( ) = 2.
Solución: Se tiene que g ( ) = g1 ( ) g2 ( ), con g1 ( ) = y g2 ( ) = (1 ). En
ejemplos anteriores obtuvimos el ECUMV para g1 ( ), que es T1 = X, y el ECUMV para
31
n 2
g2 ( ), que es T2 = n 1X 1 X . Entonces, el ECUMV para g ( ) = g1 ( ) g2 ( ) =
es
n 1 2 nX 1
T1 T2 = X X 1 X = nX X = X . (2.107)
n 1 n 1 n 1
Ejemplo 21. Consideremos una m.a.s. de un distribución teórica P ( ). Determína el
ECUMV para g ( ) = P fX = 0g = e .
Solución: Se tiene que g ( ) = g1 ( ) g2 ( ), con g1 ( ) = 1 y g2 ( ) = P fX > 0g. En

1 nX
el ejemplo 19 obtuvimos el ECUMV para g2 ( ), que es T2 = 1 1 n . El ECUMV
para g1 ( ) = 1 es, obviamente, T1 = 1 (v.a. degenerada). Entonces, el ECUMV para
g ( ) = g1 ( ) g2 ( ) es
!
nX nX
1 1
T1 T2 = 1 1 1 = 1 . (2.108)
n n
2.6. Familias exponenciales
de distribuciones de probabilidad
La función de masa o densidad de la mayoría de las distribuciones de probabilidad mas
usadas tiene una estructura similar: se expresa como productos de potencias de funciones
de la variable x y del parámetro. Por ejemplo, la distribución de Bernoulli, la Poisson,
la exponencial, la normal, la gamma y la beta son de este tipo. No así las distribuciones
uniformes.
Se pueden obtener resultados generales que se aplican a cualquier familia paramétrica
de este tipo, como por ejemplo una fórmula para la obtención del estadístico sm.
Se dice que una familia uniparamétrica de distribuciones, esto es, con R, es una
familia de tipo exponencial uniparamétrico, si existen funciones reales de variable real c, h,
q y V tales que la función de masa o densidad admite una expresión de la forma
f (x) = c ( ) h (x) exp fq ( ) V (x)g . (2.109)
32
2.6 Familias exponenciales de distribuciones de probabilidad
El término “exponencial” en el nombre de este tipo de distribuciones puede generar con-
fusión en una primera lectura. La familia de las distribuciones exponenciales es una familia
de tipo exponencial, pero no es la única de este tipo, como se comprueba en el siguiente
ejemplo.
Ejemplo 22. Comprueba que las siguientes familias uniparamétricas de distribuciones de
probabilidad son de tipo exponencial: a) Exp ( ) b) B (1; ), c) P ( ),
d) N ( ; 0) ( = ), e) N ( 0; ) ( = ).
Solución:
a) Se tiene que
x
f (x) = e , (2.110)
y de este modo, f (x) admite la expresión (2.109) con
c( ) = , h (x) = 1 , q ( ) = y V (x) = x . (2.111)
b) Se tiene que
x
f (x) = x
(1 )1 x
= (1 ) = (1 ) exp x log , (2.112)
1 1
c( ) = 1 , h (x) = 1 , q ( ) = log y V (x) = x . (2.113)

1
c) Se tiene que
x 1 x log
f (x) = e =e e , (2.114)
x! x!
1
c( ) = e , h (x) = , q ( ) = log y V (x) = x: (2.115)
x!
d) Se tiene que
2 n o
x
f (x) = p 1
2
exp 1
2 0
= p 1
2
exp 2
1
2 x2 + 2
2 x (2.116)
0 0 0
n 2
o n o n o
p 1 x2 1
= 2
exp 2 2 exp 2 02
exp 2 x , (2.117)
0 0 0
33
n o n o
2
c( ) = p 1
2
exp 2
1
2 , h (x) = exp 2
1
2 x2 , q( ) = 1
2 y V (x) = x .
0 0 0 0
e) Se tiene que
n o n o
x 2 2
f (x) = p1 exp 1 0
= p1 exp 1
2 (x 0) (2.118)
2 2 2 2
p1 1 2
c( ) = 2
, h (x) = 1 , q ( ) = 2 2 y V (x) = (x 0) . (2.119)
Es sencillo obtener una expresión general del estadístico sm válida para cualquier familia
de tipo exponencial, lo que proporciona un método alternativo de obtención. La función
de densidad de la muestra (m.a.s.) para una distribución teórica dada por (2.109) es
n n
! ( n
)
Y n
Y X
f (x1 ; : : : ; xn ) = f (xi ) = c ( ) h (xi ) exp q ( ) V (xi ) , (2.120)
i=1 i=1 i=1
y entonces
n
! ( n
)
Y X
c ( )n h (xi ) exp q ( ) V (xi )
f (x1 ; : : : ; xn ) i=1 i=1
= ! ( ) (2.121)
f (x01 ; : : : ; x0n ) Yn Xn
c ( )n h (x0i ) exp q ( ) V (x0i )
i=1 i=1
n
Y
h (xi ) ( n n
!)
i=1
X X
= n exp q ( ) V (xi ) V x0i , (2.122)
Y
h (x0i ) i=1 i=1
i=1
Pn Pn
que no depende de si y solo si i=1 V (xi ) = i=1 V (x0i ). Entonces, el estadístico sm es
n
X
T = V (Xi ) . (2.123)
i=1
Además, para cualquier familia de tipo exponencial se tiene que el estadístico sm es com-
pleto.
34
2.6 Familias exponenciales de distribuciones de probabilidad
En el ejemplo 22 se obtiene V (x) = x para las distribuciones Exp ( ), B (1; ), P ( ) y
N( ; 0 ), con = . Entonces, en estos cuatro casos el estadístico sm es

n
X n
X
T = V (Xi ) = Xi , (2.124)
i=1 i=1
como ya sabíamos.
2
En el ejemplo 22e se obtiene V (x) = (x 0) , y entonces el estadístico sm es
n
X n
X 2
T = V (Xi ) = (Xi 0) , (2.125)
i=1 i=1
como ya sabíamos.
Esta noción se generaliza al caso con mas de un parámetro. Se dice que una familia
k-paramétrica de distribuciones, esto es, con Rk , es una familia de tipo exponencial
k-paramétrico, si existen funciones reales de variable real c, h, q1 ; : : : ; qk y V1 ; : : : ; Vk tales
que la función de masa o densidad admite una expresión de la forma

8 9
<Xk =
f (x) = c ( ) h (x) exp qj ( ) Vj (x) . (2.126)
: ;
j=1
Se obtiene que el estadístico sm es

n n
!
X X
T = (T1 ; : : : ; Tk ) = V1 (Xi ) ; : : : ; Vk (Xi ) , (2.127)
i=1 i=1
que además es completo.
Ejemplo 23. Comprueba que la distribución N ( ; ), con = ( ; ), es de tipo exponen-
cial biparamétrico.
Solución: Se tiene que

n o n o
1 x 2
f ; (x) = p21 exp 2 = p 1
2 0
exp 1
2 02
x2 + 2
2 x (2.128)
n 2
o
= p21 exp 2 2
exp 2 x exp 1
2 2
x2 , (2.129)
y de este modo, f ; (x) admite la expresión (2.126) con

n 2
o
c ( ; ) = p21 exp 2 2
, (2.130)
h (x) = 1 , (2.131)
q1 ( ; ) = 2 , V1 (x) = x , (2.132)
q2 ( ; ) = 2
1
2 y V2 (x) = x2 . (2.133)
35
Pn Pn 2
Además, el estadístico sm en (2.127) es T = i=1 Xi ; i=1 Xi , ya obtenido en el
ejemplo 6c.
2.7. Cota de Frechet-Cramer-Rao para la varianza de un
estimador
El valor más pequeño para la varianza de un estimador centrado viene dado por la
varianza del ECUMV (si existe). Aun sin conocer el ECUMV es posible en muchos casos
obtener funciones de que acotan inferiormente la varianza de los estimadores centrados.
En algunas ocasiones, estas acotaciones permiten obtener el ECUMV: dado un esti-
mador centrado, si su varianza coincide con la cota entonces es el ECUMV.
Una de estas acotaciones es la desigualdad de Frechet-Cramer-Rao, que se presenta a
continuación.
Sea T centrado para g ( ). Bajo ciertas condiciones de regularidad de la distribución
teórica, una de ellas que su soporte no dependa de y el resto poco restrictivas, se veri…ca
que
g 0 ( )2
V [T ] para todo 2 . (2.134)
n i( )
Un estimador centrado para el que se dé la igualdad en (2.134) se denomina estimador
e…ciente.
Si un estimador es e…ciente entonces es el ECUMV, y esto sirve como método de cálculo
del ECUMV en algunas ocasiones. La relación opuesta no se veri…ca y de este modo el
ECUMV puede no ser e…ciente.
Si el ECUMV no es e…ciente, entonces no existe ningún estimador e…ciente, puesto que
el ECUMV es preferible a cualquier otro estimador centrado.
Denominamos e…ciencia de T , centrado para g ( ), al cociente entre su cota y su va-
rianza:
g 0 ( )2 =(n i ( ))
eT ( ) = . (2.135)
V [T ]
36
2.7 Cota de Frechet-Cramer-Rao para la varianza de un estimador
Se veri…ca que eT ( ) 1. El estimador T es e…ciente cuando eT ( ) = 1 para todo .
Se veri…ca que un estimador solo puede ser e…ciente cuando F es una familia de tipo
exponencial.
Apuntes de Inferencia Estadística
Víctor M. Ruiz Morcillo
37

Capitulo 2

Hochgeladen von

Dokumentinformationen

Originaltitel

Copyright

Verfügbare Formate

Dieses Dokument teilen

Dokument teilen oder einbetten

Freigabeoptionen

Stufen Sie dieses Dokument als nützlich ein?

Sind diese Inhalte unangemessen?

Copyright:

Verfügbare Formate

Capitulo 2

Hochgeladen von

Copyright:

Verfügbare Formate

Capítulo 1

Con mucha frecuencia, incluiremos un subíndice en el símbolo usado para denotar la

función de distribución y la función de masa o densidad, teórica y de la muestra, y también

re…riéndonos una probabilidad, y en esperanzas y varianzas: F , f , P , E y V . Con ésto,

se hace referencia explícita a que sus valores dependen del valor de .

Suponemos que la distribución teórica pertenece a cierta familia paramétrica

y que el verdadero valor de , aunque …jo, es desconocido.

Consideramos una muestra (m.a.s.) X1 ; : : : ; Xn de F , esto es, X1 ; : : : ; Xn son vaiid

la distribución teórica sea discreta o continua, y la función de masa o de densidad de la

f (x1 ; : : : ; xn ) = f (x1 ) f (xn ) (2.1)

Estudiamos en este capítulo el problema de la estimación puntual, que consiste en la

2.1. De…nición de estimador

Un estimador (puntual) de es un estadístico, esto es, una función de la muestra, en

cuya expresión no interviene el parámetro desconocido . Su recorrido debe estar contenido

en el espacio paramétrico. Entonces, un estimador de es una función

siendo el espacio muestral el conjunto de posibles muestras (x1 ; : : : ; xn ). La distribución

f (x1 ; : : : ; xn ) = f (x1 ) f (xn ) . (2.3)

Entonces, T es una variable aleatoria:

estimación de . Es la realización T (x1 ; : : : ; xn ) de la v.a. T .

Por ejemplo, si consideramos el estimador T = X y obtenemos la muestra, de tamaño

n = 3, (x1 ; x2 ; x3 ) = (50 2; 20 8; 40 3), entonces obtenemos la estimación T = x = 40 1.

El problema de la estimación puntual consiste en seleccionar un estimador adecuado,

de modo que, cuando obtengamos la realización muestral, el valor de la estimación sea

Se requieren entonces, y se estudiarán en este tema, procedimientos para obtener esti-

madores de y criterios para valorar la conveniencia de uno u otro.

= [0; 1] (cerrado aquí para simpli…car las explicaciones). Los estadísticos T1 = X y

muestra obtenida, según se presenta en la siguiente tabla.

Es sencillo comprobar que E [T1 ] = E [T2 ] = p, y

ambos estimadores, parece preferible entonces elegir T1 .

Es frecuente denotar a un estimador de (y también a la estimación) por b (esto es,

en vez de T u otro símbolo utilizamos el símbolo b).

= 1= , y podríamos estar interesados en estimar = g ( ) = 1= en vez de . El

estimador se puede denotar por b = gd

Si queremos estimar , entonces g ( ) = .

En lo sucesivo, haremos referencia a una familia paramétrica nombrando solamente el

tipo de distribución en cuestión, y en raras ocasiones volveremos a utilizar el símbolo F.

que el valor de p es desconocido, y que queremos obtener información sobre su valor, y de

Ejemplo 2. Para cualquier familia paramétrica, se tiene que la media muestral X es un

estimador de la esperanza de la distribución teórica: b = X.

mador de = p. Podemos expresarlo escribiendo pb = X.

g (p; a) = p=a, y entonces b = g\

2.2. Estadísticos su…cientes

La muestra aleatoria puede contener información super‡ua, que no aporta nada al

solamente utilizan la información relevante.

La muestra X1 ; : : : ; Xn aporta información sobre el valor del parámetro desconocido

en la medida en que su distribución depende de . Por ejemplo, X se distribuye alrededor

Un estadístico T = T (X1 ; : : : ; Xn ) se denomina estadístico su…ciente si la distribución

de la muestra condicionada por el valor del estadístico no depende de . Entonces, dado el

Un estadístico su…ciente agota toda la información que posee la muestra sobre el

parámetro desconocido. Para hacer inferencias sobre se puede utilizar simplemente el

valor T (x1 ; : : : ; xn ) de un estadístico su…ciente, sin utilizar la muestra completa x1 ; : : : ; xn .

Ejemplo 3. Comprueba que la distribución de una muestra (X1 ; : : : ; Xn ) de una B (1; )

Solución: Calculamos la función de masa de la distribución condicionada que se pide.

Para x1 ; : : : ; xn 2 f0; 1g y t 2 f1; : : : ; ng se tiene que

tribución condicionada no depende de , y por tanto T es un estadístico su…ciente.

El siguiente resultado, denominado teorema de factorización, permite identi…car los es-

tadísticos su…cientes de un modo sencillo:

Se veri…ca que un estadístico T (X1 ; : : : ; Xn ) es su…ciente si y solo si f (x1 ; : : : ; xn )

admite ser expresada como

f (x1 ; : : : ; xn ) = g (T (x1 ; : : : ; xn )) h (x1 ; : : : ; xn ) , (2.10)

Ejemplo 4. Obtén estadísticos su…cientes, mediante el teorema de factorización, para las

distribuciones a) B (1; ), b) P ( ), c) U (0; ).

Solución: a) Los argumentos x1 ; : : : ; xn intervienen en la función de masa a traves de