Sie sind auf Seite 1von 38

Capítulo 1

Introducción a la inferencia
estadística

1
Capítulo 2

Estimación puntual

Con mucha frecuencia, incluiremos un subíndice en el símbolo usado para denotar la

función de distribución y la función de masa o densidad, teórica y de la muestra, y también

re…riéndonos una probabilidad, y en esperanzas y varianzas: F , f , P , E y V . Con ésto,

se hace referencia explícita a que sus valores dependen del valor de .

Suponemos que la distribución teórica pertenece a cierta familia paramétrica

F = fF : 2 g , con Rk ,

y que el verdadero valor de , aunque …jo, es desconocido.

Consideramos una muestra (m.a.s.) X1 ; : : : ; Xn de F , esto es, X1 ; : : : ; Xn son vaiid

con distribución F . La función de masa o de densidad teórica (la de las Xi ) es f (x), según

la distribución teórica sea discreta o continua, y la función de masa o de densidad de la

muestra es

f (x1 ; : : : ; xn ) = f (x1 ) f (xn ) (2.1)

Estudiamos en este capítulo el problema de la estimación puntual, que consiste en la

elección de estadísticos adecuados de modo que sus realizaciones tomen valores cercanos al

valor del parámetro, proporcionando entonces información sobre este valor desconocido.

1
2. Estimación puntual

2.1. De…nición de estimador

Un estimador (puntual) de es un estadístico, esto es, una función de la muestra, en

cuya expresión no interviene el parámetro desconocido . Su recorrido debe estar contenido

en el espacio paramétrico. Entonces, un estimador de es una función

T : ! , (2.2)

siendo el espacio muestral el conjunto de posibles muestras (x1 ; : : : ; xn ). La distribución

teórica F determina una distribución sobre , cuya función de masa o densidad viene

dada por

f (x1 ; : : : ; xn ) = f (x1 ) f (xn ) . (2.3)

Entonces, T es una variable aleatoria:

T = T (X1 ; : : : ; Xn ) .

Al valor del estimador obtenido con una muestra concreta (x1 ; : : : ; xn ) se le denomina

estimación de . Es la realización T (x1 ; : : : ; xn ) de la v.a. T .

Por ejemplo, si consideramos el estimador T = X y obtenemos la muestra, de tamaño

n = 3, (x1 ; x2 ; x3 ) = (50 2; 20 8; 40 3), entonces obtenemos la estimación T = x = 40 1.

El problema de la estimación puntual consiste en seleccionar un estimador adecuado,

de modo que, cuando obtengamos la realización muestral, el valor de la estimación sea

“cercano” al de .

Se requieren entonces, y se estudiarán en este tema, procedimientos para obtener esti-

madores de y criterios para valorar la conveniencia de uno u otro.

Ejemplo 1. Consideremos una muestra X1 ; X2 de una distribución teórica B (1; p), con

= [0; 1] (cerrado aquí para simpli…car las explicaciones). Los estadísticos T1 = X y


1
T2 = 3 (X1 + 2X2 ) son estimadores de p, puesto que no interviene p en su expresión y

toman valores en .

Tengase en cuenta que T1 y T2 son variables aleatorias y toman distintos valores según la

2
2.1 De…nición de estimador

muestra obtenida, según se presenta en la siguiente tabla.

(x1 ; x2 ) = 00 01 10 11

Probabilidad (1 p)2 p (1 p) p (1 p) p2
(2.4)
T1 0 1=2 1=2 1

T2 0 2=3 1=3 1

Es sencillo comprobar que E [T1 ] = E [T2 ] = p, y


2
V [T1 ] = V X = y (2.5)
2
1 1 2 5 2
V [T2 ] = V 3 (X1 + 2X2 ) = 3 (V [X1 ] + 4V [X2 ]) = , (2.6)
9

con 2 = p (1 p). Ésto es válido para cualquiera que sea el valor de p, …jo pero desconocido.
1 5 5
Obsérvese V [T1 ] < V [T2 ] para todo p, puesto que 2 = 10 < 9. Si debemos elegir entre

ambos estimadores, parece preferible entonces elegir T1 .

Ésto no quiere decir que siempre obtengamos mejores estimaciones con T1 que con T2 . Por

ejemplo, si fuera p = 2=3 y obtuvieramos (x1 ; x2 ) = (0; 1), entonces la estimación T1 = 1=2

es obviamente peor que la estimación T2 = 2=3 = p. Sin embargo, cualquiera que sea p

(también con p = 2=3), en promedio nos alejaremos mas de p (medido con la varianza) con

T2 que con T1 .

Es frecuente denotar a un estimador de (y también a la estimación) por b (esto es,

en vez de T u otro símbolo utilizamos el símbolo b).

Por otra parte, algunas veces el objetivo es estimar no ya directamente sino una

función g ( ). Por ejemplo, para una distribución Exp ( ) se tiene que la esperanza es

= 1= , y podríamos estar interesados en estimar = g ( ) = 1= en vez de . El

estimador se puede denotar por b = gd


( ).

Si queremos estimar , entonces g ( ) = .

En lo sucesivo, haremos referencia a una familia paramétrica nombrando solamente el

tipo de distribución en cuestión, y en raras ocasiones volveremos a utilizar el símbolo F.

3
2. Estimación puntual

Así, cuando decimos en el próximo ejemplo que consideramos una B (1; p), se debe entender

que el valor de p es desconocido, y que queremos obtener información sobre su valor, y de

este modo la familia de posibles distribuciones teóricas es F = fB (1; p) : 0 < p < 1g.

Ejemplo 2. Para cualquier familia paramétrica, se tiene que la media muestral X es un

estimador de la esperanza de la distribución teórica: b = X.

Consideremos una muestra de una B (1; p). La proporción de éxitos es X, que es un esti-

mador de = p. Podemos expresarlo escribiendo pb = X.

Consideremos una muestra de una (p; a). En este caso = (p; a) y = g (p; a) con

g (p; a) = p=a, y entonces b = g\


(p; a) = X es un estimador de g (p; a).

2.2. Estadísticos su…cientes

La muestra aleatoria puede contener información super‡ua, que no aporta nada al

conocimiento del parámetro. Sería importante saber eliminar esta información super‡ua

para poder simpli…car la selección del estimador adecuado, limitándonos a estimadores que

solamente utilizan la información relevante.

La muestra X1 ; : : : ; Xn aporta información sobre el valor del parámetro desconocido

en la medida en que su distribución depende de . Por ejemplo, X se distribuye alrededor

de (puesto que E X = ).

Un estadístico T = T (X1 ; : : : ; Xn ) se denomina estadístico su…ciente si la distribución

de la muestra condicionada por el valor del estadístico no depende de . Entonces, dado el

valor que ha tomado el estadístico su…ciente, la muestra no aporta mas información sobre

el parámeto desconocido.

Un estadístico su…ciente agota toda la información que posee la muestra sobre el

parámetro desconocido. Para hacer inferencias sobre se puede utilizar simplemente el

valor T (x1 ; : : : ; xn ) de un estadístico su…ciente, sin utilizar la muestra completa x1 ; : : : ; xn .

Por ejemplo, para hacer inferencias sobre el parámetro de una distribución de Bernoulli

no hace falta registrar la secuencia completa de ceros y unos obtenida, sino solamente el

4
2.2 Estadísticos su…cientes

número de unos:

Ejemplo 3. Comprueba que la distribución de una muestra (X1 ; : : : ; Xn ) de una B (1; )


Pn
condicionada a que T = t, con T = i=1 Xi , no depende de , y por tanto T es un

estadístico su…ciente.

Solución: Calculamos la función de masa de la distribución condicionada que se pide.

Para x1 ; : : : ; xn 2 f0; 1g y t 2 f1; : : : ; ng se tiene que

P fX1 = x1 ; : : : ; Xn = xn ; T = tg
P fX1 = x1 ; : : : ; Xn = xn =T = tg = ,y (2.7)
P fT = tg
P
P fX1 = x1 ; : : : ; Xn = xn g si t = ni=1 xi
P fX1 = x1 ; : : : ; Xn = xn ; T = tg = P
0 si t 6= ni=1 xi
P
Teniendo en cuenta que T B (n; ), si t = ni=1 xi se tiene que

P fX1 = x1 ; : : : ; Xn = xn g
P fX1 = x1 ; : : : ; Xn = xn =T = tg = (2.8)
P fT = tg
x1 + +xn (1 )n (x1 + +xn )
1
= = , (2.9)
n t (1 n t n
)
t t
Pn
y si t 6= i=1 xi se tiene que P fX1 = x1 ; : : : ; Xn = xn =T = tg = 0. Entonces, esta dis-

tribución condicionada no depende de , y por tanto T es un estadístico su…ciente.

Por fortuna, no hace falta realizar estos cálculos para buscar un estadístico su…ciente.

El siguiente resultado, denominado teorema de factorización, permite identi…car los es-

tadísticos su…cientes de un modo sencillo:

Se veri…ca que un estadístico T (X1 ; : : : ; Xn ) es su…ciente si y solo si f (x1 ; : : : ; xn )

admite ser expresada como

f (x1 ; : : : ; xn ) = g (T (x1 ; : : : ; xn )) h (x1 ; : : : ; xn ) , (2.10)

siendo g una función que solo depende de la muestra a traves de T y h una función que

no depende de .

Ejemplo 4. Obtén estadísticos su…cientes, mediante el teorema de factorización, para las

distribuciones a) B (1; ), b) P ( ), c) U (0; ).

5
2. Estimación puntual

Solución: a) Los argumentos x1 ; : : : ; xn intervienen en la función de masa a traves de


P P
t = ni=1 xi , y esto lleva a obtener que T = ni=1 Xi es un estadístico su…ciente:

f (x1 ; : : : ; xn ) = x1 + +xn
(1 )n (x1 + +xn )
= t
(1 )n t
, (2.11)

y entonces f (x1 ; : : : ; xn ) admite una expresión del tipo (2.10), con g (t) = t (1 )n t
y

h = 1 (constante).

b) La función de masa es
x1 + +xn t n
X
n n
f (x1 ; : : : ; xn ) = e =e , con t = xi , (2.12)
x1 ! xn ! x1 ! xn !
i=1

y entonces f (x1 ; : : : ; xn ) admite una expresión del tipo (2.10), con g (t) = e n t y
P
h (x1 ; : : : ; xn ) = x1 ! 1 xn ! . Por tanto T = ni=1 Xi es un estadístico su…ciente.

c) La función de densidad es, si x1 ; : : : ; xn > 0,

n
f (x1 ; : : : ; xn ) = I x(n) < , (2.13)

que solo depende de la muestra a traves de x(n) . Entonces T = X(n) es un estadístico

su…ciente, puesto que podemos expresar f (x1 ; : : : ; xn ) como en (2.10), con

g (t) = nI ft < g y h = 1.

El estadístico su…ciente no es único.

Por ejemplo, la muestra completa, T = (X1 ; : : : ; Xn ), es siempre un estadístico su…-

ciente. Para comprobarlo, simplemente hay que tener en cuenta que, obviamente, la mues-

tra agota toda la información que posee la muestra sobre ; o que la distribución de

(X1 ; : : : ; Xn ) condicionada con T = t, con t = (x1 ; : : : ; xn ), es degenerada en t, y entonces

no depende de ; o, utilizando el teorema de factorización, que f (x1 ; : : : ; xn ) admite una

expresión del tipo (2.10), con h = 1.

También, si T es su…ciente y S es un estadístico cualquiera, entonces (T; S) es su…ciente.

Ésto es así porque (T; S) contiene al menos la misma información que S y que T , y T agota

toda la información, y por tanto así ocurre con (T; S). Puesto que T agota la información,

entonces S no aporta información, como componente del par (T; S), y es irrelevante para

6
2.2 Estadísticos su…cientes

el estudio de . Entonces, en la práctica debemos usar solamente T para el estudio de , y

prescindir de S.

Puesto que queremos utilizar de un modo adecuado la información que aporta la mues-

tra sobre el parámetro desconocido, parece razonable utilizar estimadores que sean estadís-

ticos su…cientes o funciones de ellos.

Por simplicidad, conviene entonces elegir el estadístico su…ciente “mas pequeño”, el

estadístico su…ciente minimal. La elección del “mas pequeño” se concreta en el sentido de

“aquel que mas resume la información completa que aporta la muestra sobre ”, que no es

exactamente lo mismo que aquel con menor dimensión.

Un estadístico su…ciente T se denomina su…ciente minimal si, para cualquier otro es-

tadístico su…ciente T 0 , existe una función ' tal que T = '(T 0 ).

El estadístico su…ciente minimal es único salvo transformaciones biyectivas (una trans-

formación biyectiva preserva la información).

Por ejemplo, si el estadístico T1 = X es su…ciente minimal (sm), entonces el estadístico


P
T2 = ni=1 Xi también lo es, puesto que existe una transformación biyectiva que transforma

el uno en el otro: se tiene que T2 = h (T1 ), con h (t) = nt, y h es biyectiva (es una función

lineal con pendiente n, con 0 < n < 1).

Una manera cómoda de averigüar si existe una transformación biyectiva que transforma

un estadístico T1 en otro T2 , es estudiar si T2 se puede expresar en función de T1 , y en caso

a…rmativo, comprobar si se puede despejar T1 con unicidad en esta expresión. Por ejemplo,
P
si T1 = X y T2 = ni=1 Xi , entonces T2 = nT1 y, despejando, se obtiene T1 = T2 =n. Puesto

que hemos podido despejar con unicidad, se tiene que existe una transformación biyectiva

que transforma T1 en T2 , y entonces si uno de ellos es sm, el otro también lo es.

Habitualmente, es posible identi…car el estadístico sm a partir de la factorización del

teorema de factorización. Sin embargo, es conveniente disponer de un procedimiento general

para su obtención. El siguiente resultado, que es consecuencia del teorema de factorización,

es útil para la obtención del estadístico su…ciente minimal.

7
2. Estimación puntual

Se veri…ca que un estadístico T (X1 ; : : : ; Xn ) es su…ciente minimal si y solo si el cociente

f (x1 ; : : : ; xn )
(2.14)
f (x01 ; : : : ; x0n )

no depende de cuando T (x1 ; : : : ; xn ) = T (x01 ; : : : ; x0n ) y sí depende de en caso contrario,

cuando T (x1 ; : : : ; xn ) 6= T (x01 ; : : : ; x0n ).

Ejemplo 5. Determina el estadístico su…ciente minimal para las siguientes distribuciones

teóricas: a) B (1; ), b) P ( ), c) Exp ( ), d) U (0; ).

Solución: Denotamos por C = C (x1 ; : : : ; xn ) al cociente ff (x


(x1 ;:::;xn )
0 ;:::;x0 ) . Escribimos nx
1 n
Pn
en vez de i=1 xi , puesto que es mas breve. La clave de la obtención del estadístico sm

es identi…car en C (x1 ; : : : ; xn ) los factores en los que no se puede separar de la muestra

(x1 ; : : : ; xn ), de modo que estos factores no se pueden expresar a su vez como un producto

de una función de y una función de la muestra. Los estadísticos a traves de los cuales se

expresan estos factores, en los que no se puede separar de la muestra, son los estadísticos

sm buscados. Estos factores, son potencias en los apartados a-c, y es una función indicatriz

en d.

a) Se tiene que
n(x x0 )
nx (1 )n nx
n(x x0 ) n(x x0 )
C = nx0
= (1 ) = , (2.15)
nx0 (1 )n 1

que no depende de (vale 1) cuando x = x0 , y sí depende de cuando x 6= x0 . Por tanto, X


P
es sm. Como se comentó antes, T = ni=1 Xi es también sm. Ya sabíamos por los ejemplos

3 y 4a que T es su…ciente, y ahora hemos comprobado que es además sm.

b) Se tiene que
nx
n 0
e x1 ! xn ! n(x x0 ) x1 ! x0n !
C = nx0
= , (2.16)
e n x1 ! xn !
x01 ! x0n !

que no depende de cuando x = x0 (puesto que 0 = 1), y sí depende de cuando x 6= x0 .


P
Por tanto, X, ó ni=1 Xi , es sm.

c) Se tiene que
ne nx
n (x x0 )
C = ne nx0
=e , (2.17)

8
2.2 Estadísticos su…cientes

que no depende de cuando x = x0 (puesto que e0 = 1), y sí depende de cuando x 6= x0 .


P
Por tanto, X, ó ni=1 Xi , es sm.

d) Se tiene que
n o n o
nI x(n) < I x(n) <
C = n o= n o . (2.18)
n I x0 < I x0 <
(n) (n)

Cuando x0(n) = x(n) se tiene que C = 1, y por tanto no depende de . Cuando x0(n) 6= x(n) ,

C sí depende de . Entonces X(n) es sm.

Ejemplo 6. Determina el estadístico sm para una N ( ; ) en los siguientes casos:

a) = (con = 0 conocida),

b) = (con = 0 conocida),

c) = ( ; ).

Solución: La función de densidad de la muestra es

n=2 1 Pn
f (x1 ; : : : ; xn ) = (2 ) n
exp 2 i=1 (xi )2 (2.19)
2

(obtenida en el capítulo 1).

a) Desarrollando el cuadrado y simpli…cando, se obtiene

n=2 n 1 Pn 2 Pn 2
f (x1 ; : : : ; xn ) = (2 ) 0 exp 2 i=1 xi 2 i=1 xi +n , (2.20)
2 0

y de aquí
n Pn Pn o
n=2 n 1 2 2
(2 ) 0 exp 2 2 i=1 xi 2 i=1 xi +n
C = n 0
Pn Pn o (2.21)
n=2 n 1 02 0 2
(2 ) 0 exp 2 2 i=1 xi 2 i=1 xi + n
0

1 Pn 2 Pn 02
= exp 2 i=1 xi i=1 xi 2n x x0 , (2.22)
2 0

que no depende de cuando x = x0 (puesto que 0 = 0, y en este caso se tiene que


n P P o
1 n 2 n 02
C = exp 2 02 i=1 xi i=1 xi , expresión en la que no interviene ), y sí depende
P
de cuando x 6= x0 . Por tanto, X, ó ni=1 Xi , es sm.

9
2. Estimación puntual

b) Se tiene que
n Pn o
n=2 n exp 1 2
(2 ) 2 2 i=1 (xi 0)
C = n o (2.23)
n=2 n exp 1 Pn 0 2
(2 ) 2 2 i=1 (xi 0)

1 Pn 2 Pn 2
= exp 2 i=1 (xi 0) i=1 x0i 0 . (2.24)
2

Téngase en cuenta que 0 es una cantidad conocida. Consideremos el estadístico T (x1 ; : : : ; xn ) =


Pn 2
i=1 (xi 0 ) . Se tiene que C no depende del parámetro desconocido cuando T (x1 ; : : : ; xn ) =

1
T (x01 ; : : : ; x0n ) (puesto que 2 2 0 = 0, y en este caso C = e0 = 1), y sí depende de

cuando T (x1 ; : : : ; xn ) 6= T (x01 ; : : : ; x0n ). Por tanto, T = T (X1 ; : : : ; Xn ) es sm. Entonces,


1 1 Pn 2
nT = n i=1 (xi 0) también es un estadístico sm.

c) Se tiene que
n=2 n exp 1 Pn 2
Pn 2
(2 ) 2 2 i=1 xi 2 i=1 xi + n
C ; = n=2 Pn 02 Pn (2.25)
n exp 1 0 2
(2 ) 2 2 i=1 xi 2 i=1 xi + n
1 Pn 2 Pn 02 Pn Pn 0
= exp i=1 xi i=1 xi 2 i=1 xi i=1 xi . (2.26)
2 2
Pn Pn 2
Sea T (x1 ; : : : ; xn ) = i=1 xi ; i=1 xi . Se tiene que el cociente C ; no depende del

parámetro = ( ; ) cuando T (x1 ; : : : ; xn ) = T (x01 ; : : : ; x0n ), y sí depende de cuando

T (x1 ; : : : ; xn ) 6= T (x01 ; : : : ; x0n ). Por tanto, T = T (X1 ; : : : ; Xn ) es sm. Se tiene que el

estadístico

X; s2 (2.27)

también es sm (y también lo es X; S 2 ), puesto que se transforma en


Pn Pn 2
T = i=1 Xi ; i=1 Xi = (T1 ; T2 ) biyectivamente: se tiene que
2
T1 T2
2 T1
X= y s = , (2.28)
n n n
2
y despejando se obtiene T1 = nX y T2 = n s2 + X . Puesto que se ha despejado con

unicidad, entonces, efectivamente, la transformación es biyectiva y X; s2 es sm.

Prescindiremos del teorema de factorización, puesto que la obtención del estadístico sm

a partir del cociente en (2.14) mejora el resultado del teorema, proporcionando no solo un

estadístico su…ciente, sino el sm.

10
2.3 Estimadores consistentes y centrados

2.3. Estimadores consistentes y centrados

Es conveniente, y así ocurre en la mayoría de los casos, que el estimador utilizado sea

consistente.

Una sucesión de estimadores T1 ; T2 ; : : :, asociada a los sucesivos tamaños muestrales n,

se denomina consistente para estimar una función g ( ) del parámetro si

p
Tn ! g ( ) para todo 2 . (2.29)

Una sucesión consistente para g ( ) = es la media muestral X = X n para sucesivos


p
valores de n. Por la ley débil de los grandes números se tiene que X ! sea cual sea

el verdadero valor de , y entonces la sucesión de medias muestrales X 1 X 2 ; : : : es consis-

tente para la media poblacional . No se hará referencia explícita a la sucesión y se dirá

simplemente que la media muestral es un estimador consistente para la media poblacional.

La consistencia de la media es válida para cualquier distribución teórica (con …nita).

Por ejemplo, para una distribución teórica (p; a), con = (p; a) y = p=a, se tiene que

X es consistente para g (p; a) = p=a.

Recuérdese que es …jo pero desconocido, y entonces la condición en (2.29) de que la

convergencia sea para todo 2 asegura la convergencia a g ( ) cualquiera que sea el


p
verdadero valor de . Por ejemplo, si fuera = 20 1, entonces X ! 20 1, y si fuera = 50 7,
p
entonces X ! 50 7.

La siguiente propiedad establece condiciones para la esperanza y la varianza del esti-

mador que aseguran la consistencia: si

l m E [Tn ] = g ( ) y l m V [Tn ] = 0 para todo 2 , (2.30)


n!1 n!1

entonces la sucesión T1 ; T2 ; : : : es consistente para g ( ).

En general, todos los momentos muestrales son consistentes para los correspondientes

momentos poblacionales, puesto que convergen casi seguro y por tanto en probabilidad.

Ésto también es válido para los cuantiles.

11
2. Estimación puntual

Puesto que la muestra tiende, cuando n ! 1, a dar información completa sobre la

distribución teórica, entonces cabe pedirle a un estimador que tienda a dar información

completa sobre g ( ), lo que ocurre en caso de ser consistente.

La consistencia hace referencia al comportamiento cuando n tiende a in…nito, y por

tanto no aporta nada por si misma sobre el comportamiento del estimador para un tamaño

de muestra dado. Sin embargo, nos asegura que podemos conseguir un estimador con una

distribución tan concentrada cerca de g ( ) como se quiera, eligiendo n su…cientemente

grande.

Se denomina sesgo de T al estimar g ( ) a la cantidad

bT (g ( )) = E [T ] g( ) . (2.31)

Se dice que T es insesgado o centrado para g ( ) si el sesgo es nulo.

Consideraremos algunos estimadores que son centrados y otros que no lo son, pero en

este último caso el sesgo siempre tenderá a 0 cuando n ! 1 (estimador asintóticamente

insesgado).

Ejemplo 7. La media muestral y la cuasivarianza muestral son estimadores centrados

para la media y la varianza poblacional, puesto que

E X = y E S2 = 2
. (2.32)

El sesgo de la varianza muestral como estimador de la varianza poblacional es:

2 n 1 1
bs 2 = E[s2 ] 2
= 2 2
= 2
, (2.33)
n n

que tiende a 0 cuando n ! 1. Por tanto, la varianza muestral es asintóticamente insesgada

para la varianza poblacional.

12
2.4 Error cuadrático medio como medida de la bondad de un estimador

2.4. Error cuadrático medio como medida de la bondad de

un estimador

Para medir la bondad de un estimador (cómo es de bueno) tendremos que medir de

algún modo si los valores que toma se alejan mucho del verdadero valor del parámetro (o

de la función del parámetro g ( ) que se considere). Puesto que el estimador es una v.a., y

distintas realizaciones (a partir de distintas muestras que se obtuvieran) tomarían distintos

valores, algunos mas lejanos y otros mas cercanos, debemos considerar un valor promedio

(una esperanza).

Consideremos un estimador T de . Si obtenemos la estimación T = t, entonces la lejanía

al verdadero valor se puede medir simplemente como la distancia j tj entre la estimación

y el valor que estamos estimando. Pero también podemos considerar otras nociones de

distancia que pueden contemplar una penalización por el error cometido al tomar t como si

fuera el verdadero valor de ; por ejemplo, los costes económicos consecuencia de la toma

de esa decisión.

Esta penalización se expresa mediante la función de pérdida L ( ; t). Algunos ejemplos

de función de pérdida son los siguientes.

L ( ; t) = j tj es el error absoluto de la estimación. (2.34)

L ( ; t) = ( t)2 es el error cuadrático de la estimación. (2.35)


j tj
L ( ; t) = es el error relativo de la estimación. (2.36)
c si j tj > "
L ( ; t) = penaliza con un coste c los (2.37)
0 si j tj "

errores mayores que ".

La función de pérdida usada habitualmente es el error cuadrático. Es la única que

estudiamos.

A la perdida esperada E [L ( ; T )], que es función de , se la denomina función de

riesgo, y se la denota por RT ( ). En nuestro caso de pérdida cuadrática la función de riesgo


h i
es RT ( ) = E ( T )2 , y se denomina error cuadrático medio de T como estimador de

13
2. Estimación puntual

. Se suele denotar por ECMT ( ) ó ECM ( ):


h i
ECM ( ) = E ( T )2 . (2.38)

El error cuadrático medio de T como estimador de g ( ) es


h i
ECM (g ( )) = E (T g ( ))2 . (2.39)

Se veri…ca que

ECM (g ( )) = V [T ] + bT (g ( ))2 , (2.40)

como comprobamos a continuación:


h i
ECM (g ( )) = E (T E [T ] + E [T ] g ( ))2 (2.41)
h i h i
=E (T E [T ])2 + E (E [T ] g ( ))2 (2.42)

+ 2E [(T E [T ]) (E [T ] g ( ))] , (2.43)

y, puesto que

E [(T E [T ]) (E [T ] g ( ))] = (E [T ] g ( )) E [(T E [T ])]

= (E [T ] g ( )) (E [T ] E [T ]) = 0 ,

se tiene que

ECM (g ( )) = V [T ] + (E [T ] g ( ))2 + 0 = V [T ] + bT (g ( ))2 . (2.44)

De aquí se obtiene que, si T es insesgado, entonces su ECM coincide con su varianza.

Si T1 y T2 son dos estimadores para g ( ), se dice que T1 es preferible a T2 si

RT1 ( ) RT2 ( ) para todo 2 y (2.45)

RT1 ( ) < RT2 ( ) para algún 2 . (2.46)

Sería deseable encontrar un estimador que fuera preferible a todos los demás, pero

en muchas ocasiones no existe. Puede ocurrir que RT1 ( ) < RT2 ( ) para algúnos y

RT1 ( ) > RT2 ( ) para otros, y en este caso ni es T1 preferible a T2 ni T2 preferible a T1 .

14
2.4 Error cuadrático medio como medida de la bondad de un estimador

Sin embargo, si nos retringimos a estimadores que veri…can ciertas condiciones puede

ocurrir que sí exista uno preferible a todos los demás.

En concreto, más adelante estudiaremos un método que pérmite, en algunas ocasiones,

obtener un estimador centrado que es preferible a cualquier otro estimador centrado. Para

ello, y en general en toda la inferencia paramétrica, el concepto de estadístico su…ciente es

fundamental.

Ejemplo 8. Consideremos una m.a.s. de tamaño n de una distribución N ( ; ). Se tiene


p
que M N ; p2 , siendo M la mediana muestral. Comprueba que la mediana mues-
2 n

tral es un estimador consistente de . Comprueba que la media muestral es preferible a la

mediana muestral.
p
Solución: Puesto que M N ; p2 , se tiene que
2 n
p 2
l m E [M ] = y l m V [M ] = l m p2 = 0 para todo , (2.47)
n!1 n!1 n!1 2 n

y entonces la mediana es un estimador consistente de . (Ya sabemos que la media también

es consistente).

Se tiene que X N ; pn , y entonces


2
ECM X = V X + bX ( )2 = V X +( )2 = V X = . (2.48)
n
p
2
Se tiene que 2 = 10 25. Para n grande, el ECM de la mediana vale
2 2
ECM (M ) = V [M ] + bM ( )2 ' 10 252 + bM ( )2 10 56 . (2.49)
n n

De hecho, se tiene que

l m bM ( ) = l m (E [M ] ) = l m E [M ] = =0,
n!1 n!1 n!1

aunque es su…ciente utilizar la acotación en (2.49). Por tanto,


2 2 2
ECM X = < 10 56 10 56 + bM ( )2 ' ECM (M ) . (2.50)
n n n

Hemos comprobado que, al menos para n grande, el estimador X es preferible a M para

estimar en poblaciones normales. De hecho, ésto mismo ocurre para todo n.

15
2. Estimación puntual

2.5. Métodos de obtención de estimadores

Hasta ahora, hemos estudiado distintas nociones generales sobre estimadores. Hemos

introducido las nociones de estimador consistente y estimador centrado. Hemos estudiado

una medida de la bondad de un estimador, el ECM . Hemos desarrollado la noción de

estadístico su…ciente.

Hemos considerado algunos estimadores, como la media muestral (estimador de la es-

peranza poblacional), pero no hemos estudiado ningún método general de obtención de

estimadores. En este apartado estudiamos el método de los momentos, el método de máxi-

ma verosimilitud, y el procedimiento de obtención del estimador centrado de uniformemente

mínima varianza.

El método de los momentos se basa en estimar momentos poblacionales mediante mo-

mentos muestrales, y a partir de ahí se obtienen estimadores de los parámetros. No siempre

da lugar a buenos estimadores.

El método de máxima verosimilitud se basa en obtener el valor del parámetro que

maximiza la función de masa o densidad para una muestra dada. Tiene propiedades que

hacen que sea el método mas usado (por ejemplo, el estimador es función del estadístico

sm).

En algunos casos existe un estimador centrado que es preferible a todos los demás (el

mejor estimador centrado), y se veri…ca que este estimador es función del estadístico sm.

Estudiaremos el estimador centrado de uniformemente mínima varianza.

2.5.1. Método de los momentos

Los momentos poblacionales son función del parámetro = ( 1; : : : ; k) 2 Rk .

El método de los momentos (mm) consiste en estimar los momentos poblacionales

mediante los correspondientes momentos muestrales, y estimar 1; : : : ; k despejando.

Se plantean k ecuaciones con los k primeros momentos. Por ejemplo, la primera ecuación

(k = 1) es “ = X” (recuérdese que = E [X]). Si el sistema no tiene solución única se

añaden momentos posteriores a los k primeros hasta que la solución sea única.

16
2.5 Métodos de obtención de estimadores

Se suelen utilizar momentos respecto del origen. Utilizando momentos centrales el re-

sultado suele ser el mismo que utilizando momentos respecto del origen, pero no siempre

es así. Además, el momento de orden 1 debe ser tomado respecto del origen, puesto que el

central es nulo.

Obsérvese que es un abuso de notación escribir = X, puesto que aquí no es el valor

del parámetro, …jo pero desconocido, sino que es una variable en una ecuación. Por esta

razón escribimos la igualdad entre comillas.

Ejemplo 9 Determina el estimador de por el mm para las siguientes distribu-

ciones teóricas:

a) B (1; ), b) Exp ( ), c) U (0; ), d) U ( ; ), e) (p; a), con = (p; a).

Solución:

a) Estimamos E [X] = = mediante la media muestral, y entonces b = X.

b) Estimamos E [X] = = 1= mediante la media muestral, lo que proporciona la

ecuación “ 1 = X”. Despejando, se obtiene “ = 1=X”, y entonces el estimador es b = 1=X.

c) Estimamos E [X] = = =2 mediante la media muestral, lo que proporciona la

ecuación “ 2 = X”. Despejando, se obtiene “ = 2X”, y entonces el estimador es b = 2X.

Obsérvese que b no es función del estadístico sm X(n) . No es un buen estimador. En la

hoja de problemas se obtienen estimadores de basados en X(n) preferibles al estimador

2X.

Además, el estimador b = 2X, puede dar lugar a malas estimaciones. Por ejemplo, si

obtenemos la muestra (x1 ; x2 ; x3 ) = (10 3; 80 9; 20 1), con n = 3, se tiene que x = 40 1, y la

estimación vale b = 2 40 1 = 80 2. Puesto que X2 U (0; ) y x2 = 80 9, tiene que ser 80 9,

y entonces la estimación b = 80 2 es claramente inadecuada.

+( )
d) Se tiene que E [X] = = 2 = 0, que no proporciona ninguna ecuación para

(“0 = X” no vale) y entonces debemos considerar el momento de orden 2. En algunas

ocasiones, como en este ejemplo, los estimadores son diferentes si consideramos momentos

respecto del origen o centrales.

17
2. Estimación puntual

El momento poblacional central de orden 2 es la varianza

2 ( ( ))2 2
V [X] = = = , (2.51)
12 3

y se estima mediante el momento muestral central de orden 2, que es la varianza muestral


2 p
s2 , obteniéndose la ecuación “ 3 = s2 ”. Despejando, se obtiene “ = s 3”, y entonces el

estimador es
p
b= s 3 . (2.52)

El momento poblacional de orden 2 respecto del origen es

2 2
E X 2 = V [X] + E [X]2 = + 02 = , (2.53)
3 3
P
y se estima mediante el momento muestral de orden 2 respecto del origen, que es n1 ni=1 Xi2 ,
P q P
2
obteniéndose la ecuación “ 3 = n1 ni=1 Xi2 ”. Despejando, se obtiene “ = n3 ni=1 Xi2 ”,

y entonces el estimador es v
u n
u X
e= t3 Xi2 . (2.54)
n
i=1

e) Puesto que hay dos parámetros desconocidos, planteamos dos ecuaciones.

Además de la esperanza E [X] = = p=a (momento de orden 1), consideramos la varianza

V [X] = 2 = p=a2 (momento central de orden 2), obteniendo las ecuaciones “ ap = X”


2
y “ ap2 = s2 ”. Despejando, se obtiene “a = X
s2
”y “p = X
s2
”, y entonces el estimador de

= (p; a) es !
2
b = (b X X
p; b
a) = ; .
s2 s2

2.5.2. Método de máxima verosimilitud

Dada una realización muestral (x1 ; : : : ; xn ), denominamos función de verosimilitud a

L ( ) = L ( ; x1 ; : : : ; xn ) = f (x1 ; : : : ; xn ) , (2.55)

que es la función de masa o densidad f (x1 ; : : : ; xn ), pero con (x1 ; : : : ; xn ) …jo y considerada

como función de .

18
2.5 Métodos de obtención de estimadores

La estimación de máxima verosimilitud de , b = b(x1 ; : : : ; xn ), asociada a la muestra

(x1 ; : : : ; xn ), es el valor de que maximiza L ( ):

L( b) = max L ( ) . (2.56)
2

La correspondiente v.a. b = b(X1 ; : : : ; Xn ) es el estimador de máxima verosimilitud (emv)

de .

Ejemplo 9. Consideremos dos urnas: U1 (2b; 8n) y U2 (9b; 1n). Alguién elige una urna y

extrae una bola al azar. No nos informa de cual ha sido la urna elegida, pero nos dice que

la bola extraida ha resultado ser blanca. ¿Cual ha sido la urna de la cual se ha extraido la

bola blanca?.

Solución: Podría ser cualquiera de las dos, puesto que en cada una de ellas hay alguna

bola blanca. Pero si tuvieramos que decantarnos, parece mas verosimil (en un sentido

coloquial) que la urna haya sido U2 , puesto que la probabilidad de que al extraer una bola

ésta sea blanca, es mayor para U2 que para U1 . Con este razonamiento, se está siguiendo

el principio de máxima verosimilitud dado por (2.56), como comprobamos a continuación.

Consideremos la v.a. X = X1 (muestra de tamaño 1) que vale 1 si se obtiene bola

blanca y vale 0 si se obtiene negra (Bernoulli). Sea 1 = 00 2 y 2 = 00 9, que son las

probabilidades de obtener bola blanca en la primera y segunda urna respectivamente. Con

estos elementos, podemos formular la situación del enunciado del siguiente modo: tenemos

una muestra de tamaño 1 de una distribución teórica de Bernoulli con espacio paramétrico

= f 1; 2 g. Obtenemos la estimación de máxima verosimilitud (mv) asociada al dato

x = 1 (bola blanca).

La función de verosimilitud es

1
L ( ) = L( ; x = 1) = f (1) = (1 )1 1
= . (2.57)

Entonces, L ( 1 ) = 1 = 00 2 y L ( 2 ) = 2 = 00 9, y por tanto

max L ( ) = max L ( ) = max fL ( 1 ) ; L ( 2 )g (2.58)


2 2f 1; 2g

= max 00 2; 00 9 = 00 9 = L ( 2 ) . (2.59)

19
2. Estimación puntual

Entonces, L( b) = max 2 L ( ) = L ( 2 ), y por tanto b = 2 es la estimación mv de ,

correspondiente a la urna U2 .

Si L ( ) es continua y derivable, entonces podemos encontrar el punto de máximo b

mediante el método habitual: determinando los máximos locales entre los puntos críticos

y buscando entre ellos (y la frontera del soporte) el máximo global b. En los casos mas

habituales con L ( ) derivable, L ( ) tiene un único máximo local que es el máximo global.

Omitiremos el cálculo de la derivada segunda cuando éste sea el caso.

Además, disponemos del siguiente resultado que simpli…ca los cálculos: el valor de

para el cual una función L ( ) se maximiza, es el mismo para el cual la función log L ( )

se maximiza. La razón de este resultado es que el logaritmo es una función creciente y,

por tanto, cuanto mayor sea L ( ) mayor es log L ( ). También se puede comprobar de un
d
modo simple (para L derivable) observando que la ecuación d log L ( ) = 0 coincide con
d
la ecuación d L ( ) = 0 (que es, L0 ( ) = 0) si L ( ) > 0:

d L0 ( )
0= log L ( ) = si y solo si L0 ( ) = 0 .
d L( )

Si L ( ) es un producto de funciones exponenciales, es mas rápido derivar log L ( ) (que

es suma de productos) que L ( ). Ésto ocurre con muchas de las distribuciones teóricas

usadas habitualmente.

Ejemplo 10. Determina el emv de para las siguientes distribuciones teóricas:

a) B (1; ), b) P ( ), c) Exp ( ), d) U (0; ).

Solución:

a) Se tiene que L ( ) = f (x1 ; : : : ; xn ) = nx (1 )n(1 x)


y entonces

log L ( ) = nx log + n (1 x) log (1 ) ,y


d nx n (1 x)
log L ( ) = .
d 1

Resolviendo la ecuación “ dd log L ( ) = 0”se obtiene la solución única “ = x”. La solución

de la ecuación es el estimador de que buscamos, y entonces el emv es b = X.

20
2.5 Métodos de obtención de estimadores

b) Se tiene que log L ( ) = n + nx log log (x1 ! xn !) , y

d nx
log L ( ) = n+ =0,
d

que tiene solución “ = x”. Entonces, b = X es el emv de .

d n
c) log L ( ) = n log n x , y d log L ( ) = nx = 0 , que tiene solución

“ = 1=x”. Entonces, b = 1=X es el emv de .

d) Por simplicidad, conviene modi…car la función de densidad de la muestra de

la U (0; ), f (x1 ; : : : ; xn ) = nI x(n) < , utilizando una desigualdad no extricta en la

función I: I x(n) . Haciendo ésto, modi…camos el soporte en un conjunto de proba-

bilidad 0, y no afecta a la distribución. Con ello, la función de verosimilitud es L ( ) =


nI x(n) , y se tiene que
(
n 0 si 0 < < x(n)
L( ) = I x(n) = n
. (2.60)
si x(n)

d n n 1 n
Se tiene que d = n < 0 para > 0, y entonces es decreciente para x(n) .

Por tanto, L ( ) se maximiza con = x(n) , y entonces b = X(n) es el emv de .

Ejemplo 11. Determina el emv de para la distribución teórica N ( ; ) en los siguientes

casos: a) = , con = 0 conocida, b) = , con = 0 conocida, c) = ( ; ).

Pn
Solución: Se tiene que log L ( ) = n2 log (2 ) n log 2
1
2 i=1 (xi )2 .
P P
a) dd log L ( ) = 2 1 2 ni=1 2 (xi )2 1 ( 1) = 1
2 ( ni=1 xi n ) = 0 tiene
0 0

solución “ = x”. Entonces, b = X es el emv de .


d n 1 3
Pn 2
b) La ecuación d log L ( ) = 2 ( 2) i=1 (xi 0) = 0 se puede
Pn 2
expresar como 1 n+ 1
2 i=1 (xi 0)
= 0 , que tiene solución
q P q P
“ = n1 ni=1 (xi 2
0 ) ”. Entonces, b =
1
n
n
i=1 (Xi
2
0 ) es el emv de .

c) En este caso, para encontrar el máximo hay que resolver el sistema


9
d 1 Pn >
=
d log L ( ; ) = 2 ( i=1 xi n )=0
(2.61)
d 1 1 Pn 2 >
;
d log L ( ; ) = n + 2 i=1 (xi ) =0

21
2. Estimación puntual

q P q P
n
que tiene solución “ = x y = 1
n i=1 (xi )2 = 1 n
n i=1 (xi x)2 = s ”. Entonces,
b = (b; b) = X; s es el emv de = ( ; ).

Habitualmente, el emv es consistente. En algunas ocasiones es centrado y en otras no.

El emv tiene propiedades, como las que siguen a continuación y el teorema 14, que hacen

que sea un método de estimación muy utilizado.

Propiedades del estimador de máxima verosimilitud

1.- Un emv siempre es función del estadístico su…ciente minimal. Aunque con frecuencia

el mismo emv es un estadístico su…ciente, no siempre lo es.

2.- No siempre es único, aunque habitualmente lo es.

3.- Si b es el emv de , entonces g( b) es el emv de g ( ).

La propiedad 3 es muy útil, como se muestra en los ejemplos 12 y 13. Proporciona el

emv de cualquier función g ( ) del parámetro a partir del emv de , y de un modo muy
b
sencillo: gd
( ) = g( b). Por ejemplo, el estimador de 2 es ( b)2 , y el de e es e .

Esta ‡exibilidad del emv no la tienen otros tipos de estimadores. Por ejemplo, si b

es centrado para , se tiene que g( b) = ( b)2 no es centrado para g ( ) = 2, puesto que

E[g( b)] 6= g ( ):

E[g( b)] = E[( b)2 ] = V [ b] + E[ b]2 = V [ b] + 2


6= 2
= g( ) . (2.62)

Hemos supuesto que V [ b] 6= 0, lo que ocurre si b tiene distribución no degenerada. Un

estimador degenerado (que toma un valor constante) no ofrece ninguna utilidad.

Ejemplo 12. El número de fallos en bobinas de cable de 1 km sigue una distribución

de Poisson. Se puede comprobar si una bobina tiene algún fallo conectando el principio

y el …nal de la bobina a un circuito eléctrico y comprobando si circula la corriente (si se

enciende un piloto conectado en este circuito). De 1.000 bobinas se comprobó que 78 de

ellas tenían algún fallo. Determina el emv para el número medio (el número esperado) de

fallos por bobina.

22
2.5 Métodos de obtención de estimadores

Solución: De los datos, lo único que se puede estimar directamente es la probabilidad,

llamémosla p, de que una bobina tenga algún fallo (mediante la proporción 00 078 de bobinas

con fallos). Sin embargo, la utilización del supuesto paramétrico de que el número de fallos

es de Poisson, y el uso de la propiedad 3 de los emv, permite estimar el numero medio de

fallos.

Disponemos de una muestra de una Bernoulli (hemos observado si hay fallo o no). Para

i = 1; : : : ; n, con n = 1.000, sea Xi la v.a. que vale 1 si la bobina i-ésima tiene algún fallo

y vale 0 si no tiene fallo. Se tiene que X1 ; : : : ; Xn es una m.a.s. de una B (1; p). Se ha
P
observado una realización x1 ; : : : ; xn de esta muestra con ni=1 xi = 78.

Sea Z la v.a. “número de fallos en una bobina”. No hemos observado Z, pero sabemos

que Z P ( ) para algún valor de . El número esperado de fallos es la esperanza de la

P ( ), que es igual a . Queremos entonces estimar .

La probabilidad de que una bobina tenga algún fallo, se expresa en términos de X y

de Z como P fX = 1g y P fZ > 0g, respectivamente. Ésto permite relacionar p con , y

estimar mediante el emv de p y el uso de la propiedad 3. Se tiene que

0
p = P fX = 1g = P fZ > 0g = 1 P fZ = 0g = 1 e =1 e . (2.63)
0!

Despejando, se obtiene = g(p) = log(1 p). El emv de p (el parámetro de la B (1; p))

es pb = X (ejemplo 10a) y, por la propiedad 3 de los emv, se tiene que el emv de = g(p)

es
b = g(b
p) = log(1 pb) = log(1 X) . (2.64)

Con este estimador se obtiene la siguiente estimación:

b= log(1 x) = log(1 0;078) = 00 0812 . (2.65)

Ejemplo 13. Obtén el emv para el séptimo decil de una distribución teórica normal.

Solución: Suponemos que ninguno de los parámetros es conocido, puesto que no se

dice nada al respecto. El séptimo decil (es un cuantil) es el valor d = x00 7 tal que

23
2. Estimación puntual

P fN ( ; ) dg = 00 7. Lo expresamos en función de y , y obtenemos el estimador

utilizando la propiedad 3 y el ejemplo 11c. Se tiene que

n o
d
P fN ( ; ) dg = P N (0; 1) = 00 7 , (2.66)

n o
d
y entonces P N (0; 1) > = 00 3. Puesto que P fN (0; 1) > 00 52g = 00 3015, se tiene
d
que = 00 52, y despejando se obtiene que el séptimo decil es

d= + 00 52 = g ( ; ) . (2.67)

Por el ejemplo 11c se tiene que el emv de ( ; ) es (b; b) = (X; s), y por la propiedad

3 se tiene que

db = b + 00 52b = X + 00 52s . (2.68)

También podemos estimar x00 7 mediante el correspondiente cuantil muestral c00 7 . Sin

embargo, este estimador no utiliza la información de la que disponemos de que la distribu-


b El estimador
ción teórica es normal, lo que se traduce en que su ECM es mayor que el de d.

db es función del estadístico sm para el parámetro = ( ; ) de la normal.

En el siguiente teorema se presenta otra propiedad muy útil del emv. Bajo ciertas

condiciones que se cumplen con frecuencia, la distribución del emv es asintóticamente

normal. Además, si el emv es único, entonces es consistente. Sólo se considera aquí el caso

en que el parámetro es unidimensional, esto es, k = 1.

Teorema 14. Supongamos que R es abierto, y que f (x) satisface las siguientes

condiciones:
d3
1.- Existe la derivada log f (x) , y su valor absoluto está acotado por una función K(x)
d 3
tal que E [K(X)] k para todo .
d 1 d2
2.- Se tiene que E log f (X) = 0 y E log f (X) = 0 .
d f (X) d 2
3.- Se tiene que i ( ) > 0, con
" #
2
d
i( ) = E log f (X) .
d

24
2.5 Métodos de obtención de estimadores

Bajo estas condiciones, si bn = bn (X1 ; : : : ; Xn ) es una sucesión de estimadores de máxima

verosimilitud consistente para , se tiene que


!
bn 1
N ;p (2.69)
n i( )

para todo 2 .

Por otra parte, si el emv es único, entonces la sucesión bn siempre es consistente.

A la función i ( ) de la condición 3 se la denomina información de Fisher, y es una

medida de la información que aporta una muestra de tamaño 1 sobre ; obsérvese que la

desviación típica en (2.69) es menor cuanto mayor sea la información i ( ). Por (2.69) se
h i
tiene para n grande que V bn ' n1 i(1 ) . Una expresión alternativa para i ( ), cuando se

cumple la condición 2, es la siguiente:

d2
i( ) = E log f (X) . (2.70)
d 2

En algunas ocasiones es mas sencillo calcular i ( ) de esta manera.

La información que aporta una m.a.s. de tamaño n sobre es n i ( ).

Las condiciones 1 y 2 pueden ser difíciles de comprobar, pero se cumplen con frecuencia.

En algunas ocasiones puede ser mas sencillo comprobar (2.69) de un modo directo que

comprobar 1 y 2. De cualquier modo, en lo sucesivo nos limitaremos a calcular i ( ) para

obtener la distribución asintótica (2.69). En todos los casos que consideramos se cumplen

1 y 2.

Ejemplo 15. Determina la distribución asintótica del emv b para el parámetro de las

siguientes distribuciones teóricas: a) B (1; ), b) P ( ), c) Exp ( ).

Solución: En el ejemplo 10 se obtienen los emv b para estos casos.

a) Puesto que f (x) = x (1 )1 x


, se tiene que f (X) = X (1 )1 X
(es una

25
2. Estimación puntual

v.a. transformada de X), y log f (X) = X log + (1 X) log (1 ). Se tiene que

d X 1 X X
log f (X) = = , y de aquí se obtiene (2.71)
d 1 (1 )
" #
X 2
1 h i
i( ) = E = E (X )2 (2.72)
(1 ) 2 (1 )2
1 (1 ) 1
= 2V [X] = = . (2.73)
2 (1 ) 2 (1 )2 (1 )

La primera igualdad en (2.73) se obtiene teniendo en cuenta que EX = . Se tiene que


b = X y, por el teorema 14, se tiene que
p !
(1 )
X N ; p . (2.74)
n

Obsérvese que este resultado ya fue obtenido anteriormente utilizando el TCL, puesto que

= y (1 )= 2 .

b) Se tiene que log f (X) = + X log log (X!) , y

d X X
log f (X) = 1 + = , y de aquí se obtiene (2.75)
d" #
X 2
1 h i 1 1 1
i( ) = E = 2 E (X )2 = 2 V [X] = 2 = (2.76)

Se tiene que b = X y, por el teorema 14, se tiene que


p !
X N ;p . (2.77)
n

(También fue obtenido utilizando el TCL).

d 1
c) Se tiene que log f (X) = log X ,y log f (X) = X , y de aquí se
d
obtiene " #
2
1 1
i( ) = E X = V [X] = 2
(2.78)

Se tiene que b = 1=X y, por el teorema 14, se tiene que

1
N ;p . (2.79)
X n

Este resultado no es una aplicación inmediata del TCL.

26
2.5 Métodos de obtención de estimadores

Aunque ya es innecesario, también obtenemos i ( ) utilizando la expresión (2.70). Se

tiene que

d2 d d d 1 1
2
log f (X) = log f (X) = X = 2
,y (2.80)
d d d d
2 2
i( ) = E 1= = 1= . (2.81)

2.5.3. Estimador centrado de uniformemente mínima varianza

Un estimador T , centrado para g ( ) y con varianza …nita, se dice que es un estimador

centrado de uniformemente mínima varianza (ECUMV ) para g ( ) si, para cualquier otro

estimador T 0 centrado para g ( ) y con varianza …nita, se tiene que

V [T ] V [T 0 ] para todo 2 . (2.82)

El error cuadrático medio coincide con la varianza para un estimador centrado, y entonces

un ECUMV es un estimador centrado preferible a cualquier otro estimador centrado.

Si existe el ECUMV, es único. Aunque no siempre existe, sí existe en muchos casos. El

siguiente teorema es básico para su obtención.

Teorema 16. (de Rao-Blackwell) Sea S un estadístico su…ciente para una familia paramétri-

ca fF : 2 g (por ejemplo, el sm). Para cualquier estimador T1 centrado para g ( ),

T2 = E [T1 =S] (2.83)

es un estimador de g ( ) que satisface las siguientes propiedades:

a) En la expresión de T2 no interviene .

b) T2 es centrado para g ( ).

c) V [T2 ] V [T1 ] para todo 2 , con igualdad si y solo si T2 = T1 .

Demostración

a) Puesto que la distribución de la muestra condicionada por el valor de S no

depende de , entonces así ocurre con cualquier función de la muestra, y en particular con

27
2. Estimación puntual

T1 . Entonces, la esperanza condicionada basada en esa distribución condicionada, E [T1 =S],

no depende de (podemos tachar ). Por tanto, T2 es un estimador.

b) E [T2 ] = E [E[T1 =S]] = E [T1 ] = g ( ).

c) V [T1 ] = V [E[T1 =S]] + E [V [T1 =S]] V [E[T1 =S]] = V [T2 ]. Además,


h h ii
E [V [T1 =S]] = E E (T1 E[T1 =S])2 =S (2.84)
h h ii h i
= E E (T1 T2 )2 =S = E (T1 T2 )2 , (2.85)

que vale 0 si y solo si T2 = T1 .

En este apartado 2.5.3 estamos considerando solo estimadores centrados, y entonces el

ECM coincide con la varianza. El teorema 16 proporciona un método para mejorar un

estimador centrado T1 , obteniéndose un estimador T2 que es, o preferible o igual a T1 .

La esperanza condicionada T2 = E [T1 =S] es función del estadístico sm S, y entonces el

ECUMV, si existe, debe ser función de S: si un estimador T1 no es función de S, entonces

T2 = E [T1 =S] es distinto de T1 (uno es función de S y el otro no), y preferible a T1 (por

el teorema 16), y por tanto T1 no puede ser el ECUMV.

Obsérvese que si aplicamos el teorema ahora a T2 en vez de a T1 , obtenemos de nuevo

T2 :

E [T2 =S] = E [T2 1=S] = T2 E [1=S] = T2 .

Frecuentemente existe una única función h del estadístico su…ciente minimal S que es

centrada para g ( ). En este caso, por el teorema 16, h(S) debe ser el ECUMV, y además

h(S) = E [T1 =S] para cualquier estadístico centrado T1 .

La unicidad de esta función h está relacionada con la noción de “completitud”, que no

estudiamos. En todos los ejemplos de este apartado 2.5.3 el estadístico sm es “completo”,

y de aquí se obtiene que el ECUMV es el único estimador centrado función del estadístico

sm. En algunos casos, esta función centrada se obtiene de un modo sencillo, y en otros hay

que calcular E [T1 =S] directamente.

Ejemplo 17. Para las siguientes familias paramétricas y funciones g del parámetro, el

ECUMV para g ( ) es la única función centrada del estadístico sm, que llamamos SM

28
2.5 Métodos de obtención de estimadores

(reservamos el símbolo S para la cuasidesviación típica muestral). Determína el ECUMV

para g ( ).

a) B (1; ), g ( ) = , b) P ( ), g ( ) = , c) N ( ; ) ( = ( ; )), g ( ; ) = ,

d) N ( ; ) ( = ( ; )), g ( ; ) = 2.

Solución: a) Se tiene que SM = X es sm (y función del sm por tanto) y es insesgado

para = . Por tanto, X es el ECUMV para .

b) Se tiene que SM = X es sm (y función del sm por tanto) y es insesgado

para = . Por tanto, X es el ECUMV para .

c) Se tiene que SM = X; S 2 es sm y X es función de SM . Además, X es

centrado para , y por tanto X es el ECUMV para .

d) Se tiene que SM = X; S 2 es sm y S 2 es función de SM . Además, S 2 es

centrado para 2, y por tanto S 2 es el ECUMV para 2.

Ejemplo 18. Consideremos una m.a.s. de un distribución teórica B (1; ). Se tiene que el

ECUMV para g ( ) = (1 )= 2 es la única función centrada del estadístico sm SM .

Determínalo considerando el estimador centrado T que vale 1 si X1 = 1 y X2 = 0, y 0 en

caso contrario, y calculando E [T =SM ].

Solución: Se tiene que SM = X. No parece sencillo encontrar de un modo directo una

función centrada del estadístico sm X (aunque de hecho en el apartado b se obtiene una

tal función). Utilizamos el teorema 16 para encontrar la función centrada que, como se

indica en el enunciado, es única, y es por tanto el ECUMV. Para ello, podemos partir

de cualquier estimador centrado y, de hecho, cuanto mas simple sea mas sencillos son los

cálculos. Partimos de un estimador que es muy malo por si mismo, pero que es simple.
1 si X1 = 1; X2 = 0
Sea T1 = . Se tiene que T1 es centrado, puesto que
0 en caso contrario

E [T1 ] = 1 P fT1 = 1g + 0 P fT1 = 0g = 1 P fX1 = 1; X2 = 0g (2.86)

= P fX1 = 1g P fX2 = 0g = (1 ) = g( ) . (2.87)

Pn
Resulta ahora mas cómodo considerar el estadístico sm en la forma SM = i=1 Xi , que

29
2. Estimación puntual

tiene distribución B (n; ). Se tiene que

E [T1 =SM = s] = 1 P fT1 = 1=SM = sg + 0 P fT1 = 0=SM = sg (2.88)

= P fX1 = 1; X2 = 0=SM = sg (2.89)


P
P fX1 = 1; X2 = 0; ni=1 Xi = sg
= (2.90)
P fSM = sg
P
P fX1 = 1; X2 = 0; ni=3 Xi = s 1g
= (2.91)
P fSM = sg
P
P fX1 = 1g P fX2 = 0g P f ni=3 Xi = s 1g
= (2.92)
P fSM = sg
P fB (1; ) = 1g P fB (1; ) = 0g P fB (n 2; ) = s 1g
= (2.93)
P fB (n; ) = sg
(1 ) n 2 s 1
s 1 (1 )n s 1 n 2
s 1 s (n s)
= = n = . (2.94)
n s
s (1 )n s s
n (n 1)

Por tanto, el ECUMV para g ( ) = (1 )= 2 es

SM (n SM ) n
E [T1 =SM ] = = X 1 X .
n (n 1) n 1

Ejemplo 19. El ECUMV para la función del parámetro g ( ) = P fX > 0g = 1 e de

una distribución teórica P ( ) es único. Determínalo.

Solución: No es sencillo encontrar de un modo directo una función centrada del estadís-
P
tico sm SM = ni=1 Xi . Utilizamos el teorema 16 para encontrar la función centrada que,

como se indica en el enunciado, es única (es el ECUMV). Partimos de un estimador que es

muy malo por si mismo, pero que es simple.


1 si X1 > 0
Sea T1 = . Se tiene que T1 es centrado, puesto que
0 si X1 = 0

E T1 = 1 P fT1 = 1g + 0 P fT1 = 0g = 1 P fX1 > 0g + 0 P fX1 = 0g (2.95)

= P fX1 > 0g = 1 P fX1 = 0g = 1 e = g( ) . (2.96)

30
2.5 Métodos de obtención de estimadores

Se tiene que (la distribución de Poisson es reproductiva)

E[T1 =SM = s] = 1 P fT1 = 1=SM = sg + 0 P fT1 = 1=SM = sg (2.97)

= P fT1 = 1=SM = sg = 1 P fT1 = 0=SM = sg (2.98)

=1 P fX1 = 0=SM = sg (2.99)


P
P fX1 = 0; ni=1 Xi = sg
=1 (2.100)
P fSM = sg
P
P fX1 = 0; ni=2 Xi = sg
=1 (2.101)
P fSM = sg
P
P fX1 = 0g P f ni=2 Xi = sg
=1 (2.102)
P fSM = sg
P fP ( ) = 0g P fP ((n 1) ) = sg
=1 (2.103)
P fP (n ) = sg
s
(n 1) [(n 1) ]
e e s! (n 1)s
=1 s =1 . (2.104)
e n [ns!] ns

Por tanto, el ECUMV para g ( ) = P fX > 0g es

nX
(n 1)SM 1
E [T1 =SM ] = 1 =1 1 . (2.105)
nSM n

Puesto que el estimador de máxima verosimilitud de es b = X (ejemplo 10a), por la

propiedad 3 de los estimadores de máxima verosimilitud se tiene que el emv para la función
b
del parámetro g ( ) = 1 e es gd
( )=1 e =1 e X. Para n grande se tiene que
1 n 1,
este estimador es muy cercano al ECUMV, en (2.105), puesto que l mn!1 1 n =e

y entonces
n X
1
E [T1 =SM ] = 1 1 '1 e X
= gd
( ). (2.106)
n

Si T1 es el ECUMV para g1 ( ) y T2 es el ECUMV para g2 ( ), se tiene que T = aT1 +bT2

es el ECUMV para g ( ) = ag1 ( ) + bg2 ( ).

Ejemplo 20. Consideremos una m.a.s. de un distribución teórica B (1; ). Determína el

ECUMV para g ( ) = 2.

Solución: Se tiene que g ( ) = g1 ( ) g2 ( ), con g1 ( ) = y g2 ( ) = (1 ). En

ejemplos anteriores obtuvimos el ECUMV para g1 ( ), que es T1 = X, y el ECUMV para

31
2. Estimación puntual

n 2
g2 ( ), que es T2 = n 1X 1 X . Entonces, el ECUMV para g ( ) = g1 ( ) g2 ( ) =

es
n 1 2 nX 1
T1 T2 = X X 1 X = nX X = X . (2.107)
n 1 n 1 n 1

Ejemplo 21. Consideremos una m.a.s. de un distribución teórica P ( ). Determína el

ECUMV para g ( ) = P fX = 0g = e .

Solución: Se tiene que g ( ) = g1 ( ) g2 ( ), con g1 ( ) = 1 y g2 ( ) = P fX > 0g. En


1 nX
el ejemplo 19 obtuvimos el ECUMV para g2 ( ), que es T2 = 1 1 n . El ECUMV

para g1 ( ) = 1 es, obviamente, T1 = 1 (v.a. degenerada). Entonces, el ECUMV para

g ( ) = g1 ( ) g2 ( ) es
!
nX nX
1 1
T1 T2 = 1 1 1 = 1 . (2.108)
n n

2.6. Familias exponenciales

de distribuciones de probabilidad

La función de masa o densidad de la mayoría de las distribuciones de probabilidad mas

usadas tiene una estructura similar: se expresa como productos de potencias de funciones

de la variable x y del parámetro. Por ejemplo, la distribución de Bernoulli, la Poisson,

la exponencial, la normal, la gamma y la beta son de este tipo. No así las distribuciones

uniformes.

Se pueden obtener resultados generales que se aplican a cualquier familia paramétrica

de este tipo, como por ejemplo una fórmula para la obtención del estadístico sm.

Se dice que una familia uniparamétrica de distribuciones, esto es, con R, es una

familia de tipo exponencial uniparamétrico, si existen funciones reales de variable real c, h,

q y V tales que la función de masa o densidad admite una expresión de la forma

f (x) = c ( ) h (x) exp fq ( ) V (x)g . (2.109)

32
2.6 Familias exponenciales de distribuciones de probabilidad

El término “exponencial” en el nombre de este tipo de distribuciones puede generar con-

fusión en una primera lectura. La familia de las distribuciones exponenciales es una familia

de tipo exponencial, pero no es la única de este tipo, como se comprueba en el siguiente

ejemplo.

Ejemplo 22. Comprueba que las siguientes familias uniparamétricas de distribuciones de

probabilidad son de tipo exponencial: a) Exp ( ) b) B (1; ), c) P ( ),

d) N ( ; 0) ( = ), e) N ( 0; ) ( = ).

Solución:

a) Se tiene que
x
f (x) = e , (2.110)

y de este modo, f (x) admite la expresión (2.109) con

c( ) = , h (x) = 1 , q ( ) = y V (x) = x . (2.111)

b) Se tiene que
x
f (x) = x
(1 )1 x
= (1 ) = (1 ) exp x log , (2.112)
1 1

y de este modo, f (x) admite la expresión (2.109) con

c( ) = 1 , h (x) = 1 , q ( ) = log y V (x) = x . (2.113)


1

c) Se tiene que
x 1 x log
f (x) = e =e e , (2.114)
x! x!
y de este modo, f (x) admite la expresión (2.109) con

1
c( ) = e , h (x) = , q ( ) = log y V (x) = x: (2.115)
x!

d) Se tiene que

2 n o
x
f (x) = p 1
2
exp 1
2 0
= p 1
2
exp 2
1
2 x2 + 2
2 x (2.116)
0 0 0
n 2
o n o n o
p 1 x2 1
= 2
exp 2 2 exp 2 02
exp 2 x , (2.117)
0 0 0

33
2. Estimación puntual

y de este modo, f (x) admite la expresión (2.109) con

n o n o
2
c( ) = p 1
2
exp 2
1
2 , h (x) = exp 2
1
2 x2 , q( ) = 1
2 y V (x) = x .
0 0 0 0

e) Se tiene que

n o n o
x 2 2
f (x) = p1 exp 1 0
= p1 exp 1
2 (x 0) (2.118)
2 2 2 2

y de este modo, f (x) admite la expresión (2.109) con

p1 1 2
c( ) = 2
, h (x) = 1 , q ( ) = 2 2 y V (x) = (x 0) . (2.119)

Es sencillo obtener una expresión general del estadístico sm válida para cualquier familia

de tipo exponencial, lo que proporciona un método alternativo de obtención. La función

de densidad de la muestra (m.a.s.) para una distribución teórica dada por (2.109) es
n n
! ( n
)
Y n
Y X
f (x1 ; : : : ; xn ) = f (xi ) = c ( ) h (xi ) exp q ( ) V (xi ) , (2.120)
i=1 i=1 i=1

y entonces
n
! ( n
)
Y X
c ( )n h (xi ) exp q ( ) V (xi )
f (x1 ; : : : ; xn ) i=1 i=1
= ! ( ) (2.121)
f (x01 ; : : : ; x0n ) Yn Xn
c ( )n h (x0i ) exp q ( ) V (x0i )
i=1 i=1
n
Y
h (xi ) ( n n
!)
i=1
X X
= n exp q ( ) V (xi ) V x0i , (2.122)
Y
h (x0i ) i=1 i=1

i=1
Pn Pn
que no depende de si y solo si i=1 V (xi ) = i=1 V (x0i ). Entonces, el estadístico sm es
n
X
T = V (Xi ) . (2.123)
i=1

Además, para cualquier familia de tipo exponencial se tiene que el estadístico sm es com-

pleto.

34
2.6 Familias exponenciales de distribuciones de probabilidad

En el ejemplo 22 se obtiene V (x) = x para las distribuciones Exp ( ), B (1; ), P ( ) y

N( ; 0 ), con = . Entonces, en estos cuatro casos el estadístico sm es


n
X n
X
T = V (Xi ) = Xi , (2.124)
i=1 i=1
como ya sabíamos.
2
En el ejemplo 22e se obtiene V (x) = (x 0) , y entonces el estadístico sm es
n
X n
X 2
T = V (Xi ) = (Xi 0) , (2.125)
i=1 i=1
como ya sabíamos.

Esta noción se generaliza al caso con mas de un parámetro. Se dice que una familia

k-paramétrica de distribuciones, esto es, con Rk , es una familia de tipo exponencial

k-paramétrico, si existen funciones reales de variable real c, h, q1 ; : : : ; qk y V1 ; : : : ; Vk tales

que la función de masa o densidad admite una expresión de la forma


8 9
<Xk =
f (x) = c ( ) h (x) exp qj ( ) Vj (x) . (2.126)
: ;
j=1

Se obtiene que el estadístico sm es


n n
!
X X
T = (T1 ; : : : ; Tk ) = V1 (Xi ) ; : : : ; Vk (Xi ) , (2.127)
i=1 i=1
que además es completo.

Ejemplo 23. Comprueba que la distribución N ( ; ), con = ( ; ), es de tipo exponen-

cial biparamétrico.

Solución: Se tiene que


n o n o
1 x 2
f ; (x) = p21 exp 2 = p 1
2 0
exp 1
2 02
x2 + 2
2 x (2.128)
n 2
o
= p21 exp 2 2
exp 2 x exp 1
2 2
x2 , (2.129)

y de este modo, f ; (x) admite la expresión (2.126) con


n 2
o
c ( ; ) = p21 exp 2 2
, (2.130)

h (x) = 1 , (2.131)

q1 ( ; ) = 2 , V1 (x) = x , (2.132)

q2 ( ; ) = 2
1
2 y V2 (x) = x2 . (2.133)

35
2. Estimación puntual

Pn Pn 2
Además, el estadístico sm en (2.127) es T = i=1 Xi ; i=1 Xi , ya obtenido en el

ejemplo 6c.

2.7. Cota de Frechet-Cramer-Rao para la varianza de un

estimador

El valor más pequeño para la varianza de un estimador centrado viene dado por la

varianza del ECUMV (si existe). Aun sin conocer el ECUMV es posible en muchos casos

obtener funciones de que acotan inferiormente la varianza de los estimadores centrados.

En algunas ocasiones, estas acotaciones permiten obtener el ECUMV: dado un esti-

mador centrado, si su varianza coincide con la cota entonces es el ECUMV.

Una de estas acotaciones es la desigualdad de Frechet-Cramer-Rao, que se presenta a

continuación.

Sea T centrado para g ( ). Bajo ciertas condiciones de regularidad de la distribución

teórica, una de ellas que su soporte no dependa de y el resto poco restrictivas, se veri…ca

que
g 0 ( )2
V [T ] para todo 2 . (2.134)
n i( )

Un estimador centrado para el que se dé la igualdad en (2.134) se denomina estimador

e…ciente.

Si un estimador es e…ciente entonces es el ECUMV, y esto sirve como método de cálculo

del ECUMV en algunas ocasiones. La relación opuesta no se veri…ca y de este modo el

ECUMV puede no ser e…ciente.

Si el ECUMV no es e…ciente, entonces no existe ningún estimador e…ciente, puesto que

el ECUMV es preferible a cualquier otro estimador centrado.

Denominamos e…ciencia de T , centrado para g ( ), al cociente entre su cota y su va-

rianza:
g 0 ( )2 =(n i ( ))
eT ( ) = . (2.135)
V [T ]

36
2.7 Cota de Frechet-Cramer-Rao para la varianza de un estimador

Se veri…ca que eT ( ) 1. El estimador T es e…ciente cuando eT ( ) = 1 para todo .

Se veri…ca que un estimador solo puede ser e…ciente cuando F es una familia de tipo

exponencial.

Apuntes de Inferencia Estadística

Víctor M. Ruiz Morcillo

37

Das könnte Ihnen auch gefallen