Sie sind auf Seite 1von 13

Estimación puntual∗

Nicolás Burotto Ravanal†


agosto 2015

Introducción
En este documento se estudiará el concepto de estimación puntual (a diferencia de la esti-
mación por intervalos), el cual consiste en calcular el valor específico de algún parámetro
que sea de nuestro interés. Para ello, generalmente se utiliza la información proveniente
de una muestra y, en algunos casos, la información a priori disponible. Partiendo de
la premisa de que nunca se va a conocer el valor real del parámetro de una población,
el objetivo de la estimación puntual es la determinación de un valor que represente la
máxima aproximación del valor del parámetro.
Para conseguir una buena aproximación, es necesario especificar previamente una
serie de propiedades consideradas como deseables en un estimador. En otras palabras,
la idea es mostrar las normas apropiadas para la obtención del mejor estimador de un
parámetro arbitrario θ .

1 Propiedades de los estimadores

Supóngase que a partir de cierta variable (o característica) X , discreta o continua, se ob-


tienen las siguientes observaciones muestrales aleatorias X 1 , X 2 , . . . ,Xn de tamaño n, las
cuales poseen una determinada distribución y un parámetro θ que se quiere estimar. La
manera en que se utiliza la información suministrada por las observaciones muestrales
está condicionada por la fórmula de estimación, llamada estimador1 . Comúnmente, es-
∗ Nota de clase elaborada para el curso de Estadística II a cargo del Ing. Tito Lasanta en la Facultad de
Ciencias Económicas de la Universidad de Buenos Aires.
† nburottor@economicas.uba.ar
1 La distribución de probabilidad de un estimador se denomina distribución muestral del estimador.

Si a cada una de todas las muestras posibles de tamaño n que puedan extraerse de una población se le
calcula el valor del estimador, se obtiene la distribución muestral del estimador.

1
tas fórmulas presentan múltiples formas para la estimación de θ .
Se establece como θˆ al estimador de θ . Para obtener θˆ, se sustituyen en la fórmula
los valores muestrales conocidos de X , el cual puede ser representado funcionalmente
como:
θˆ = θˆ (X 1 , X 2 , . . . , Xn ).

El problema, es encontrar la función θˆ que provea la mejor estimación del parámetro


θ . Esta función, puede tener cualquier forma con la única condición que no incluya val-
ores de parámetros desconocidos ni la propia θ . Nótese que θˆ, a diferencia de θ que es
una constante, es una variable aleatoria dado que es función de variables aleatorias.
Por ejemplo, imaginemos que la distribución de una muestra aleatoria de 100 cuentas
sueldo en cierta sucursal bancaria es normal con parámetro desconocido µ. El salario
medio muestral calculado es de $5.000. Y al saber que para la distribución normal
E(X̄ ) = µ (¿por qué?), entonces la estimación puntual de µ es 5.000. Sin embargo, en
el ejemplo se podría haber utilizado la mediana muestral para estimar el valor de la
media poblacional. Entonces, ¿cómo saber si el estimador de determinado parámetro
es el más adecuado? ¿Cómo definir si un estimador es bueno o malo?
Es decir, el investigador tiene que determinar la forma funcional más apropiada del
estimador, de manera tal que estime un parámetro poblacional lo más acertado posible.
En un principio, se puede afirmar que como propiedades deseables un estimador debe
tener su distribución muestral concentrada alrededor del parámetro θ y su varianza ser
la menor posible. De esto se desprende un concepto importante que nos servirá para
evaluar “la calidad” del estimador llamado error cuadrático medio, que se escribe:

ECM (θˆ ) = E (θˆ − θ ) 2 ,

y se lee como el valor esperado del cuadrado de la diferencia entre θˆ y θ , es decir, mide la
dispersión alrededor del verdadero valor del parámetro θ . Este concepto es muy similar
f g2
al de varianza V ar (θˆ ) = E θˆ − E (θˆ ) , solo que la varianza mide la dispersión alrededor
del valor esperado de θˆ. Ahora, si se observa más detenidamente puede apreciarse que
la varianza y el error cuadrático medio del estimador están íntimamente relacionados.

2
Se desarrolla ECM (θˆ ):

ECM (θˆ ) = E (θˆ2 − 2θθ


ˆ + θ 2)

= E (θˆ2 − 2θθ
ˆ + θ 2 + E (θˆ ) 2 − E(θˆ ) 2 )

= E (θˆ2 ) − E (θˆ ) 2 +E (θˆ ) 2 − 2θE (θˆ ) + θ 2


| {z }
f g2
= V ar (θˆ ) + E (θˆ ) − θ .

De esta manera, el error cuadrático medio puede expresarse como la suma de la


varianza y el sesgo del estimador al cuadrado. A simple vista, el estimador que pre-
sente el menor error cuadrático medio entre todos los posibles estimadores de θ podría
considerarse como el mejor estimador de θ . Sin embargo, el problema es más complejo
dado que ningún estimador puede minimizar el error cuadrático medio para todos los
valores de θ , sino que algunos estimadores pueden minimizar el error para algunos val-
ores de θ y otros estimadores minimizar el error para otros valores de θ . Por esta razón,
se deben exigir otras normas adicionales que permitan identificar al mejor estimador
de θ .

1.1 Estimadores insesgados

A partir del desarollo de ECM (θˆ ), se observa que la expresión E (θˆ ) − θ recibe el nombre
de sesgo del estimador, el cual es la diferencia entre el valor esperado del estimador y
el verdadero valor del parámetro. Así, dado que es deseable que el sesgo sea lo más
pequeño posible, se puede afirmar que un estimador insesgado es aquel cuya media sea
igual al parámetro poblacional que está estimando. En otras palabras, θˆ es un estimador
insesgado de θ si E (θˆ ) = θ . Para cualquier estimador insesgado de θ , la distribución
muestral de θˆ (explicada en nota al pie 1) se encuentra centrada alrededor de θ . En la
figura 1, la insesgadez de un estimador se representa gráficamente como:

Figura 1.

3
Es importante señalar que la insesgadez de un estimador no provee información
alguna acerca de la dispersión de la distribución del estimador. Por ejemplo, un esti-
mador insesgado con una varianza muy grande, será poco preciso en sus estimaciones.
Contrariamente, un estimador sesgado con varianza mínima o cero (gráficamente se
vería como una linea recta en un valor distinto de θ ) también será de poca utilidad.
Un buen ejemplo de estimador insesgado es la media muestral X̄ . Sea una muestra
aleatoria X 1 , X 2 , . . . , Xn , de tamaño n tal que E (Xi ) = µ, entonces:

n
X Xi + 1 P
E (X̄ ) = E * = E(Xi ) = µ.
, i=1 n - n

1.2 Estimadores eficientes

Como se mencionaba anteriormente, un estimador insesgado con una elevada varianza


es inútil, por lo que se buscará una cierta clase de estimador insesgado que presente
una mínima varianza para todos los valores de θ . O dicho de otra manera, dada una
cantidad de estimadores insesgados de modo que ECM (θˆ ) = V ar (θˆ ), se buscará uno
que tenga el mínimo error cuadrático medio. Entonces, θˆ es un estimador eficiente2 de θ
si es insesgado tal que E (θˆ ) = θ y si V ar (θˆ ) es menor que la varianza de cualquier otro
estimador insesgado de θ . De manera gráfica, en la figura 2 se representa el concepto
de eficiencia.

( )

( )

( )

Figura 2.

En la figura 2 se presentan las distribuciones de tres estimadores de θ : θˆ1 , θˆ2 y θˆ3 . Se


observa que el estimador que tiene la menor varianza es θˆ1 , pero es ineficiente porque
la distribución se encuentra centrada en un valor distinto de θ : es sesgado. Luego, se
observa que θˆ2 y θˆ3 son insesgados porque se distribuyen alrededor de θ , sin embargo,
2 También puede recibir el nombre de estimador insesgado de varianza mínima o estimador insesgado óp-
timo.

4
θˆ3 presenta una mayor varianza que θˆ2 . Por lo tanto, se deduce que θˆ2 es el estimador
que presenta una mayor eficiencia relativa respecto a los otros dos estimadores, siempre
que no exista otro estimador con una menor varianza.
No obstante, si en determinados casos hubiera que calcular la varianza de muchos
estimadores insesgados de θ , la búsqueda de un estimador eficiente puede simplificarse
determinándose la eficiencia en un sentido absoluto. La herramienta (teorema) que
permite esto, recibe el nombre de desigualdad de Cramer-Rao y se escribe:

1
V ar (θˆ ) ≥ ! 2 .
∂ln f (X ; θ )
 
nE 
 ∂θ 

Esta desigualdad, señala que existe un limite inferior (mayor a cero) para la varianza
de cualquier estimador insesgado de θ . Quiere decir que si la varianza de un estimador
insesgado es igual al límite inferior de Cramer-Rao, se puede afirmar que no existe otro
estimador insesgado con varianza más pequeña y, en consecuencia, será considerado
eficiente. Ahora bien, puede darse que entre todos los estimadores insesgados de θ , el
que tenga la varianza más pequeña de todos aquellos estimadores no alcance el límite
inferior de Cramer-Rao. Aún así, se lo puede considerar como un estimador eficiente
(de varianza mínima) de θ .

1.3 Estimadores consistentes

La principal idea detrás de este concepto, radica en que se considera a un estimador con-
sistente de θ si su distribución se concentra alrededor del verdadero valor del parámetro
θ a medida que la información provista por la muestra aleatoria sea más completa. Esta
propiedad asintótica, hace referencia a la distribución del estimador cuando el tamaño
de la muestra es grande y tiende a infinito. El punto en el cual se concentra la distribu-
ción del estimador cuando n −→ ∞ se llama límite en probabilidad de θˆ y puede escribirse
como:
lim P (θ − ε ≤ θˆ ≤ θ + ε ) = 1,
n→∞

donde ε es un número positivo pequeño. Es decir, se considera a θˆ como un estimador


consistente de θ si el limP (θˆ ) = θ . Una buena manera de calcular la consistencia de
un estimador se basa en la observación del sesgo y la varianza del estimador cuando
n −→ ∞. Si a medida que el tamaño de la muestra va creciendo se observa que el sesgo

5
(si es que lo hay) y la varianza del estimador van disminuyendo hasta que tienden a
cero conforme n −→ ∞, se dice que el estimador es consistente. Entonces, dado que
la suma de la varianza y el sesgo al cuadrado es igual al error cuadrático medio del
estimador, una expresión equivalente que afirma que θˆ es un estimador consistente de θ ,
se escribe como:
lim ECM (θˆ ) = 0.
n→∞

Es importante mencionar que esta última condición es suficiente, pero no necesaria


para la consistencia de un estimador dado que puede ocurrir que el ECM (θˆ ) no tienda a
cero cuando n −→ ∞ y, sin embargo, ser consistente. Este caso (no tratado en este doc-
umento) se presenta en estimadores cuya forma de distribución asintótica no permite
que exista una media o su varianza.

1.4 Estimadores robustos


De acuerdo con Urbisaia y Brufman (2010)3 , un estimador es robusto cuando su condi-
ción para obtener estimaciones es insensible ante la violación de alguno de los supuestos
fijados al especificar un modelo (asignando, por ejemplo, una función de distribución
incorrecta a una población). Es decir, los resultados que se estiman no varían significa-
tivamente ante la presencia de irregularidades. Además, un estimador robusto pro-
duce buenas estimaciones frente a una amplia variedad de procesos generadores de
datos. Por ejemplo, al estimar la volatilidad de los retornos diarios de un índice bursátil
cualquiera podría estudiarse la robustez de la estimación cambiando la periodicidad a
semanal y/o mensual.
Por otra parte, puede también considerarse robusto a aquel estimador que sea más
resistente a valores atípicos o outliers, los cuales pueden deberse a realizaciones de un
determinado experimento en condiciones anormales o equivocaciones en la transcrip-
ción de algún dato. Nótese que la mediana es un estimador robusto poco sensible a
outliers.

1.5 Estimadores suficientes

Se define a un estimador suficiente del parámetro θ , como aquel estimador que utiliza
toda la información correspondiente al parámetro contenida en la muestra. Un esti-
3 Urbisaia, H. L. y Brufman, J. (2010), “Estimación robusta”, XVI Jornadas de Epistemología de las Ciencias

Económicas FCE-UBA.

6
mador suficiente “trabaja” con todas las observaciones muestrales aleatorias. En reali-
dad, esta propiedad no es en si misma deseable, sino que que es una condición necesaria
para la eficiencia. Es decir, un estimador que no utilice toda la información propor-
cionada por la muestra, no puede ser eficiente.

2 Métodos de estimación puntual

El siguiente paso, una vez definidas las propiedades deseables de un estimador, con-
siste en crear fórmulas de estimación que satisfagan las propiedades antes descriptas.
Para ello, existen ciertos métodos o principios a partir de los cuales se obtiene una fór-
mula de estimación y que implica, posteriormente, la verificación de las propiedades
mencionadas. Particularmente, en este documento se considerará el método de los mo-
mentos y el método de máxima verosimilitud4 .

2.1 Método de los momentos

Este método de estimación consiste en igualar los momentos de la distribución pobla-


cional con los correspondientes momentos muestrales. Se denomina momento pobla-
cional de orden k a E (X k ) y dada una muestra aleatoria X 1 , X 2 , . . . , Xn de tamaño n, el
n
momento muestral de orden k se define como X ik/n . Entonces, sea X 1 , X 2 , . . . , Xn una
P
i=1

muestra aleatoria de una distribución con función de probabilidad p(x ) (variables disc-
retas) o función de densidad f (x ) (variables continuas), al igualar el k-ésimo momento
poblacional y muestral se obtiene:

n
X Xik
E (X k ) = .
n
i=1

De esta manera, si se quiere estimar la media (o varianza) de la población debe


hacerse a través de la media (o varianza) muestral. Por ejemplo, sea X 1 , X 2 , . . . , Xn
una muestra aleatoria de una distribución exponencial de tamaño n y con parámetro
λ. Recuérdese que el valor esperado (primer momento) de una variable aleatoria X
con distribución exponencial es E (X ) = 1/λ. Entonces, para encontrar el estimador del
4 Sin
embargo, existen otros métodos igualmente importantes como el método de los mínimos cuadrados
y el método ELIO.

7
parámetro λ, se tiene:

n
1 X Xi n 1
= =⇒ λ̂ = n =⇒ λ̂ = .
λ n P X̄
i=1 Xi
i=1

Quiere decir, que de acuerdo al método de los momentos, el estimador utilizado


para estimar el parámetro λ es la inversa de la media muestral.

2.2 Método de máxima verosimilitud

En esencia, el método de estimación de máxima verosimilitud permite seleccionar como


estimador de θ al valor del parámetro que maximiza la probabilidad de ocurrencia de
un conjunto particular de observaciones muestrales.
Supóngase una variable aleatoria X con una distribución de probabilidad (densi-
dad) f (x; θ ) que contiene un parámetro desconocido θ . Sean x 1 , x 2 , . . ., xn los valores
observados de un conjunto de n variables aleatorias e independientes. Se denomina
función de verosimilitud a la fórmula de la distribución de probabilidad conjunta (o pro-
ducto de probabilidades) de la muestra, que se escribe:

L(x 1 , x 2 , . . . , xn ; θ ) = f (x 1 ; θ ) f (x 2 ; θ ) . . . f (xn ; θ ).

El estimador de máxima verosimilitud (EMV) de θ es aquel valor de θ que maximiza


la función de verosimilitud L(x 1 , x 2 , . . . , xn ; θ ). Para descubrir los valores que hacen que
esta función tome su valor máximo, hay que tomar la primera derivada de L respecto a
θ e igualarla a cero. En este punto, es conveniente hacer una pequeña transformación:
es más simple resolver condiciones de primer grado cuando se trabaja con logaritmos.
Es decir, se maximizará el lnL(x 1 , x 2 , . . . , xn ; θ ).
Para una mayor comprensión del método, suponga que se realiza una encuesta de
opinión a una muestra aleatoria de 20 personas a las cuales se les realiza una única
pregunta que tendrá por respuesta SI o NO. Sea X 1 , X 2 , . . . , X 20 una muestra aleatoria
de una distribución Bernoulli con una función de probabilidad:

f (xi ; p) = pxi (1 − p) 1−xi ,

donde p = P (xi = 1) si la persona i responde SI y 1−p = P (xi = 0) si la persona i responde


NO. El resultado de la encuesta arroja que 13 personas respondieron que SI y siete (7)

8
personas NO. Entonces, para hallar el EMV se especifica la función de verosimilitud:

L(xi ; p) = px 1 (1 − p) 1−x 1 px 2 (1 − p) 1−x 2 . . . px 20 (1 − p) 1−x 20


Y20
= pxi (1 − p) 1−xi
i=1
= p xi
(1 − p) 20− xi
.
P P

El logaritmo de la función L es:

X 20 X20
lnL(xi ; p) = * xi + lnp + *20− xi + ln(1 − p).
, i=1 - , i=1 -

Ahora, si se deriva el lnL(·) respecto a p (el único parámetro desconocido), se obtiene:


!
20
P 20
P
xi 20− xi
∂lnL(·) i=1 i=1
= − .
∂p p 1−p

Al igualar a cero esta expresión y despejando p, se obtiene:

20
1 X
p̂ = xi ,
20
i=1

P
denominado estimador de máxima verosimilitud de p. Dado que xi es el número de acier-
tos o personas que respondieron positivamente y n = 20 el número de observaciones
muestrales, el EMV es el número de aciertos sobre el total de encuestados, entonces:

13
p̂ = = 0, 65.
20

Ejemplo 1.1.1
Sea una muestra aleatoria X 1 , X 2 , . . . , Xn de tamaño n de una población cuya distribución
es normal N (µ, σ ). Demostrar si el siguiente estimador es insesgado para estimar la
varianza:
n
X (Xi − X̄ ) 2
S 12 = .
n
i=1

9
n n
X (Xi − X̄ ) 2 + 1 *X
• En primer lugar, se aplica esperanza: E * =⇒ E (Xi − X̄ ) 2 + (i).
, i=1 n - n , i=1 -
n
n − 1 2 X (Xi − X̄ ) 2
• Luego, sabemos que si X ∼ N (µ, σ ), entonces S = 2
∼ χn−1 por
σ2 i=1
σ 2

Lema de Fisher5 . Además, sabemos que la esperanza de la distribución χn−1


2 son

sus grados de libertad, es decir, n − 1.


n
1 *X σ2
• Entonces, multiplicando y dividiendo por σ 2 a la expresión (i), resulta: E (Xi − X̄ ) 2 2 + .
n , σ -
i=1

n ! 2
σ2 Xi − X̄  n−1 2
X
• Reexpresando lo anterior, nos queda: E  . Es decir E (S 12 ) = σ .
n  i=1 σ 
 n

• Por lo tanto, queda demostrado que S 12 no es un estimador insesgado. No obstante,


puede demostrarse que el ejemplo anterior sí es asintóticamente insesgado.

n
X (Xi − X̄ ) 2
De este ejercicio se concluye que cuando nos referimos a = S2 como un
n−1
i=1
estimador puntual de la varianza, en realidad nos estamos refiriendo a la cuasivarianza
n
X (Xi − X̄ ) 2
muestral, porque si utilizásemos la “verdadera” varianza muestral S 2 = su
n
i=1
n − 1
esperanza sería E (S 2 ) = σ 2 la cual, ahora sabemos, no es centrada.
n

Ejemplo 1.1.2
Sea una muestra aleatoria X 1 , X 2 , . . . , Xn de tamaño n de una población cuya distribución
es normal N (µ, σ ). Demostrar si el siguiente estimador es insesgado para estimar la
varianza:
n
X (Xi − µ) 2
S 22 = .
n
i=1

5 Lema de Fisher: Sean X 1 , X 2 , . . . , X n variables aleatorias independientes e identicamente distribuidas


N (µ, σ ). Entonces:

1. X̄ ∼ N (µ, σ / n)
n
n − 1 2 X (X i − X̄ ) 2
2. S = ∼ χn−1 2
σ2 i=1
σ2
3. X̄ y S 2 son independientes

10
n n
X (Xi − µ) 2 + 1 *X
• En primer lugar, se aplica esperanza: E * =⇒ E (Xi − µ) 2 + (ii).
, i=1 n - n , i=1 -
Xi − µ
• Luego, sabemos que si Xi ∼ N (µ, σ ), entonces la variable estandarizada z = ∼
σ
N (0, 1).

Xi − µ 2
!
• En consecuencia: = z2 ∼ χ12 , por Lema de Fisher. Nótese que χ 12 pre-
σ
senta solo n grados de libertad porque en z no hay un estimador restando (el cual,
justamente, resta un grado un libertad) sino el parámetro µ. Y al ser solo una
Xi − µ 2
!
variable estandarizada, n = 1. Entonces, E = 1.
σ
n
1 X σ2
• Por lo tanto, multiplicando y dividiendo por σ 2 a la expresión (ii), resulta: E * (Xi − µ) 2 2 + .
n , σ - i=1

n
σ2 Xi − µ 2 
X ! 
 . Es decir E (S 2 ) = σ .
• Reexpresando lo anterior, nos queda: E  2 2
n  i=1 σ

• En consecuencia, queda demostrado que S 22 es un estimador insesgado.

Ejemplo 1.2.1

Sea una muestra aleatoria X 1 , X 2 , . . . , Xn de tamaño n de una población cuya distribución


es normal N (µ, σ ). Demostrar que la media muestral X̄ es el más eficiente en términos
absolutos.

• Sabemos que E (X̄ ) = µ es insesgado, y que la varianza V (X̄ ) = σ 2 /n.

Resolución por Cramer-Rao

1 x−µ 2
 
1 −2 σ
• Sea f (x, µ, σ ) = √ e .
2π σ
1 x − µ 2
!
1
• Aplicamos logaritmo: ln f (·) = ln √ − .
2π σ 2 σ

∂ln f (·)  x − µ  1
!
• Derivamos respecto a µ: = .
∂µ σ σ

11
∂ln f (·) 2  x − µ 2 1
!  " #
n

• Por lo tanto: nE  = nE = 2.
 ∂µ 
 σ σ 2 σ

1 σ2
• Reordenando términos, nos queda: ! 2 = n .
∂ln f (·) 

nE 
 ∂µ 

• Queda demostrado que X̄ es el estimador más eficiente en términos absolutos.

12
Bibliografía recomendada

Canavos, G.C. (1987). Probabilidad y Estadística. Aplicaciones y Métodos, Mc Graw-Hill,


México.

Kmenta, J. (1977). Elementos de Econometría, Vicens Vives, Barcelona.

Montgomery, D.C. y Runger, G.C. (1996). Probabilidad y Estadística Aplicadas a la Inge-


niería, Mc Graw-Hill, México.

Spiegel, M.R. (1976). Probabilidad y Estadística, Mc Graw-Hill, México.

13