Sie sind auf Seite 1von 29

M.

Mendes de Oliveira
Excerto das notas pessoais sobre:

TEORIA DA ESTIMAÇÃO
E ESTIMADORES DE MÁXIMA VEROSIMILHANÇA

Introdução

Definição 1 (Estimador; estimativa)


Seja Y = [Y1 Y2 … Yn]' uma amostra aleatória de n realizações de uma
variável aleatória Y com função de densidade de probabilidade (f.d.p.) f(Y; θ )
caracterizada pelo vector (q×1) de parâmetros θ .
Chama-se estimador (pontual) de θ a qualquer função θ (Y) que faça uso da
informação contida numa amostra da população f(Y; θ ) para obter um conjunto de
números que se possa considerar representarem aproximadamente o valor
desconhecido dos parâmetros em θ . Chama-se estimativa à concretização da função
θ (Y) para uma dada amostra.

Não acarreta nenhuma modificação substancial da Definição 1 a extensão ao


caso em que Y é um vector p-dimensional de variáveis aleatórias. Nesse caso, a cada
amostra corresponderá uma matriz (n×p), em vez de um vector (n×1).

Definição 2 (Espaço da amostra e espaço dos parâmetros)


Chama-se espaço da amostra ao conjunto de todas as matrizes Y possíveis (de
dimensão (n×1) no caso univariado ou de dimensão (n×p) no caso multivariado). Por
sua vez, designa-se por espaço dos parâmetros o conjunto de todos os vectores θ que
satisfazem as restrições do modelo.

Se Y é uma variável aleatória unidimensional, o espaço da amostra é,


geralmente, ℜn ou um subconjunto de ℜn. Se Y é uma variável aleatória p-
dimensional, o espaço da amostra é ℜnp ou um seu subconjunto.O espaço dos
parâmetros é ℜq, se as restrições sobre θ se limitarem à dimensão, q. Designando por
A o espaço da amostra e por B o espaço dos parâmetros, um estimador é uma
aplicação de A em B.

Definição 3 (Identificabilidade e estimabilidade)


Diz-se que um vector θ de parâmetros é identificável se θ (1) ≠ θ (2) implica
f(Y; θ (1)) ≠ f(Y; θ (2)) para algum Y, em que θ (1) e θ (2) designam dois elementos de B.
Diz-se que um vector θ de parâmetros é estimável se θ (1) ≠ θ (2) implica
L(Y; θ (1)) ≠ L(Y; θ (2)) para quase todo o Y∈A , em que se designou por L(Y; θ ) a
família de funções de densidade de probabilidade definida sobre A × B.

Exemplo 1
2

Considere-se o modelo

1, se Y * > γ
Y= ,
0, se Y * ≤ γ

em que Y* = β + u e u ~ N(0, σ2). Tem-se, então,

u γ −β γ −β
P(Y = 1) = P(Y* > γ) = P(β + u > γ) = P( > ) = 1 − Φ( ),
σ σ σ

em que Φ(x) designa a função de distribuição normal reduzida,


2
t
x 1 −
Φ(x) = e 2 dt ,
−∞ 2π

e, para P(Y = 0),

γ −β
P(Y = 0) = Φ( ).
σ

Então, para a função de probabilidade f(Y;β,γ,σ), tem-se

γ −β Y γ − β (1−Y)
f(Y;β,γ,σ) = [1 − Φ( )] [Φ( )] .
σ σ

Sejam θ (1) e θ (2), respectivamente, os vectores de componentes β, γ, σ e 2β, 2γ, 2σ,


com σ > 0. Apesar de ser θ (1) ≠ θ (2), f(Y; θ (1)) = f(Y; θ (2)) e os parâmetros β, γ e σ
γ −β
não são identificáveis. Contudo, é identificável o parâmetro θ = , já que, a θ(1) e
σ
θ(2) diferentes, corresponderão, geralmente, f(Y;θ(1)) e f(Y;θ(2)) diferentes.

Exemplo 2
Considere-se, agora, o modelo Y = β + u, com u ~ N(0, σ2). Vem
2
(Y-β )
1 - 2
f(Y;β,σ) = e 2σ
σ 2π

e, para amostras aleatórias de Y de dimensão n,

1
L(Y;β,σ) = (2πσ2)−n/2 exp[ − (Y - βi)'(Y - βi)],
2σ 2

em que Y é o vector de componentes Y1, Y2, …, Yn e i o vector (n×1) de componentes


todas iguais a 1. Os parâmetros β e σ são identificáveis e podem, geralmente, ser

_____________________________________________________________________________________________________
Teoria da Estimação e Estimadores de Máxima Verosimilhança M. Mendes de Oliveira,
18.Ago.2000
3

estimados. Contudo, há matrizes Y com as quais não é possível estimar σ: por


exemplo, todas as matrizes com uma única componente (n = 1) ou as de fórmula geral
Y = ci, em que c designa uma constante qualquer.

Propriedades dos estimadores

Um estimador não é senão uma fórmula ou uma "receita" (Kennedy (1998), p.


4) para transformar dados em estimativas. Havendo uma infinidade de estimadores
possíveis em cada situação, a escolha entre eles terá de fazer-se segundo algum
critério. Um primeiro, e muitas vezes esquecido, critério é o da exequibilidade: um
estimador terá de ser definido em função, apenas, de grandezas observáveis. Custo de
cálculo é outro factor a ter em conta. Critérios mais exigentes a que se recorre
usualmente na comparação entre estimadores são passados em revista na sequência.

Definição 4 (Estimador cêntrico)


Diz-se que θ (Y) é um estimador cêntrico do vector de parâmetros θ se for
E( θ ) = θ .

Um estimador cêntrico de θ pode não existir, ou pode suceder que não exista
o valor esperado de um "bom" estimador de θ . Por outro lado, interessam-nos,
geralmente, estimadores cuja distribuição de probabilidade esteja "concentrada" em
torno do verdadeiro valor do parâmetro. O grau de dispersão pode ser aferido pelo
erro quadrático médio, E( θ − θ)2 para um estimador escalar, ou E[( θ − θ )'( θ − θ )]
para um vector de estimadores. Mas não há estimadores que minimizem o erro
quadrático médio para qualquer θ ∈ B: o estimador θ (Y) tem erro quadrático médio
~
nulo se for θ = θ , enquanto o estimador θ (Y) tem erro quadrático médio nulo se for
~
θ = θ . Por outro lado, o critério de minimização do erro quadrático médio conduz
frequentemente a estimadores que dependem de grandezas desconhecidas. É usual,
por isso, restringir-se a selecção de estimadores com erro quadrático médio mínimo ao
conjunto dos estimadores cêntricos, o que conduz à busca de estimadores cêntricos
com variância mínima.

Definição 5 (Estimador cêntrico de variância mínima)


Diz-se que θ (Y) é o estimador cêntrico de variância mínima de θ (ou
estimador MVU, do inglês minimum variance unbiased) se for semi-definida positiva
~ ~ ~
a matriz [Var( θ ) − Var( θ )], qualquer que seja o estimador θ tal que E( θ ) = θ .

Há uma forma equivalente de expressar a condição referida na definição


anterior que é, muitas vezes, de emprego mais prático. Considere-se uma qualquer
combinação linear dos estimadores em θ , seja c θ , em que c é um vector (1×q) de
constantes. Tem-se

Var(c θ ) = c Var( θ ) c'

~
e, para um estimador alternativo, θ ,

_____________________________________________________________________________________________________
Teoria da Estimação e Estimadores de Máxima Verosimilhança M. Mendes de Oliveira,
18.Ago.2000
4

~ ~
Var(c θ ) = c Var( θ ) c'.
~
Então, a condição "[Var( θ ) − Var( θ )] semi-definida positiva" é equivalente à
~
condição "Var(c θ ) ≥ Var(c θ ) para todo o c", permitindo substituir uma comparação
entre matrizes por uma comparação entre escalares. Faz-se uso dessa equivalência na
demonstração da proposição seguinte.

Proposição 1 (Teorema da unicidade do estimador MVU)


Se existir um estimador MVU, é único.

Demonstração:
Sejam θ (1) e θ (2) dois estimadores MVU de θ , com matrizes de variâncias e
covariâncias A = Var( θ (1)) e B = Var( θ (2)), respectivamente.
Comece-se por estabelecer que terá de ser A = B, porquanto, sendo θ (1) MVU,
terá, por definição, de ser semi-definida positiva a matriz (B − A) e, sendo θ (2) MVU,
terá, também, de ser semi-definida positiva a matriz (A − B). As duas condições só
são compatíveis se for A = B.
Considere-se, agora, para qualquer c, o escalar Var(c θ (1) − c θ (2)) que, sendo
uma variância, terá de ser necessariamente não negativo. Mas

Var(c θ (1) − c θ (2)) ≥ 0 cAc' + cBc' − 2 Cov(c θ (1), c θ (2)) ≥ 0


2 cAc' − 2 Cov(c θ (1), c θ (2)) ≥ 0
cAc' ≥ Cov(c θ (1), c θ (2))

para qualquer c.
Seja, por último, um terceiro estimador de θ , dado por

1 (1)
θ (3) = ( θ + θ (2)).
2

É fácil verificar que se trata de um estimador cêntrico e tem matriz de


variâncias e covariâncias

1 1 1
Var( θ (3)) = Var( θ (1)) + Var( θ (2)) + Cov( θ (1), θ (2)).
4 4 2

Para qualquer c, ter-se-á

1 1 1
Var(c θ (3)) = Var(c θ (1)) + Var(c θ (2)) + Cov(c θ (1), c θ (2))
4 4 2
1 1
= cAc' + Cov(c θ (1), c θ (2))
2 2

_____________________________________________________________________________________________________
Teoria da Estimação e Estimadores de Máxima Verosimilhança M. Mendes de Oliveira,
18.Ago.2000
5

e, tendo em atenção a relação de ordem entre os escalares cAc' e Cov(c θ (1), c θ (2))
que se mostrou acima,

Var(c θ (3)) ≤ cAc' = Var(c θ (1)) = Var(c θ (2)).

O resultado anterior só não será contraditório com a hipótese de serem θ (1) e


θ (2) estimadores MVU se for

Var(c θ (3)) = cAc'.

Mas, nesse caso, terá de ser cAc' = Cov(c θ (1), c θ (2)) e, por conseguinte,
Var(c θ (1) - c θ (2)) = 0. Então, se a variância é nula, (c θ (1) − c θ (2)) é uma constante,
para todo o c possível, e os estimadores θ (1) e θ (2) apenas poderão diferir por uma
constante. Como têm ambos, por hipótese, o mesmo valor médio, essa constante é
igual a 0. Então, terá de ser θ (1) ≡ θ (2).

Quando existem estimadores cêntricos de um parâmetro, é frequente ser


possível encontrar o estimador MVU. Contudo, há casos em que não se dispõe de
estimadores cêntricos, ou podem não ser definidos os momentos de 1ª e 2ª ordem da
distribuição de um estimador. Uma alternativa poderá ser a pesquisa de estimadores
consistentes.

Definição 6 (Estimador consistente)


Diz-se que θ (Y) é um estimador consistente de θ se, e só se, for
plim( θ ) = θ .

A definição apresentada corresponde ao caso de consistência fraca (quando a


convergência apenas se dá em probabilidade), que alguns autores distinguem da
consistência forte (quando há convergência quase certa) (v.g., Davidson e MacKinnon
(1993), p. 119).

Há estimadores que são cêntricos e consistentes, mas conhecem-se também


casos de estimadores cêntricos que não são consistentes e de estimadores consistentes
que não são cêntricos. Nem sequer é verdade que um estimador consistente haja de
ser, pelo menos, assimptoticamente cêntrico, expressão cujo significado, de resto, não
é claro. Vejam-se as discussões em Davidson e MacKinnon (1993), p. 124, e Greene
(2000), p. 121.

Um estimador consistente não é único e, encontrado um estimador consistente,


é frequentemente possível derivar dele uma infinidade de estimadores consistentes;
são-no, por exemplo, todos os que lhe sejam proporcionais por um factor do tipo
(n - a)/(n - b), com a e b constantes. Por isso, há interesse em restringir a escolha a
estimadores que, de algum modo, exibam uma propriedade comparável à da variância
mínima requerida dos estimadores MVU. É frequente que tal exija a consideração da
distribuição-limite do estimador e, por força do teorema do limite central, os
estimadores com distribuição assimptótica normal são candidatos naturais a esse
papel.
_____________________________________________________________________________________________________
Teoria da Estimação e Estimadores de Máxima Verosimilhança M. Mendes de Oliveira,
18.Ago.2000
6

Definição 7 (Estimador assimptoticamente normal eficiente)


Seja θ (Y) um estimador consistente de θ tal que

d
n ( θ − θ ) → N(0, Σ ).

Diz-se que θ (Y) é um estimador assimptoticamente normal eficiente de θ , se for


~
semi-definida positiva a matriz (Λ Λ − Σ ) para qualquer outro estimador θ que seja
~ d
consistente e possua distribuição-limite normal tal que n ( θ − θ ) → N(0, Λ).

O teorema seguinte tem um papel fundamental na pesquisa de estimadores que


satisfaçam o requisito de eficiência assimptótica.

Teorema de Cramér-Rao

O teorema de Cramér-Rao considera uma amostra aleatória {Y1, Y2, ..., Yn} de
uma população caracterizada pela função de densidade f(Yi; θ ) e a função de
densidade conjunta

n
L(Y; θ ) = ∏ f ( Yi ; θ ) ,
i =1

em que Yi designa a iª observação de um vector p-dimensional de variáveis aleatórias.

O teorema pressupõe, relativamente às funções L(Y; θ ) e ln L(Y; θ ),


condições habitualmente condensadas na expressão "as funções L(Y; θ ) e ln L(Y; θ )
são regulares". Essas condições de regularidade são complexas e, na avaliação da
generalidade dos autores, raramente violadas nas aplicações de Econometria. Para
uma discussão dessas condições, veja-se, por exemplo, Gouriéroux e Monfort (1995),
pp. 131-132, Greene (2000), p. 127, ou Theil (1971), pp.??-??. Entre as condições de
regularidade, incluem-se a de existência de derivadas parciais finitas de L(Y; θ ) e de
ln L(Y; θ ) até à 3ª ordem e a de não dependência do espaço da amostra (o conjunto de
todas as matrizes Y para as quais L(Y; θ ) > 0) relativamente aos parâmetros em θ .
Esta última condição é violada, por exemplo, em amostragens de uma população com
distribuição uniforme no intervalo [0; θ], porquanto o espaço da amostra é o conjunto
dos vectores Y de componentes Y1, Y2, …, Yn tais que 0 ≤ Yi ≤ θ, i = 1, 2, …, n.

Proposição 2 (Teorema de Cramér-Rao)


Sob determinadas condições de regularidade, a matriz de variâncias e
covariâncias de um estimador cêntrico θ (Y), seja Var( θ ), é tal que excede a matriz

−1
'
∂ ∂ lnL( Y; θ )
E −
∂θ ∂θ

_____________________________________________________________________________________________________
Teoria da Estimação e Estimadores de Máxima Verosimilhança M. Mendes de Oliveira,
18.Ago.2000
7

por uma matriz semi-definida positiva.

Demonstração:
1. Por definição de função de densidade de probabilidade, o integral de
L(Y; θ ) sobre todo o espaço da amostra, A, é igual a 1:

A L( Y; θ ) dY = 1,

onde a notação empregue deve ser entendida como uma abreviatura do integral
múltiplo

... L( Y1 , Y2 ,..., Yn ; θ ) dY1 dY2 ... dYn .

Diferenciando ambos os membros em ordem a θ , vem

∂ L( Y; θ )
dY = 0;
A
∂θ

notando que

∂ L( Y; θ ) ∂ L( Y; θ ) ∂ lnL( Y; θ ) ∂ lnL( Y; θ )
= = L(Y; θ ) ,
∂θ ∂ lnL( Y; θ ) ∂θ ∂θ

o resultado anterior pode apresentar-se na forma

∂ lnL( Y; θ )
L( Y; θ ) dY = 0.
A
∂θ

Recordando que, se X é uma variável aleatória com função de densidade de



probabilidade f(x) e g(X) uma função de X tal que exista o integral g( x) f(x) dx ,
−∞

então, é E[g(x)] = g( x) f(x) dx , obtem-se uma primeira conclusão importante,
−∞

∂ lnL( Y; θ )
E[ ] = 0,
∂θ

isto é, o vector de derivadas parciais, em ordem a θ , da função ln L(Y; θ ) tem valor


esperado igual a um vector nulo.
Diferenciando novamente em ordem a θ , vem

' '
∂ ∂ lnL( Y; θ ) ∂ lnL( Y; θ ) ∂ L( Y; θ )
L( Y; θ ) + dY = 0
A
∂θ ∂θ ∂θ ∂θ

_____________________________________________________________________________________________________
Teoria da Estimação e Estimadores de Máxima Verosimilhança M. Mendes de Oliveira,
18.Ago.2000
8

ou, pondo L(Y; θ ) em evidência e usando equivalência justificada acima,

' '
∂ ∂ lnL( Y; θ ) ∂ lnL( Y; θ ) ∂ lnL( Y; θ )
+ L( Y; θ ) dY = 0.
A
∂θ ∂θ ∂θ ∂θ

Passando a valores esperados, tem-se

' '
∂ ∂ lnL( Y; θ ) ∂ lnL( Y; θ ) ∂ lnL( Y; θ )
E + E = 0.
∂θ ∂θ ∂θ ∂θ

Na segunda esperança matemática deve reconhecer-se a matriz de variâncias e


∂ lnL( Y; θ ) ∂ lnL( Y; θ )
covariâncias Var[ ], uma vez que já se mostrou ser E[ ] = 0.
∂θ ∂θ
Infere-se, então, da última equação que

'
∂ lnL( Y; θ ) ∂ ∂ lnL( Y; θ )
Var[ ]=− E .
∂θ ∂θ ∂θ

2. Considere-se, agora, um estimador θ (Y). Se o seu valor esperado existir, ter-se-á

E( θ ) = A θ L( Y; θ ) dY

e, diferenciando ambos os membros em ordem a θ ,

[
∂ E( θ ) ]' = θ
∂ L( Y; θ )
'
dY = θ
∂ lnL( Y; θ )
'
L( Y; θ ) dY .
∂θ A
∂θ A
∂θ

Se o estimador for cêntrico e, portanto, E( θ ) = θ , o primeiro membro desta equação


é uma matriz identidade de ordem q, supondo ser essa a dimensão de θ . Por sua vez,
'
∂ lnL( Y; θ )
o integral que figura no segundo membro da equação é a matriz E θ ,
∂θ
que é a matriz de covariâncias entre o estimador considerado e o vector de derivadas
parciais de ln L(Y; θ ). De facto, essa matriz de covariâncias seria, por definição,

'
∂ lnL( Y; θ ) ∂ lnL( Y; θ ) ∂ lnL( Y; θ )
Cov( θ ,
∂θ
) = E θ − E( θ ) [ ] ∂θ
− E(
∂θ
)

∂ lnL( Y; θ )
e no caso vertente, em que E( θ ) = θ e E[ ] = 0, é fácil verificar que
∂θ

_____________________________________________________________________________________________________
Teoria da Estimação e Estimadores de Máxima Verosimilhança M. Mendes de Oliveira,
18.Ago.2000
9

'
∂ lnL( Y; θ ) ∂ lnL( Y; θ )
Cov( θ , )= E θ .
∂θ ∂θ

Então, concluiu-se que

∂ lnL( Y; θ )
Cov( θ , ) = Iq.
∂θ

3. Considere-se, por último, a matriz

θ
Var ,
∂ lnL( Y; θ )
∂θ

que, por simplificação da notação, se designará doravante pelo símbolo Π. Coligindo


resultados alcançados em passos anteriores, vem

Var (θ ) Iq
Π= ,
−1
Iq Q

em que se fez uso de outra convenção para simplificação notacional e se designou por
'
∂ ∂ lnL( Y; θ )
Q-1 a matriz − E , já que (ver passo 1.) é
∂θ ∂θ

'
∂ lnL( Y; θ ) ∂ ∂ lnL( Y; θ )
Var[ ]=− E .
∂θ ∂θ ∂θ

Como matriz de variâncias e covariâncias, Π deverá ser semi-definida positiva e o


Πc' terá de ser não-negativo, qualquer que seja o vector c de dimensão
escalar cΠ
(1×2q). Seja c o vector

c= a [ - aQ ]
em que a, por sua vez, é um qualquer vector (1×q). Tem-se

Πc' = a Var( θ ) a' − a Q Iq a' − a Iq Q' a' + a Q Q-1 Q' a'



= a Var( θ ) a' − a Q a',

por serem simétricos os dois últimos termos. Tendo estabelecido que

_____________________________________________________________________________________________________
Teoria da Estimação e Estimadores de Máxima Verosimilhança M. Mendes de Oliveira,
18.Ago.2000
10

a Var( θ ) a' − a Q a' ≥ 0,

qualquer que seja a, fica provado que [Var( θ ) − Q]] é semi-definida positiva, com

−1
'
∂ ∂ lnL( Y; θ )
Q= E − .
∂θ ∂θ

Na forma como acima se enunciou e demonstrou, o teorema de Cramér-Rao


teria interesse apenas para estabelecer um limite inferior à variância de qualquer
estimador cêntrico. Se, relativamente a um estimador cêntrico, fosse possível verificar
que era Q a sua matriz de variâncias e covariâncias, ficaria provado que esse era o
(único) estimador MVU.

Na verdade, o resultado de Cramér-Rao tem um alcance mais amplo. É


possível mostrar que a matriz Q é ainda a "menor" variância susceptível de ser
atingida pela generalidade dos estimadores consistentes com que se lida em
Econometria (Davidson e MacKinnon (1993), p. 270). A essa luz, o teorema constitui
um instrumento poderoso para a selecção, de entre o universo dos estimadores
consistentes, daqueles que apresentem melhor comportamento quanto a eficiência. No
entanto, e ao contrário do que se passa com amostras finitas e com o estimador MVU,
não é necessariamente único o.estimador consistente e assimptoticamente eficiente
(no sentido de ter matriz de variâncias e covariâncias dada por Q). De facto, não é
raro que estimadores com comportamentos diferentes em amostras finitas tenham a
mesma distribuição-limite e, sendo a eficiência assimptótica uma propriedade da
distribuição-limite, se revelem todos como assimptoticamente eficientes.

Estimadores de máxima verosimilhança

Revistas as principais propriedades dos estimadores, passa-se agora ao estudo


de métodos de estimação. Um dos métodos de aplicação mais geral e que conduz a
estimadores com algumas propriedades desejáveis é o método da máxima
verosimilhança. O método tem por base essencial a chamada função de
verosimilhança, L(Y; θ ).

Antes de apresentar a definição, algumas considerações sobre a função L(Y; θ )


podem ser úteis. Para a discussão seguinte, suponha-se uma variável aleatória discreta,
Y, com distribuição de Bernoulli tal que P(Y = 1) = p e P(Y = 0) = q, (q = 1 - p), isto
é, com função de probabilidade

p Y q 1− Y , se Y = 0 ou Y = 1,
f(Y;p) =
0 , se Y ≠ 0 e Y ≠ 1.

Para uma amostra aleatória de dimensão n, Y = [Y1 Y2 … Yn]', seja

_____________________________________________________________________________________________________
Teoria da Estimação e Estimadores de Máxima Verosimilhança M. Mendes de Oliveira,
18.Ago.2000
11

n
Yi n- Yi
L(Y;p) = ∏ f (Yi ; p) = p q .
i =1

A função L(Y;p) pode ser "lida" de várias maneiras. Para um dado p, a função
reparte a probabilidade de obtenção de Y entre todas as amostras possíveis de
dimensão n. Por exemplo, para p = 0,3 e n = 2, a amostra (Y1 = 1, Y2 = 1) ocorrerá
com probabilidade 0,32 (9%), o par (0, 0) com probabilidade 0,72 (49%) e cada um
dos pares (1, 0) e (0, 1) com probabilidade 0,3×0,7 (21%). Nessa acepção, L(Y;p) é,
para cada p, a função de probabilidade conjunta de (Y1, Y2), definida no espaço da
amostra A = {(Y1, Y2): Y1 = 0 ∨ Y1 = 1, Y2 = 0 ∨ Y2 = 1}.

Uma segunda perspectiva corresponde ao caso em que, para um certo Y, se vê


L(Y;p) como função de p; para enfatizar esse ponto, escreve-se, por vezes, L(p|Y) ou,
simplesmente, L(p). Então, L(p|Y) indica, para cada valor possível de p, a
probabilidade de obtenção da particular amostra Y. Por exemplo, a amostra (Y1 = 1,
Y2 = 0) ocorrerá com probabilidade 0,21 se p = 0,3, com probabilidade 0,25 se
p = 0,5, com probabilidade 0,09 se p = 0,1, e assim sucessivamente. Concretizado Y, a
função é definida no espaço dos parâmetros B = {p: 0 ≤ p ≤ 1} e não é uma função de
probabilidade.

Uma terceira acepção possível de L(Y;p) é aquela que se empregou em


referências anteriores, com a função definida sobre A × B. L(Y;p) também não é,
nesse caso, uma função de probabilidade, mas corresponde a uma família de funções
de probabilidade, indexada pelo parâmetro p.

Se, em vez de discreta, Y for uma variável aleatória contínua, é necessário


adaptar alguns dos aspectos evocados na ilustração que se discutiu. Assim, L(Y; θ )
não mede, para θ dado, a probabilidade de ocorrência de cada amostra Y de dimensão
n (em rigor, essa probabilidade é nula), mas é ainda uma função de densidade de
probabilidade definida sobre A. Para cada Y, por sua vez, L(Y; θ ) não mede uma
probabilidade, nem é uma f.d.p..

Como se precisa na definição seguinte, no contexto da estimação por máxima


verosimilhança esta última é a perspectiva a que se atribui maior realce. Frise-se, no
entanto, que, apesar do ênfase colocado em θ , a função de verosimilhança depende
também do vector (ou matriz) Y, que tem natureza aleatória. Trata-se de procurar, no
espaço dos parâmetros, B, a função θ (Y) para a qual L(Y; θ ) é máxima.

Definição 8 (Estimador de máxima verosimilhança)


Seja a função de verosimilhança L(Y; θ ). Se existir uma função θ (Y) tal que

L(Y; θ ) ≥ L(Y; θ ), ∀ θ ∈ B,

θ (Y) é chamado o estimador de máxima verosimilhança (ML) de θ .

Notem-se os aspectos seguintes:


i) O estimador ML pode não existir.

_____________________________________________________________________________________________________
Teoria da Estimação e Estimadores de Máxima Verosimilhança M. Mendes de Oliveira,
18.Ago.2000
12

ii) O estimador ML pode não ser único. Sê-lo-á se for estrita a


desigualdade acima, isto é, se for L(Y; θ ) > L(Y; θ ), ∀ θ ∈ B, θ ≠ θ .
iii) O estimador ML pode não ser definido para algum Y.
iv) Se L(Y; θ ) tem um máximo para θ = θ , a função logarítimica de
verosimilhança, lnL(Y; θ ), terá também um máximo para θ = θ . É, frequentemente,
mais fácil identificar o máximo de lnL(Y; θ ) do que o da função de verosimilhança
propriamente dita.

Por outro lado, a definição apresentada não é, por vezes, a mais adequada para
identificação concreta do estimador. Se a função de verosimilhança verificar certas
condições de regularidade e o máximo ocorrer num ponto interior do espaço dos
parâmetros, o sistema das chamadas equações de verosimilhança,

∂ lnL( Y; θ )
= 0,
∂θ

fornece um indicador mais operacional para identificação do estimador ML. Alguns


autores (v.g., Davidson e MacKinnon (1993)) distinguem o estimador ML conforme a
definição acima, que designam por estimador de tipo 1, do estimador de tipo 2. Este
seria definido como a solução das equações de verosimilhança que satisfizer,
cumulativamente, duas outras condições: obedecer às condições de 2ª ordem para um
1
máximo e ser tal que a sucessão { lnL( θ ;Y)} tenha, para essa solução θ , limite em
n
1 ~
probabilidade não inferior ao limite em probabilidade de { lnL( θ ;Y)}, para
n
~
qualquer outra solução das equações de verosimilhança, θ , que corresponda também
a um máximo. A primeira destas duas condições tem o alcance óbvio de excluir da
análise as soluções do sistema

∂ lnL( Y; θ )
=0
∂θ

que correspondam a mínimos ou a pontos de inflexão, enquanto a segunda visa


garantir que, entre múltiplas soluções encontradas para uma amostra, seja
seleccionada aquela que, na generalidade das amostras, conduz a valores mais
elevados da função de verosimilhança.

Embora as duas definições conduzam, muitas vezes, ao mesmo estimador, na


literatura conhecem-se casos em que um estimador de tipo 2 existe, mas não o de tipo
1, ou em que existe este e não existe o primeiro (Davidson e MacKinnon (1993), pp.
249-250). Apresenta-se, a seguir, um exemplo clássico desta última situação.

Exemplo 3
Seja Y uma variável aleatória com distribuição uniforme no intervalo [0, β],
isto é, com f.d.p.

_____________________________________________________________________________________________________
Teoria da Estimação e Estimadores de Máxima Verosimilhança M. Mendes de Oliveira,
18.Ago.2000
13

1
, se 0 ≤ Y ≤ β,
f(Y;β) = β
0 , se Y < 0 ou Y > β.

β é o parâmetro a estimar; o espaço dos parâmetros é o conjunto dos números reais


positivos.
Considere-se uma amostra de dimensão n, Y = [Y1 Y2 … Yn]', e admita-se,
sem perda de generalidade, ser Yn o maior dos valores amostrais de Y. Como se
depreende da definição da f.d.p., terá de ser Yn ≤ β. Então, a função de verosimilhança
é

1
, se β ≥ Yn ,
L(Y;β) = β n
0 , se β < Yn ,

e a função logarítmica é, para β ≥ Yn,

lnL(Y;β) = -n lnβ.

A condição de 1ª ordem para maximização de lnL(Y;β) requer −n/β = 0, Não existe


nenhuma solução finita para β e, de resto, a função de verosimilhança não satisfaz
uma das condições de regularidade. Assim sendo, o estimador ML de tipo 2 não é
definido. Contudo, existe um estimador de tipo 1: a função de verosimilhança é
maximizada se, dentro do intervalo de valores admissíveis para β, for seleccionado o
menor de todos. O estimador ML de β é, por conseguinte,

β ML = max(Y1, Y2, ..., Yn).

Propriedades dos estimadores de máxima verosimilhança

Sob condições de regularidade, os estimadores de máxima verosimilhança são,


geralmente, consistentes, têm distribuição assimptótica normal, são assimptoticamente
eficientes e possuem a propriedade da invariância.

Proposição 3 (Consistência do estimador de máxima verosimilhança)


Verificadas determinadas condições de regularidade, o estimador de máxima
verosimilhança, θ ML, é tal que plim θ ML = θ . (Demonstração: Davidson e
MacKinnon (1993), p. 255-260).

A prova original da consistência do estimador ML é devida a Wald e repousa


crucialmente na existência de um estimador de tipo 2. Conhecem-se várias outras
provas da consistência, supostamente mais gerais, mas todas elas pressupõem
condições de difícil, senão impossível, verificação empírica. Contudo, na avaliação de
muitos autores, essas condições são respeitadas na generalidade dos trabalhos
econométricos.

_____________________________________________________________________________________________________
Teoria da Estimação e Estimadores de Máxima Verosimilhança M. Mendes de Oliveira,
18.Ago.2000
14

Segundo Davidson e MacKinnon (1993, p. 258), os casos de não consistência


circunscrevem-se, no essencial, a duas situações: modelos em que o número de
parâmetros aumenta com a dimensão da amostra e o aumento se processa a uma taxa
"demasiado rápida", e modelos assimptoticamente não identificados. Um exemplo em
que o número de parâmetros aumenta com a dimensão da amostra ocorre em modelos
com heteroscedasticidade em que a matriz de variâncias das perturbações é uma
matriz diagonal de elementos não nulos σ 12 , σ 22 , ..., σ 2n . Um exemplo da segunda
situação é discutido a seguir:

Exemplo 4
Considere-se o modelo

1
Yt = β + ut, ut ∼ N(0, σ2) , ∀ t.
t

Designando por θ o vector [β, σ2]', a função logarítmica de verosimilhança, para uma
amostra de n observações, é

n n 1 n 1
lnL(Y; θ ) = − ln(2π) − ln(σ2) − (Yt − β ) 2
2 2 2σ 2 t =1 t

e o estimador ML de β é dado por

n
Yt
( t )
t =1
β = n ,
( 1 2)
t =1 t

com variância

σ2
Var( β ) = n .
( 1 2)
t =1 t

n
Prova-se que lim ( 1 2 ) = π2/6 (1,645, aproximadamente); por conseguinte, quando
t =1 t
n tende para infinito, Var( β ) tende para um limite positivo. O limite em probabilidade
de β , se existir, não será, portanto, uma constante.

Veja-se, para exemplos de outras situações de não consistência dos


estimadores ML, Gouriéroux e Monfort (1995), pp. 189-193.

Segundo Davidson e MacKinnon (1993, p. 258), os casos de não consistência


circunscrevem-se, no essencial, a duas situações: modelos em que o número de
parâmetros aumenta com a dimensão da amostra e o aumento se processa a uma taxa
"demasiado rápida", e modelos assimptoticamente não identificados. Um exemplo em
que o número de parâmetros aumenta com a dimensão da amostra ocorre em modelos
_____________________________________________________________________________________________________
Teoria da Estimação e Estimadores de Máxima Verosimilhança M. Mendes de Oliveira,
18.Ago.2000
15

com heteroscedasticidade em que a matriz de variâncias das perturbações é uma


matriz diagonal de elementos não nulos σ 12 , σ 22 , ..., σ 2n . Um exemplo da segunda
situação é discutido a seguir:

Exemplo 4
Considere-se o modelo

1
Yt = β + ut, ut ∼ N(0, σ2) , ∀ t.
t

Designando por θ o vector [β, σ2]', a função logarítmica de verosimilhança, para uma
amostra de n observações, é

n n 1 n 1
lnL(Y; θ ) = − ln(2π) − ln(σ2) − (Yt − β ) 2
2 2 2σ 2 t =1 t

e o estimador ML de β é dado por

n
Yt
( t )
t =1
β = n ,
( 1 2)
t =1 t

com variância
σ2
Var( β ) = n .
( 1 2)
t =1 t

n
Prova-se que lim ( 1 2 ) = π2/6 (1,645, aproximadamente); por conseguinte, quando
t =1 t
n tende para infinito, Var( β ) tende para um limite positivo. O limite em probabilidade
de β , se existir, não será, portanto, uma constante.

Veja-se, para exemplos de outras situações de não consistência dos


estimadores ML, Gouriéroux e Monfort (1995), pp. 189-193.

Proposição 4 (Normalidade assimptótica do estimador de máxima verosimilhança)


Sob condições de regularidade,

d
n ( θ ML − θ ) → N{0, [I( θ )]−1},

'
∂ ∂ lnL( Y; θ ) ∂ 2 lnL( Y; θ )
em que I( θ ) = E − =− E .
∂θ ∂θ ∂ θ ∂ θ'

_____________________________________________________________________________________________________
Teoria da Estimação e Estimadores de Máxima Verosimilhança M. Mendes de Oliveira,
18.Ago.2000
16

Duas matrizes têm papel chave nesta proposição: a primeira é o vector (q×1)
de derivadas parciais de 1ª ordem, em ordem a θ , da função logarítmica de
verosimilhança,

∂ lnL( Y; θ )
,
∂θ

usualmente chamado o vector gradiente (gradient vector ou score vector, em inglês)


da função logarítmica de verosimilhança; a segunda é a matriz (q×q) de derivadas
parciais de 2ª ordem da função,

'
∂ ∂ lnL( Y; θ ) ∂ 2 lnL( Y; θ )
= ,
∂θ ∂θ ∂ θ ∂ θ'

a que se dá o nome de matriz Hesseana. Conforme se viu atrás, a propósito do


teorema de Cramér-Rao, as duas matrizes estão relacionadas segundo as expressões

∂ lnL( Y; θ )
E[ ]=0
∂θ
e

'
∂ lnL( Y; θ ) ∂ lnL( Y; θ ) ∂ lnL( Y; θ ) ∂ 2 lnL( Y; θ )
Var[ ]= E =− E .
∂θ ∂θ ∂θ ∂ θ ∂ θ'

Para uma amostra de dimensão n, sejam gn(Y; θ ) e Hn(Y; θ ), respectivamente,


o vector gradiente e a matriz Hesseana, avaliados num qualquer ponto θ do espaço
dos parâmetros. Uma vez que a função logarítmica de verosimilhança é uma soma de
n termos, essas derivadas são também somas de n vectores ou matrizes, um por cada
observação na amostra. É que, de

n
L(Y; θ ) = ∏ f ( Yi ; θ )
i =1
e
n
lnL(Y; θ ) = ln f ( Yi ; θ ) ,
i =1
vem
∂ lnL( Y; θ ) n ∂ ln f ( Yi ; θ )
= ,
∂θ i =1 ∂θ

expressão cujo segundo membro é uma soma de n vectores (q×1), cada um dos quais
mede a chamada contribuição da iª observação para o gradiente. De modo análogo, de

'
∂ 2 lnL( Y; θ ) ∂ n ∂ ln f( Yi ; θ ) n ∂ 2 ln f ( Yi ; θ )
= = ,
∂ θ ∂ θ' ∂θ i =1 ∂θ i =1 ∂ θ ∂ θ'

_____________________________________________________________________________________________________
Teoria da Estimação e Estimadores de Máxima Verosimilhança M. Mendes de Oliveira,
18.Ago.2000
17

reconhece-se ser a matriz Hesseana a soma de n matrizes (q×q). É como se, numa
amostra de dimensão n da população f(Y; θ ), se dispusesse de n observações do
vector gradiente e da matriz Hesseana desconhecidos.

Usando o símbolo g(Yi; θ ) para a contribuição da iª observação para o


gradiente, isto é, para o vector aleatório

∂ ln f ( Yi ; θ )
g(Yi; θ ) ≡ ,
∂θ

vem, para o vector gradiente com uma amostra de dimensão n,

n
gn(Y; θ ) = g( Yi ; θ ) .
i =1

O primeiro passo da demonstração da normalidade assimptótica do estimador


ML consiste em aplicar um teorema do limite central às variáveis g(Y1; θ ), g(Y2; θ ),
..., g(Yn; θ ), ... Como se viu, o vector-soma, gn(Y; θ ), tem por valor esperado um
vector nulo. Mas é fácil verificar, por argumento idêntico ao que se empregou para
chegar a esse resultado, que cada um dos n vectores-parcelas, g(Yi; θ ), tem também
valor esperado dado por um vector (q×1) nulo (v.g., Davidson e MacKinnon (1993),
p. 260). É, então, E[g(Yi; θ )] = 0. Quanto a variâncias e covariâncias, o resultado
anterior,

∂ lnL( Y; θ ) ∂ 2 lnL( Y; θ )
Var[ ]=− E ,
∂θ ∂ θ ∂ θ'

implica ser
∂ 2 ln f ( Yi ; θ )
Var[g(Yi; θ )] = − E[ ].
∂ θ ∂ θ'

Reunindo resultados com vista à invocação do teorema de Lindeberg-Feller, a


média das variáveis g(Y1; θ ), g(Y2; θ ), ..., g(Yn; θ ), para uma amostra de dimensão n,
é
1 n 1
gn = g( Yi ; θ ) = gn(Y; θ ),
n i =1 n

uma variável cujo valor esperado é um vector nulo,

E( gn ) = 0,

e que tem matriz de covariâncias dada por

1 n 1 n ∂ 2 ln f ( Y ; θ ) 1
i
Var( gn ) = 2 Var[ g( Yi ; θ ) ] = − 2 E[ ' ] = − 2 E[Hn(Y; θ )].
n i =1 n i =1 ∂θ∂θ n

_____________________________________________________________________________________________________
Teoria da Estimação e Estimadores de Máxima Verosimilhança M. Mendes de Oliveira,
18.Ago.2000
18

Admitindo as condições usuais de regularidade e, em particular, a de ser

1
lim E[ Hn(Y; θ )] = H( θ )
n

uma matriz finita e definida positiva, o teorema de Lindeberg-Feller estabelece que

d
n gn → N[0, I( θ )],

em que a matriz (q×q) I( θ ) = − E[H( θ )] é a chamada matriz de informação de


Fisher.

O passo seguinte na demonstração da normalidade assimptótica do estimador


ML consiste em descobrir um nexo entre o vector gradiente, sobre o qual se acumulou
uma profusão de resultados notável, e o vector de estimadores, θ (Y), cuja
distribuição se pretende inferir. Esse nexo é estabelecido por uma expansão em série
de Taylor de gn(Y; θ ) numa vizinhança do verdadeiro vector de parâmetros, θ :

gn(Y; θ ) = gn(Y; θ ) + Hn(Y; θ *) ( θ − θ ),

onde, com Hn(Y; θ *), se pretendeu indicar a matriz Hesseana avaliada em θ *, um


ponto q-dimensional correspondente a uma combinação linear convexa de θ n e θ . O
primeiro membro da equação supra é um vector nulo, por força das condições de 1ª
ordem que caracterizam o estimador ML. Admitindo a existência da matriz inversa de
Hn(Y; θ *), resulta que

θ − θ = − [Hn(Y; θ *)]−1 gn(Y; θ ),

multiplicando ambos os membros por n,

n ( θ − θ ) = − [Hn(Y; θ *)]−1 [ n gn(Y; θ )],

e, multiplicando e dividindo o segundo membro por n,

1
n ( θ − θ ) = [− Hn(Y; θ *)]−1 ( n gn ).
n

O passo seguinte será justificar, pelas hipóteses assumidas, que é

1
plim[− Hn(Y; θ *)]−1 = {E[−H( θ )]}−1 = [I( θ )]−1
n
e que
d
n ( θ − θ ) → [I( θ )]−1 [ n gn ].

Usando agora

_____________________________________________________________________________________________________
Teoria da Estimação e Estimadores de Máxima Verosimilhança M. Mendes de Oliveira,
18.Ago.2000
19

d
n gn → N[0, I( θ )],

tem-se
d
n ( θ − θ ) → [I( θ )]−1 N[0, I( θ )].

No lado direito, figura uma variável com distribuição normal q-variada, com vector de
médias [I( θ )]−1 0 = 0 e matriz de variâncias [I( θ )]−1 I( θ ) [I( θ )]−1 = [I( θ )]−1, pelo
que

d
n ( θ − θ ) → N{0, [I( θ )]−1}.

O vector n ( θ − θ ), em que θ é o estimador ML, tem distribuição assimptótica


normal, com vector de médias nulo e matriz assimptótica de covariâncias dada pela
inversa da matriz de informação.

Conhecem-se casos de estimadores ML que não possuem distribuição


assimptótica normal, ou em que a convergência para essa distribuição requer uma
transformação de estabilização diferente da multiplicação por n (Gouriéroux e
Monfort (1995), pp. 189-193). Um exemplo da segunda situação é o seguinte:

Exemplo 5
Considere-se o modelo

Yi = β Xi + ui, ui ∼ N(0, 1) , ∀ i,

em que X é uma variável não aleatória. Como é sabido, o estimador ML de β é dado


por
n
X i Yi
i =1
β = n ,
X 2i
i =1

e tem distribuição normal com média β e variância

1
Var( β ) = n .
X 2i
i =1

Então, tem-se, para qualquer n finito,

β−β
∼ N(0, 1),
1
X 2i

e como uma sucessão de variáveis aleatórias normais reduzidas converge em


distribuição para uma variável N(0, 1),
_____________________________________________________________________________________________________
Teoria da Estimação e Estimadores de Máxima Verosimilhança M. Mendes de Oliveira,
18.Ago.2000
20

d
X 2i ( β − β) → N(0, 1).

Tendo estabelecido, sob certas hipóteses, a consistência e a normalidade


assimptótica dos estimadores ML e o facto de a sua matriz assimptótica de
covariâncias atingir o limite de Crámer-Rao, o resultado seguinte é imediato.

Proposição 5 (Eficiência assimptótica do estimador de máxima verosimilhança)


~
Sob condições de regularidade adequadas, sendo θ um qualquer estimador
~
consistente de θ com matriz assimptótica de covariâncias Varass.( θ ) e θ ML o
~
estimador de máxima verosimilhança, a matriz [Varass.( θ ) − Varass.( θ ML)] é semi-
definida positiva.

Outra propriedade muito importante dos estimadores ML é a de invariância:

Proposição 6 (Invariância do estimador de máxima verosimilhança)


Se θ é o estimador de máxima verosimilhança de um vector de parâmetros
θ ∈B e g( θ ) é uma função bijectiva, g: B → C, então g( θ ) é o estimador de máxima
verosimilhança de g( θ )∈C.

A propriedade de invariância é, em muitas circunstâncias, uma propriedade


desejável de um estimador. Se, por exemplo, Y é uma amostra aleatória de dimensão
n de uma variável com média µ, seria natural que os estimadores da média com a
amostra Y, em que as observações vêm expressas em escudos, ou com a amostra
0,001 Y (com a variável medida em contos), estivessem também entre si na relação
entre µ e 0,001 µ. No exemplo dado, que configura uma simples mudança de escala, a
generalidade dos estimadores mais usados daria resposta satisfatória ao princípio da
invariância. Mas, para relações não lineares, como a que existe entre o desvio-padrão
e a variância de uma variável, seriam menos frequentes os métodos que dêem resposta
à questão da estimação da variância com uma estimativa igual ao quadrado da
estimativa fornecida para o desvio-padrão.

O método da máxima verosimilhança respeita o princípio da invariância, mas


a algum preço. Os estimadores ML são, frequentemente, enviesados: uma vez que não
é, geralmente, verdade que seja E[g( θ )] = g[E( θ )], um estimador invariante não pode
servir para gerar, simultaneamente, estimadores cêntricos de θ e de g( θ ). Mas, como
plim[g( θ )] = g[plim( θ )], um estimador invariante pode, pelo contrário, estimar
consistentemente quer θ , quer g( θ ).

Função de verosimilhança concentrada

O cômputo de estimativas pelo método da máxima verosimilhança nem


sempre é tarefa fácil. Um expediente que pode, por vezes, revelar-se útil é a
decomposição do problema de maximização numa série de etapas sucessivas.

Suponha-se uma partição do vector θ ,


_____________________________________________________________________________________________________
Teoria da Estimação e Estimadores de Máxima Verosimilhança M. Mendes de Oliveira,
18.Ago.2000
21

θ1
θ = .
θ2

É possível provar que a solução do problema da maximização de lnL(Y; θ 1, θ 2) em


ordem a ( θ 1, θ 2) pode ser alcançada em duas etapas: (1) maximização da função em
ordem a θ 1, tomando θ 2 como dado, e expressando a solução em função de θ 2; (2)
substituindo essa solução (que é, repita-se, função de θ 2) na expressão da função
logarítmica de verosimilhança, obtém-se a chamada função de verosimilhança
concentrada, que é, então, maximizada em ordem a θ 2.

É costume usar-se um índice inferior, c, para designar a função de


verosimilhança concentrada, como em lnLc(Y; θ 2); diz-se que a função de
verosimilhança foi concentrada sobre θ 1.

A técnica descrita tem especial interesse quando há vantagem em isolar os


parâmetros principais de outros, irrelevantes ou menos importantes (nuisance
parameters). É empregue também, muitas vezes, para separar parâmetros associados à
variância dos ligados à média de uma variável, como se ilustra no exemplo seguinte.

Exemplo 6
Seja Y uma amostra aleatória, de dimensão n, de uma população N(µ, σ2). A
função logarítmica de verosimilhança é

n n 1 n
lnL(Y; µ, σ2) = − ln(2π) − ln σ2 − 2 (Yi − µ ) 2 .
2 2 2σ i=1

Da condição de 1ª ordem
∂ lnL( Y; µ , σ 2 )
= 0,
∂ σ2
vem
1 n
σ2 = (Y − µ) 2 .
n i=1 i

Substituindo σ2 por σ 2 na expressão da função logarítmica de verosimilhança, tem-se


a função concentrada (sobre σ2)

n n 1 n n
lnLc(Y; µ) = − ln(2π) − ln (Yi − µ ) 2 −
2 2 n i=1 2

que, maximizada com respeito a µ, fornece a solução habitual,

1 n
µ = Y = Y.
n i=1 i

_____________________________________________________________________________________________________
Teoria da Estimação e Estimadores de Máxima Verosimilhança M. Mendes de Oliveira,
18.Ago.2000
22

Mais trivial, porque o valor óptimo para µ não depende de σ2, é a função de
verosimilhança concentrada sobre µ,

n n 1 n
lnL(Y; σ2) = − ln(2π) − ln σ2 − (Yi − Y) 2 .
2 2 2σ 2 i=1

A possibilidade de isolar, na estimação, os parâmetros principais dos restantes


estende-se também à matriz de covariâncias dos estimadores. Para a função de
verosimilhança lnLc(Y; θ 2), concentrada sobre θ 1, a matriz de covariâncias dos
estimadores de θ 2 pode ser encontrada na partição da inversa da matriz de informação
correspondente a θ 2 ou, equivalentemente, na inversa da matriz de informação
associada à verosimilhança concentrada.

Exemplo 7
Seja Y uma amostra aleatória de n observações do par (Y1, Y2), com função de
distribuição normal bivariada

f(y1, y2) =
2 2
1 1 y1 − µ 1 y − µ1 y2 − µ2 y − µ2
exp − − 2ρ 1 + 2
2 π σ 1 σ 2 (1 − ρ )
2 2 2 2(1 − ρ 2 ) σ1 σ1 σ2 σ2

com −1 < ρ < 1.

Designando por θ o vector


µ1
µ2
θ = σ1 ,
2

σ 22
ρ

a função logarítmica de verosimilhança é

n
ln L(Y; θ ) = −n ln(2π) − [ln σ 12 + ln σ 22 + ln(1−ρ2)]
2
1

2(1 − ρ 2 )
(A 2i − 2ρA i Bi + B2i ) ,

Y1i − µ 1 Y2 i − µ 2
(convencionando representar por Ai e Bi as variáveis e ,
σ1 σ2
respectivamente, e subentendendo somatórios para i = 1, 2, ..., n) e as equações de
verosimilhança são

∂ lnL( Y; θ ) 1
∂ µ1
=
σ 1 (1 − ρ 2 )
(A i − ρB i ) = 0,

_____________________________________________________________________________________________________
Teoria da Estimação e Estimadores de Máxima Verosimilhança M. Mendes de Oliveira,
18.Ago.2000
23

∂ lnL( Y; θ ) 1
∂ µ2
=
σ 2 (1 − ρ 2 )
(B i − ρA i ) = 0,

∂ lnL( Y; θ ) 1
∂ σ1
2 =− 2
2σ 1 (1 − ρ 2 )
[
n(1 − ρ 2 ) − ]
(A 2i − ρA i B i ) = 0,

∂ lnL( Y; θ ) 1
∂ σ2
2 =− 2
2σ 2 (1 − ρ 2 )
[
n(1 − ρ 2 ) − ]
( B 2i − ρA i B i ) = 0,

∂ lnL( Y; θ ) 1 ρ
= nρ − (A 2i − 2ρA i B i + B 2i ) + A i B i = 0.
∂ρ 1 − ρ2 1 − ρ2

Os cinco elementos do vector gradiente gn(Y; θ ) são os identificados implicitamente


pelas equações que precedem.
Para determinar a função de verosimilhança concentrada sobre os parâmetros
σ 1 , σ 2 e ρ, obtém-se, da terceira, quarta e quinta equações acima,
2 2

n(1−ρ2) = (A 2i − ρA i B i ) ,

n(1−ρ2) = ( B 2i − ρA i B i ) ,

1 + ρ2
n(1−ρ2) = (A 2i − A i B i + B 2i ) .
ρ

Somando as duas primeiras equações e subtraindo a terceira à soma, vem

1 − ρ2
n(1−ρ2) = A i Bi
ρ
e
1
ρ= A i Bi .
n

Substituindo esta expressão por ρ nas duas primeiras equações, obtém-se

n= A 2i = B2i ,

donde
1
σ 12 = (Y1i − µ 1 ) 2
n
e
1
σ 22 = (Y2 i − µ 2 ) 2 .
n
Por último,

_____________________________________________________________________________________________________
Teoria da Estimação e Estimadores de Máxima Verosimilhança M. Mendes de Oliveira,
18.Ago.2000
24

1
(Y1i − µ 1 ) (Y2 i − µ 2 )
ρ= n .
1 1
(Y1i − µ 1 ) × 2
(Y2 i − µ 2 ) 2
n n

Depois de expurgada de σ 12 , σ 22 e ρ a função logarítmica de verosimilhança, a função


concentrada vem, após simplificação,

ln Lc(Y;µ1, µ2) =
= constante −
n
2
ln {[ (Y1i − µ 1 ) 2 ][ ] [
(Y2 i − µ 2 ) 2 − (Y1i − µ 1 )(Y2 i − µ 2 ) ] },
2

onde a constante omitida é [−n ln(2π) − n + n ln n]. A maximização de ln Lc(Y;µ1, µ2)


com respeito a µ1 e µ2 conduz às soluções esperadas,

1
µ1 = Y1i = Y1
n
e
1
µ2 = Y2 i = Y2 .
n

Bastaria agora substituir, nas equações apresentadas para as variâncias e para o


coeficiente de correlação, µ1 e µ2 pelas médias amostrais de Y1 e Y2, respectivamente,
para obter os estimadores ML dos outros parâmetros. É patente que esses estimadores
são os momentos amostrais (ou funções deles) correspondentes aos momentos (ou
funções) homólogos da população.
A matriz assimptótica de covariâncias de µ 1 e µ 2 poderia ser agora calculada
a partir da função de verosimilhança concentrada, ln Lc(Y;µ1, µ2); no caso, no entanto,
é consideravelmente mais simples derivá-la da função logarítmica de verosimilhança
original. O tema é retomado em exemplo posterior.

Estimação da matriz Varass.( θ ML)

Viu-se atrás que o estimador ML θ tem distribuição assimptótica normal, com


θ como vector de médias e matriz assimptótica de covariâncias dada pela inversa da
matriz de informação:

Varass.( θ ML) = [I( θ )]−1 = {E[−H( θ )]}−1.

Como a própria notação sugere, essa matriz depende do vector θ , desconhecido.


Parece natural substituir θ por θ ML, obtendo, dessa forma, um primeiro estimador
consistente da matriz assimptótica de covariâncias do estimador:

_____________________________________________________________________________________________________
Teoria da Estimação e Estimadores de Máxima Verosimilhança M. Mendes de Oliveira,
18.Ago.2000
25


Varass. (θ ML ) = [I( θ ML)]−1,

notação com que se pretendeu indicar a inversa da matriz de informação, avaliada no


ponto θ = θ ML.

Embora esse seja o estimador mais óbvio e, possivelmente, o mais defensável


de um ponto de vista teórico, é de cálculo extremamente pesado e nem sempre
exequível. É que ele obriga à determinação dos elementos da matriz Hesseana H( θ ),
que são derivadas parciais de segunda ordem, frequentemente muito complexas e
numerosas (um modelo modesto com 5 parâmetros, como no Exemplo 7, exige o
cálculo de 15 derivadas parciais de segunda ordem). Mais grave ainda, requer, depois,
a determinação da esperança matemática de cada um desses elementos. Quer uma,
quer outra, dessas exigências não podem ser confiadas a meios informáticos.

É, por essas razões, mais frequente recorrer-se a um segundo estimador da


matriz assimptótica de covariâncias. Evita-se nele a determinação das esperanças
matemáticas dos elementos da matriz Hesseana, fazendo uso do princípio segundo o
qual as médias amostrais constituem, geralmente, estimadores razoáveis das médias
1
na população. Assim, para estimar a matriz de informação, recorre-se a − Hn( θ ML)
n
no lugar de E[−H( θ ML)]. Esse segundo estimador pode, então, ser descrito pela
fórmula


1
Varass. (θ ML ) = [− Hn( θ ML)]−1.
n

Conquanto menos trabalhoso que o anterior, este método continua a necessitar,


também ele, do cálculo da matriz Hesseana. Uma alternativa bem mais simples,
proposta por Berndt, Hall, Hall e Hausman e, por isso, conhecida pela sigla BHHH,
prescinde dessa derivação. Baseia-se numa igualdade que se justificou a propósito do
teorema de Cramér-Rao,

' '
∂ ∂ lnL( Y; θ ) ∂ lnL( Y; θ ) ∂ lnL( Y; θ )
E + E = 0,
∂θ ∂θ ∂θ ∂θ

segundo a qual o valor esperado da matriz Hesseana é simétrico do valor esperado do


produto do vector gradiente pelo seu transposto. Como se constata, pode evitar-se o
cômputo das derivadas de segunda ordem, recorrendo apenas às de primeira ordem,
cujo conhecimento, de resto, é quase imprescindível para levar a cabo a estimação do
próprio vector θ . Um terceiro estimador da matriz assimptótica de covariâncias, o
chamado estimador BHHH, repousa, portanto, na fórmula


Varass. (θ ML ) = {G( θ ML) [G( θ ML)]'}−1.

_____________________________________________________________________________________________________
Teoria da Estimação e Estimadores de Máxima Verosimilhança M. Mendes de Oliveira,
18.Ago.2000
26

Exemplo 8
Retome-se o exemplo anterior, em que Y é uma amostra aleatória de n
observações do par (Y1, Y2), com função de distribuição normal bivariada. Dispõe-se
já do vector gradiente; por nova diferenciação dos seus elementos, vem:

∂ 2 lnL( Y; θ ) n
=− 2 , j = 1 ou j = 2,
∂ µj2
σ j (1 − ρ 2 )

∂ 2 lnL( Y; θ ) nρ
= ,
∂ µ1 ∂ µ 2 σ 1 σ 2 (1 − ρ 2 )

∂ 2 lnL( Y; θ ) 1 ρ
= − 3 Ai − Bi ,
∂ µ1 ∂ σ12
σ 1 (1 − ρ 2 ) 2

Y1i − µ 1 Y − µ2
(continuando a usar Ai ≡ e Bi ≡ 2 i ),
σ1 σ2

∂ 2 lnL( Y; θ ) ρ
= Bi ,
∂ µ1 ∂ σ 2
2
2 σ 1 σ 2 (1 − ρ 2 )
2

∂ 2 lnL( Y; θ ) 1
∂ µ1 ∂ ρ
=
σ 1 (1 − ρ 2 ) 2
[
2ρ A i − (1 + ρ 2 ) B i , ]

∂ 2 lnL( Y; θ ) ρ
= Ai ,
∂ µ 2 ∂ σ12
2 σ 1 σ 2 (1 − ρ 2 )
2

∂ 2 lnL( Y; θ ) 1 ρ
= − 3 Bi − Ai ,
∂ µ2 ∂ σ2 2
σ 2 (1 − ρ 2 ) 2

∂ 2 lnL( Y; θ ) 1
∂ µ2 ∂ ρ
=
σ 2 (1 − ρ )
2 2 [
2ρ B i − (1 + ρ 2 ) A i , ]

∂ 2 lnL( Y; θ ) 1 3ρ
= n(1 − ρ 2 ) − 2 A i2 + A i Bi ,
∂ (σ 1 )
2 2
2 σ 1 (1 − ρ )
4 2
2

∂ 2 lnL( Y; θ ) ρ
= A i Bi ,
∂ σ1 ∂ σ 2
2 2
4 σ 1 σ 2 (1 − ρ 2 )
2 2

∂ 2 lnL( Y; θ ) 1
∂ σ1 ∂ ρ
2 =
2 σ 1 (1 − ρ 2 ) 2
2 [
2ρ A 2i − (1 + ρ 2 ) A i B i , ]

_____________________________________________________________________________________________________
Teoria da Estimação e Estimadores de Máxima Verosimilhança M. Mendes de Oliveira,
18.Ago.2000
27

∂ 2 lnL( Y; θ ) 1 3ρ
= n(1 − ρ 2 ) − 2 B i2 + A i Bi ,
∂ (σ 2 )
2 2
2 σ 2 (1 − ρ )
4 2
2

∂ 2 lnL( Y; θ ) 1
∂ σ2 ∂ ρ
2 =
2 σ 2 (1 − ρ 2 ) 2
2 [
2ρ B 2i − (1 + ρ 2 ) A i B i , ]

∂ 2 lnL( Y; θ ) 1 1 + 3ρ 2 6ρ + 2ρ 3
= n (1 + ρ 2
) − ( A 2i + B i2 ) + A i Bi .
∂ ρ2 (1 − ρ 2 ) 2 1 − ρ2 1 − ρ2

As expressões precedentes são as dos elementos da matriz Hesseana Hn(Y; θ ).


Para calcular as esperanças matemáticas desses elementos, é útil verificar os
resultados seguintes:

n Y1i − µ 1
E( A i ) = E = 0,
i =1 σ1

n Y2 i − µ 2
E( Bi ) = E = 0,
i =1 σ2

2
n Y1i − µ 1
E( A 2i ) = E = n,
i =1 σ1

2
2
n Y2 i − µ 2
E( B )=E = n,
i
i =1 σ2

n Y1i − µ 1 Y2 i − µ 2
E( A i B i ) = E = nρ.
i =1 σ1 σ2

Obtém-se

σ 22 − ρσ 1σ 2 0 0 0
− ρσ 1σ 2 σ 12 0 0 0
σ 2 (2 − ρ 2 )
2
ρ2 ρ 2 σ 22
0 0 − −
1 4σ 12 4 2
σ σ (1 − ρ 2 )
2 2
ρ2 σ 1 (2 − ρ 2 )
2
ρ σ 12
2
1 2
0 0 − −
4 4σ 22 2
ρ 2 σ 22 ρ 2 σ 12 σ 12 σ 22 (1 + ρ 2 )
0 0 − −
2 2 1 − ρ2

_____________________________________________________________________________________________________
Teoria da Estimação e Estimadores de Máxima Verosimilhança M. Mendes de Oliveira,
18.Ago.2000
28

(...)

Referências:

DAVIDSON, Russell, e MACKINNON, James G. (1993), Estimation and Inference


in Econometrics, Oxford University Press, New York.

GOURIEROUX, Christian, e MONFORT, Alain (1995), Statistics and Econometric


Models, Cambridge University Press, Cambridge.

GREENE, William H. (2000), Econometric Analysis, 4ª ed., Prentice-Hall, Upper


Saddle River, New Jersey.

JUDGE, George G.; GRIFFITHS, W. E.; HILL, R. Carter; LUTKEPOHL, Helmut, e


LEE, Tsoung-Chao (1985), The Theory and Practice of Econometrics, 2nd ed., John
Wiley and Sons, New York.

KENNEDY, Peter (1998), A Guide to Econometrics, 4ª ed., Blackwell, Oxford.

MURTEIRA, Bento (1979), Probabilidades e Estatística, vol. I, McGraw-Hill de


Portugal, Lisboa.

_____________________________________________________________________________________________________
Teoria da Estimação e Estimadores de Máxima Verosimilhança M. Mendes de Oliveira,
18.Ago.2000
29

Exercícios

1. Seja θ um estimador de um parâmetro θ. Se se souber que θ∈[a, b], mostre


~
que um novo estimador, θ , definido por

a , se θ < a
~
θ = θ, se a ≤ θ ≤ b
b, se θ > b

tem erro quadrático médio não superior ao de θ . Mostre também que, se for
~
E( θ ) = θ, a variância de θ é não superior à de θ .
(M. Kendall e A. Stuart, The Advanced Theory of Statistics, vol. 2)

2.

_____________________________________________________________________________________________________
Teoria da Estimação e Estimadores de Máxima Verosimilhança M. Mendes de Oliveira,
18.Ago.2000

Das könnte Ihnen auch gefallen