Beruflich Dokumente
Kultur Dokumente
BIOMETRIA
FLORESTAL
Niro Higuchi
Joaquim dos Santos
Adriano José Nogueira Lima
Manaus – AM
Março, 2008
PARTE 1
Capítulo 1
Introdução - Conceitos gerais
A estatística é uma ferramenta importante para o manejo florestal, seja pra quem está
interessado em trabalhar em pesquisas ou pra quem tem a responsabilidade de planejar,
executar e acompanhar um projeto. Difícil é separar a estatística pra essas duas frentes. O
objetivo desta Parte da apostila é aprofundar em conceitos dos indicadores estatísticos mais
freqüentemente utilizados pelos florestais e ajudar na interpretação dos resultados.
Estatística é um ramo do conhecimento científico que consta de conjunto de processos
que têm por objeto a observação, a classificação formal e a análise dos fenômenos coletivos
ou de massa (finalidade descritiva) e, por fim, investigar a possibilidade de fazer inferências
indutivas válidas a partir dos dados observados e buscar métodos capazes de permitir esta
inferência (finalidade indutiva). Durante uma defesa de tese no CENA-USP, surgiu um novo
conceito para estatística que, segundo Edgard, é "a arte de torturar os números até que eles
confessem aquilo que você quer ouvir."
Em inventário florestal, produto sem estatística não é produto. Em inventários, o
principal produto é o intervalo de confiança para a média estimada. Na pesquisa científica, a
estatística pode ser vista como um instrumento de comunicação e, embora o seu uso seja
absolutamente opcional, ela fornece os modelos que são necessários para estudar as situações
que envolvem incertezas, mas a palavra final é sua.
O exercício, a análise e a interpretação do pensamento científico normalmente são
feitos por meio da linguagem operacional dos conceitos e hipóteses científicas. Isso implica
na formulação de hipóteses estatísticas e estabelecimento dos procedimentos de observações
diretas ou de medições.
Linguagem teórica: “quanto mais grossa é a árvore, mais madeira será oferecida à
indústria de transformação.” Neste caso, dois conceitos são envolvidos: espessura e madeira.
Com definir esses dois conceitos? Espessura pode ser o diâmetro de uma árvore. Madeira
pode ser a quantidade de material lenhoso disponível para a indústria.
E daí? Que fazemos agora? Temos que operacionalizar as observações e medições de
espessura e madeira. Espessura pode ser traduzida operacionalmente, por exemplo, em
centímetros de diâmetro à altura do peito (DAP), medido a 1,3 m do solo. E a madeira, por
sua vez, pode ser traduzida como volume cúbico da árvore.
Agora, a hipótese científica pode ser enunciada, em termos de hipótese estatística, da
seguinte maneira: “Quanto maior o DAP, maior será o volume da árvore.” Dessa forma, o
“pica-pau” fica mais à vontade.
Depois de formulada a hipótese, o passo seguinte consiste em testá-la. Para se testar as
hipóteses serão precisos: planejar a coleta de dados, coletar os dados, tratar os dados,
processar os dados, analisar os resultados e, finalmente, tomar decisões para rejeitar ou não a
hipótese estatística formulada (Ver figura 1.1).
O papel da estatística na pesquisa científica é ajudar o pesquisador “pica-pau” a
formular as hipóteses e a fixar as regras de decisão.
Um pouco de filosofia.
- Aristóteles escreveu: “A verdade é um alvo tão grande que dificilmente alguém
deixará de tocá-lo, mas, ao mesmo tempo, ninguém será capaz de acertá-lo em cheio, num só
tiro.”
- A meta da ciência é a organização sistemática do conhecimento sobre o universo,
baseado nos princípios explanatórios que são genuinamente testáveis.
- O pesquisador tem os dons da instituição e criatividade para saber que o problema é
importante e quais questões devem ser levantadas; a estatística, por sua vez, o assistirá por
meio da maximização de output não ambíguos enquanto minimiza os inputs.
- O pesquisador tem que ter em mente que a pesquisa freqüentemente levanta mais
questões do que respostas. Os resultados quase sempre são meramente uma demonstração de
nossa ignorância e uma declaração mais clara do que não sabemos.
- O pesquisador tem que manter os olhos abertos, sua mente flexível e estar preparado
para surpresas.
- A pesquisa está na cabeça do pesquisador; o laboratório ou o campo meramente
confirma ou rejeita o que a sua mente concebeu. A sabedoria consiste em conhecer mais as
questões certas para fazer e não nas certas respostas.
- A aplicação indiscriminada dos métodos quantitativos sobre inesgotáveis
quantidades de dados não significa que o entendimento científico vai emergir só por causa
disso.
OPERACIONALIZAR
HIPOTETIZAR
planejar coletar
coletar tratar processar analisar
rejeitaa ?
rejeit não, concluir!
sim, concluir!
04/05 18.900
03/04 27.200
02/03 24597
01/02 23.266
00/01 18.165
99/00 18.226
ano ou período
98/99 17.269
97/98 17.383
96/97 13.227
95/96 18.161
94/95 29.059
92/94 14.896
91/92 13.786
90/91 11.030
89/90 13.730
87-89 17.770
78/87 21.050
área desmatada em km2
fonte: www.inpe.br
A D A:D (%)
Figura 1.3: Relação entre áreas (em km2) desmatadas com autorização e sem autorização na
Amazônia.
sem origem
63%
d autorizado
20%
PMFS
17%
0
6 a 9/9 14 a 16/9 17 a 19/9 21 a 24/9 28 a 30/9 4 e 5/10 TSE
período da pesquisa
Figura 1.5: Pesquisas de opinião realizadas pelo IBOPE para o 1º turno da eleição
presidencial de 2002.
70
61
58 59 58
60
intenção de votos (%)
50
40
32 32 31 32
30
20
6 6 7
10 4
4 3 4 3
0
11 out 18/out 23/out 26/out
data
Figura 1.6: Pesquisas de opinião realizadas pelo Datafolha para o 2º turno da eleição
presidencial de 2002.
área média mínima máxima
30.000
24.000
22.000
21.060
20.000
18.689
18.000
16.000 16.317
Acima = 29%
14.000
2005/06? Dentro = 42%
12.000
Abaixo = 29%
10.000
78/87
87-89
89/90
90/91
91/92
92/94
94/95
95/96
96/97
97/98
98/99
99/00
00/01
01/02
02/03
03/04
04/05
05/06
ano ou período
Figura 1.7: Previsão da área desmatada para 2006 (agosto 2005 a julho 2006) com base no
intervalo de confiança (95%) da série histórica de 1978 a 2005.
20
18
16
freqüência absoluta
14
12
10
8
6
4
2
0
Freq
Algumas terminologias:
Classe – uma categoria para o grupamento de dados.
Freqüência – o número de indivíduos ou objetos numa classe. Por exemplo, a
freqüência da classe 30-39.9 é 19.
Freqüência relativa – a porcentagem, expressa como um decimal, do número total de
indivíduos de uma determinada classe. A freqüência relativa da classe 50-59.9 é 0.1 ou 10%.
Freqüência acumulada – é a soma das freqüências dos valores inferiores ou iguais a
valor dado.
Distribuição de Freqüência – a listagem das classes com suas freqüências.
Limite inferior da classe – o menor valor que pode ir dentro de uma classe. Na classe
20-29.9 o limite inferior é 20.
Limite superior da classe – o maior valor que pode ir dentro de uma classe. Na classe
20-29.9 o limite superior é 29.9. Se a precisão fosse de duas casas decimais, o limite superior
poderia ser 29.99 e assim por diante.
Intervalo de classe – é a diferença entre o limite superior e o limite inferior de uma
dada classe. No nosso exemplo, o intervalo é 10, ou seja, 30 – 20 =10.
Ponto médio da classe – é a média aritmética entre o limite superior e limite inferior
da classe. Assim, se a classe for: (20+30)/2 = 25. Da classe 30-40 o ponto médio é 35 e assim
por diante.
(1ª) (2) (3) (4) (5) (6) (7) (8) (9) (10)
25 27 27 27 27.7 28 28 29 30 30
(11) (12) (13) (14) (15) (16) (17) (18) (19) (20)
31.8 32 32 32 33 33 33 33 34 34
(21) (22) (23) (24) (25) (26) (27) (28) (29) (30)
35 36 36 37 37 38.5 39 40 40 41
(31) (32) (33) (34) (35) (36) (37) (38) (39) (40ª)
43 45 47 47 52 53 58 58 63 77
Neste caso, o número total de observações, n, é par, a mediana será a média aritmética
dos vigésimo e vigésimo-primeiro valores, ou seja, (34 + 35)/2 = 34.5.
Moda – é simplesmente o ponto médio da classe que tem a maior freqüência, que no
nosso caso, quadro 2.2, é 35, que tem a freqüência = 19.
Resumo das estimativas das medidas:
Média = 38,225
Mediana = 34,5
Moda = 35,0
Interpretação: um conjunto de dados pode ter mais de uma moda, mas sempre terá
somente uma média ou mediana. Como você pode ver, de um mesmo conjunto de dados, você
tem diferentes medidas de tendência central. Qual delas é a melhor? A decisão vai depender,
principalmente, do objetivo de sua informação. Quando a gente vende madeira em volume,
normalmente truncada a um determinado diâmetro mínimo, a média deve prevalecer tendo em
vista a maior facilidade para os cálculos posteriores. Se a árvore é vendida em pé, a moda
pode ser mais interessante, porque ela dá uma noção também da distribuição de freqüência. A
utilização da mediana é mais prática na tomada de decisões quanto a tratamentos
silviculturais, desbastes etc., quando você precisa priorizar o tamanho que precisa sofrer
intervenções.
3.2. Medidas de dispersão:
Uma medida de dispersão é um número usado para mostrar quanto de variação existe
num conjunto de dados.
Até agora discutimos somente as medidas de tendência central. Entretanto, 2 conjuntos
de dados podem ter a mesma média ou a mesma mediana e, mesmo assim, ser bastante
diferente.
Exemplo 1: Dois conjuntos de dados (turmas de Manejo e Ecologia), no quadro 3.1
Quadro 3.1. Idades de alunos dos cursos de manejo e ecologia do INPA
Manejo (CFT) Ecologia
aluno idade aluno idade
1 25 1 22
2 28 2 30
3 30 3 28
4 29 4 21
5 28 5 39
média 28 média 28
As médias dos dois grupos são iguais. No entanto, é claro que estamos nos referindo a
dois grupos diferentes em idade. Dá para perceber que o grupo do Manejo é mais uniforme
em termos de idade. Neste caso, para ver a variação que há dentro de cada conjunto de dados,
podemos usar a amplitude total ou o desvio padrão, as duas medidas de dispersão mais
comuns.
AMPLITUDE TOTAL – é a medida da variação olhando apenas a diferença entre o
maior e o menor valor. Esta medida é de fácil computação porque depende apenas do maior e
do menor valor, mas, em compensação ela não diz o que acontece entre esses dois valores.
Além disso, é considerada muito limita, sendo uma medida que depende apenas dos valores
externos, é instável, não sendo afetada pela dispersão dos valores internos.
Do quadro 3.1, as amplitudes são:
- Manejo: 30 – 25 = 5
- Ecologia: 39 – 21 = 18
DESVIO PADRÃO – nos dá a dispersão dos indivíduos em relação à média. Ele nos
dá uma idéia se os dados estão próximos da média ou muito longe. O desvio padrão dos
indivíduos de uma população é freqüentemente simbolizado pela letra grega minúscula (σ).
Dificilmente a gente trabalha com o parâmetro. Entretanto, dado uma amostra de valores
individuais de uma população, podemos fazer uma estimativa de σ que é comumente
simbolizada por s.
n
2
∑ (x i - x)
i =1
Fórmula : s = ±
n -1
n n
∑x - (( ∑ x i ) 2 ) / n
2
i
ou, mais simples : s = ± i =1 i =1
n -1
_
Por que o denominador é (n-1) em vez (n)? Porque os n desvios, (xi – x ), são
_
necessariamente conectados pela relação linear ∑ ( xi – x ) = 0. Se você especifica o valor da
_
x e os ( n-1 ) valores de xi, então o valor do último xi é fixo; isto é, é uma informação
_
redundante. Por esta razão, ao usar a média amostral x em vez da média da população µ
como um ponto central no cálculo de s, você perde um grau de liberdade (gl) e a estimativa de
σ é dita ter ( n – 1 ) gl associados com ela. O uso de (n – 1) em vez de (n) no cálculo de s
também fornece uma estimativa não-tendenciosa; isto é, em uma série infinita de amostras
aleatórias, o valor médio do estimador é igual a σ.
Os desvios padrões dos dados do quadro 3.1 são:
- Manejo: s = ± 1.87
- Ecologia: s = ± 7.25
Resumindo: quanto maior a variação dentro de um conjunto de dados, maior será o
desvio padrão. Do exemplo 1 nós constatamos agora, que apesar dos dois terem as mesmas
medidas de tendência central, média e mediana, as medidas de dispersão são totalmente
diferentes. Isto quer dizer que o grupo de Manejo é mais homogêneo em idade, comprovada
pela menor variação encontrada.
Cálculo da média e desvio dos dados grupados:
A média é calculada da seguinte maneira:
_
x = ( ∑ xi * fi ) / n
onde: xi = ponto médio da classe, fi = freqüência de cada classe e n = número de classes
E o desvio padrão segue o mesmo princípio da média em relação às classes.
Do quadro 2.2, essas medidas serão:
_
x = 38,5 e s = ± 11,45
3.4 Percentil:
Nós já vimos um exemplo de percentil. A mediana divide um conjunto de dados em
duas partes, 50% de um lado e 50% de outro, depois de colocá-los em ordem crescente. Por
esta razão ela se refere ao qüinquagésimo percentil de um conjunto de dados. Além dos
percentils, que pode dividir os dados de acordo com qualquer valor percentual, o pesquisador
pode também querer encontrar o quartil e o decil.
Quartil é a separatriz que divide a área de uma distribuição de freqüência em
domínios de área igual a múltiplos inteiros de um quarto da área total.
Decil é a separatriz correspondente ao valor do argumento que divide a distribuição
numa razão decimal.
Exemplo: dados do quadro 2.1 em ordem crescente.
Primeiro quarto
25 27 27 27 27.7 28 28 29 30 30
Segundo quarto
31.8 32 32 32 33 33 33 33 34 34
Terceiro quarto
35 36 36 37 37 38.5 39 40 40 41
Quarto quarto
43 45 47 47 52 53 58 58 63 77
Computações:
∑ (x − x)
n
∑x i i
x= i =1
s2 = i =1
n n −1
s=± s 2
sx = s / n
2 2
⎛ n ⎞ ⎛ n ⎞
⎜ ∑ xi ⎟ ⎜ ∑ y i ⎟
SQC x = ∑ xi − ⎝ ⎠
SQC y = ∑ y i − ⎝ ⎠
n n
2 i =1 2 i =1
i =1 n i =1 n
n (∑ x )(∑ y )
SPC xy = ∑ xi y i −
i i
i =1 n
Coeficiente de correlação
SPCxy
r=
SQC X × SQCY
Capítulo 4
Probabilidade
No capítulo 1 nós distinguimos dois tipos de estatísticas: descritiva e de inferência. A
estatística descritiva envolve a organização e a sumarização dos dados. A estatística de
inferência lida com inferências (predições educadas) sobre uma população baseada em uma
amostra da população.
Desde que a estatística de inferência envolve predições (educadas), é sempre possível
fazer uma inferência incorreta. É preciso saber o quanto a nossa inferência está correta. Para
medir a chance de estar certo na nossa inferência estatística, precisamos entender a teoria de
probabilidade, que é a fundamentação matemática para a estatística de inferência.
Para entender os princípios da teoria de probabilidade não há como fugir dos exemplos
clássicos de “cara & coroa”, dos dados e do jogo de baralho. A propósito, a teoria foi
desenvolvida por causa de jogos de azar. O objetivo deste capítulo é dar uma base geral para
facilitar o entendimento da aplicação de testes de hipóteses, paramétrica e não-paramétrica.
O processo de computação (cálculo) de probabilidades depende de sua capacidade de
contar, “1, 2, 3 e assim por diante.” A seguir vamos discutir alguns métodos de contagem.
4.1. Contagem:
Primeiro vamos estabelecer as seguintes definições dentro da teoria de probabilidade.
Resultado - no caso de “cara ou coroa”, 2 resultados são possíveis e no caso do jogo de
dados, 6 resultados.
Teste - (ou tentativa) - é a ação de jogar a moeda e ver se ela cai com a cara ou
coroa.
Experimento - é o conjunto de testes (tentativas); se a moeda é jogada uma vez, ou
duas, ou n vezes, não interessa – o procedimento deve ser considerado um experimento.
Eventos - são os possíveis resultados de um teste, vários testes ou de todo o
experimento. Exemplo de evento: “uma coroa em 4 jogadas” ou “pelo menos um é cara”.
REGRA 1: Se um experimento consiste de n testes, onde cada teste pode resultar em um dos
k possíveis resultados, afirmamos que há kn possíveis resultados de todo o experimento.
Exemplo 1: no jogo da moeda você tem dois resultados, cara (C) ou coroa (c), k=2.
Se você jogar apenas uma vez, n=1, você terá 21 = 2 possíveis resultados, C ou c. Se você
jogar duas vezes, n = 2, você terá 22 = 4 possíveis resultados, CC cc Cc cC.
REGRA 2: Há n! (fatorial) maneiras de arranjar n objetos distinguíveis em uma seqüência.
⎛n⎞ ⎛n⎞ n!
⎜⎜ ⎟⎟ é dado por ⎜⎜ ⎟⎟ =
⎝k⎠ ⎝k⎠ k! (n - k)!
⎛n ⎞ ⎛n ⎞ n!
⎜⎜ ⎟⎟ é dado por ⎜⎜ ⎟⎟ =
⎝ ni ⎠ ⎝ ni ⎠ n1! n2! ... nr!
1/ 3
P (A | B) = = 2/3
1/ 2
⎛3⎞ 6
⎜⎜ ⎟⎟ = = 3 maneiras e conseqüentemente
⎝ 2⎠ 2
P ( exatamente 2 caras) = 3p 2 q
⎛n⎞
P (exatamente k caras) = ⎜⎜ ⎟⎟ p k q n - k
⎝k⎠
onde p = P(C) em qualquer jogada.
O quadro 4.1 mostra, por ex., que 17,5% (0.175) das 40 famílias possuem 2 crianças.
Agora, suponha que uma das famílias tenha sido selecionada aleatoriamente, ou seja,
cada família teve igual chance de ser escolhida. Qual é a probabilidade que a família
selecionada tenha 3 crianças? A resposta é 4/40, que é a mesma frequência relativa.
Suponha que há N resultados possíveis num experimento. A probabilidade que um
evento ocorra é o número de vezes, f, que o evento pode ocorrer, dividido pelo número total,
N, de possíveis resultados.
⎛14 ⎞
(3) P(Y = 7) = ⎜⎜ ⎟⎟ p 7 (1 - p) 7
⎝ 7⎠
⎛ 6! ⎞ ⎛ 8! ⎞
⎜⎜ ⎟⎟ ⎜⎜ ⎟⎟
⎝ 3! (6 - 3)! ⎠ ⎝ 4! (8 - 4)! ⎠
= = 0.408
⎛ 14! ⎞
⎜⎜ ⎟⎟
⎝ 7! (14 - 7)! ⎠
Como os pontos no espaço amostral são mutuamente exclusivos, os valores que uma
variável aleatória pode assumir são também mutuamente exclusivos. Para um simples
resultado de um experimento, a variável aleatória é definida por apenas um número. Assim,
todo o conjunto de valores que uma variável aleatória pode assumir tem as mesmas
propriedades do espaço amostral. Os valores individuais assumidos pela variável aleatória
correspondem aos pontos no espaço amostral, um conjunto de valores corresponde a um
evento e a probabilidade da variável aleatória assumir qualquer valor dentro de um conjunto
de valores é igual a soma das probabilidades associadas com todos os valores dentro do
conjunto. Por exemplo:
P (X = número par) = ∑ P (X = x)
x par
onde o somatório se aplica a todos os valores de x que são pares. Por causa dessa similaridade
entre o conjunto de valores possíveis de X e um espaço amostral, a descrição do conjunto de
probabilidades associadas com os vários valores que X pode assumir, é freqüentemente
chamado de função de probabilidade da variável aleatória X, assim como um espaço amostral
tem uma função de probabilidade. Entretanto, a função de probabilidade de uma variável
aleatória não é uma atribuição arbitrária de probabilidades, como é a função de probabilidade
para um espaço amostral. Isto porque uma vez que as probabilidades são atribuídas aos pontos
num espaço amostral e uma vez que a variável aleatória X é definida no espaço amostral, as
probabilidades associadas com os vários valores de X são conhecidas e a função de
probabilidade de X é, dessa maneira, já determinada.
Definição 3: A função de probabilidade da variável aleatória X, usualmente
representada por f(x) ou de outra maneira qualquer, é a função que dá a probabilidade de X
assumir o valor x, para qualquer número real x, ou seja,
⎛n⎞
(7) f(x) = P(X = x) = ⎜⎜ ⎟⎟ p x q n -x para x = 0,1, .., n
⎝x⎠
⎛n⎞
(8) F(x) = P(X ≤ x) = ∑ ⎜⎜ i ⎟⎟ p i q n-i
i≤ x ⎝ ⎠
⎛n⎞
P (X = x) = ⎜⎜ ⎟⎟ p x q n -x
⎝x⎠
⎛6 ⎞ ⎛ 8 ⎞ y- x
f(x, y) = ⎜⎜ ⎟⎟ p x (1 - p) 6 - x ⎜⎜ ⎟⎟ p (1 - p) 8 - (y - x)
⎝x⎠ ⎝ y - x ⎠
P(X = x, Y = y)
(15) f(x | y) = P(X = x | Y = y) =
P(Y = y)
f(x, y)
=
f(y)
⎛6 ⎞ ⎛ 8 ⎞ y- x
f(x, y) = ⎜⎜ ⎟⎟ p x (1 - p) 6 - x ⎜⎜ ⎟⎟ p (1 - p) 8 - (y - x)
⎝x⎠ ⎝y - x⎠
que originalmente era uma forma geral da equação (2). Também, deixe f(y) ser a função de
probabilidade de Y. Do exemplo 4, novamente, podemos generalizar da seguinte maneira
⎛14 ⎞
f(y) = P(Y = y) = ⎜⎜ ⎟⎟ p y (1 - p)14 - y
⎝y ⎠
⎛6 ⎞ ⎛ 8 ⎞
⎜⎜ ⎟⎟ ⎜⎜ ⎟⎟
f(x, y) ⎝x⎠ ⎝y - x⎠ 0≤x≤6
(16) f(x y) = = para ∫
f(y) ⎛14 ⎞ 0≤ y-x ≤8
⎜⎜ ⎟⎟
⎝y ⎠
⎛6 ⎞
(18) f1 (x) = P (X = x) = ⎜⎜ ⎟⎟ p x (1 - p ) 6 - x
⎝x⎠
e a função de probabilidade de Y é dada por
⎛14 ⎞
(19) f 2 (y) = P (Y = y) = ⎜⎜ ⎟⎟ p y (1 - p)14 - y
⎝y ⎠
Desde que:
f(x, y) = P(X = x, Y = y) = P(X = x | Y = y) P(y = y)
⎛6 ⎞ ⎛ 8 ⎞
⎜⎜ ⎟⎟ ⎜⎜ ⎟⎟
⎝x⎠ ⎝y - x⎠ ⎛14 ⎞ y
f(x, y) = ⎜⎜ ⎟⎟ p (1 - p)14 - y
⎛14 ⎞ ⎝y ⎠
⎜⎜ ⎟⎟
⎝y ⎠
⎛6 ⎞ ⎛ 8 ⎞ y
= ⎜⎜ ⎟⎟ ⎜⎜ ⎟⎟ p (1 - p)14 - y
⎝x⎠ ⎝y - x⎠
desde que:
⎛6 ⎞ ⎛14 ⎞ x + y
f 1 (x) f 2 (y) = ⎜⎜ ⎟⎟ ⎜⎜ ⎟⎟ p (1 - p) 20 - x + y
⎝x⎠ ⎝y ⎠
vemos que:
1 − 0.5
(( x − µ ) )2
n( x; µ , σ ) = e σ
σ 2π
z
-∞ -3 -2 -1 1 2 3 +∞
µ
68,27%
95,45%
99,73%
Figura 5.1: Curva normal padrão
Propriedades:
estudante 1 2 3 4 5 6 7 8 9 10
idade 23 25 26 28 26 24 25 27 30 26
Peso (x) 69 70 71 72 73 74 75 76 77 78 79
freqüência (f) 1 2 6 13 17 20 18 12 7 3 1
f relativa (prob) ,01 ,02 ,06 ,13 ,17 ,20 ,18 ,12 ,07 ,03 ,01
O histograma e o polígono de freqüências (absoluta e relativa) dos dados contidos no
quadro 5.2 são apresentados na Figura 5.6.
Como em qualquer população, podemos associar a esta população de pesos, uma
variável aleatória x, como o peso de um estudante selecionado ao acaso. Neste caso, as
probabilidades de x são simplesmente as freqüências relativas. Exemplo: qual é probabilidade
de pegar um estudante com peso igual a 72 kg? Resposta: 13% ou 0,13 (freqüência relativa do
quadro 5.2).
O ponto importante deste exemplo é que o histograma de freqüência (Figura 5.6) tem
uma quase perfeita forma de sino. Por causa disto, seremos capazes de aproximarmos das
probabilidades para x usando as áreas sob uma curva normal. Como você pode notar, a curva
normal apropriada é simplesmente aquela com os parâmetros µ e σ, onde µ é a média da
população (ou da variável aleatória x) e σ é o seu desvio padrão.
Do quadro 5.2, a média (µ) da variável aleatória x é igual a 70,06 kg e o seu desvio
padrão (σ) é igual a 1,95. Estes dois parâmetros podem ser sobrepostos à Figura 5.6 para
trabalhar com uma curva normal com µ = 74,06 e σ = 1,95. Podemos querer saber, por
exemplo, qual é a probabilidade (área) de pegar, aleatoriamente, um estudante com 72 kg. Do
quadro 5.2, temos a probabilidade exata disto acontecer, olhando apenas para a freqüência
relativa desta classe (72), que é 0,13 ou 13%. A propósito, a classe 72 vai de 71,5 a 72,5.
Desta forma, podemos escrever assim: P (71,5 < x < 72,5) = 0,13.
No entanto, o mundo real é diferente. Nem sempre você tem uma população tão
pequena e tão bem organizada que permite ter µ e σ e as freqüências relativas. Vamos
trabalhar, agora, sem as freqüências relativas. Você tem uma população com µ = 74,06 e σ =
1,95 e quer saber qual é a probabilidade (área) de pegar, aleatoriamente, um estudante com 72
kg.
Passos necessários: (1) desenhar a curva normal com µ = 74,06 e σ = 1,95; (2) definir
o quê você está procurando, que é a probabilidade P (71,5 < x < 72,5); (3) padronizar as
variáveis aleatórias, x = 71,5 e x = 72,5; (4) achar as áreas para os respectivos “z” sob a CNP
(Tabela 1 do anexo da apostila).
Solução: a padronização das variáveis aleatórias x = 71,5 e x = 72,5 resulta em z = -
1,31 e z = -0,80, respectivamente. Agora, você vai à Tabela 1 para encontrar as áreas sob a
CNP para z = -1,31 e z = -0,80, obtendo as áreas 0,0951 e 0,2119, respectivamente. O
resultado é então: 0,2119 - 0,0951 = 0,1168, ou seja, a probabilidade de selecionar,
aleatoriamente, um estudante com peso igual a 72 kg (71,5 a 72,5) é de 11,68%.
Sumarizando: a probabilidade exata de selecionar, aleatoriamente, um estudante com peso
igual a 72 kg é de 13% e a estimada é de 11,68%.
Um importante ponto do exemplo 8 é que, para certas populações e certas variáveis
aleatórias, podemos usar as áreas sob a curva normal para determinar as probabilidades. Neste
caso, podemos dizer que a população ou a variável aleatória é normalmente distribuída. Dizer
que uma população ou variável aleatória é normalmente distribuída (aproximadamente)
significa que as probabilidades para a população ou variável aleatória são aproximadamente
iguais às áreas sob a curva normal.
Sumarizando:
a) 68,26% das árvores do Distrito têm DAPs entre 30 e 40 cm
b) 95,44% das árvores do Distrito têm DAPs entre 25 e 45 cm
c) 99,74% das árvores do Distrito têm DAPs entre 20 e 50 cm
Área = 0,1660
z
-3 -2 -1 0 1 2 3
µ=0
Z = -0,97
Área = 0,9938
z
-3 -2 -1 0 1 2 3
µ=0
Z = 2,5
σ σ
z z
-3 -2 -1 0 1 2 3 -3 -2 -1 0 1 2 3
µ=0 µ=0
Z = -1,04 Z = 2,06
z
-3 -2 -1 0 1 2 3
µ=0
Z = -1,04 Z = 2,06
x
-5 -4 -3 -2 -1 0 1
µ=3
σ=2
x
-3 -1 1 3 5 7 9
µ=6
σ=3
-3 0 3 6 9 12 15
POSITIVA NEGATIVA
-1 - (-2)
z = ------------ = 1,0
1
x
-5 -4 -3 -2 -1 0 1
z
-3 -2 -1 0 1 2 3
z=3
z=1
x
-3 -1 1 3 5 7 9
z
-3 -2 -1 0 1 2 3
z = - 0,5 z=2
x
-3 0 3 6 9 12 15
z
-3 -2 -1 0 1 2 3
z = -2,0 z = 2,0
15 0,15
10 0,1
5 0,05
0 0
69 70 71 72 73 74 75 76 77 78 79
peso (kg)
× ⎛⎜ p − ⎞⎟
σ = ∑
i xi
−
x i =1 n −1 ⎝ xi ⎠
Vamos ver isso por meio de um exemplo meio irreal. Vamos considerar as idades
(congelada em 2003) de cada membro de minha família (eu, mulher e 3 filhos) como uma
população, ou seja, N = 5. Esta situação nunca será encontrada na vida real porque para saber
a idade média dessa família basta somar as 5 idades e dividir por 5 ... ninguém vai utilizar os
recursos da amostragem. No entanto, se você entender o significado da estimativa da média
da população e o comportamento do erro padrão da média conforme se aumenta intensidade
de amostragem, para uma pequena população (N = 5), fica mais fácil entender essas duas
variáveis aleatórias quando for trabalhar com uma população grande ou infinita (número de
eleitores do Brasil, N = 115 milhões, floresta da ZF-2 etc.).
Temos 3 situações ilustrando a utilização de 3 intensidades diferentes de amostragem
– anexos 1, 2 e 3. A situação 1 se refere a uma amostragem considerando n = 2, ou seja,
escolha aleatória de 2 pessoas para estimar a média da população. Primeiro você tem que
saber quantas combinações são possíveis ao sortear 2 (n) de um conjunto de 5 (N) pessoas. Só
para lembrar: fatorial de zero (0!) é igual a 1 e fatorial de números negativos ou não inteiros
não existe. Isto é mostrado na página que ilustra a situação 1. Depois disso, você tem que
_
estimar a média de cada combinação possível. Aplicando a fórmula de µ x você vai encontrar
a média da média de todas as possíveis combinações. Você vai notar que a média da média é
exatamente igual à média verdadeira da população.
Repetindo as mesmas operações para as situações 2 e 3, respectivamente, amostragens
de n = 3 e n = 4, você vai notar que a média da média será sempre igual à média da
população, mudando apenas o desvio padrão da média. Resumindo: a média da amostra será
sempre muito parecida com a da população e conforme você aumenta o n, o desvio padrão da
média (ou erro ou incerteza) diminui. Você se convenceu desta afirmativa? Se não, é melhor
tentar a vida em outra praia.
Se sim, vamos pensar agora em termos de população de verdade. Vamos falar de
eleitores brasileiros. Em geral, os institutos utilizam aproximadamente 4.000 eleitores para
inferir sobre a população de 115 milhões de eleitores brasileiros. Quantas possíveis
combinações são possíveis quando a gente utiliza n = 4000 de N = 115 milhões? É só fazer as
contas ... mas não as faça.
115.000.000 115.000.000 !
= ------------------------------------- possíveis combinações
4.000 4.000 ! (115.000.000-4.000) !
É óbvio que ninguém vai fazer todas as possíveis combinações. Se fizesse, a média da
média seria exatamente igual à média da população. Então, o que é feito? As empresas tomam
apenas uma única combinação de 4000 eleitores para inferir sobre a população de eleitores
pressupondo que a média estimada na pesquisa será igual à da população e que n = 4000
produzirá uma incerteza (erro) menor que n = 3.999.
Em uma floresta de porte médio como a da ZF-2, por exemplo, com 21.000 hectares,
temos N = 84.000 (21000 x 4) amostras possíveis de ¼ ha cada. Se a gente usar n = 50,
quantas possíveis combinações seriam possíveis? Várias. Quantas combinações a gente faria
no caso de um inventário florestal? Certamente, apenas uma. A nossa expectativa é ter uma
média (volume ou outra variável) representativa da população com uma margem de erro
aceitável.
A média é importante porque sem ela não há planejamento. No entanto, mais
importante mesmo é saber com que margem de erro (incerteza) a gente está trabalhando. É
importante também não perder de vista que a intensidade de amostragem está diretamente
relacionada com os custos. No caso de inventários, você tem duas alternativas: (1) fixa a
incerteza e libera os custos ou (2) fixa os custos e libera a incerteza. Em geral, a segunda
alternativa é a mais freqüente. Há meios para se prevenir de incertezas indesejadas.
Em inventários florestais, você pode se prevenir utilizando boas imagens, bons mapas,
bons equipamentos e métodos adequados de amostragem, em combinação com planejamento
de coleta e processamento dos dados. Estamos falando de erros de amostragem (o erro que
você comete por medir apenas parte da população). Não confundir com erros não-amostrais
(humanos, principalmente), que não são tratados aqui. Não esquecer também que n é
denominador.
⎛N⎞ N! 5! 120
⎜ ⎟= = = = 10 combinações
⎝ n ⎠ n!( N − n )! 2!(5 − 2)! 12
População Amostragem
_ _
nome idade comb. idade1 idade2 x p x*p Desvio
NH 51 1 51 46 48,5 0,1 4,85 33,49
MIGH 46 2 51 22 36,5 0,1 3,65 3,97
IGH 22 3 51 20 35,5 0,1 3,55 2,81
FGH 20 4 51 12 31,5 0,1 3,15 0,17
GGH 12 5 46 22 34,0 0,1 3,40 1,44
média 30,2 6 46 20 33,0 0,1 3,30 0,78
desvio 17,21 7 46 12 29,0 0,1 2,90 0,14
8 22 20 21,0 0,1 2,10 8,46
9 22 12 17,0 0,1 1,70 17,42
10 20 12 16,0 0,1 1,60 20,16
_
µx 30,2 88,86
_
σx 9,43
µ = 30,2
_
µ x = 30,2
Coincidência? Não!
Anexo 2
Situação 2
Amostragem de n = 3 da população com N = 5
Quantas combinações são possíveis?
⎛N⎞ N! 5! 120
⎜ ⎟= = = = 10 combinações
⎝ n ⎠ n!(N − n )! 3!(5 − 3)! 12
População Amostragem
_ _
nome idade comb. idade1 idade2 idade3 x x*p Desvio
µ = 30,2
_
µ x = 30,2
Situação 3
Amostragem de n = 4 da população de N = 5
⎛N⎞ N! 5! 120
⎜ ⎟= = = = 5 combinações
⎝ n ⎠ n!( N − n )! 4!(5 − 4 )! 24
População Amostragem
_ _
nome idade idade1 idade2 idade3 idade4 x p x*p desvio
NH 51 51 46 22 20 34,75 0,2 6,95 4,141
MIGH 46 51 46 22 12 32,75 0,2 6,55 1,301
IGH 22 51 46 20 12 32,25 0,2 6,45 0,841
FGH 20 51 22 20 12 26,25 0,2 5,25 3,121
GGH 12 46 22 20 12 25 0,2 5 5,408
_
média 30,2 µx 30,2 14,812
_
desvio 17,21 σx 3,85
µ = 30,2
_
µ x = 30,2
2) O que muda é o desvio padrão da média ou erro padrão, ou seja, conforme aumenta a
intensidade de amostragem, diminui o erro, aumenta a precisão e diminui a incerteza
da sua estimativa.
CAPÍTULO 7
Estimando a média da população
7.1. Intervalos de confiança:
_
Vimos no capítulo 5 que é razoável usar uma média amostral x para estimar a média
da população ( µ ). A Lei dos Grandes Números diz que: se uma “grande” amostragem
_
aleatória é tomada de uma população, a x “tende” a ser “parecida” com µ.
No capítulo 6 discutimos o Teorema de Limite Central que diz: se uma amostragem
aleatória de tamanho n (n ≥ 30) é tomada de uma população com média µ e desvio padrão σ,
_
então x é (aproximadamente) normalmente distribuída e, por esta razão, podemos encontrar
_
as probabilidades para x usando as áreas sob a curva normal com parâmetros µ e σ/ n.
E AGORA??
_
Qual é a confiança sobre a precisão envolvida ao usar x para estimar µ ?
Estamos falando do Intervalo de Confiança (IC), que será definido com exemplos.
Exemplo 1: Um estatístico está interessado em obter informações sobre a média em
altura de uma população, µ , de todos os adultos masculinos de uma grande cidade.
Com base em experiência anterior ele sabe que o σ é igual a 2,5”. Se ele tomar uma
_
amostragem aleatória de 30 adultos, qual é a probabilidade da altura média x estar dentro de
1” da altura média da população, µ ?
_
Solução: Queremos encontrar a probabilidade da x estar dentro de 1” de µ; que é, P
_
( µ- 1 < x < µ + 1 ). Como n ≥ 30, recorremos ao Teorema de Limite Central para
_
encontrar as probabilidades para x usando as áreas sob a curva normal com parâmetros µ
(que não conhecemos) e σ / n = 2,5 / 30 = 0,46.
_
Então, para encontrar P ( µ - 1 < x < µ + 1 ), precisamos encontrar a área sob a
curva normal (com parâmetros µ e 0,46) entre µ - 1 e µ + 1.
Desta vez não conhecemos µ - 1 e µ + 1, ao contrário de exemplos anteriores. Mas,
mesmo assim, podemos resolver o problema pela padronização de nossa variável aleatória, da
seguinte maneira:
⎛ ⎞
z = ⎜ x − µ ⎟ 0,46
⎝ ⎠
_
O valor de z para x = µ - 1 é
z = [ (µ - 1) - µ ] / 0,46 = -1 / 0,46 = -2,17
_
E o valor de z para x = µ + 1 é
z = [ (µ + 1) - µ ] / 0,46 = 1 / 0,46 = 2,17
Da tabela 1, tiramos as áreas sob a curva para z = -2,17 e z = 2,17, que são
respectivamente 0,0150 e 0,9850. A área, então, compreendida entre -2,17 e 2,17 é:
área = 0,9850 - 0,0150 = 0,97
Conseqüentemente,
_
P ( µ - 1 < x < µ + 1 ) = 0,97
_
Quer dizer: a probabilidade da x estar entre 1” da µ é de 0,97.
_
Vamos colocar a expressão anterior de outra maneira: que a x deve estar 1” da µ,
_
que é o mesmo que dizer que “µ está entre 1” de x .” Isto pode ser re-escrito da seguinte
maneira:
_ _
P ( x - 1 < µ < x + 1) = 0,97
Em outras palavras, sabemos que se uma amostragem aleatória de 30 adultos masculinos é
_ _
tomada, então a probabilidade do intervalo de x - 1 a x + 1 conter µ é de 0,97.
Suponha agora, por exemplo, que quando o pesquisador tomar uma amostragem
_
aleatória, ele consegue x = 67”, então
_ _
x - 1 = 66 e x + 1 = 68
Ele sabe que, 97% destes intervalos conterão µ e, por esta razão, ele pode estar 97% certo de
que a µ estará entre 66 e 68. Desta forma, o intervalo de 66 a 68 é chamado de IC 97% para
µ.
_ _
x -z α/2 *(σ/ n ) para x + z α/2 *(σ/ n )
_
onde z α/2 é obtido seguindo o passo 1, n é o tamanho da amostragem e x é
obtida dos dados da amostragem.
Exemplo 4: No Quadro 7.1 são apresentadas informações sobre área basal por hectare
de 30 unidades amostrais (ua) selecionadas aleatoriamente de 2 transectos de 20 x 2.500 m,
distribuídos nas seguintes classes topográficas: platô, encosta e baixio. Os procedimentos são
os mesmos utilizados anteriormente e os resultados são:
_
platô => IC (95%) = x ± 2,5 = 31,2 ± 2,5 = 28,7 < µ < 33,6
_
encosta => IC (95%) = x ± 2,3 = 28,5 ± 2,5 = 26,2 < µ < 30,8
_
baixio => IC (95%) = x ± 2,1 = 26,5 ± 2,5 = 24,4 < µ < 28,6
O segundo termo após o sinal (±) pode ser considerado como “incerteza” ou “margem
de erro”. Assim, as incertezas para platô, encosta e baixio são, respectivamente: 0,0799,
0,0808 e 0,0785, ou seja, as incertezas (em %) são de 7,99%, 8,08% e 7,85%.
Se n < 30, não podemos usar a CNP para encontrar as probabilidades para o IC.
Entretanto, um pesquisador chamado W.S. Gosset desenvolveu curvas de probabilidade que
podem ser usadas, em vez da CNP. Estas curvas são conhecidas como curvas-t de student ou
simplesmente curvas-t. A forma de uma curva-t depende do tamanho da amostra. Se a
amostra é de tamanho n, nós identificamos a curva-t em questão dizendo que é a curva-t com
(n-1) graus de liberdade.
Se tomamos uma amostra aleatória de tamanho n de uma população que é
aproximadamente normalmente distribuída com média µ, a variável aleatória
(
t = (x − µ ) s n )
tem a distribuição-t com (n - 1) graus de liberdade. As probabilidades para esta variável
aleatória pode ser encontrada usando as áreas sob a curva-t com (n - 1) graus de liberdade -
tabela 2.
As curvas-t variam conforme os graus de liberdade, como ilustrado na figura 7.1.
_
Procedimento para encontrar o IC para µ, baseado em x :
_ _
x -t α/2 *(s/ n ) para x + t α/2 *(s/ n )
_
onde t α/2 é obtido seguindo o passo 1, n é o tamanho da amostragem e x
e s são obtidas dos dados da amostragem.
Conseqüentemente
_
x - 2,13*( s / n ) = 41.148,13 - 2,13 * (2.360,32/ 16 ) = 39.891,26
_
x + 2,13*( s / n ) = 41.148,13 + 2,13 * (2.360,32/ 16 ) = 42.405,00
Isto quer dizer que o vendedor pode ter 95% de confiança que a µ (durabilidade média
da nova marca) está entre 39.891 a 42.405 milhas. Desta forma, o fabricante está correto em
afirmar que a nova marca tem µ = 40.000 milhas.
Quadro 7.1: Dados de área basal (m2/ha) em dois transectos na ZF-2 distribuídos em classes
topográficas (platô, encosta e baixio).
-3 -2 -1 0 1 2 3 -3 -2 -1 0 1 2 3 -3 -2 -1 0 1 2 3
1
“predição educada” pode ser traduzida como um “chute certeiro” de um Romário por exemplo.
A h1 pode ser quebrada em duas situações:
- teste uni-caudal: neste caso, ou olhamos à direita de d quando temos h1: µ > 38, ou à
esquerda de d quando temos h1: µ < 38. Outra situação é µ1 < µ2 ou µ1 > µ2.
- teste bi-caudal: olhamos simultaneamente à direita e à esquerda de d e o quê
acontecer primeiro transforma-se no argumento principal para rejeitar h0 e, neste caso, em vez
de α nós temos que usar α/2.
Observação: Desde que o nível de significância seja a probabilidade de rejeitar uma h0
verdadeira, é improvável que h0 será rejeitada quando ela for verdadeira. Conseqüentemente,
se podemos rejeitar h0 num teste de hipótese, então podemos estar razoavelmente confiantes
que h1 é verdadeira. Por outro lado, se não podemos rejeitar h0, isto não prova que h0 seja
verdadeira, simplesmente quer dizer que ela é razoável, nada mais.
Há dois tipos de erros quando aceitamos a hipótese que não é verdadeira, Tipo I e Tipo
II, que ilustramos no quadro abaixo:
z=
(x − µ )
s n
8.2.1. Testes de Hipóteses para uma média simples: teste unicaudal para
grandes amostras.
(i) Olhando apenas o lado esquerdo da curva:
Procedimentos:
1. Hipótese nula: µ = µ0
2. Hipótese alternativa: µ < µ0
3. Condicionante: tamanho da amostragem n ≥ 30
4. Escolher o nível de significância2 α. Normalmente α = 0,01, 0,05 ou 0,10
5. O valor crítico é d = - zα. Usar Tabela 1 para encontrar o valor de z.
2
hoje em dia a maioria dos pacotes estatísticos já dão diretamente o valor exato de α.
6. Calcular o valor de
z=
(x − µ 0 )
(s n )
7. Se z < d, rejeitar a hipótese nula.
z=
(x − µ 0 )
(s n )
7. Se z > d, rejeitar a hipótese nula.
8.2.2. Testes de Hipóteses para uma média simples: teste bi-caudal para
grandes amostras.
Neste caso vamos olhar à esquerda e à direita da curva e, por esta razão, temos dois
níveis críticos ou pontos de decisão d.
Procedimentos:
1. Hipótese nula: µ = µ0
2. Hipótese alternativa: µ ≠ µ0
3. Condicionante: tamanho da amostragem n ≥ 30
4. Escolher o nível de significância α. Normalmente α = 0,01, 0,05 ou 0,10
5. Os valores críticos são d = - zα/2 e d = zα/2. Usar Tabela I para encontrar os valores
de zα/2.
6. Calcular o valor de
z=
(x − µ 0 )
(s n )
7. Se z < - d ou z > d, rejeitar a hipótese nula.
Procedimentos:
1. Hipótese nula: µ1 = µ2
2. Hipótese alternativa: µ1 < µ2
3. Condicionante: n1 e n2 ≥ 30
4. Escolher o nível de significância α. Normalmente α = 0,01, 0,05 ou 0,10
5. O valor crítico é d = - zα. Usar Tabela I para encontrar o valor de z.
6. Calcular o valor de
⎛− − ⎞
⎜ x1 − x 2 ⎟
z= ⎝ ⎠
( ) (
s1 n1 + s 22 n 2
2
)
7. Se z < d, rejeitar a hipótese nula.
Para o teste uni-caudal com hipótese alternativa µ1 > µ2, o procedimento é o mesmo
que o anterior, mudando apenas o valor crítico d que é d = zα e, conseqüentemente, a área de
rejeição da h0 passa a ser z > d.
Para o teste bi-caudal com hipótese alternativa µ1 ≠ µ2, o procedimento é o mesmo
também, usando os dois valores críticos e, em vez de α, usamos α/2. A rejeição de h0 se dará
em função do quê ocorrer primeiro, ou z < d ou z > d.
Para o teste uni-caudal com hipótese alternativa µ1 < µ0, o procedimento é o mesmo
que o anterior, mudando apenas o valor crítico d que é d = - tα e, conseqüentemente, a área de
rejeição da h0 passa a ser t < d.
Para o teste bi-caudal com hipótese alternativa µ1 ≠ µ2, o procedimento é o mesmo
também, usando os dois valores críticos e, em vez de α, usamos α/2. A rejeição de h0 se dará
em função do quê ocorrer primeiro, ou t < d ou t > d.
8.3.2. Teste de Hipótese para Diferenças entre Médias de Amostras
Independentes (e Variância igual) de Pequenas Amostras:
Vimos anteriormente como fazer este teste quando temos amostras independentes com
n1 e n2 ≥ 30. Agora, vamos ver como lidar com este teste quando n1 e n2 são menores que 30.
Assim como no caso de média simples, podemos usar a distribuição t de Student; a diferença
aqui é que, além de assumir que as duas populações são aproximadamente normalmente
distribuídas, temos também que (i) considerar quando as variâncias das populações ( σ12 e σ22
) são iguais e (ii) quando as variâncias não são iguais.
Neste capítulo vamos trabalhar apenas com a condição de variâncias iguais porque
vamos ver como aplicar teste para saber se duas variâncias são iguais ou não, no próximo
capítulo. As condicionantes serão as seguintes: (1) amostras aleatórias independentes tomadas
de duas populações; (2) as duas populações são aproximadamente normalmente distribuídas;
(3) as duas populações têm variâncias iguais.
Recapitulando: quando temos uma única população, usamos o desvio padrão amostral
s como a estimativa do desvio padrão da população σ. Quando trabalhamos com amostras
aleatórias independentes de duas populações com o mesmo desvio padrão da população (i.e.,
mesma variância), a melhor estimativa do desvio padrão comum (às duas populações) é
t=
(x1 − x2 ) − (µ1 − µ 2 )
s p (1 n1 ) + (1 n2 )
Considerando µ1 = µ2, então µ1 - µ2 = 0 e se a hipótese nula é verdadeira, então tem a
distribuição t de Studente com (n1 + n2 – 2) graus de liberdade.
t=
(x1 − x2 )
sp (1 n1 ) + (1 n2 )
Procedimentos:
1. Hipótese nula: µ1 = µ2
2, Hipótese alternativa: µ1 < µ2
3. Condicionantes: (i) amostras independentes; (ii) populações normais; (iii) variâncias
das populações iguais.
4. Escolher o nível de significância α. Normalmente α = 0,01, 0,05 ou 0,10
5. O valor crítico é d = - tα. Usar Tabela II para encontrar o valor de t com (n1 + n2 -2)
gl.
6. Calcular o valor de
t=
(x1 − x2 )
sp (1 n1 ) + (1 n2 )
sendo:
Para o teste uni-caudal com hipótese alternativa µ1 > µ2, o procedimento é o mesmo
que o anterior, mudando apenas o valor crítico d que é d = tα e, conseqüentemente, a área de
rejeição da h0 passa a ser t > d.
Para o teste bi-caudal com hipótese alternativa µ1 ≠ µ2, o procedimento é o mesmo
também, usando os dois valores críticos e, em vez de α, usamos α/2. A rejeição de h0 se dará
em função do quê ocorrer primeiro, ou t < d ou t > d.
Sumá
umário dos Procedimentos para Testar as Hipóteses Discutidas neste Capítulo
χ2 =
(n − 1) s 2
σ2
podem ser encontradas usando as áreas sob curvas especiais conhecidas como curvas de χ2.
Os valores de χ2 podem ser obtidos diretamente na Tabela III. A Figura 9.1 apresenta
três diferentes curvas para diferentes graus de liberdade (GL).
χ2 =
(n − 1) s 2
σ2
tem a distribuição qui-quadrado com (n – 1) GL; ou seja, as probabilidades
para a variável aleatória χ2 podem ser determinadas usando áreas sob a curva
χ2 com (n – 1) GL.
O nosso exemplo consiste de 20 parafusos escolhidos aleatoriamente da linha de
produção 2. A variância estimada é s2 = 0,058. Para testar as hipóteses, temos que calcular o
valor de χ2:
χ2 =
(n − 1) s 2
σ 02
onde σ02 é o valor de σ2 hipotetizada (neste caso, σ02 = 0,01). Queremos saber se esta s2 está
muito longe da σ02 hipotetizada ou não, ou seja, se 0,058 é igual a 0,01, do ponto de vista
estatístico. Precisamos também escolher o nível de significância (α).
Para 19 (20 - 1) GL, χ20,05 = 30,14 (Tabela III)
Assim, se a hipótese nula é verdadeira, então a probabilidade que o nosso χ2 calculado
seja maior do que 30,14 é de 0,05. Em símbolos matemáticos, podemos escrever P(χ2tabelado >
30,14) = 0,05. Dessa maneira, se a hipótese nula é verdadeira, os valores χ2 podem ocorrer
apenas em 5% das vezes. Classificaremos os χ2 > 30,14 como “muito grandes” (Figura 9.2).
Como em capítulos anteriores, vamos chamar 30,14 como valor crítico do teste.
χ2 =
(n − 1) s 2 = (20 − 1) × 0,058 = 110,20
σ 02 0,01
Desde χ2 > 30,14, temos que rejeitar a hipótese nula e concluir que σ2 > 0,01 para a
linha de produção 2.
O procedimento geral para montar o teste de hipótese para uma única variância é o
seguinte:
1. Definir as hipóteses:
- Hipótese nula: σ2 = σ02
- Hipótese alternativa: σ2 > σ02
2. Pressuposto: População normal
3. Definir o nível de significância (α)
4. O valor crítico é c = χ2α com (n-1) GL, obtido na Tabela III
5. Calcular o valor de
χ2 =
(n − 1) s 2
σ 02
onde σ02 é o valor hipotetizado na hipótese nula, n é o número de amostras (ou
observações) e s2 é a variância amostral (estimada).
6. Decisão: Se χ2 > c, rejeitar a hipótese nula.
χ2 =
(n − 1) s 2
σ 02
tem a distribuição qui-quadrado com (n-1) GL.
(n − 1)s 2 (n − 1)s 2
para
χ 2α 2 χ2 1−α 2
χ2
0 5 10 15 20 25 30
Figura 9.2: Curva qui quadrado
Capítulo 10
Teste de Qui-quadrado ( χ 2 )
10.1. Introdução:
Neste capítulo vamos ver um teste estatístico baseado na distribuição de Qui-quadrado
( χ 2 ), conhecido como teste de qui-quadrado. Este teste pode ser usado tanto na estatística
paramétrica como na não paramétrica. O teste estatístico χ 2 e a curva χ 2 já foram descritos no
capítulo anterior (Capítulo 9). Aqui, vamos enfatizar a aplicação deste teste para:
(ii) Independência:
Exemplos:
3) Ocorrência de espécies nas diferentes classes topográficas: imagine que você não
sabe nada disso, então, você vai hipotetizar que a distribuição seja a seguinte: 1/3 das espécies
ocorrem no platô; 1/3 na encosta e 1/3 no baixio. Faça um levantamento em algumas
toposseqüências e distribua as espécies de acordo com as classes topográficas. Compare os
valores observados – seu levantamento – com os valores hipotetizados (1/3, 1/3 e 1/3). Se der
“não significante”, isso quer dizer a distribuição de espécies na sua área de trabalho ocorre
independentemente das classes topográficas.
(iii) Homogeneidade:
Exemplos:
4) Usando o exemplo (3): se você quiser comparar uma toposseqüência da ZF-2 com
uma da Reserva Ducke pra saber se essas toposseqüências são homogêneas em relação a
distribuição de número de espécies por classe topográfica. Imagine que na ZF-2, a
distribuição seja 40% no platô, 30% na encosta e 30% no baixio. Aí, você faz o levantamento
na Ducke e descobre que a distribuição é 36% no platô, 32% na encosta e 32% no baixio.
Aplica o teste qui-quadrado pra checar se a distribuição da ZF-2 é igual a da Ducke. Se der
“não significante”, isso quer dizer as toposseqüências são homogêneas.
χ =∑
2 (O − E )2
E
Passo 6: Decisão => Se χ 2 > c => rejeitar H0
Agora, vamos exemplificar com números. Imagine uma população de árvores com 120
indivíduos tendo a seguinte distribuição de diâmetro.
Em seguida, você faz um levantamento usando apenas parte da população (neste caso
40 árvores) e quer saber se a amostra é representativa. A distribuição de diâmetro dessa
amostragem é apresentada abaixo incluindo a freqüência de acordo com a distribuição da
população (n = 120) e o χ 2.
classes DAP Freq obs. (O) Freq esperada (E) (O–E) (O-E)2 / E
25 8 50 x 0,2 = 10 (8-10) = -2 0,4
35 20 50 x 0,4 = 20 (20-20) = 0 0,0
45 13 50 x 0,2 = 10 (13-10) = 3 0,9
55 5 50 x 0,1 = 5 (5-5) = 0 0,0
>65 4 50 x 0,1 = 5 (4-5) = -1 0,2
50 1,5
χ =∑
2 (O − E )2
E
Passo 6: Decisão => Se χ 2 > c => rejeitar H0
Exemplificando com números: Pesquisa com acidentes em relação ao sexo das pessoas
envolvidas. Veja quadro abaixo com 2 colunas e 3 linhas.
local acidente homem mulher total
no trabalho 40 5 45
em casa 49 58 107
Outros 18 13 31
Total 107 76 183
H0: a circunstância de um acidente é independente do sexo da vítima.
H1: a circunstância de um acidente não é independente do sexo da vítima.
Calculando os valores esperados (E):
primeira linha e primeira coluna => (45 x 107) / 183 = 26,3
primeira linha e segunda coluna => (45 x 76) / 183 = 18,7
segunda linha e primeira coluna => (107 x 107) / 183 = 62,6
segunda linha e segunda coluna => (107 x 76) / 183 = 44,4
terceira linha e segunda coluna => (31 x 76) / 183 = 12,9
terceira linha e primeira coluna => 31 x 107) / 183 = 18,1
E o quadro com os valores observados e esperados é o seguinte:
χ =∑2 (O − E )2
E
Passo 6: Decisão => Se χ 2 > c => rejeitar H0
Exemplificando: Comparando duas cidades estratificadas por cor da pele. Duas amostragens
(n = 100 para as duas) são consideradas e o resultado é apresentado no quadro abaixo.
Hipóteses:
H0: Cidade 1 e cidade 2 têm a mesma % para cada cor de pele
H1: Cidade 1 e cidade 2 não têm a mesma % para cada cor de pele
Checando: nenhum E é menor do que 1 e não tem E < 5 => OK
α = 0,05
Valor crítico c (tabela III com GL=2) é igual a 5,99. GL = 2 => (L-1)(C-1) = (2-1)(3-1) = 2
Calcular χ 2 = (83-85)2/85 + ...... + (7-9,5)2/9,5 = 1,52
Decisão: χ 2 < c; logo, não rejeitamos a H0, ou seja, cidade 1 e cidade 2 têm a mesma
distribuição de cor de pele.
Capítulo 11
Análise de Variância – ANOVA
11.1. Introdução:
Apesar do nome, a análise de variância (ANOVA) é usada para comparação de
médias. Vimos, anteriormente, que há vários testes usados na comparação de média (teste t,
Tukey, Bonferroni, Duncan etc). Por que usar a ANOVA? Usamos a ANOVA quando
queremos compreender melhor a natureza da variação natural das diferentes fontes, além de
comparar as médias. No fundo, ANOVA é a partição (ou desdobramento) da variação total de
acordo com as fontes de variação.
A ANOVA é aplicada para testar hipóteses quando a pesquisa envolve mais de duas
médias. Trata-se de uma ferramenta estatística amplamente utilizada e com um grau de
sofisticação muito alto. Podemos, de forma muito simplista, definir os seguintes tipos de
ANOVA:
a) ANOVA de simples entrada => fontes de variação ou grupos classificados por um
simples critério como ENTRE os transectos e DENTRO (ou resíduo ou erro) dos
transectos => aplicado em experimentos inteiramente casualizados.
b) ANOVA de dupla entrada => aplicação clássica em experimentos blocos
casualizados => fontes de variação: BLOCO, TRATAMENTO e RESÍDUO (ou
erro).
c) ANOVA de tripla ou múltiplas entradas => aplicação clássica em experimentos
fatoriais incluindo as interações como fontes de variação.
d) ANOVA aninhada (nested): aplicação em experimentos com parcelas subdivididas
tipo Split Plot (clássico) ou quando o adapta para análise de parcelas repetidas.
e) ANOVA para regressão: tanto para as regressões lineares (simples e múltiplas) e
não lineares (simples e múltiplas) => para explicar o quanto da variação dos dados
é explicado pelo modelo utilizado.
f) MANOVA => análise de variância de várias variáveis, simultaneamente.
Na verdade, você arma a ANOVA de acordo com as fontes de variação estabelecidas,
ou seja, desmembrando a variação total; o teste aplicado para testar as suas hipóteses é o teste-
F (Capítulo 9, item 9.5). Em seguida, apresentamos os quadros auxiliares usados para
ANOVA de simples entrada e para ANOVA de dupla entrada.
ANOVA de simples entrada:
Fontes de Variação GL SQ MQ F
Entre
Dentro (Resíduo)
Total
GL = graus de liberdade
SQ = soma dos quadrados
MQ = média quadrática
F = calculado
ANOVA de dupla entrada:
Fontes de Variação GL SQ MQ F
Blocos
Tratamentos
Resíduos
Total
No primeiro caso (de simples entrada), você determina o valor de F dividindo MQentre
pela MQdentro. Antigamente, muito antigamente mesmo, você pegava o Fcalculado e comparava
com o Ftabela (função dos GLs ENTRE e DENTRO e nível de significância α). Atualmente, os
softwares estatísticos vão te dar o valor exato da probabilidade para inferência => então, em
vez do valor de F no quadro auxiliar, o software vai te fornecer a probabilidade.
No segundo caso (de dupla entrada), você quer ver, separadamente, os efeitos dos
blocos e dos tratamentos. Para isso, você aplica o teste-F para blocos e para os tratamentos,
separadamente. O valor de F para blocos você consegue dividindo MQblocos pela MQresíduos e
para os tratamentos dividindo MQtratamentos pela MQresíduos.
2
⎛ g k
⎞
2 ∑ ⎜⎜ ∑ x ij ⎟⎟
i =1 ⎝ i =1 (∑∑ xij )2
⎠
n
SQE = ∑ ( x − media ) ou −
i =1 g n
> GL para SQE => (k – 1)
Média Quadrática => MQentre ou MQE
MQE = (SQE) / (k – 1)
Variação dentro dos grupos:
Soma dos Quadrados => SQdentro ou SQD
2
k
⎛ g ⎞
∑ ⎜⎜ ∑ xij ⎟⎟
− ⎝ ⎠
n
SQD = ∑ xij
2 i =1 i =1
i =1 g
> GL para SQD => (n - k)
Média Quadrática => MQdentro ou MQD
MQD = (SQD) / (n - k)
Quadro auxiliar
Fontes de Variação GL SQ MQ F
Entre 3 37,8 12,6 0,04
Dentro (Resíduo) 16 5486,6 342,9
Total 19 5524,4
SQE = [ (2092 + 1962 + 1902 + 1992) / 5 ] – [ (46 + 53 + 54 + .....56 + 40)2 ] / 20 = 37,8
SQD = [ 462 + 532 + ... 562 + 402 ] - [ (2092 + 1962 + 1902 + 1992) / 5 ] = 5.486,6
Fontes de Variação GL SQ MQ F p
Entre classes 2 659,83 329,92 4,005 0,02
Dentro (Resíduo) 177 14582,04 82,38
Total 179
O resultado da ANOVA mostra p = 0,02. Se usássemos os níveis críticos tradicionais
(α = 0,05 e α = 0,01), a conclusão poderia ser a seguinte: as diferenças em área basal entre as
classes topográficas são significantes a 0,05, mas não a 0,01. Com esta facilidade o valor
exato de α você deve concluir com aquilo que você está vendo, ou seja, 0,02.
Capítulo 12
Regressão e correlação
12.1 Introdução:
O objetivo da regressão é obter uma expressão da dependência de uma variável Y
sobre uma ou mais variáveis independentes X. Tal expressão é, matematicamente, conhecida
como função, logo, Y é uma função de X. Função é um relacionamento matemático que nos
capacita predizer quais valores de uma variável Y, para dados valores de uma variável X.
Resumindo: Y = f (X).
A regressão define o relacionamento estatístico entre as variáveis tomadas e, a
correlação, a estreiteza deste relacionamento. Na regressão estima-se o relacionamento de
uma variável com uma outra, expressando-se em termos de uma função linear (ou uma outra
mais complexa), enquanto que na análise de correlação, às vezes, confundida com regressão,
estima-se o grau para o qual duas ou mais variáveis variam juntas.
Os métodos de regressão são de grande utilidade na derivação das relações empíricas
entre vários fenômenos, sendo aplicáveis para: (i) encontrar uma função estatística que possa
ser utilizada para descrever o relacionamento entre uma variável dependente e uma ou mais
variáveis independentes e (ii) testar hipóteses sobre a relação entre uma variável dependente e
uma ou mais variáveis independentes. No manejo florestal, o uso da regressão é fundamental
na derivação de modelos matemáticos: (i) para explicar o comportamento de uma espécie ou
povoamento submetido a um determinado tipo de intervenção; (ii) para desenvolver modelos
de crescimento; (iii) desenvolvimento de equações de volume e de biomassa; (iv)
desenvolvimento de relações hipsométricas; (v) para alguns estudos da estrutura da floresta
(distribuição em diâmetro, por exemplo) etc.
Ao olhar um povoamento florestal, você pode achar que quanto maiores forem o
diâmetro e altura, maior será o volume ou peso da árvore. Entretanto, você não poderá afirmar
nada além disso. Com o auxílio da regressão, você será capaz de expressar o relacionamento
entre as variáveis independentes diâmetro e altura e o volume (ou peso) da árvore na forma de
um modelo estatístico. Desta maneira, você será capaz de predizer o volume (ou peso) de uma
árvore em pé tendo apenas as medições de diâmetro e altura.
Dependendo do número de variáveis independentes, a regressão pode ser simples (uma
variável) ou múltipla (mais de duas variáveis) e, dependendo da natureza da equação básica, a
regressão pode ser linear ou não linear.
Exponencial => Y = Y = ae bX
Geométrica => Y = Y = aX b
Todas as equações básicas podem ser linearizadas e, deste modo, as estimativas dos
coeficientes de regressão podem ser obtidos usando procedimento tradicional de regressão
linear. Este “truque” é utilizado para facilitar o processamento dos dados. Entretanto, quando
se tem recurso da informática que permite trabalhar com processos iterativos para
convergência das estimativas dos coeficientes, o “truque” perde o sentido.
Neste capítulo, vamos demonstrar como são estimados os coeficientes de regressão e
de correlação para a regressão linear simples. Sabendo como estimar os coeficientes de
regressão e correlação da simples, você poderá, por analogia, estimar os coeficientes da
regressão múltipla. No caso de regressão não linear, há duas alternativas: (i) linearizar a
equação original e adotar os procedimentos das regressões simples ou múltipla e (ii) manter a
equação original e estimar os coeficientes de regressão e correlação utilizando um dos
seguintes métodos: Gauss-Newton, Quasi-Newton e Simplex – opções do software Systat.
Ye = a + bX
onde Ye é o valor estimado de Y para um dado X, quando a e b são conhecidos.
A questão, agora, é saber como determinar os coeficientes a e b. Como falamos
anteriormente, será utilizado o MMQ para a determinação dos coeficientes. Vamos fazer esta
demonstração a partir da figura 12.1.:
Nesta figura temos 6 valores de X. A equação da reta ajustada passa exatamente entre
os pontos (X) observados. O desvio (ε) é a diferença entre o valor observado (Y) e o valor
estimado (Ye) pela equação da reta para o mesmo valor de X.
Vamos começar a demonstração adiantando que vamos chamar a soma dos desvios ao
quadrado de S e S tem que ser mínimo (zero), assim
∑ (εi)2 = S = 0 => i variando de 1 a n
sem esquecer que
εi = Yi - Yei
sendo:
Yei = a + b Xi
logo
εi = Yi – (a + b Xi)
a ∑ Xi + b ∑ Xi2 = ∑ XiYi
a = (∑ Yi − − b ∑ X i ) n
b = (SPC xy ) (SQC x )
Então, para estimar os coeficientes de regressão a e b, você tem que saber os seguintes
somatórios: ∑ Yi, ∑ Xi, ∑ XiYi e ∑ Xi2. Para facilitar os cálculos manuais, monte a seguinte
quadro auxiliar. As fórmulas de SPC e SQC são encontradas no Capítulo 3.
Quadro 12.1: Quadro auxiliar para estimar os coeficientes de regressão.
obs Y X Y2 X2 XY (Y-Ye)2
1
2
.
.
.
N ∑Y ∑X ∑ Y2 ∑ X2 ∑ XY ∑ (Y-Ye)2
Comentários:
i) Com os coeficientes de regressão estimados temos condições de descrever o
relacionamento linear entre a variável dependente Y e a independente X. Mais para
a frente, vamos mostrar como se estima o coeficiente de correlação e a precisão da
equação.
ii) A reta dos MMQ passa pelo ponto (Xmédio, Ymédio), isto é, quando X = Xmédio tem-
se Ye = Ymédio
iii) O coeficiente de regressão b, coeficiente angular ou de inclinação, fornece a
variação que ocorre em Y, por unidade de X.
Fontes de variação GL SQ MQ F
Devido à regressão c–1 b * (SPCxy) SQREG/(c-1)
Sobre a regressão (resíduo) n–c por subtração SQRES/(n-c)
Total (corrigido) n-1 SQCY
sendo: c = número de coeficientes de regressão.
O valor de F é dado pela razão entre MQREG e MQRES. Quanto maior for o numerador
MQREG, maior será o valor de F. Quanto maior for o F, mais significante será o modelo
testado. Antigamente, você pegava o F calculado e ia à tabela-F para comparar os dois
valores; se o valor calculado fosse maior do que o tabelado (para os 3 principais níveis
críticos de 10%, 5% e 1%), você concluía que o seu modelo era significante, caso contrário,
não significante. Hoje, os programas de estatística já dão os valores exatos da probabilidade
(ou a área sob a curva-F). Portanto, hoje você pode tomar decisões baseadas na sua
capacidade de discernimento. Por exemplo: se p for igual a 0,03 (ou 3%), você pode dizer
que é significante a 5% mas não a 1% ou, então, dizer qualquer coisa sobre o 0,03 da sua
própria cabeça sem ficar no maniqueísmo do significante ou não significante.
A MQRES é igual a s2 e fornece uma estimativa da variância residual, baseada em (n-2)
graus de liberdade (GL). Se a equação de regressão foi estimada de um número grande de
observações, a variância residual representa uma medida do erro com a qual qualquer valor
observado de Y poderia ser estimado de um dado valor de X, usando a equação ajustada.
Por último, vamos apresentar a variável que mede a precisão da equação ajustada que
é o erro padrão de estimativa (SY.X):
s y. x = s 2
⎛n⎞ k
P( x = k ) = ⎜⎜ ⎟⎟ p (1 − p )
n− p
⎝k⎠
Ö para n = 3, temos k = 0, k = 1, k = 2 e k =3
P (x = 2) é igual a 0,0270
60,0 25,7 22,4 20,1 17,3 16,1 15,3 14,8 14,3 14,1 10,4 6,2
> 14.000 < 14.000
¾ n = 12
¾ k = 10 (são 10 rendas maiores do que 14.000) => de acordo com H0, sucesso
significa que a renda tem que ser menor que 14.000; renda > 14.000 significa
insucesso.
Neste caso, temos também que fixar (aproximadamente) o nível crítico α para
estabelecer a área de rejeição de nossa hipótese nula.
60,0 25,7 22,4 20,1 17,3 16,1 15,3 14,8 14,3 14,1 10,4 6,2
+ + + + + + + + + + - -
¾ Quantos sinais (+) temos? Temos 10, ou seja, o nosso ponto de decisão é 10 =>
Considerando α = 0,0192, temos que rejeitar H0 porque k ≥ 10. Como o k só pode
ser inteiro, o nosso valor crítico estaria entre 0,0192 e 0,0729.
H0: MD = M
xn
¾ Calcular:
Vamos a um exemplo prático. Tomamos o DAP de 8 árvores (isso é uma coisa que
você nunca vai fazer – entrar na floresta e medir apenas 8 árvores é um desperdício
inaceitável) e queremos saber se a mediana é igual a 50 cm. O quadro seguinte apresenta os
dados observados (x) e as demais colunas necessárias para a execução do teste.
Solução:
¾ Da tabela IX, para n = 8, tiramos que o α mais próximo de 0,05 é 0,055; portanto o
valor crítico d é igual a 6 para α = 0,055.
¾ Calculamos, então, o R+ somando os “ranks” com sinais positivos (+) => na última
coluna tem apenas 2 ranks (+), que são 2 e 1, logo R+ = 2 + 1 = 3
¾ Decisão: Como d = 6 e R+ = 3, rejeitamos H0
População 1 População 2
Tempo rank tempo rank
2,33 11 2,31 10
1,81 5 1,96 7
2,17 8 2,73 14
1,78 4 2,51 13
1,74 3 3,04 15
1,46 1 2,34 12
1,58 2 2,24 9
1,92 6
T = 40 – [ 8 (8+1) ] / 2 = 4
3
Machado, S.A. e Figueiredo Filho, A. 2003. Dendrometria. 309p.
4
Campos, J.C.C. e Leite, H.G. 2002. Mensuração florestal. UFV. 407p.
Como o DAP é a principal variável independente para o setor florestal da Amazônia,
uma função de distribuição bem ajustada pode facilitar o inventário florestal sem perder a
precisão. Com uma boa função, que apresenta a distribuição de probabilidade de cada classe
de DAP, o inventário usando a contagem de indivíduos por unidade de área é perfeitamente
possível. Dessa forma, o tempo de coleta seria muito mais rápido e, conseqüentemente, o
inventário ficaria mais barato.
Na área experimental de manejo florestal da ZF-2, a área basal média está em torno de
2
30 m /ha. Isso quer dizer que se projetarmos todos os DAPs ≥ 10 cm sobre uma área de
10.000 m2 (um hectare), as árvores ocuparão 30 m2. Algumas estimativas (m2/ha) para
diferentes sítios na Amazônia: UHE de Santa Izabel (região do Araguaia) = 15,2; Projeto Rio
Arinos (norte de MT) = 1,6; Floresta Estadual do Antimary (Acre) = 15,2, Trombetas (Pará) =
24,8; PIC Altamira (Pará) = 22, Sul de Roraima = 20,9 e Alto Solimões (Fonte Boa e Jutaí no
AM) = 27 m2/ha.
Com esses poucos exemplos, podemos dizer que a floresta da ZF-2 é mais densa do
que as outras florestas. A estimativa de área basal, de forma isolada, diz muito pouco sobre
uma determinada floresta. Com esses poucos exemplos, é difícil afirmar que a floresta da ZF-
2, por exemplo, é muito densa ou pouco ou médio, porque deve haver florestas mais densas
do que esta. De qualquer modo, não custa nada estimar a área basal da área inventariada já
que as medições de DAP são obrigatórias em inventários florestais.
Antigamente (até início dos anos 90), era comum ver inventários florestais com
volumes estimados a partir da área basal, ou seja, AB x altura x fator de forma. O fator de
forma utilizado era igual a 0,7 proposto por peritos da FAO (Food and Agriculture
Organization) que realizaram os primeiros inventários na Amazônia nas décadas de 50 e 60. A
altura era, invariavelmente, "chutada". O engenheiro florestal deve utilizar-se de equações
próprias para estimar o volume de madeira.
14.3. Volume
No setor florestal, as decisões são tomadas baseadas no volume de madeira. Isto é tão
forte que, muitas vezes, o engenheiro florestal até se esquece que numa floresta há muitas
outras coisas além da madeira. Aqui, o objetivo é mostrar como se estima o volume de
madeira nos inventários florestais. Para isto, você precisa ter equações confiáveis e usá-las
para estimar o volume de árvores em pé medidas em parcelas fixas do inventário florestal.
Volume real
Para desenvolver equações de volume, você precisa ter o volume real de vários
indivíduos. Este volume pode ser obtido por meio do método destrutivo (aproveitando áreas
exploradas ou desmatadas, autorizadas pelo Ibama) ou utilizando o relascópio de Bitterlich
(por exemplo). O mais comum é o método destrutivo. Antes de derrubar a árvore, o DAP é
medido. Com a árvore no chão, as alturas ou comprimentos (comercial e total) são
determinados e o tronco é dividido em pequenas toras, tentando se aproximar à forma do
cilindro.
Em geral, o tronco é dividido em 10 toras (ou seções) e duas medidas são tomadas em
cada tora, na base e no topo. Com estas duas medidas, você tem condições de calcular as áreas
transversais da base e do topo; aí, você estima a média (g da base + g do topo dividido por 2)
e multiplica pelo comprimento da tora [lembrando que m2 de g vezes m do comprimento,
você terá m3] para ter o volume da tora ou seção. A soma dos volumes das 10 toras é
considerada "volume real" da árvore. Melhores explicações você vai encontrar nos livros de
Machado & Figueiredo Filho (2003) e Campos & Leite (2002).
Quantas árvores são necessárias para desenvolver os modelos estatísticos para
volume ou equações de volume ou modelos alométricos?
Alometria => (do grego: allos é outra e metron é medida) => é o estudo das variações
das formas e dos processos dos organismos e tem dois significados: (i) o crescimento de uma
parte do organismo em relação ao crescimento do organismo inteiro ou de parte dele e (ii) o
estudo das conseqüências do tamanho sobre as formas e os processos.
Você pode usar uma função conhecida de distribuição em diâmetro (Weibull, por
exemplo) e ver se os dados já coletados se ajustam a esta função. Teste simples como o qui-
quadrado (confrontação entre freqüência esperada e freqüência observada) dá conta disso. Se
o teste for significante, colete mais dados das classes que estão faltando e refaça o teste qui-
quadrado. Se o resultado for não significante, você tem, em mãos, uma amostra representativa
de sua população de interesse. Há também a possibilidade de utilizar-se do recurso do
inventário florestal quanto à intensidade de amostragem; neste caso, cada indivíduo é uma
amostra. A fórmula é a seguinte:
(
n = t 2s2 ε 2 )
sendo: t = valor obtido na tabela-t ( p = 0,05 ou outro e n-1 graus de liberdade)
s2 = estimativa da variância
ε2 = expectativa do erro = (LE x média)2. Em geral, o LE (limite de erro) é igual a
0,10 ou 10%.
Observações: use z em vez de t. Como vimos anteriormente, os valores de z para os níveis
críticos mais freqüentes, α = 0,10, α = 0,05 e α = 0,01 são, respectivamente, 1,64, 1,96 e
2,57. Outra coisa: há também o fator de correção para populações finitas, ou seja, neste caso
ao denominador da fórmula (ε2) deve ser acrescentado ( 1 – n/N ). A população é considerada
finita quando a fração n/N é menor do que 0,05, segundo Freese (1962)5.
5
Freese, F. 1962. Elementary forest sampling. Agriculture Handbook nº 232. USDA-Forest Service.
91p.
Equações de volume ou modelo alométrico
O passo seguinte é testar modelos matemáticos. Antigamente (fim dos anos 70), o
grande desafio era encontrar o melhor modelo para descrever a função V = f (DAP, H).
Depois de várias dissertações e artigos científicos, verificou-se que qualquer modelo, seja de
simples entrada (apenas DAP como variável independente) ou de dupla entrada (DAP e H
como variáveis independentes, combinadas ou não) produzem bons ajustes. A decisão para
escolher o melhor modelo ficou nos detalhes.
Hoje em dia, qualquer modelo que você venha a testar, utilizando DAP e H, você vai
conseguir uma alta e significativa correlação, um modelo que explica mais de 75% da
variação de seus dados (r2) e um erro padrão de estimativa aceitável. O padrão de hoje é o
modelo que apresenta r > 0,90, r2 > 0,90 e syx (%) < 10. Além disso, o modelo tem que ter
uma boa distribuição de resíduos, que é: as diferenças entre os valores estimados e
observados, positivos e negativos, têm que se distribuir uniformemente ao longo da curva (ou
reta) estimada, ou seja, estas diferenças não podem aumentar (ou diminuir) conforme aumenta
o tamanho da árvore. Por exemplo: se o seu modelo produzir uma diferença de 0,5 m3 para
uma árvore com DAP = 10 cm, esta mesma diferença (mais ou menos) tem que ser verificada
para outra árvore com DAP = 70 cm ou DAP = 150 m.
Os modelos que apresentam as melhores distribuições de resíduos são os modelos
logarítmicos. Os mais usados são os seguintes, do item 1.1.3:
1) ln V = a + b ln (DAP )
2) ln V = a + b ln (DAP ) + c ln (H )
A abordagem para estimar os coeficientes de regressão é a do método dos mínimos
quadráticos (MMQ) e depois da obtenção das equações normais, os coeficientes podem ser
estimados usando o método da substituição ou por meio do cálculo matricial. As explicações
sobre as operações necessárias para se chegar aos coeficientes podem ser encontradas em
qualquer livro de estatística básica. No computador, basta entrar com as variáveis ln V, ln D e
ln H e você terá, além dos coeficientes de regressão, erro padrão de estimativa, coeficiente de
correlação, coeficiente de determinação e distribuição de resíduos.
Regressão => descreve apenas o relacionamento linear entre uma variável dependente
(Y) e uma ou mais variáveis independentes (X1 = DAP, X2 = altura etc.).
Antes de derivar a equação em relação a a e b, primeiro é preciso linearizar as
variáveis aleatórias, da seguinte maneira: ln V = Y, ln D = X1 e ln H = X2. Para o modelo 1, as
equações normais são:
an + b ∑ X1 = ∑ Y
a ∑ X1 + b ∑ X12 = ∑ X1Y
Pelo método de substituição, os coeficientes serão:
a = [ ∑ Y - b ∑ X1 ] / n
b = [ SPCX1Y ] / [ SQCX1 ]
Para o modelo 2, as equações normais são
an + b ∑ X1 + c ∑ X2 = ∑Y
a ∑ X1 + b ∑ X12 + c ∑ X1 X2 = ∑ X1 Y
a ∑ X2 + b ∑ X1 X2 + b ∑ X22 = ∑ X2 Y
Neste caso, é melhor estimar os coeficientes apelando para o cálculo matricial.
matriz de Y (nx1) = matriz de X (nxp) x matriz de coeficientes "b" (px1)
(X'X) b = X'Y
b = (X'X)-1 X'Y
Hoje, com o Excel ficou fácil inverter matrizes de qualquer tamanho e a multiplicação
é mais fácil ainda. Mesmo assim, não há necessidade de trabalhar com matrizes para a
obtenção dos coeficientes. Os programas de estatística, em geral, calculam automaticamente
os coeficientes. Sei que para regressões simples (com dois coeficientes), o Excel dá conta do
recado. Para regressões múltiplas e as não lineares, é melhor usar outro software (Systat, SAS
etc.).
Vamos aproveitar as saídas (outputs) do Systat, por exemplo, para explicar os
significados de alguns indicadores da regressão.
1) Coeficiente de correlação => r => a regressão descreve o relacionamento e este
coeficiente mostra o grau de estreiteza que existe entre as variáveis Y e X1, X2 etc.. Este
coeficiente varia de -1 a +1. Igual a -1 ou +1, há uma correlação perfeita, ou seja, a cada
unidade acrescentada à X, haverá um aumento proporcional em Y (uma, duas, ou menos 2
unidades). Sinal (-) significa que os menores valores de Y tendem aos maiores valores de X
ou vice-versa. Sinal (+) significa que os menores Y tendem aos menores X e os maiores Y
tendem aos maiores X. O teste-t é geralmente utilizado para testar a significância de r.
2) Coeficiente de determinação => r2 => multiplicado por 100 mostra a percentagem
da variação dos dados que é explicada pelo modelo testado. No caso de regressão múltipla,
prefira sempre o coeficiente ajustado.
3) Erro padrão de estimativa => syx => é a raiz quadrada da média quadrática dos
resíduos (MQR), logo é o desvio padrão da relação. Ao comparar duas equações, o uso deste
indicador é direto, ou seja, aquela que apresentar o menor erro é a melhor. Isoladamente, é
preciso ainda alguns cálculos. Dividindo syx pela raiz quadrada de n você terá o erro padrão da
média e dividindo o mesmo pela média da variável dependente Y, você terá o seu erro em
percentagem. Melhor ainda é apresentar a incerteza de seu modelo. Neste caso, você tem
estimar o intervalo de confiança (IC) e aquela porção (z * erro padrão) dividida pela média
vai te fornecer a incerteza de seu modelo. Em geral, uma incerteza de 10% é considerada
aceitável.
4) Coeficientes de regressão => O Systat apresenta a constante ( a ) e os coeficientes
associados às outras variáveis independentes (b, c, d etc.) => o Systat apresenta também a
significância de cada coeficiente; se for não significante, você deve removê-lo do modelo.
5) Análise de variância (ANOVA) => a regressão descreve, a correlação mostra a
estreiteza entre as variáveis e a ANOVA mostra a significância do seu modelo de regressão. O
teste-F é o que determina se o modelo é significante ou não. No Systat, o valor p é o mesmo
que α, ou seja, é o valor crítico para a tomada de decisão. Os valores clássicos de p são 0,01,
0,05 e 0,10; portanto quando o p < 0,01, o modelo testado é significante para os três níveis.
6) Durbin-Watson D Statistics e First Order Autocorrelation => No caso de
equações de volume (e biomassa), não há envolvimento de séries temporais. Portanto, não
precisa se preocupar com isto. Estes dois testes são usados para verificar se os termos dos
erros no modelo de regressão não são correlacionados e nem dependentes. Os termos dos
erros correlacionados com o passar do tempo são conhecidos como "autocorrelacionados" ou
"serialmente correlacionados".
7) Distribuição de resíduos => o gráfico pode ser interpretado diferentemente por
diferentes eng florestais, mas ele é fundamental para a decisão final do melhor modelo –
conforme foi explicado anteriormente.
Aplicação da equação de volume
Com o melhor modelo em mãos, você vai aplicá-lo em inventários florestais. Num
inventário na Amazônia, para árvores com DAP ≥ 10 cm, você deve utilizar uma parcela de,
no mínimo, 2.500 m2 (10 x 250 m ou 20 x 125 m). Numa parcela deste tamanho, você deve
encontrar entre 100 e 150 indivíduos. Lembre-se que, de acordo com o conceito de intervalo
de confiança (IC), em 95 vezes (se o seu p = 0,05, por exemplo) a sua estimativa estará dentro
do seu IC e em 5 vezes, a estimativa estará fora do IC. Portanto, não se surpreenda e confie na
estatística (na incerteza que o seu modelo declarou). Não esquecer que os seus modelos são
logarítmicos e, por esta razão, ao estimar o volume de madeira você tem que usar o inverso do
logaritmo natural que é a exponencial.
14.4. Biomassa
Estimar a biomassa é importante para compreender a produção primária de um
ecossistema e avaliar o potencial de uma floresta para produção de energia. No manejo
florestal sustentável na Amazônia, a biomassa é usada para estimar a quantidade de nutrientes
que é exportada do sistema via exploração de madeira e que é devolvida via inputs
atmosféricos. No entanto, depois da Rio-92, a biomassa ganhou uma nova dimensão. O
carbono da vegetação passou a ser um elemento importante nas mudanças climáticas globais.
O eng florestal sabe (ou deveria saber) que aproximadamente 50% da madeira secada (em
estufa) é carbono e que os compostos de carbono são: celulose (45%), hemicelulose (28%) e
lignina (25%).
De acordo com o IPCC (Painel Intergovernamental de Mudanças Climáticas), os
componentes de biomassa e carbono da vegetação são: (i) biomassa ou C na matéria viva
acima do nível do solo (tronco, galhos, folhas, frutos e flores); (ii) biomassa ou C na matéria
viva abaixo do nível do solo (raízes) e (iii) biomassa ou C na matéria morta em pé ou no chão.
Quem foi treinado para estimar o volume de madeira tem todas as condições para
estimar a biomassa também. O anexo 5 é um artigo (manuscrito) sobre biomassa que já foi
publicado na Acta Amazonica6. Este artigo cobre o componente 1 do IPCC.
O componente 2 envolve raízes e isto está sendo realizado pelo LMF (laboratório de
manejo florestal do INPA) e será incluído em uma tese de doutorado. O trabalho de campo
para obtenção do peso de raízes é muito trabalhoso, mas nada que assuste o verdadeiro eng
florestal. Como o solo da Amazônia é muito pobre em nutrientes, as árvores tendem a
desenvolver raízes superficiais – raramente ultrapassam 50 cm de profundidade. Mesmo na
Amazônia, em regiões que têm as estações do ano (chuvosa e seca) bem definidas, as árvores
tendem a desenvolver raízes mais profundas para procurar água, o que não é o caso da
Amazônia Central.
O componente 3 pode ser estimado com precisão combinando as taxas de mortalidade
com os modelos usados no componente 1.
Coleta de dados => verdade de campo => método destrutivo
6
Higuchi, N., Santos, J. dos, Ribeiro, R.J., Minette, L. e Biot, Y. 1998. Biomassa da parte aérea da
vegetação da floresta tropical úmida de terra-firme da Amazônia brasileira. Acta Amazonica,
28(2):152-166.
Os procedimentos para o componente 1 são apresentados no Anexo 2. Ao incluir o
componente 2 em coletas de biomassa, é preciso incluir as raízes. É preciso escavar, separar
as raízes do tronco e pesá-las. A metodologia de coleta de amostras para as determinações dos
teores (concentrações) de água e carbono é a mesma utilizada na parte aérea. Aqui também,
exige-se mais transpiração do que inspiração.
Equações de biomassa
Procedimentos iguais aos de volume.
Aplicação da equação de biomassa
O parágrafo apresentado para o volume deve ser repetido aqui.
Para o caso de biomassa, cabem ainda as seguintes considerações: (i) você estima o
peso fresco; portanto, você tem que transformá-lo em peso seco e depois em carbono – basta
multiplicar o peso pelas concentrações de água e carbono obtidas em laboratório; (ii) o
carbono como commodity (mercadoria) em bolsas de mercadorias significa estoque e
diferença de estoque; portanto, você precisa trabalhar com inventário florestal contínuo com,
pelo menos, duas ocasiões; (iii) você precisa separar o peso nos três componentes definidos
pelo IPCC.
Capítulo 15
Distribuição de diâmetro: Weibull versus Exponencial
15.1. Introdução:
Como a altura da árvore é difícil de ser medida, com precisão, o diâmetro passa a ser a
variável mais importante e mais segura para estimar o volume e a biomassa de florestas
tropicais de uma região como a Amazônia. Além disso, o diâmetro consagrou-se como uma
variável importante na descrição da estrutura florestal, como também na comercialização de
madeira. Assim, a quantificação de distribuições de diâmetro é fundamental para o
entendimento da estrutura da floresta e do estoque da floresta, que são pré-requisitos nas
decisões do manejo florestal.
Bailey and Dell (1973), Clutter et al. (1983) e Higuchi (1987) apresentam revisões
compreensivas sobre distribuições de diâmetro. De acordo com Clutter et al. (1983) e
Lawrence e Shier (1981), entre as várias distribuições estatísticas, a distribuição Weibull tem
sido a mais usada pelo setor florestal, depois da distribuição exponencial.
A introdução da função de distribuição Weibull aos problemas relacionados com
silvicultura e manejo florestal, é atribuída à Bailey e Dell em 1973 (Zarnoch et al., 1982;
Little, 1983; Clutter et al., 1983 e Zarnoch e Dell, 1985). Desde então, esta distribuição tem
sido extensivamente utilizada para descrever a distribuição de diâmetro, tanto em
povoamentos equianos como multianos, especialmente nos Estados Unidos.
No Brasil, especialmente na floresta amazônica, a Weibull foi utilizada por Higuchi
(1987), Umaña (1998), mas segundo Barros et al. (1979) e Hosokawa (1981), a distribuição
mais popular é a exponencial.
(
f ( x ) = (c b )x c −1 exp − ( x ) / b
c
); para x≥0, c>0 e b>0
= 0, em outras circunstâncias
tem a seguinte função de verossimilhança para uma amostragem de n observações
L (xi, ....., xn; c, b) = n (c/b) xic-1 exp (-xic/b) (1)
Tirando o logaritmo de (1), teremos
ln L = Σ ln [(c/b)xic-1 exp (-xic/b)]
ln L = Σ [ln (c/b) + ln xic-1 – (xic/b)]
ln L = n ln (c/b) + Σ (c-1) ln xi – (1/b) Σ xic
Por meio da diferenciação em relação a c e b e igualando a zero as derivadas, as
seguintes equações serão obtidas:
d ln L/d c = n/c + Σ ln xi – (1/b) Σ xic ln xi = 0 (2)
d ln L/d b = -(n/b) + (1/b2) Σ xic = 0 (3)
Tirando b de (3), temos
b = (Σ xic ) / n (4)
e substituindo em (2), temos
n/c + Σ ln xi – [1/(Σxic/n)] Σxic ln xi = 0
n [(1/c) – (Σ xic ln xi) / Σ xic] = - Σ ln xi
[(Σ xic ln xi) / Σ xic] – (1/c) = (1/n) Σ ln xi (5)
Dessa forma, o coeficiente c pode ser estimado por meio de qualquer processo
iterativo ou via tentativa-e-erro para igualar os dois lados da equação (5). O coeficiente b
pode ser estimado pela equação (4), depois de estimado o c.
A freqüência esperada pode ser determinada através da seguinte função de distribuição
cumulativa de Weibul, F(x), que, por sua vez, pode ser encontrada integrando a sua função de
densidade probabilística, f(x), do DAP mínimo até o máximo (Zarnoch et al., 1982)
{[
F (x ) = 1 − exp − (x − a ) b]
c
}
ii. Weibull Percentis (PERC):
A função de Weibull usando o método dos percentis, tem a seguinte função de
densidade probabilística
f (x) = (c/b) [(x-a)/b)c-1 exp {-[(x-a)/b]c; para x≥a≥0, b>0 e c>0
f (x) = 0, em outras circunstâncias
Os parâmetros a, b e c são estimados da seguinte maneira:
(
a = x1 x n − x 22 ) (x 1 + x n − 2x 2 )
b = −a + x(0,63n )
ln[ln(1 − p k )] [ln(1 − pi )]
c=
ln(x npk − a ) (x npi − a )
onde:
x i ( i = 1, 2, ... n) = é o i-ésimo DAP em ordem crescente
x 1 = é o menor DAP e x n = é o último DAP, ou seja, o maior DAP.
x (0,63n) = é o DAP rankeado em ( 0,63 * número total de DAP observados). Exemplo: num
conjunto de dados de 100 DAPs, x (0,63n) é o 63° DAP.
p i = 0,16731 e p k = 0,97366
A freqüência esperada pode ser determinada por meio da seguinte função de
distribuição cumulativa de Weibul, F(x), que, por sua vez, pode ser encontrada integrando a
sua função de densidade probabilística, f(x), do DAP mínimo até o máximo (Zarnoch et al.,
1982).
{[
F (x ) = 1 − exp − (x − a ) b]
c
}
(iii) Exponencial:
As estimativas dos parâmetros da primeira ordem da função exponencial
Y = ae bx
podem ser obtidos pela linearização (série de Taylor) ou por meio do método iterativo
(Marquardt, por exemplo), segundo Draper e Smith (1981). O software Systat pode calcular
os coeficientes pelos dois métodos.
3. Cálculo das probabilidades (freqüência esperada): caso Weibull percentis para DAP≥10
cm
P (x < 10) = 1 – {exp – [(10 – a)/b]c}
P ( 10 ≤ x < 20 ) = {exp – [(10 – a)/b]c} - {exp – [(20 – a)/b]c}
P ( 20 ≤ x < 30 ) = {exp – [(20 – a)/b]c} - {exp – [(30 – a)/b]c}
P ( 30 ≤ x < 40 ) = {exp – [(30 – a)/b]c} - {exp – [(40 – a)/b]c}
etc … até o último intervalo.
3. Bibliografia:
Bailey, R.L. e T.R. Dell. 1973. Quantifying Diameter Distributions with the Weibull
Function. Forest Science 19:97-104.
Barros, P.L.C., S.A. Machado, D. Burger e J.D.P. Siqueira. 1979. Comparação de Modelos
Descritivos da Distribuição Diamétrica em uma Floresta Tropical. Floresta 10(2):19-31.
Clutter, J.L., J.C. Fortson, L.V. Pienaar, G.H. Brister e R.L. Bailey. 1983. Timber
Management: A Quantitative Approach. John Wiley and Sons, Inc. New York. 333p.
Cohen, A.C. 1965. Maximum Likelihood Estimation in the Weibull Distribution Based on
Complete and on Censored Samples. Technometrics 7(4):579-588.
Draper, N.R. e H. Smith. 1981. Applied Regression Analysis. John Wiley and Sons, Inc. New
York. Segunda edição. 709p.
Einsesmith, S.P. 1985. PLOTIT: User’s Guide.
Higuchi, N. 1987. Short-term Growth of an Undisturbed Tropical Moist Forest in the
Brazilian Amazon. Tese de Doutor, Michigan State University. 129p.
Hosokawa, R.T. 1981. Manejo de Florestas Tropicais Úmidas em Regime de Rendimento
Sustentado. UFPr, Relatório Técnico.
Lawrence, K.D. e D.R. Shier. 1981. A Comparison of Least Squares and Least Absolute
Deviation Regression Models for Estimating Weibull Parameters. Commun. Statist. –
Simula Computa. B10(3):315-326.
Little, S.N. 1983. Weibull Diameter Distribution for Mixed Stands of Western Confiers.
Can.J.For.Res. 1:85-88.
Umana, C.L.A. e Alencar, J.C. 1998. Distribuições Diamétricas da Floresta Tropical Úmida
em uma Área no Município de Itacoatiara – AM. Acta Amazonica 28(2):167-190.
Zarnoch, S.J. e T.R. Dell. 1973. An Evaluation of Percentile and Maximum Likelihood
Estimators of Weibull Parameters.
Zarnoch, S.J., C.W. Ramm, V.J. Rudolph e MW. Day. 1982. The effects of Red Pine
Thinning Regimes on Diameter Distribution Fitterd to Weibull Function. MSU
Agricultural Experiment Station East Lansing. RI-423. 11p.
Capítulo 16
Biomassa da Parte Aérea da Vegetação da Floresta Tropical
Úmida de Terra-Firme da Amazônia Brasileira.
Niro Higuchi1 , Joaquim dos Santos1 , Ralfh João Ribeiro1,
Luciano Minette1 e Yvan Biot2
Resumo
Usando um banco de dados com 315 árvores, com DAP≥5 cm, foram testados quatro
modelos estatísticos - linear, não linear e dois logarítmicos - para estimar a biomassa de
árvores em pé. Os dados foram coletados, de forma destrutiva, na região de Manaus, Estado
do Amazonas, em um sítio coberto por floresta de terra-firme sobre platôs de latossolo
amarelo. Em diferentes simulações com diferentes intensidades de amostragem, os quatro
modelos estimam precisamente a biomassa, sendo que o afastamento entre a média observada
e a estimada, em nenhuma ocasião ultrapassou 5%. As equações para estimar a biomassa de
árvores individuais em uma parcela fixa, distintamente para árvores com 5≤DAP<20 cm e
com DAP≥20 cm, são mais consistentes do que o uso de uma única equação para estimar,
genericamente, todas as árvores com DAP≥5 cm. O modelo logarítmico com apenas uma
variável independente, o DAP, apresenta resultados tão consistentes e precisos quanto os
modelos que se utilizam também da variável altura total da árvore. Além do modelo
estatístico para estimar o peso da massa fresca total de uma árvore, outras informações são
apresentadas, estratificadas nos diferentes compartimentos (tronco, galho grosso, galho fino,
folhas e, eventualmente, flores e frutos) de uma árvore, como: concentração de água para
estimar o peso da massa seca, concentração carbono e a contribuição do peso de cada
compartimento no peso total.
palavras-chaves: Carbono, manejo florestal, modelo estatístico.
Aboveground Biomass of the Brazilian Amazon Rainforest
Abstract
Data set with 315 trees with diameter at breast height (dbh) greater than 5 cm was used to
test four statistical models - linear, non-linear and two logarithmics - to estimate aboveground
biomass of standing trees. The data were collected destructively in Manaus region, Central
Amazonia, in a site covered by a typical dense “terra-firme” moist forest on plateaus
dominated by yellow latosols. The difference between observed and estimated biomass was
always below 5%. The logarithmic model using a single independent variable (dbh) produced
results as consistent and precise as those with double-entry (dbh and total height). Besides
statistical models to estimate aboveground biomass, the following information are also
presented in this paper: the contribution of each tree compartment (stem, branch, twigs, leaves
and flowers or fruits) to the total weight of a standing tree, water concentration to estimate the
dry weight and carbon concentration of each tree compartment.
Key words: Carbon, forest management, statistical model
1
Instituto Nacional de Pesquisas da Amazônia - Cx. Postal, 478 - Manaus - Am.
2
U. K. Overseas Development Administration (ODA). Victoria Street, 94 - London. SW1E5JL -
England.
Introdução:
O objetivo deste trabalho é o desenvolvimento de modelos estatísticos para estimar a
biomassa individual, de árvores em pé, de espécies da floresta densa de terra-firme, região de
Manaus (AM), assim como a apresentação de informações necessárias para a conversão de
massa fresca para massa seca e de biomassa para estoque de carbono. São testados quatro
modelos, linear, não-linear e dois logarítmicos, tendo como variável dependente, o peso da
massa fresca (não seca) e, como variáveis independentes, diâmetro à altura do peito (DAP) e
altura total, de árvores individuais. O principal atributo dos modelos testados é o tamanho da
árvore e, por esta razão, têm que absorver a alta diversidade florística e as diferentes
associações botânicas, distribuições espaciais e densidades da madeira (intra e
interespecíficas), da vegetação de terra-firme.
As estimativas de biomassa florestal são informações imprescindíveis nas questões
ligadas, entre outras, às áreas de manejo florestal e de clima. No primeiro caso, a biomassa
está relacionada com os estoques de macro e micronutrientes da vegetação, que são obtidos
pelo produto da massa pelas concentrações de cada mineral. No caso do clima, a biomassa é
usada para estimar os estoques de Carbono, que, por sua vez, são utilizados para estimar a
quantidade de CO2 que é liberada à atmosfera durante um processo de queimadas.
O manejo florestal está associado ao uso sustentável dos recursos florestais existentes,
para atender às demandas da sociedade, por produtos madeireiros e não-madeireiros.
Tratando-se de Amazônia, os cuidados têm que ser redobrados porque estes recursos estão em
ecossistemas heterogêneos, complexos e frágeis. Os solos da Amazônia são antigos e, em sua
maioria, pobres em nutrientes (especialmente para a agropecuária) e ácidos. A contrastante
exuberância de sua cobertura florestal está associada às estratégias de conservação e de
ciclagem de nutrientes dentro do próprio sistema. É importante conhecer a distribuição de
nutrientes nos diferentes compartimentos (tronco, galho, casca, folha), para controlar a
exportação dos mesmos pela colheita florestal e entrada via “inputs” atmosféricos e, com isto,
minimizar os impactos ambientais da produção madeireira.
Para as questões climáticas, há grande interesse em quantificar a biomassa que é
convertida, principalmente em dióxido de carbono, pelas diferentes formas de uso do solo
amazônico (Fearnside et al., 1993, Foster Brown et al., 1995, Higuchi & Carvalho Jr., 1994,
Skole et al., 1994, Schroeder & Winjum, 1995 e Fearnside, 1996). Esta informação é
necessária para uma correta avaliação da contribuição dos projetos de desenvolvimento da
região, no processo de mudanças climáticas globais, no âmbito da Convenção do Clima,
assinada pelo Governo Brasileiro durante a Conferência das Nações Unidas sobre
Desenvolvimento e Meio Ambiente, Rio-92.
As estimativas de biomassa, atualmente disponíveis na literatura, dos diversos tipos
florestais da Amazônia, vêm de estudos que se utilizam de métodos diretos e indiretos. O
método direto consiste na derrubada e pesagem de todas as árvores que ocorrem em parcelas
fixas, fornecendo estimativas, que segundo Brown et al. (1989), não são confiáveis porque
baseiam-se em poucas parcelas, pequenas e tendenciosamente escolhidas. No método indireto,
as estimativas têm sido produzidas a partir de dados de inventários florestais, que foram
executados com a finalidade de planejar a exploração e o manejo florestal, sendo o volume da
madeira, a principal variável. Neste método, a biomassa é estimada a partir do volume da
madeira, usando-se a densidade média da madeira e um fator de correção para árvores com
DAP < 25 cm.
Estes dois métodos ainda geram muita polêmica e controvérsias e produzem
estimativas desencontradas, mesmo quando se usa o mesmo banco de dados (Fearnside et al.,
1993, Brown et al., 1989 e Higuchi et al., 1994 e Foster Brown et al., 1995). A tabela 1 ilustra
o que foi posto anteriormente. Esta tabela foi parcialmente reproduzida de FEARNSIDE et al.
(1993), considerando apenas a biomassa viva acima do nível do solo. São produzidas
estimativas diferentes, com o passar do tempo, pelos mesmos autores e para o mesmo banco
de dados (montado nos anos 70). Além disso, Foster Brown et al. (1995) criticam estes
bancos de dados, afirmando que as alturas das árvores foram obtidas sem aparelhos de
medição e que, estes erros não amostrais não são mencionados.
O consenso existente entre os pesquisadores que trabalham com biomassa é de que é
praticamente impossível determinar a biomassa de cada árvore, pelo método direto, ao
executar um inventário florestal. Por esta razão, os recursos da análise de regressão para o
desenvolvimento de modelos estatísticos, para estimar a biomassa de árvores em pé, devem
ser empregados para superar este problema. Salomão et al. (1996) citam apenas dois modelos
estatísticos utilizados na Amazônia; um proposto por Sandra Brown e colaboradores e, outro,
proposto por Christopher Uhl e colaboradores. O primeiro requer o conhecimento da
densidade da madeira de cada indivíduo, que é praticamente impossível obte-la durante o
inventário; e o segundo, é recomendado para florestas secundárias. Além destes, há o modelo
de Overman et al. (1994), para a floresta amazônica colombiana, desenvolvido principalmente
para árvores de pequenos diâmetros.
Materiais e Métodos
(i) Coleta de Dados:
Os dados foram coletados na Estação Experimental de Silvicultura Tropical (EEST)
do INPA, aproximadamente 90 km ao norte de Manaus, em áreas derrubadas para
experimentos com liberação de dióxido de carbono, usando-se queimadas tradicionalmente
praticadas por pequenos produtores da região, e em áreas especialmente designadas para esta
pesquisa. Nos dois casos foram escolhidas áreas de platôs sobre latossolo amarelo. Estes
dados constituem o banco de dados de biomassa do INPA.
No total, foram derrubadas e pesadas 315 árvores-amostras com DAP≥5 cm. O peso
total de todos os indivíduos amostrados foi compartimentado em tronco e copa (incluindo
galhos e folhas e, eventualmente, frutos). Além do peso da árvore, foram também medidos o
DAP, altura total, altura comercial, altura da copa e diâmetro da copa. A distribuição de
freqüência e a estatística descritiva dos dados observados encontram-se nas tabelas 2a e 2b).
Na tabela 2c observam-se as estatísticas descritivas para as variáveis DAP, altura total e peso
total, quando os dados são divididos em algumas classes de diâmetro. Nesta tabela fica
evidente que a variável peso total tem uma variabilidade natural bem maior que as outras duas
variáveis, mesmo em mais classes de diâmetro.
Para obtenção das concentrações de água e nutrientes de cada compartimento da
árvores, 38 indivíduos (dos 315 amostrados) foram coletados diferentemente, baseando-se no
esquema apresentado por Higuchi & Carvalho Jr. (1994) e Santos (1996). Foram retiradas
amostras (discos) a 0% (base), 25, 50, 75 e 100% (topo) do tronco e do galho grosso
(diâmetro de base≥10 cm). Do tronco foi retirado também um disco à altura do DAP. Todos
os discos retirados foram imediatamente pesados e enviados ao laboratório para secagem em
estufas calibradas a 105o C. O mesmo procedimento foi adotado para os galhos finos e folhas,
mas que em vez de discos, foram retiradas, de várias partes da copa, amostras de 5 e 3 kg,
respectivamente. A estimativa da concentração de carbono na vegetação das espécies mais
abundantes, no sítio estudado, foi feita tendo ainda as amostras coletadas por Higuchi &
Carvalho Jr. (1994).
O peso total de cada uma destas 38 árvores foi compartimentado em tronco, casca,
galho grosso, galho fino (diâmetro<10 cm), folha e, eventualmente, flores e frutos. Além
destas concentrações, a coleta compartimentada permite ainda a determinação da contribuição
de cada um dos compartimentos no peso total da árvore. A estatística descritiva destes dados e
a contribuição de cada compartimento no peso total e a porcentagem do Peso da massa fresca
que é transformado em Peso da massa seca, visualizam-se nas tabelas 3a e 3b.
Um desdobramento da pesquisa de Nutrientes é o estudo de densidade da madeira
3
(g/cm ), nos sentidos base-topo e casca-medula da árvore (utilizando-se das amostras
coletadas a 0, 25, 50, 75 e 100% da altura comercial e do DAP). Resultados preliminares
deste estudo encontram-se na tabela 4, de 12 árvores analisadas.
O banco de dados de biomassa do INPA vem sendo completado ao longo do tempo e
já foi utilizado preliminarmente por Higuchi et al. (1994), Higuchi & Carvalho Jr. (1994),
Araújo (1995) e Santos (1996).
(ii) Modelos Testados:
Os modelos estatísticos foram selecionados a partir do trabalho de SANTOS (1996),
que testou 34 diferentes modelos em diferentes combinações.
O banco de dados foi dividido em dois, para árvores com 5≤DAP<20 cm e DAP≥20
cm. Foram testados os seguintes modelos estatísticos, para todas as árvores com DAP≥5 cm,
equação única, e para as duas classes de tamanho, (a) 5≤DAP<20 cm e (b) DAP≥20 cm:
1. ln Pi = β0 + β1 ln Di + ln εi
2. ln Pi = β0 + β1 ln Di + β2 ln Hi + ln εi
3. Pi = β0 + β1 Di2Hi + εi
4. Pi = β0 D β1 H β2 + εi
para i = 1, 2, ... 315 - equação única
i = 1, 2, ... 244 - equação (a)
i = 1, 2, ... 71 - equação (b)
onde:
Pi = peso da massa fresca de cada árvore, em quilograma (para modelos 1, 2 e 4) e em
toneladas métricas (para o modelo 3).
Di= diâmetro à altura do peito de cada árvore, DAP, em centímetros (para modelos 1,
2 e 4) e em metros (para o modelo 3)
Hi = altura total de cada árvore, em metros
β0, β1 e β2 = coeficientes de regressão
εi = erro aleatório
ln = logarítimo natural
Os modelos estatísticos propostos por Brown e Lugo (Foster Brown et al., 1995,
Salomão et al., 1996) e aqueles que apresentaram os melhores resultados no trabalho de
Saldarriaga et al. (1988), que incluem densidade da madeira, não foram testados porque esta
variável é de difícil obtenção para cada indivíduo em pé. Além disso, segundo Higuchi &
Carvalho Jr. (1994), a densidade da madeira (g/cm3) apresenta significativas variações intra e
inter-específicas. Pelas mesmas razões, Overman et al. (1994) descartam esta variável, apesar
do bom desempenho dos modelos que a contém.
Na tabela 4, onde visualizam-se as densidades de 12 árvores, observa-se que: a menor
densidade é de 0,480 e a maior é de 1,031; a densidade tende a diminuir no sentido base-topo;
a densidade média, considerando base-topo, é de 0,756; e esta última variável é sempre menor
que a densidade média obtida na altura do DAP. A densidade média do DAP é igual a 0,803,
que, por sua vez, é diferente de todas as estimativas fornecidas por Foster Brown et al. (1995)
e a de Saldarriaga et al. (1988). As variações no sentido casca-medula também são
significativas (Higuchi & Carvalho Jr., 1994).
(iii) Escolha do Melhor Modelo Estatístico:
Para a escolha do melhor modelo estatístico visando-se estimar a biomassa em pé da
área em estudo, foram adotados os procedimentos tradicionais da ciência florestal, que são:
maior coeficiente de determinação, menor erro padrão de estimativa e melhor distribuição dos
resíduos (Santos, 1996). Além destes procedimentos, foram simuladas amostras de diferentes
intensidades, para testar a consistência dos modelos na estimativa da biomassa. Foram
tomadas 15 amostras com 50 árvores selecionadas aleatoriamente do banco de dados original;
10 amostras com n = 100; 5 amostras com n = 200; e 5 amostras com n = 300.
Resultados e Discussão:
Do trabalho de Higuchi & Carvalho Jr. (1994), as seguintes informações quantitativas
do sítio estudado são importantes para uma melhor interpretação destes resultados e para
futuras comparações com outros sítios:
- Em uma parcela fixa de 2.000 m2, o peso da biomassa fresca distribui-se da seguinte
maneira, em relação ao peso total: a vegetação (exceto cipós) com DAP≥5 cm contribui com
86,9% do peso total; a vegetação com DAP<5 cm contribui com 2,4%; os cipós contribuem
com 1,3% e a liteira (toda a vegetação morta sobre a superfície do solo) contribui com 9,4%.
- Os teores médios de carbono são os seguintes: tronco (48%), galhos grossos (48%),
galhos finos (47%), folhas (39%), plântulas - até 50 cm de altura - (47%), mudas - altura>50
cm e DAP<5 cm - (49%), cipós (48%) e liteira (39%).
Os coeficientes de regressão e de determinação e os erros padrões de estimativa de
todos os quatro modelos estatísticos testados (árvores com DAP≥5 cm), incluindo as
variações (a) para árvores com 5≤DAP<20 cm e (b) DAP≥20 cm, verificam-se na tabela 5. De
um modo geral, os quatro modelos (incluindo as variações a e b) estão aprovados nos quesitos
coeficiente de determinação (r2) e erro padrão de estimativa (sy.x) e, por esta razão, poderiam
ser utilizados para estimar a biomassa de árvores em pé da área em estudo.
Todos os modelos apresentam coeficientes de correlação (r) altamente significantes
(α<0,01). De um modo geral, os modelos únicos para árvores com DAP ≥ 5 cm apresentam
os maiores coeficientes de determinação (r2), exceto para o modelo 3. Com relação ao (sy.x), o
modelo 4 é o que tem o melhor desempenho, apresentado os menores erros, seguido do
modelo 2. Combinando as equações a e b, no mesmo banco de dados, os erros (em
quilogramas) produzidos foram: 949, 693, 356 e 537, respectivamente para os modelos 1, 2, 3
e 4. Nesta situação, o melhor desempenho é do modelo 3, seguido do modelo 4.
O exame da distribuição dos resíduos mostra que os modelos 1, 2 e 3 não apresentam
nenhum padrão, distribuindo-se aleatoriamente ao longo do eixo da biomassa observada e
estimada, ordenada de forma crescente pela variável DAP. O modelo 4, no entanto, apresenta
um claro padrão, aumentando os desvios conforme aumentam os DAP’s.
As equações resultantes são:
Modelo 1:
- Equações a & b: (a) ln P = -1,754 + 2,665 ln D; para 5≤DAP<20 cm
(b) ln P = -0,151 + 2,170 ln D; para DAP≥20 cm
- Equação única: ln P = -1,497 + 2,548 ln D; para para DAP≥5 cm
Modelo2:
- Equações a & b: (a) ln P = -2,668 + 2,081 ln D + 0,852 ln H; para 5≤DAP<20
(b) ln P = -2,088 + 1,837 ln D + 0,939 ln H; para DAP≥20 cm
- Equação única: ln P = -2,694 + 2,038 ln D + 0,902 ln H; para DAP≥5 cm
Modelo 3:
- Equações a & b: (a) P = 0,0056 + 0,621 D2H; para 0,05≤DAP<0,20 m
(b) P = 0,393 + 0,473 D2H; para DAP≥0,20 m
- Equação única: P = 0,077 + 0,492 D2H; para DAP≥0,05 m
Modelo 4:
- Equações a & b: (a) P = 0,0336 * D2,171*H1,038; para 5≤DAP<20 cm
(b) P = 0,0009 * D1,585*H2,651; para DAP≥20 cm
- Equação única: P = 0,001 * D1,579*H2,621; para DAP≥5 cm
A verificação da consistência de cada um dos modelos estatísticos para estimar a
biomassa em pé, sobre amostras simuladas (tiradas aleatoriamente do banco de dados
original), encontram-se na tabela 6. Nesta tabela verificam-se as médias observadas e
estimadas em cada simulação. A análise é feita sobre o afastamento da média estimada em
relação à observada, em percentagem, utilizando-se equações distintas para estimar a
biomassa de árvores com 5≤DAP<20 cm e DAP≥20 cm e uma única equação para todas as
árvores contidas na amostra com DAP≥5 cm.
(i) Modelo 1:
- Usando as equações a e b, para estimar a biomassa do banco de dados original, a
média estimada afasta-se -1,9% da média observada, ou seja, o desvio7 é de -1,9%. Quando
utiliza-se uma só equação para estimar a biomassa das duas classes de diâmetro, o
desempenho anterior não é repetido, apresentando um desvio de +16%. Excepcionalmente, na
simulação com n = 50, o uso de uma só equação resulta em um desvio médio de +2,8%, que
poderia ser considerado bom se não fosse a amplitude de variação entre o menor e o maior
desvio, que foi de 0,1 a 24,9%.
- Este modelo (equações a e b) demonstra a mesma consistência nas simulações com n
= 300, n = 200 e n = 100, respectivamente, com desvios de -1,9% (1,6 e 2,3, menor e maior
desvio, em valores absolutos), +0,5% (2,7 e 11,6) e +2,6% (3,7 e 22,1). A simulação com n =
50, o desvio médio é de -10,2%.
- A equação única para estimar a biomassa, usando este modelo estatístico, não é
alternativa para as duas equações, ou seja, o uso deste modelo requer as duas equações para
estimar a biomassa de árvores com 5≤DAP<20 cm e DAP≥20 cm, separadamente.
7
Desvio é afastamento, em %, do peso médio estimado pelas diferentes equações, em relação ao
peso médio observado. Entre parêntesis, os desvios aparecem em valores absolutos e o primeiro é
sempre o menor e, o segundo, o maior desvio.
- Trata-se de um modelo com apenas o DAP como variável independente, que é uma
variável fácil de ser medida no campo, sem erros não amostrais. O único problema deste
modelo é que o peso será sempre o mesmo, para um determinado diâmetro,
independentemente da altura da árvore, da espécie e de outros atributos da árvore.
(ii) Modelo 2:
- Usando as equações a e b, para estimar a biomassa do banco de dados original, a
média estimada afasta-se -3,6% da média observada. Quando utiliza-se uma só equação para
estimar a biomassa das duas classes de diâmetro, o seu desempenho é melhor do que o
anterior, com desvio de +2,9%.
- Este modelo (equações a e b) demonstra a mesma consistência nas simulações com n
= 300, n = 200 e n = 100, respectivamente, com desvios de -3,6% (3,2 e 4,3, menor e maior
desvio, em valores absolutos), -1,8% (5,2 e 6,7) e -1,1% (0,9 e 12,7). A simulação com n =
50, o desvio médio é de –9,4%. O uso de uma só equação tem um desempenho razoável para
todas as simulações, que exceto para n = 50, apresenta desvio menor do que quando se
utilizam as equações a e b.
- Apesar do bom desempenho da equação única, em relação aos desvios médios, onde
as diferenças são negligíveis, as amplitudes de variação dos mesmos nas equações a e b são
menores, sendo, por esta razão, mais apropriadas para a estimativa da biomassa.
- A incorporação da altura total neste modelo permite estimar diferentes pesos para
iguais DAP’s, ao contrário do modelo 1.
(iii) Modelo 3:
- Usando as equações a e b, para estimar a biomassa do banco de dados original, a
média estimada afasta-se +1,2% da média observada. Quando se utiliza uma só equação para
estimar a biomassa das duas classes de diâmetro, o seu desempenho é melhor do que o
anterior, com desvio de +0,1%. Apesar de um claro padrão na distribuição dos resíduos, este
modelo tem uma boa capacidade de compensação quando se utiliza todo o banco de dados,
tanto com as equações a e b como com a equação única para as duas classes de diâmetro.
- Este modelo (equações a e b) demonstra a mesma consistência nas simulações com n
= 300, n = 200, n = 100 e n = 50, respectivamente, com desvios de +1,2% (0,4 e 1,6, menor e
maior desvio, em valores absolutos), +3,1% (1,1 e 1,7), +3,8% (0,8 e 20,3) e -4,8% (0,4 e
19,4). O uso de uma só equação tem um desempenho tão consistente quanto ao anterior, com
desvios de +0,1% (0,2 e 0,9), +2,2% (0,6 e 11,5), +2,4% (0,7 e 17,6) e -6,8% (0,4 e 16,2),
respectivamente para n = 300, n = 200, n = 100 e n = 50.
- A equação única para este modelo é a melhor alternativa para estimar a biomassa,
principalmente considerando apenas a estimativa da biomassa média de uma parcela fixa, sem
preocupar-se com as estimativas individuais. Em todos os tamanhos da amostragem, esta
equação demonstrou-se bastante consistente e precisa.
- Sem preocupar-se com as estimativas individuais, prestando atenção apenas no total
ou na média das parcelas fixas, este é o melhor modelo entre os testados. De um modo geral,
este modelo superestima o peso das menores classes de diâmetro. Para grandes inventários
para estimativa de biomassa, este modelo é o mais preciso.
(iv) Modelo 4:
- Usando as equações a e b, para estimar a biomassa do banco de dados original, a
média estimada afasta-se -4,6% da média observada. Quando utiliza-se uma só equação para
estimar a biomassa das duas classes de diâmetro, o desempenho anterior não é repetido, com
desvio de -7,3%.
- Este modelo (equações a e b) demonstra a mesma consistência nas simulações com n
= 300, n = 200, n = 100 e n = 50, respectivamente, com desvios de -4,3% (3,4 e 5,1, menor e
maior desvio, em valores absolutos), +0,3% (0,6 e 3,7), -4,0% (1,2 e 7,6) e -7,7% (4,2 e 16,1).
O uso de uma só equação tem um desempenho inferior a todos os outros modelos testados e,
por esta razão, não é uma alternativa para as duas equações. Neste caso, a opção tem que ser
pelas duas equações, 4 a para árvores com 5≤DAP<20 cm e 4b para DAP≥20 cm.
- De todos os modelos testados, este modelo é o que apresenta as menores amplitudes
de variação, demonstrando uma boa consistência na estimativa da biomassa. É um modelo
bastante conservador e que apresenta poucas surpresas na estimativa da biomassa das
diferentes classes de diâmetro.
Considerações finais:
1. Os quatro modelos estatísticos testados produzem estimativas confiáveis de
biomassa de árvore em pé, todos com desvios inferiores a 5% em relação à média.
2. As equações distintas para árvores com 5≤DAP<20 cm e com DAP≥20 cm são
mais consistentes que a equação única para todas as árvores com DAP≥5 cm.
3. Dentre os modelos testados, os melhores são os modelos 1 e 4, respectivamente com
as seguintes equações:
(a) ln P = -1,754 + 2,665 ln D; para 5≤DAP<20 cm
(b) ln P = -0,151 + 2,170 ln D; para DAP≥20 cm
e
(a) P = 0,0336 * D2,171*H1,038; para 5≤DAP<20 cm
(b) P = 0,0009 * D1,585*H2,651; para DAP≥20 cm
- O modelo 1 tem a vantagem de ser dependente de apenas uma variável, o
DAP, que é uma variável fácil de ser medida no campo, com poucos riscos de erros não
amostrais;
- O modelo 4 tem a vantagem de ser muito consistente e de poder estimar mais
realisticamente árvores individuais, com mesmos DAP’s e diferentes alturas. Além disso, este
modelo já foi preliminarmente utilizado por Araújo (1995), em Tomé-Açu (Pará), para
confrontar com os resultados obtidos pelo método direto. Em Tomé-Açu, a biomassa estimada
por este modelo ficou também a menos de 5% da observada.
4. A eficiência das equações está associada à utilização de parcelas fixas para o
inventário de biomassa de um determinado sítio, com as dimensões mínimas recomendadas
para os inventários florestais na Amazônia.
5. O peso do tronco seco corresponde a 61% de seu peso antes da secagem; e o da
copa corresponde a 58% de seu peso fresco.
6. Do peso total de uma árvore, 65,6% é tronco e 34,4% é copa. A contribuição de
cada compartimento da árvore em seu peso total é a seguinte: tronco (65,6%), galho grosso
(17,8%), galho fino (1,5%), folhas (2,03%) e flores/frutos (0,01%).
7. Os teores médios de carbono são os seguintes: tronco (48%), galhos grossos (48%),
galhos finos (47%) e folhas (39%).
Tabela 1: Algumas estimativas de biomassa para a floresta densa da Amazônia brasileira*.
(b) Contribuição de cada compartimento (tronco, galho grosso, galho fino, folhas e flor/frutos)
no peso total de uma árvore e % do PF de cada um que é transformado em PS:
Modelo b0 b1 B2 r2 sy.x
1 -1,497 2,548 0,97 1729
1a -1,754 2,665 0,92 43
1b -0,151 2,170 0,90 2035
2 -2,694 2,038 0,902 0,98 812
2a -2,668 2,081 0,852 0,95 35
2b -2,088 1,837 0,939 0,91 197
3 0,077 0,492 0,90 716
3a 0,0056 0,621 0,94 34
3b 0,393 0,473 0,86 1508
4 0,001 1,579 2,621 0,94 540
4a 0,0336 2,171 1,038 0,94 31
4b 0,0009 1,585 2,651 0,92 1159
b0, b1 e b2 = estimadores dos parâmetros β0, β1 e β2, respectivamente.
r 2 = coeficiente de determinação ajustado
ry.x = erro padrão de estimativa.
- modelo 1: ln Pi = b0 + b1 ln Di; sendo (1) para DAP≥5 cm e i = 1,..., 315; (1a) para
5≤DAP<20 cm e i = 1,..., 244; e (1b) para DAP≥20 cm e i = 1,..., 71.
- modelo 2: ln Pi = b0 + b1 ln Di + b2 ln Hi; sendo (2) para DAP≥5 cm e i = 1,..., 315; (2a) para
5≤DAP<20 cm e i = 1,..., 244; e (2b) para DAP≥20 cm e i = 1,..., 71.
- modelo 3: Pi = b0 + b1 Di2Hi; sendo (3) para DAP≥0,05 m e i = 1,..., 315; (3a) para
0,05≤DAP<0,20 m e i = 1,..., 244; e (3b) para DAP ≥ 0,20 m e i = 1,..., 71.
- modelo 4: Pi = b0 D b1 H b2; sendo (1) para DAP≥5 cm e i = 1,..., 315; (1a) para 5≤DAP<20
cm e i = 1,..., 244; e (1b) para DAP≥20 cm e i = 1,..., 71.
Tabela 6: Resumo das simulações utilizando diferentes intensidades de amostragem (tomadas
aleatoriamente do banco de dados).
Biomassa Observada
(observada e estimada) equações a & b equação única
observada 782,7
banco de dados modelo 1 768,2 [ -1,9 ] 907,7 [+16,0 ]
modelo 2 754,6 [ -3,6 ] 805,2 [ +2,9 ]
(n = 315) modelo 3 792,1 [ +1,2 ] 783,3 [ +0,1 ]
modelo 4 746,9 [ -4,6 ] 725,3 [ -7,3 ]
observada 794,1
amostra com n = 300 modelo 1 779,1 [ -1,9 ] 924,1 [ +16,4 ]
modelo 2 765,5 [ -3,6 ] 817,0 [ +2,9 ]
(5 repetições) modelo 3 803,3 [ +1,2 ] 794,7 [ +0,1 ]
modelo 4 760,2 [ -4,3 ] 738,9 [ -7,0 ]
observada 784,2
amostra com n = 200 modelo 1 788,3 [ +0,5 ] 944,2 [ +20,4 ]
modelo 2 770,0 [ -1,8 ] 826,4 [ +5,4 ]
(5 repetições) modelo 3 808,1 [ +3,1 ] 801,3 [ +2,2 ]
modelo 4 786,3 [ +0,3 ] 740,2 [ -5,6 ]
observada 844,8
amostra com n = 100 modelo 1 866,9 [ +2,6 ] 1052,4 [ +24,6 ]
modelo 2 835,4 [ -1,1 ] 900,5 [ +6,6 ]
(10 repetições) modelo 3 876,6 [+3,8 ] 865,1 [ +2,4 ]
modelo 4 811,3 [ -4,0 ] 790,8 [ -6,4 ]
observada 836,2
amostra com n = 50 modelo 1 750,8 [ -10,2 ] 859,3 [ +2,8 ]
modelo 2 757,2 [ -9,4 ] 799,8 [ -4,4 ]
(15 repetições) modelo 3 795,8 [ -4,8 ] 779,1 [ -6,8 ]
modelo 4 771,8 [ -7,7 ] 750,8 [ -10,2 ]
Bibliografia
Araújo, T.M. 1995. Investigação das Taxas de Dióxido de Carbono Gerado em Queimadas na
Região Amazônica. Tese de Doutorado, Universidade Estadual Paulista, Faculdade de
Engenharia de Guaratinguetá, 212 p..
Brown, S., A.J.R. Gillespie e A.E. Lugo. 1989. Biomass Estimation Methods for Tropical
Forests with Applications to Forest Inventory Data. Forest Science, 35(4):881-902.
Carvalho Jr., J.A., J.M. Santos, J.C. Santos, M.M. Leitão e N. Higuchi. 1995. A Tropical
Rainforest Clearing Experiment by Biomass Burning in the Manaus Region. Atmospheric
Environment 29(17):2301-2309.
Fearnside, P.M., N. Leal Filho e F.M Fernandes. 1993. Rainforest Burning and the Global
Budget: Biomass, Combustion Efficiency, and Charcoal Formation in the Brazilian
Amazon. J. of Geophysical Research, 98(D9):16733-16743.
Fearnside, P.M. 1996. Amazonian Deforestation and Global Warming: Carbon Stocks in
Vegetation Replacing Brazil’s Amazon Forest. Forest Ecology and Management 80:21-
34.
Foster Brown, I., D.C. Nepstad, I.O. Pires, L.M. Luz e A.S. Alechandre. 1992. Carbon
Storage and Land-use in Extractive Reserves, Acre, Brazil. Environmental Conservation
19(4):307-315.
Foster Brown, I., L.A. Martinelli, W. Wayt Thomas, M.Z. Moreira, C.A. Cid Ferreira e R.A.
Victoria. 1995. Uncertainty in the Biomass of Amazonian Forests: an Example from
Rondônia, Brazil. Forest Ecology and Management, 75:175-189.
Higuchi, N. e J.A. Carvalho Jr. 1994. Fitomassa e Conteúdo de Carbono de Espécies Arbóreas
da Amazônia. Em: Anais do Seminário “Emissão x Seqüestro de CO2 - Uma Nova
Oportunidade de Negócios para o Brasil”:127-153.
Higuchi, N., J.M. dos Santos, M. Imanaga e S. Yoshida. 1994. Aboveground Biomass
Estimate for Amazonian Dense Tropical Moist Forests. Memoirs of the Faculty of
Agriculture, Kagoshima, 30(39):43-54.
Overman, J.P.M., H.J.L. Witte e J.G. Saldarriaga. 1994. Evaluation of Regression Models for
Above-ground Biomass Determination in Amazonia Rainforest. Forest Ecology and
Management, 10:207-218.
Saldarriaga, J.G., D.C. West, M.L. Tharp e C. Uhl. 1988. Long-term Chronosequence of
Forest Sucession in the Upper Rio Negro of Colombia and Venezuela. Journal of Ecology
76:938-958.
Salomão, R.P., D.C. Nepstad e I.C.G. Vieira. 1996. Como a Biomassa de Florestas Tropicais
Influi no Efeito Estufa. Ciência Hoje, 21(122):38-47.
Santos, J. dos. 1996. Análise de Modelos de Regressão para Estimar a Fitomassa da Floresta
Tropical Úmida de Terra-firme da Amazônia Brasileira. Tese de Doutorado,
Universidade Federal de Viçosa, 121 p..
Schroeder, P.E. e J.K. Winjum. 1995. Assessing Brazil’s Carbon Budget: II. Biotic Fluxes
and Net Carbon Balance. Forest Ecology and Management, 75(87-99).
Skole, D.L., W.H. Chomentowski, W.A. Salas e A.D. Nobre. 1994. Physical and Human
Dimensions of Deforestation in Amazonia. BioScience, 44(5):31-321.
Capítulo 17
Cadeia de Markov para predizer a dinâmica da floresta amazônica
17.1. Introdução:
Estudar a dinâmica da floresta tropical úmida amazônica, manejada ou não, é um
grande desafio para os florestais. Os modelos clássicos de produção florestal foram
desenvolvidos para florestas temperadas e têm como principais variáveis, o índice de sítio e
idade da árvore ou do povoamento (Sullivan e Clutter, 1972; Ferguson e Leech, 1978; Alder,
1980; Smith, 1983 e Clutter et al., 1983). Essas duas variáveis são limitantes para o
desenvolvimento de modelos de produção para as florestas da Amazônia porque são
praticamente indisponíveis para o setor florestal, num curto prazo. Apesar de inúmeras
tentativas, por meio da dendrocronologia ou da datação com 1C, a determinação das idades
das inúmeras espécies que ocorrem numa determinada área, continua sendo um grande
obstáculo para a ciência florestal.
Sem a idade da árvore ou do povoamento ou com muita dificuldade para obte-la, a
alternativa é prognosticar a dinâmica da floresta com o uso de parcelas permanentes. Na
Amazônia, entretanto, as parcelas instaladas e devidamente monitoradas são poucas, mal
distribuídas e recentes (as mais antigas estão na Flona de Tapajós, desde 1978). Considerando
que as idades de árvores com DAP > 50 cm, na região de Manaus, podem variar de 200 a 100
anos, segundo Chambers et al. (1998), 20-30 anos de observações podem parecer insuficientes
para descrever, com confiança, a dinâmica de uma floresta da Amazônia.
Apesar de todas essas dificuldades, aproximadamente 1 milhão de hectares de floresta
amazônica são manejados, anualmente, para produção madeireira sob algum tipo de manejo
em regime de rendimento sustentável. É difícil imaginar como os empresários florestais vão
planejar os ciclos de corte subseqüentes, sem um modelo de produção. Se nada for feito, o
manejo florestal tomará a mesma forma da agricultura itinerante. A melhor saída para esta
situação é usar modelos de curto prazo que dependem exclusivamente da situação
imediatamente anterior ao atual, tendo como objetivo a projeção apenas para uma situação
imediatamente posterior. Dentre os vários modelos disponíveis, o que melhor se ajusta às
características das florestas da Amazônia, é a cadeia de Markov.
sendo que as probabilidades p ij são não-negativos e a soma de pi1 + pi2 + ... + pim deve ser
igual a 1.
A probabilidade de transição p ij pode ser de n passos, tomando a forma de p ij (n) onde
n indica o número de tentativas, ou seja, a probabilidade que a população vai de um estado i
de uma tentativa para o estado j, n tentativas depois.
Exemplo didático: Projeções da dinâmica de Parcelas Permanentes usando Markov
(transectos Leste-Oeste e Norte-Sul)
No caso dos dados da parcela permanente do exemplo, vamos considerar 17 estados (i,
j = 1, 2, ...17), onde:
estado 1 = recrutamento (R)
estados de 2 a 16 = classes de diâmetro. As classes de DAP são de 5-5 cm e vão de 10,
passando pela classe truncada DAP ≥ 75 até à classe “próxima” depois de DAP ≥ 75. A
movimentação de uma classe para outra, no caso da classe DAP ≥ 75, pode ser uma árvore
com DAP = 78, em 2000, que passou para a classe seguinte (podendo ser DAP = 80 ou DAP
= 81), em 2004 ou também uma com DAP = 119, em 2000, que passou para a classe seguinte,
em 2004.
estado 17 = mortalidade (M)
são considerados: t = 2000 e t+1 = 2004.
Passos para o cálculo matricial:
1. Matriz A (Quadro 1) => transição entre a 1ª ocasião (2000) e 2ª ocasião (2004) => tabelas
dinâmicas do Excel (V. Box). Daqui uns 10 anos, é bem provável que alguém não veja
nenhuma importância nas instruções contidas no Box por achar completamente obsoleta.
Hoje, em 2007, apesar deste recurso ser pouco conhecido pelos florestais, é um poderoso e
prático instrumento para organizar os dados. Quando se trabalha com parcelas permanentes,
re-medidas em várias ocasiões sucessivas, a tabela dinâmica serve também para conferir o
arquivo de dados. A matriz A é simétrica; portanto, há 19 colunas e 19 linhas.
1.1. => total 1ª ocasião = (total, freqüência da linha 19 e coluna 19 ou f19,19 =6251)
menos recrutas (R, linha 3 e coluna 19 ou f3,19 = 396) = 5623
1.2. => total 2ª ocasião = (total, f19,19 = 6251) menos mortas (M, f19,18 = 264) = 5987
2. Matriz B1 e B2 (Quadro 2) => probabilidades de mudanças de um estado (i) para outro (j).
A matriz de probabilidade é repetida pra facilitar a multiplicação de matrizes no Excel.
Portanto B1 = B2.
2.1. Recrutas (R) => das 396 árvores recrutadas em 2004 => 385, 7 e 4,
respectivamente, foram recrutadas para a 1ª classe (10<15), 2ª (15<20) e 3ª (20<25).
2.2. Probabilidades de 2.1. => 385/396, 7/396 e 4/396.
2.3. 1ª classe (10<15) => das 2167 árvores que estavam na 1ª classe na 1ª ocasião
(2000) => na 2ª ocasião (2004), 1869 permaneceram na 1ª classe, 205 mudaram para a
2ª classe, 2 passaram para a 3ª classe e 91 morreram.
2.4. Probabilidades de 2.3. => 1869/2167, 205/2167, 2/2167 e 91/2167.
2.5. 2ª classe (15<20) => das 1319 árvores que estavam na 2ª classe na 1ª ocasião
(2000) => na 2ª ocasião (2004), 1126 permaneceram na 2ª classe, 144 mudaram para a
3ª classe, 1 passou para a 4ª classe e 48 morreram.
2.6. Probabilidades de 2.5. => 1126/1319, 144/1319, 1/1319 e 48/1319.
3. Matriz de probabilidade 2 passos adiante (até 2004) => matriz de transição probabilística
(Matriz B) elevada ao quadrado que resultará na Matriz C (Quadro 3). Se quiser 3 passos
adiante, a matriz de transição probabilística será elevada ao cubo.
3.1. Multiplicação de matrizes (B1*B2) => No Excel:
- blocar (passando o cursor em toda a sua extensão) um espaço igual à matriz
que será multiplicada (Matriz B), ou seja, mesmo número de linhas e mesmo número
de colunas;
- ir ao menu Inserir, selecionar a opção Função e escolher Matriz.Mult;
- definir matriz 1 (B1), blocando a matriz B;
- definir matriz 2 (B2), blocando novamente a matriz B e OK;
- truque pra ver o resultado (matriz C) => segurar juntos Ctrl, Shift e Enter
mantendo o cursor dentro da barra de função (fx) que fica acima da planilha.
- Obs.: a matriz B não deve estar como fórmula e sim como Somente Valores.
4. Projeção para 2008 => Matriz D (Quadro 4) =>
4.1. A multiplicação de matrizes (B1 e B2) não inclui a coluna TOTAL, portanto, é
necessário copiá-la da Matriz A e colá-la na Matriz C para facilitar o cálculo da
freqüência esperada por classe (Matriz D);
4.2. A Matriz D é calculada multiplicando a probabilidade de ocorrência de árvores
em uma classe dois passos a diante (Matriz C) pelo número total de árvores daquela
classe. Ex.:
- classe 10<15 => C2*T2 = 0,8395 * 396 = 332,05
C3*T3 = 0,7439 * 2167 = 1612
- classe 15 < 20 => D2*T2 = 0,1071 * 396 = 42,39
D3*T3 = 0,1624 * 2167 = 351,81
D4*T4 = 0,7288 * 1319 = 961,24
e assim por diante para todas as classes.
4.3. O total da freqüência esperada por classe ou estado (que a projeção para 2008) é
calculado da seguinte forma (dados da Matriz D):
- classe 10<15 => C2 + C3 = 332,05 + 1612 = 1944.
- classe 15<20 => D2 + D3 + D4 = 42,39 + 351,81 + 961,24 = 1355,5
e assim por diante para todas as classes.
4.4. Classe “PRÓX.” => esta classe é criada apenas para descrever a dinâmica das
árvores truncadas ao DAP ≥ 75 cm. No quadro com as freqüências esperadas (E) (5b)
a freqüência da classe “PRÓX” deve ser acrescentada à classe DAP ≥ 75 cm. Portanto,
a freqüência esperada da classe DAP ≥ 75 cm deve ser somada à da classe “PROX”:
- classe DAP ≥ 75 cm => Q19 + R19 = 11,56 + 4,407 = 15,963 (Quadro 5a)
5. Ajustes necessários => a cadeia de Markov não faz projeções do recrutamento. Portanto, há
necessidade de fazer ajustes para que a probabilidade de recrutamento das árvores em 2004
possa ser incluída na projeção de 2008. Enquanto não tiver uma série histórica de
recrutamento, o único recurso é usar o nº de indivíduos recrutados de uma ocasião para outra.
5.1. O ajuste é feito com os dados do Quadro 5a: (prob do nº de arv da 1ª classe –
prob da mortalidade da 1ª classe) + (Total de recrutas de 2004 * projeção da 1ª classe
para 2008). Ex.:
- classe 10<15 => (1944 – 86) + (396 * 0,9722) ≅ 2242,3
- classe 15<20 => (1355,5 – 47) + (396 * 0,0177) ≅ 1316
- classe 20<25 => (865,8 – 33) + (396 * 0,0101) ≅ 837
5.2. Para as classes onde não houve recrutamento em 2004, basta diminuir a prob do nº
de arv da classe sem recrutamento – prob da mortalidade dessa mesma classe. Ex.:
- classe 25<30 => 543,4 – 24 ≅ 519
...
- classe DAP ≥ 75 cm => 15,96 - 3 ≅ 13
6. Se 3 ocasiões estão disponíveis, o certo é usar a média [ R = (R1+R2)/2 ], sendo que R1 é o
nº indivíduos recrutados entre a 1ª e 2ª ocasião e R2 é o nº entre a 2ª e 3ª ocasião, ou seja,
seriam necessários 3 inventários.
7. Comparação entre freqüências esperadas (E), para 2008, fornecida pela Cadeia de Markov
e as freqüências observadas de fato em 2004 (Quadro 6) => teste qui-quadrado ( χ2 ).
Neste exemplo, como o χ2 tabelado com 13 graus de liberdade e p = 0,05 é igual a
22,36, isso significa dizer que há fracas evidências para afirmar que E seja diferente de O.
Usando p = 0,01, o valor de χ2 é igual a 27,69 e, do ponto de vista de estatística, pode-se
afirmar que o teste é não significante.
O certo seria usar um intervalo de tempo maior para fazer projeções para um período
imediatamente posterior, para confirmar a eficiência de Markov. O exemplo foi usado para
comprovar que Markov é eficiente para fazer projeções da dinâmica de uma floresta
manejada. Essa comprovação já tinha sido realizada em florestas não perturbadas (Rocha,
2001).
Bibliografia:
Acevedo, M.F. 1981. On Horn’s Markovian Model of Forest Dynamics with Particular Reference to
Tropical Forests. Theoretical Population Biology 19:230-250.
Alder, D. 1980. Forest Volume Estimation and Yield Prediction. V.2 – Yield Prediction.
FAO Forestry Paper 22/2. 194 p.
Anderson, T.W. e L.A. Goodman. 1957. Statistical Inference about Markov Chains. Annals
of Mathematical Statistics 28:89-110.
Bierzychudek, P. 1982. The Demography of Jack-in-the-pulpit, a Forest Perennial that
Changes Sex. Ecol. Monographs 52(4):333-351.
Bruner, H.D. e J.W. Moser Jr.. 1973. A Markov Chain Approach to the Prediction of
Diameter Distributions in Uneven-aged Forest Stands. Can.J.For.Res. 3:409-417.
Buogiorno, J. e B.C. Michie. 1980. A Matrix Model of Unever-aged Forest Management.
Forest Science 26:609-625.
Chambers, J.Q., N. Higuchi e J.P. Schimel. 1998. Ancient Trees in Amazonia. Nature,
391:15-16.
Chiang, C.L. 1980. An Introduction to Stochastic Processes and their Applications. Robert E.
Krieger Publ. Co., Huntington, New York.
Clutter, J.L., J.C. Fortson, L.V. Pienaar, G.H. Brister e R.L. Bailey. 1983. Timber
Management: A Quantitative Approach. John Wiley and Sons, Inc. New York. 333p.
Enright, N. e J. Ogden. 1979. Applications of Transition Matrix Models in Forest Dynamics:
Araucaria in Papua New Guinea and Nothofagus in New Zealand. Australian J. of
Ecology 4:3-23.
Ferguson, I.S. e J.W. Leech. 1978. Generalized Least Squares Estimation of Yield Functions.
Forest Science 24:27-42.
Grossman, S.I. e J.E. Turner. 1974. Mathematics for the Biological Sciences. Macmillan Publ.
Co., Inc. New York. 512p.
Higuchi. N. 1987. Short-term Growth of an Undisturbed Tropical Moist Forest in the
Brazilian Amazon. Tese de Doutor. MSU. 129p.
Horn, H.S. 1975. Markovian Properties of Forest Succession. In: Ecology and Evolution of
Communities (M. Cody e J. Diamond, editores), pp.196-211. Harvard University Press.
Cambridge, Mass.
Morrison, D.F. 1976. Multivariate Statistical Methods. McGraw-Hill Inc.. 415p.
Peden, L.M., J.S. Williams e W.E. Frayer. 1973. A Markov Model for Stand Projection.
Forest Science 19:303-31.
Rocha, R.M. 2001. Taxas de recrutamento e mortalidade da floresta de terra-firme da bacia do
rio Cueiras na região de Manaus-AM. Dissertação de mestrado CFT-INPA. 49p.
Shugart, H.H. 1984. A Theory of Forest Dynamics: The Ecological Forest Succession
Models. Springer-Verlag Inc. New York. 278p.
Shugart, H.H. e D.C. West. 1981. Long-term Dynamics of Forest Ecosystems. Am. Scientist
69:647-652.
Smith, V.G. 1983. Compatible Basal Area Growth and Yield Models Consistent with Forest
Growth Theory. Forest Science 29:279-288.
Sullivan, A.D. e J.L. Clutter. 1972. A Simultaneous Growth and Yield Model for Loblolly
Pine. Forest Science 18:76-86.
Usher, M.B. 1966. A Matrix Approach to the Management of Renewable Resources, with
Special Reference to Selection Forests. J. of Applied Ecology 3(2):355-367.
Usher, M.B. 1969. A Matrix Model for Forest Management. Biometrics, June:309-315.
Usher, M.B. 1979. Markovian Approaches to Ecological Succession. J. of Animal Ecology
48:41-426.
Box 1
Tabela dinâmica do Excel usando o mesmo arquivo de dados do T2-B2SB4.
Passos necessários:
1. Neste arquivo há as seguintes colunas: nome comum da espécie, DAP90, DAP97 e DAP04
2. Inserir três novas colunas entre DAP90 e DAP97, entre DAP97 e DAP04 e depois de
DAP04 e nomear como CD1, CD2 e CD3, respectivamente.
3. Clicar em DADOS => FILTRAR => AUTO-FILTRO => apenas para a transição entre
1990 e 1997. Para a transição entre 1997e 2004, o procedimento é o mesmo.
4. Identificar as recrutas => são células que aparecem em “branco” ou “zero” na coluna do
DAP90 em DAPs registrados na coluna DAP97 => clicar em DAP90▼ e procurar “branco” e
“zero” e nomear com R na própria coluna DAP90 e na coluna CD1 atribuir o código “1” =>
para todas as árvores nessas condições.
5. Calcular as freqüências das classes 10<15, 15<20 ... até ≥ 65 => continuar com o
FILTRAR nas colunas DAP90 e DAP97. Começar com 1990 clicando em DAP90▼ e ir para
PERSONALIZAR. Lembrar que a primeira classe (10<15) é o segundo estado. Em
PERSONALIZAR, a primeira condição é “maior ou igual a” “10” (digitando) e a segunda é
“menor do que” “15” (digitando). Depois de OK, digitar em CD1 o número da classe (2, neste
caso). Repetir isso até a última classe (≥ 65), que será a classe número 1.
6. Identificar as mortas => são células que aparecem em “branco” ou “zero” na coluna do
DAP97 e tinham DAPs na coluna DAP90 => clicar em DAP97▼ e nomear com M na própria
coluna DAP97 e na coluna CD2 atribuir o código “15” => para todas as árvores nessas
condições.
7. Repetir passo 5 para DAP97. Em DAP97 tem que incluir a classe 1 (PRÓX). Neste caso, o
trabalho tem que ser feito manualmente (no olho), ou seja, tem que olhar para as colunas
DAP90 e DAP97 e verificar quais árvores que estavam na classe 1 em 1990 e mudaram de
classe em 1997.
8. Ir pra DADOS, clicar em FILTRAR e retirar o AUTO-FILTRO.
9. Em DADOS, clicar em RELATÓRIOS DE TABELA E GRÁFICOS DINÂMICOS e
seguir as instruções lógicas.
10. Pra ter a tabela dinâmica:
- arrastar CD1 até a coluna onde está escrito “solte campos de linha aqui”
- arrastar CD2 até a linha onde está escrito “solte campos de coluna aqui”
- arrastar DAP97 em cima de “solte itens de dados aqui”
Quadro 1: Matriz (A) => transição do estado i para o estado j durante o período de 2000 a 2004.
A B C D E F G H I J L M N O P Q R S T
1 estados R 10 < 15 15 < 20 20 < 25 25 < 30 30 < 35 35 < 40 40 < 45 45 < 50 50 < 55 55 < 60 60 < 65 65 < 70 70 < 75 >=75 PROX M Total
2 R 0 385 7 4 0 0 0 0 0 0 0 0 0 0 0 0 0 396
3 10 < 15 0 1869 205 2 0 0 0 0 0 0 0 0 0 0 0 0 91 2167
4 15 < 20 0 0 1126 144 1 0 0 0 0 0 0 0 0 0 0 0 48 1319
5 20 < 25 0 0 0 711 104 4 0 1 0 0 0 0 0 0 0 0 33 853
6 25 < 30 0 0 0 0 419 59 0 0 0 0 0 0 0 0 0 0 24 502
7 30 < 35 0 0 0 0 0 276 59 0 0 0 0 0 0 0 0 0 26 361
8 35 < 40 0 0 0 0 0 0 195 23 0 0 0 0 0 0 0 0 10 228
9 40 < 45 0 0 0 0 0 0 0 119 27 1 0 0 0 0 0 0 8 155
10 45 < 50 0 0 0 0 0 0 0 0 72 14 0 0 0 0 0 0 7 93
11 50 < 55 0 0 0 0 0 0 0 0 0 36 7 0 0 0 0 0 3 46
12 55 < 60 0 0 0 0 0 0 0 0 0 0 28 6 1 0 0 0 6 41
13 60 < 65 0 0 0 0 0 0 0 0 0 0 0 19 8 0 0 0 1 28
14 65 < 70 0 0 0 0 0 0 0 0 0 0 0 0 12 4 0 0 1 17
15 70 < 75 0 0 0 0 0 0 0 0 0 0 0 0 0 15 2 0 1 18
16 >=75 0 0 0 0 0 0 0 0 0 0 0 0 0 0 15 7 5 27
17 PROX 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
18 M 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
19 Total 0 2254 1338 861 524 339 254 143 99 51 35 25 21 19 17 7 264 6251
Quadro 2: Matriz B (B1 e B2) – transição probabilística do estado i para o estado j durante o período de 2000 a 2004.
A B C D E F G H I J L M N O P Q R S T
1 estados R 10 < 15 15 < 20 20 < 25 25 < 30 30 < 35 35 < 40 40 < 45 45 < 50 50 < 55 55 < 60 60 < 65 65 < 70 70 < 75 >=75 PROX M Total
2 R 0 0,9722 0,0177 0,0101 0 0 0 0 0 0 0 0 0 0 0 0 0
3 10 < 15 0 0,8625 0,0946 0,0009 0 0 0 0 0 0 0 0 0 0 0 0 0
4 15 < 20 0 0 0,8537 0,1092 0,0008 0 0 0 0 0 0 0 0 0 0 0 0
5 20 < 25 0 0 0 0,8335 0,1219 0,0047 0 0,0012 0 0 0 0 0 0 0 0 0
6 25 < 30 0 0 0 0 0,8347 0,1175 0 0 0 0 0 0 0 0 0 0 0
7 30 < 35 0 0 0 0 0 0,7645 0,1634 0 0 0 0 0 0 0 0 0 0,1
8 35 < 40 0 0 0 0 0 0 0,8553 0,1009 0 0 0 0 0 0 0 0 0
9 40 < 45 0 0 0 0 0 0 0 0,7677 0,1742 0,0065 0 0 0 0 0 0 0,1
10 45 < 50 0 0 0 0 0 0 0 0 0,7742 0,1505 0 0 0 0 0 0 0,1
11 50 < 55 0 0 0 0 0 0 0 0 0 0,7826 0,1522 0 0 0 0 0 0,1
12 55 < 60 0 0 0 0 0 0 0 0 0 0 0,6829 0,1463 0,0244 0 0 0 0,1
13 60 < 65 0 0 0 0 0 0 0 0 0 0 0 0,6786 0,2857 0 0 0 0
14 65 < 70 0 0 0 0 0 0 0 0 0 0 0 0 0,7059 0,2353 0 0 0,1
15 70 < 75 0 0 0 0 0 0 0 0 0 0 0 0 0 0,8333 0,11 0 0,1
16 >=75 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0,56 0,259 0,2
17 PROX 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
18 M 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
19 Total
Quadro 3: Matriz C ou [B]2 - Matriz de transição probabilística dois passos adiante (até 2008)
A B C D E F G H I J L M N O P Q R S T
1 estados R 10<15 15<20 20<25 25<30 30<35 35<40 40<45 45<50 50<55 55<60 60<65 65<70 70<75 >=75 PROX M Total
2 R 0,0000 0,8385 0,1071 0,0112 0,0012 5E-05 0 1E-05 0 0 0 0 0 0 0 0 0,042 396
3 10<15 0,0000 0,7439 0,1624 0,0119 0,0002 4E-06 0 1E-06 0 0 0 0 0 0 0 0,0000 0,04 2167
4 15<20 0 0,0000 0,7288 0,1842 0,0146 0,0006 0 0,0001 0 0 0 0 0 0 0 0,0000 0,035 1319
5 20<25 0 0 0,0000 0,6948 0,2034 0,0218 0,0008 0,0019 0,0002 8E-06 0 0 0 0 0 0,0000 0,038 853
6 25<30 0 0 0 0,0000 0,6967 0,188 0,0192 0 0 0 0 0 0 0 0 0,0000 0,048 502
7 30<35 0 0 0 0 0,0000 0,5845 0,2647 0,0165 0 0 0 0 0 0 0 0,0000 0,062 361
8 35<40 0 0 0 0 0 0,0000 0,7315 0,1637 0,0176 0,0007 0 0 0 0 0 0,0000 0,043 228
9 40<45 0 0 0 0 0 0 0,0000 0,5894 0,2686 0,0362 0,001 0 0 0 0 0,0000 0,053 155
10 45<50 0 0 0 0 0 0 0 0,0000 0,5994 0,2344 0,0229 0 0 0 0 0,0000 0,068 93
11 50<55 0 0 0 0 0 0 0 0 0,0000 0,6125 0,223 0,0223 0,0037 0 0 0,0000 0,073 46
12 55<60 0 0 0 0 0 0 0 0 0 0,0000 0,4664 0,1992 0,0757 0,0057 0 0,0000 0,107 41
13 60<65 0 0 0 0 0 0 0 0 0 0 0,0000 0,4605 0,3956 0,0672 0 0,0000 0,041 28
14 65<70 0 0 0 0 0 0 0 0 0 0 0 0,0000 0,4983 0,3622 0,026 0,0000 0,055 17
15 70<75 0 0 0 0 0 0 0 0 0 0 0 0 0,0000 0,6944 0,154 0,0288 0,067 18
16 >=75 0 0 0 0 0 0 0 0 0 0 0 0 0 0,0000 0,3086 0,1440 0,103 27
17 PROX 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
18 M 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
19 Total
Quadro 4: Matriz D - Cálculo das freqüências esperadas de cada classe ou estado
A B C D E F G H I J L M N O P Q R S T
50 < 55 < 60 < 65 < 70 <
1 estados R 10 < 15 15 < 20 20 < 25 25 < 30 30 < 35 35 < 40 40 < 45 45 < 50 55 60 65 70 75 >=75 PROX M Total
2 R 0,000 332,056 42,397 4,454 0,493 0,019 0 0,005 0 0 0 0 0 0 0 0 16,577
3 10 < 15 0,000 1611,980 351,813 25,773 0,399 0,009 0 0,002 0 0 0 0 0 0 0 0,000 86,023
4 15 < 20 0 0,000 961,240 242,958 19,245 0,793 0 0,169 0 0 0 0 0 0 0 0,000 46,595
5 20 < 25 0 0 0,000 592,639 173,492 18,615 0,654 1,601 0,174 0,006 0 0 0 0 0 0,000 32,818
6 25 < 30 0 0 0 0,000 349,723 94,353 9,643 0 0 0 0 0 0 0 0 0,000 24,281
7 30 < 35 0 0 0 0 0,000 211,014 95,569 5,952 0 0 0 0 0 0 0 0,000 22,466
8 35 < 40 0 0 0 0 0 0,000 166,776 37,329 4,006 0,148 0 0 0 0 0 0,000 9,740
9 40 < 45 0 0 0 0 0 0 0,000 91,361 41,632 5,615 0,152 0 0 0 0 0,000 8,239
10 45 < 50 0 0 0 0 0 0 0 0,000 55,742 21,795 2,130 0 0 0 0 0,000 6,332
11 50 < 55 0 0 0 0 0 0 0 0 0,000 28,174 10,259 1,024 0,171 0 0 0,000 3,372
12 55 < 60 0 0 0 0 0 0 0 0 0 0,000 19,122 8,169 3,103 0,235 0 0,000 4,371
13 60 < 65 0 0 0 0 0 0 0 0 0 0 0,000 12,893 11,076 1,882 0 0,000 1,149
14 65 < 70 0 0 0 0 0 0 0 0 0 0 0 0,000 8,471 6,157 0,444 0,000 0,928
15 70 < 75 0 0 0 0 0 0 0 0 0 0 0 0 0,000 12,500 2,778 0,519 1,204
16 >=75 0 0 0 0 0 0 0 0 0 0 0 0 0 0,000 8,333 3,889 2,778
17 PROX 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
18 M 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
19 Total 1944,036 1355,450 865,823 543,352 324,803 272,641 136,419 101,555 55,739 31,663 22,086 22,820 20,775 11,556 4,407 266,874
Quadro 5a: Dados para calcular 2008 (E).
Prob Prob
CD Arv Mort proj
10 < 15 1944,04 86,02 0,97
15 < 20 1355,45 46,60 0,02
20 < 25 865,82 32,82 0,01
25 < 30 543,35 24,28
30 < 35 324,80 22,47
35 < 40 272,64 9,74
40 < 45 136,42 8,24
45 < 50 101,55 6,33
50 < 55 55,74 3,37
55 < 60 31,66 4,37
60 < 65 22,09 1,15
65 < 70 22,82 0,93
70 < 75 20,77 1,20
>=75 15,96 2,78
Quadro 5b: Freqüências esperadas (E) para 2008 incluindo ajustes feitos para o recrutamento
(R)
estado O E χ2
P P