Beruflich Dokumente
Kultur Dokumente
Autores:
Elies Idalino Rodrigues
Elildo Idalino Rodrigues
2015
Dedico este livro aos grandes mestres
de Estatstica e Ecologia Numrica que
tive ao longo de minha vida acadmica,
a saber: Prof. Antnio Carlos Leal de
Castro (UFMA), Prof. Dr. Miguel Petrere
Jr (UNESP), Prof Dr Sigrid Neumann
Leito (UFPE) e Prof. Dr. Luiz Carlos
Gomes (UEM).
Elies Idalino Rodrigues
NDICE
Bibliografia ......................................................................................................... 84
CAPTULO 1 - Conceitos iniciais
1.2 Amostragem
Uma das primeiras preocupaes ao se planejar uma pesquisa a metodologia que
ser adotada para se alcanar os objetivos. Muitas dessas pesquisas envolvem
amostragem, e esta deve ser feita com cautela; lana-se mo de amostragem quando
no possvel ou no eficiente amostrar todo um conjunto de dados (populao), o
11
que seria um censo. O nmero de elementos de uma populao inteira representando
por N, enquanto que o nmero de elementos de uma amostra o n.
As caractersticas estudadas da populao so chamadas parmetros, em letras latinas
maisculas, enquanto que as caractersticas da amostra so chamadas de estimadores
(variveis), em letras gregas minsculas.
) um estimador da mdia da populao ().
Exemplo: A mdia da amostra (X
Sobre o nmero de repeties na amostragem (o n amostral), falaremos mais adiante
(na seo sobre anlise multivariada), sendo este ponto essencial para a aplicao de
anlises estatsticas (tanto univariada como multivariadas). Em uma ANOVA, por
exemplo (teste estatstico descrito mais frente), deve haver pelo menos 10 repeties
para cada categoria a ser testada; essa a famosa regra do 10 citada por Gotelli e
Ellison (2011).
Um outro ponto importante em uma amostragem evitar o desbalanceamento (Fig. 2).
Uma amostragem balanceada aquela em que o nmero de repeties idntico para
todos os tratamentos, ou blocos etc. Amostras desbalanceadas so estatisticamente
mais difceis de serem utilizadas.
Figura 2 Exemplo de amostragem com repeties balanceadas e no-balanceadas: amostras
de gua de uma lagoa foram coletadas em 3 pontos durante 3 meses, para que fossem medidas
as concentraes de fsforo e nitrognio. O objetivo da pesquisa saber se h diferena nas
concentraes desses dois elementos entre os 3 pontos ou entre os 3 meses.
Aps coletados, os dados precisam ser tabulados (colocados em uma tabela), para
depois serem utilizados em um programa de estatstica. Cada programa exige um
formato especfico de tabela e antes de utilizar o programa preciso saber de que forma
ser a entrada de dados. Abaixo, foi criado um exemplo de tabela com os resultados da
amostragem balanceada do exemplo da lagoa (Tab. 1).
12
Tabela 1 Exemplo de tabulao de dados.
No exemplo acima, h dois fatores que esto sendo pesquisados, o fator PONTOS e o
fator MESES. Ou seja, essa pesquisa envolve as dimenses espacial e temporal. O
fator pontos possui 3 nveis (1 = ponto 1; 2 = ponto 2; 3 = ponto 3), e o fator meses
tambm possui 3 nveis (1 = janeiro; 2 = fevereiro; 3 = maro). Para testar diferenas
dentro dos fatores, esto sendo analisadas duas variveis da gua (fsforo e nitrognio).
13
Figura 3 Esquemas que ilustram pseudo-replicao em pesquisa experimental e em pesquisa
observacional, respectivamente.
14
para verificar de antemo tais comportamentos o diagrama de disperso (scatterplot),
no qual as duas variveis so plotadas, uma no eixo X e outra no eixo Y (Fig. 4).
Figura 4 Grfico de disperso entre duas variveis. possvel observar que no h uma
relao aparente entre as variveis nitrognio e fsforo, pois seu posicionamento est bem
espalhado, no formando uma reta crescente ou decrescente ou nenhum outro tipo de grfico
curvilneo conhecido.
Disperso entre N e P
200
180
Nitrognio (mg/L)
160
140
120
100
80
60
40
20
0
0 10 20 30 40 50 60 70 80
Fsforo (mg/L)
15
c) Moda
o valor que mais ocorre em um conjunto de dados. Ela pode ser nica ou haver mais
de uma moda (bimodal, multimodal).
Conforme a simetria de uma distribuio de dados, as medidas de posio aparecem
em pontos diferentes (Fig. 5).
Figura 5 Posio relativa das medidas de posio conforme a simetria da distribuio.
Obs.: Pelo fato de o erro-padro da mdia ser bem menor do que o desvio-padro
amostral, muitos preferem utiliza-lo para esconder a variao dos dados, porm essa
conduta condenvel. Somente deve ser utilizado o erro-padro da mdia quando se
tem uma amostra muito grande e que se queira destacar no a variao dentro dessa
amostra e sim o quanto sua mdia se aproxima da mdia populacional.
16
1.6 Fatores
As variveis categricas so denominadas de fatores. Os principais fatores na rea de
ecologia so o tempo (ms, dia), ou seja, os momentos de coleta, e os pontos de coleta
(locais). Assim, testa-se se ocorre variao temporal e/ou variao espacial.
i Classes fi
1 150 160 4
2 160 170 5
3 170 180 6
4 180 190 4
5 190 200 1
20
17
Figura 7 Exemplo de distribuio binomial.
18
Figura 9 Exemplo de distribuio qui-quadrado.
Ao se obter um conjunto de dados em uma pesquisa, a primeira coisa a ser feita ver
como eles esto distribudos (em histogramas de classes de frequncia) e se eles se
relacionam entre si (por meio de grficos de disperso, nuvem de pontos, scatterplots).
Somente depois de se conhecer perfeitamente o conjunto de dados de cada varivel
possvel se pensar o que ser feito com eles. Deve-se seguir o projeto de pesquisa o
19
mximo possvel, o que foi planejado de estatstica, mas desde que o conjunto de dados
seja adequado para o que foi planejado. Este um motivo legtimo para se modificar a
estatstica usada nos dados, e no pelo fato de haver utilizado um teste que aceitou a
hiptese nula.
Em uma distribuio normal, h uma previsibilidade de onde se encontram os dados
(Fig. 11).
Figura 11 Regra emprica em uma distribuio normal. Normalmente, 2 DP negativos costuma
ser o valor mnimo dos dados coletados e 2 DP positivos o valor mximo. Por esta razo, falamos
que uma forma de prever o DP (aproximado) dividir a amplitude dos dados por 4.
1.8 Estatstica
A Estatstica so mtodos matemticos utilizados para analisar dados de forma
independente da subjetividade humana, evitando-se, assim, a mera opinio pessoal do
pesquisador. Envolve desde conhecimentos de coleta de dados, processamento at a
sua correta anlise.
De uma forma mais restrita, alguns autores relacionam a estatstica apenas aos casos
em que h um teste de probabilidade embutido, um valor de P; neste caso restritivo,
um clculo de comparao entre os dados de sua amostra com valores idealizados
como naturais e expressos por meio das distribuies (padres) j abordadas.
No entanto, necessrio ter cautela com o uso da estatstica, pois ela sozinha no
capaz de produzir um bom trabalho cientfico; a viso e experincia do pesquisador se
fazem necessrias interpretao dos resultados obtidos por meio da estatstica.
De acordo com a quantidade de variveis dependentes (resposta), ela pode ser
univariada (apenas uma dependente) ou multivariada (mais de uma dependente), o que
ser abordado mais adiante.
20
1.8.1 Os mtodos cientficos
A cincia trabalha com vrios mtodos cientficos. Estes, segundo Gotelli e Ellison
(2011), podem ser:
21
Com a aplicao da frmula do teste T pareado (usado para esse tipo de exemplo),
obteve-se um valor calculado de t = - 2,96.
O valor tabelado (baseado em uma distribuio padro de dados, como a distribuio
normal) obtido da tabela na qual se baseou o referido teste (Fig. 12).
Figura 12 Exemplo de tabela de teste estatstico (tabela t de Student).
O valor tabelado para 9 graus de liberdade e 0,01 (1%) de erro 2,82. Esse valor do
grau de liberdade significa o nmero de elementos que so livres para variar. No
exemplo acima, so 10 cobaias, ento retira-se 1 desse total, ficando 10 1 = 9 graus
de liberdade. Um outro conceito de grau de liberdade o nmero de observaes
menos o nmero de parmetros j calculados; ou seja, para o clculo de mdia, se
divide por n, mas para o clculo da varincia dessa mdia, se divide por n-1, pois um
parmetro (a mdia) j foi calculado previamente.
Confrontando os valores calculado e tabelado, possvel aceitar ou rejeitar a hiptese
nula (Fig. 13).
Figura 13 Distribuio t de dados e posicionamento dos valores obtidos.
-2,96
22
Desta forma, quando se executa um teste estatstico mo, confronta-se um valor
calculado, obtido por meio da aplicao das frmulas do teste, com um valor tabelado
(esperado como limite para a aceitao da hiptese nula). No se consegue saber
exatamente o valor de P, mas se consegue dizer se h ou no uma significncia; j por
meio de um software (no computador), o resultado exibido mais exato, com o valor de
P (Fig. 14).
23
1.8.1.2 Outros mtodos
Dentre eles, podem-se citar os das Cincias Sociais e o de estimativa de parmetros
(quantifica-se a contribuio de cada fator em vez de testar hiptese).
24
amostra. Esta homocedstica e normal quando os valores para cada teste ficam com
P>0,05. Os testes mais comuns so citados a seguir.
25
uma diferena entre as mdias (uma mdia diferente da outra, sem importar quem
a maior), o teste bicaudal; por outro lado, se afirmarmos de antemo para que lado
ser essa diferena (uma mdia ser maior ou menor que a outra), teremos um teste
unicaudal (cuja chance de rejeitar H0 ainda menor).
Exerccios
26
CAPTULO 2 Reviso de Anlise Univariada
2.1 Testes T e Z
O teste T um teste para saber se duas mdias (variveis quantitativas) so
estatisticamente iguais ou diferentes. Sempre usado para duas mdias. Ele pode ser
de vrios tipos: homocedstico / heterocedstico, pareado (amostras relacionadas) /
no-pareado (amostras independentes), balanceado / desbalanceado.
O teste T indicado principalmente para amostras menores que 30, que teoricamente
no seguem a distribuio normal. Caso seja uma amostra acima de 30, pode-se utilizar
o teste Z. Um exemplo de teste T foi mostrado anteriormente.
O equivalente ao teste T na estatstica no-paramtrica so os testes de Wilcoxon
(pareado) e Mann-Whitney (no-pareado, teste-U).
27
Quadro 2 Caractersticas de uma ANOVA em relao a uma regresso e outros testes
semelhantes.
A ANOVA apenas aponta se h pelo menos uma das categorias que seja diferente das
demais. Caso isso seja comprovado pela ANOVA, ser necessrio executar um ps-
teste (teste a posteriori de comparao mltipla de mdias, testes post hoc). Em
Ecologia, costuma-se utilizar o Teste de Tukey.
A ANOVA ou anlises equivalentes so aplicveis quando se quer comparar mais de
duas mdias. At duas mdias, utiliza-se o Teste T ou equivalente. Mas a ANOVA
tambm pode ser usada para duas mdias.
importante aplicar o tipo correto de ANOVA para os dados disponveis, de preferncia
j planejar a pesquisa de forma que depois possa aplicar a ANOVA ideal. Isso evita um
maior nvel de erro no teste e valoriza ainda mais os dados coletados.
H vrios tipos de ANOVA. Para delineamentos fatoriais, se ela tem apenas um fator,
dita unifatorial (One Way ANOVA), se tem dois fatores, bifatorial (Two Way ANOVA) e
assim por diante. No caso de haver mais de um fator, caso seja percebida interao
entre os fatores, no se pode avaliar o efeito individual de cada fator, somente o efeito
conjunto.
28
A ANOVA tambm pode ser em blocos (grupos de tratamentos), quando j se conhece
uma relao entre tratamentos ou alguma diferena entre eles. Quando os blocos so
ao acaso, pode ser chamado tambm de split-plot. Pode ser tambm aninhada
(hierrquica, ramificada, nested); a ANOVA aninhada quando h uma diferenciao
prvia entre os nveis de um fator em relao aos nveis do outro fator (por exemplo,
duas mquinas sendo manipuladas por um trio de funcionrios diferentes cada uma).
preciso ter cuidado para no confundir ANOVA em blocos com ANOVA aninhada. Na
ANOVA em blocos, h uma perfeita repetio dos tratamentos, j na aninhada similar
mas no exatamente igual (Fig. 16).
Figura 16 Delineamento experimental: em blocos x aninhado.
Quando se tem pseudo-rplicas (ou dados pareados com mais de duas mdias) e o
pesquisador pretende diminuir seu efeito negativo, possvel aplicar a ANOVA de
medidas repetidas.
H alguns outros delineamentos mais comuns agronomia, como o de parcelas
subdivididas, no qual sorteiam-se os tratamentos principais e depois os tratamentos
secundrios so aplicados dentro dessas parcelas.
Ela pode ser dividida tambm em modelo I (efeito fixo), quando os tratamentos so o
total dos possveis planejados ou que existem, ou modelo II (efeito aleatrio), quando
se sorteiam alguns tratamentos para representar todos os possveis de uma populao
(exemplo: sortear algumas escolas para se testar algo de forma que seja extrapolado
para todas), geralmente usado em Gentica, ou misto (quando, por exemplo, os
tratamentos so fixos mas os blocos so aleatrios, ou vice-versa). No modelo misto,
pode ocorrer, por exemplo, de um fator com efeito fixo e outro com efeito aleatrio.
Por no saber escolher o tipo correto de ANOVA, muitos pesquisadores acabam
fazendo ANOVA comum, o que gera um prejuzo na anlise dos dados, por no serem
aproveitadas informaes importantes nos clculos.
Os delineamentos apresentados acima se aplicam principalmente a pesquisas
experimentais, mas tambm podem acontecer em pesquisas observacionais, como o
caso da maioria dos trabalhos em Ecologia.
Se, em uma pesquisa experimental, h uma ANOVA cujo um dos tratamentos controle
(branco), aconselhvel que esse grupo controle tenha mais repeties que os demais
grupos, mesmo isso levando a um desbalanceamento do experimento. Exemplo: Em
um experimento no qual h 5 grupos, um deles sendo controle e os demais tendo 10
repeties (nmero mnimo admissvel em uma ANOVA), o nmero mnimo de
repeties no grupo controle ser dado pela frmula abaixo:
29
Exemplo de uma ANOVA:
Desejando saber se o tamanho do bico (cm) de trs espcies de aves da mesma famlia
era ou no estatisticamente diferente, um pesquisador piauiense resolveu medir, ao
acaso, 7 aves de cada espcie, sendo todos os indivduos notadamente j adultos (Tab.
4).
Tabela 4 Dados de tamanho do bico (cm) de 3 aves piauienses.
Para tanto, aps confirmar os pressupostos para aplicao de uma ANOVA, ele
executou esse teste e obteve o seguinte resultado (Fig. 17).
30
2.3 Correlao
Um teste de correlao a comparao entre duas variveis quantitativas, ponto a
ponto. Nele, nenhuma das variveis tida como dependente (resposta). Para se realizar
a correo, preciso antes ver se a disperso dos dados aponta alguma tendncia
(correlao linear, parablica, hiperblica). Caso haja uma tendncia linear ou no seja
observada tendncia, aplica-se a correlao linear, sendo o teste mais comum o de
Pearson (se os dados forem paramtricos) ou de Spearman (caso no sejam
paramtricos e nem seja possvel normaliz-los). Se no for linear, preciso transformar
os dados para aplicar Pearson ou Spearman.
A correlao medida entre 0 (nenhuma correlao) e 1 (correlao total), podendo ser
positiva (as variveis aumentam juntas) ou negativa (quando uma varivel aumenta a
outra diminui).
Exemplo: Para testar se o comprimento das folhas de uma rvore tem relao com a
largura dessas folhas, um pesquisador coletou aleatoriamente 10 folhas e mediu suas
dimenses (Tab. 5).
Tabela 5 Dados das dimenses de 10 folhas.
Dimenses (cm)
Comp Larg
3,0 1,0
2,0 1,0
5,0 2,0
10,0 2,0
6,0 4,0
7,0 3,0
7,0 5,0
10,0 2,0
2,0 1,0
6,0 2,0
Supondo que o pesquisador observou que os dados so normais, o mesmo aplicou uma
correlao de Pearson (Fig. 18).
Figura 18 Resultado da correlao de Pearson.
31
2.4 Regresso
O teste de regresso semelhante ao de correlao, porm nele temos uma varivel
dependente (resposta), sempre uma, que modificada pela(s) varivel(is)
independente(s). Quando h apenas uma varivel independente, a regresso dita
simples; quando h mais de uma, ela denominada mltipla. Assim, possvel de
construir uma frmula (equao) que represente o grfico de regresso. Mais uma vez,
preciso ver a disperso dos dados para saber se o melhor teste a ser empregado o
de regresso linear ou no.
Uma outra diferena que a regresso uma estatstica paramtrica, portanto exige
que seja obedecido o requisito de independncia dos dados (rplicas e no
pseudorplicas), de normalidade e homocedasticidade.
Exemplo: testar se existe uma regresso entre a quantidade de rao disponibilizada
para os girinos e o tamanho final deles ao atingirem determinada fase de
desenvolvimento (Tab. 6); caso haja regresso, possvel determinar a equao dessa
regresso. Se for uma regresso linear, teremos a equao de uma reta (Fig. 19).
Tabela 6 Dados de tamanho dos girinos em relao quantidade de rao.
Quantidade
diria de rao Tamanho do
(mg) girino (cm)
100 2
120 5
140 7
160 8
180 9
200 10
100 3
120 6
140 6
160 7
180 9
200 9
32
Observa-se que h uma regresso linear (P=0,0000) e que possvel fazer uma
modelagem por meio da frmula da reta (Y = 0,07 * X 3,21). Desta forma, colocando-
se a quantidade de rao no valor de X possvel prever o tamanho dos girinos nessa
fase de desenvolvimento.
Alguns testes estatsticos so englobados no conceito de GLM (General Linear Models,
Modelos Lineares Gerais); so eles: ANOVA, ANCOVA, MANOVA, MANCOVA,
regresso, teste-t e teste-F. Alguns programas de estatstica j trazem tais testes em
uma seo parte (GRAFEN; HAILS, 2002).
Exerccios
4) Considerando as informaes em cada situao abaixo, defina qual seria o melhor
mtodo estatstico (teste) para ser empregados na anlise dos resultados (pode ser
consultada o guia do Captulo 7 deste livro, bem como o texto do contedo):
a) Em uma pesquisa para saber se um determinado tipo de rao (A) era mais eficiente
que um outro tipo de rao (B), um cientista resolveu marcar e pesar (massa inicial), em
kg, 20 araras. Em um primeiro momento, cada uma das 20 araras foi alimentada
somente com a rao A. Efetuou-se novamente a pesagem. Aps alguns dias at que
as araras voltassem ao peso inicial com rao comum, todas comearam um novo
perodo de alimentao especial, s que desta vez com a arao B. Efetuou-se, ento,
uma nova medio nas araras. Como saber se uma rao ou no mais eficiente que
a outra em termos de ganho de massa corprea?
b) Um pesquisador amigo do anterior resolveu realizar a mesma pesquisa porm com
uma metodologia diferente. Ele resolveu marcar e pesar (massa inicial), em kg, 20
araras, que foram separadas em 2 grupos de 10 indivduos cada. Um grupo foi
alimentado somente com a rao A e o outro somente com a rao B. A quantidade de
rao era sempre a mesma em cada refeio. Os dados apresentaram distribuio
normal. Como saber se uma rao ou no mais eficiente que a outra em termos de
ganho de massa corprea?
c) Em uma pesquisa de campo, pretendeu-se saber se havia diferena na quantidade
de silcio (em mg/L) entre 4 pontos de coleta em uma barragem. Esses pontos foram
identificados por meio de GPS e foram revisitados quinzenalmente durante um ano. Os
dados, considerados independentes, inicialmente no apresentaram distribuio
normal, porm, aps transformados, a normalidade foi conseguida, bem como a
homocedasticidade. De que forma possvel saber, estatisticamente, se h diferena
entre os valores de concentrao de silcio dos 4 pontos?
d) Um pesquisador dispunha de uma tabela de dados que apresentava 5 colunas, 4
delas com dados de variveis explanatrias contnuas e a outra coluna com dados
biolgicos (varivel resposta), tambm quantitativos e contnuos. Os dados
apresentavam distribuio normal. De que forma possvel testar se as variveis
explanatrias exercem influncia sobre a varivel resposta, considerando que a relao
entre elas linear?
e) Uma ecloga, com o intuito de testar se a temperatura (C) de um lago se relacionava
com o pH, resolveu medir essas duas variveis por 20 dias em um rio que passava
prximo a sua casa, realizando duas medies dirias, uma no final da manh e outra
noite. Aps uma tentativa malsucedida de normalizar os dados, ela resolveu utiliza-los
como estavam (dados brutos). Qual seria a anlise mais indicada neste caso,
considerando que no se soubesse se o pH exerce influncia na temperatura ou vice-
versa?
33
f) Considerando os dados do caso anterior, porm se fossem normais e se soubesse
que a temperatura afeta de forma linear o pH, qual seria ento a anlise mais
apropriada?
g) Jorge Maurcio, fazendo um mestrado em Ecologia, pretendia compreender o que
mais influencia os peixes em 3 barragens de sua regio, se eram as diferenas entre
perodo de cheia e de seca ou a intensidade de pesca. Ento, resolveu realizar uma
pesquisa de 12 meses, sendo que em cada ms ele coletava peixes em cada uma das
3 barragens, com um mesmo esforo amostral, e fazia um levantamento da intensidade
de pesca realizada em cada uma naquele ms (dados disponveis em uma cooperativa
de pescadores da regio). Os dados so independentes, homocedsticos e normais. De
que maneira pode ser feita essa anlise?
h) Ruth e Raquel, duas irms, dispem de 100 observaes feitas em cada uma de duas
rvores de seu quintal (um p de manga e um p de caju). Elas observavam, todo dia,
com um mesmo esforo amostral, quantas formigas passavam no comeo da tarde (no
perodo entre 14h:00min e 15h:00min) em um dos galhos de cada uma dessas duas
rvores. E elas revezavam entre elas todos os dias, um dia era Ruth que ficava no p
de manga e no outro era Raquel. Considerando que os dados apresentam uma
distribuio normal (Lilliefors, p>0,05) e possuem varincias homogneas, qual(is)
(so) o(s) teste(s) mais indicados para se ter um melhor aproveitamento estatstico
desses dados?
i) Considerando o caso do item e, se os dados fossem normais mas ainda no se
soubesse se a temperatura que exerce influncia no pH ou vice-versa, qual seria ento
o teste mais indicado?
5) Utilize mais uma vez a tabela da questo 3, e realize os testes mais apropriados em
algum programa de estatstica, conforme o caso:
a) Testar se existe relao entre a temperatura (C) e a umidade do ar (%).
b) Testar se a pluviosidade (mm) influencia o nmero de rvores em cada local.
c) Testar se existe relao entre a umidade do ar (%) e a pluviosidade (mm).
34
7) Em um experimento, pretende-se saber se as mdias dos tratamentos A, B, C e D
so diferentes, ou seja, se a temperatura produziu alguma influncia sobre o tamanho
das lagartas. Desenvolva a anlise em algum programa de estatstica e apresente os
resultados. Foram medidas 100 lagartas, 25 para cada tratamento, sendo que o
tamanho inicial (cm) era o mesmo, bem como a alimentao foi a mesma para todas.
Considere que todas comeram igualmente a quantidade de alimento disponibilizada.
Considere a independncia dos dados, ou seja, que a colocao do experimento tenha
sido feita de forma coerente para garantir isso).
Tratamentos
A B C D
15C 20C 25C 30C
1,4 3,0 4,6 1,7
1,5 3,2 4,9 1,9
1,2 2,6 4,0 1,5
1,1 2,4 3,7 1,4
1,1 2,4 3,7 1,4
1,3 2,8 4,3 1,6
1,4 3,0 4,6 1,7
1,5 3,2 4,9 1,9
1,3 2,8 4,3 1,6
1,7 3,6 5,5 2,1
1,8 3,8 5,8 2,2
1,4 3,0 4,6 1,7
1,2 2,6 4,0 1,5
1,3 2,8 4,3 1,6
1,4 3,0 4,6 1,7
1,2 2,6 4,0 1,5
1,4 3,0 4,6 1,7
1,5 3,2 4,9 1,9
1,3 2,8 4,3 1,6
1,7 3,6 5,5 2,1
1,8 3,8 5,8 2,2
1,4 3,0 4,6 1,7
1,2 2,6 4,0 1,5
1,3 2,8 4,3 1,6
1,4 3,0 4,6 1,7
35
CAPTULO 3 Medidas de semelhana ecolgica
Uma anlise de agrupamento ou uma anlise multivariada pode ser uma anlise
comparativa dos objetos (anlise em modo R) ou dos descritores (anlise em modo Q).
No modo R, ordenam-se os objetos (pontos de coleta, meses de coleta etc), enquanto
que no modo Q, so ordenadas as variveis envolvidas (bitias, abiticas).
Normalmente, as linhas (raws) so os objetos (pontos, meses) e as colunas so os
descritores (as variveis ambientais, as espcies). A planilha de dados deve ser feita
com base no formato requerido pelo programa. Normalmente os programas aceitam a
importao de dados do Excel, desde que devidamente formatados.
preciso tambm observar se a tabela de dados homognea (contingncia) ou
heterognea (descritores com unidades diferentes).
Alm dos modos R e Q, Cattell (1966 citado por LEGENDRE; LEGENDRE, 1998) ainda
definiu outros quatro modos (Fig. 20): O (entre tempos, com base em vrios descritores
e um s objeto), P (entre descritores, baseado em vrios tempos e um s objeto), S
(entre objetos, com base em vrios tempos e um s descritor) e T (entre tempos, com
base em vrios objetos e um s descritor).
Figura 20 A caixa tridimensional de dados (objetos x descritores x tempos).
36
3.1 Para estudos em modo Q
3.1.1 Coeficientes de similaridade
H vrios ndices possveis, cada um com suas caractersticas e sendo indicado para
um tipo de dados. Segundo Valentin (2000), os ndices que incluem dupla-ausncia no
so indicados para dados ecolgicos, pois a ausncia da espcie naquele ponto ou
momento de coleta pode ser por conta da metodologia ou outros fatores.
Ponto A
Ponto_A Ponto_B 1 0
Especie_1 1 0 Ponto 1 a b
Especie_2 0 1 B 0 c d
Especie_3 1 1
Especie_4 0 0
Especie_5 0 1 Ponto A
Especie_6 1 1 1 0
Especie_7 1 1 Ponto 1 3 2
Especie_8 0 0 B 0 1 2
37
Para dados quantitativos, h tambm vrios ndices de similaridade, com clculos bem
mais complexos (Legendre & Legendre, 1998):
Incluindo dupla-ausncia Sem incluir dupla-ausncia
ndice de Gower ndice de Czekanowski / Steinhaus
(semelhante ao de Sorensen)
A distncia de Bray-Curtis, por outro lado, pouco afetada pelas espcies raras, j que
no inclui dupla-ausncia. Por isso, mais indicada para dados ecolgicos. Ela equivale
ao coeficiente de Czekanowski (Valentin, 2000).
38
3.2.2 Associaes de espcies
muito comum haver espcies raras, e nos dados de abundncia aparecem muitos
zeros. No aconselhvel aplicar Pearson nem Spearman neles, pois para isso seria
necessrio modifica-los eliminando as espcies raras ou eliminar os zeros como se
fossem dados faltando (Valentin, 2000). Por isso, adota-se a tcnica de considerar
somente presena e ausncia e testa-se, ento, associaes de espcies. H duas
maneiras principais para se fazer isso:
a) Coeficiente de coincidncia (Dice, o mesmo de Sorensen)
b) Teste de qui-quadrado
Exerccios
10) O que um estudo em modo R?
11) O que distncia euclidiana?
12) Diferencie os ndices de Bray-Curtis e Sorensen.
13) Para que servem os coeficientes de similaridade e de distncia?
14) Observando as frmulas de Jaccard e Dice, qual seria a distino matemtica entre
ambas?
39
CAPTULO 4 - Matrizes para anlise multivariada
Matriz um conjunto retangular de nmeros (elementos) organizados em linhas e
colunas. As linhas e colunas representam categorizaes desses elementos, tornando-
se possvel organiza-los de forma simples no espao bidimensional como em uma
tabela.
Usam-se matrizes para dados multivariados porque tm linhas e colunas e suas
notaes podem ser usadas na maioria das frmulas da estatstica univariada.
Considere as trs variveis abaixo, medidas em um ambiente aqutico (Tab. 7):
Tabela 7 Exemplo de dados ambientais (temperatura, pH e luz) medidos em 5 pontos (A, B, C,
D e E).
Variveis abiticas
Varivel contnuas
categrica 1 2 3
PONTOS Temperatura pH Luz
A 30.0 7.6 100.0
B 31.0 8.2 105.0
C 29.5 7.3 110.0
D 28.0 7.1 102.0
E 28.8 7.2 104.0
A partir destes dados, possvel formar matrizes, iguais quelas utilizadas na estatstica
multivariada, empregando-se as frmulas de varincia, covarincia e correlao. Tais
matrizes comparam as variveis com elas mesmas, e por esta razo so matrizes
simtricas em relao diagonal principal.
Os dois principais tipos de matrizes usadas na anlise multivariada so:
a) Matriz de varincia e covarincia (C), tambm chamada de disperso.
40
Exerccios
15) Os indivduos de 5 espcies foram inventariados em 10 locais e os dados foram
tabulados. Construa uma matriz de correlao para as variveis abaixo e depois
descreva a matriz com base nos tipos de dados que a geraram.
Espcies
Locais
sp1 sp2 sp3 sp4 sp5
1 5 0 40 39 20
2 50 90 130 42 11
3 143 276 316 0 56
4 80 150 190 5 12
5 82 154 194 0 0
6 70 130 170 12 49
7 44 78 118 17 37
8 150 290 330 0 43
9 48 86 126 26 50
10 61 112 152 37 18
41
CAPTULO 5 Anlise Multivariada
(multidimensional)
5.1 Introduo
H vrios entendimentos diferentes sobre o que seja uma anlise multivariada. Alguns
autores as consideram qualquer anlise em que vrias variveis so includas. Para
outros autores, como Gotelli e Ellison (2011), por exemplo, nas anlises multivariadas,
temos mais de uma varivel dependente (resposta) e tais variveis dependentes so
relacionadas entre si; por exemplo: peso e altura de um mesmo indivduo, espcies de
uma mesma comunidade etc. Caso no haja uma relao entre as variveis
dependentes, os testes podem ser univariados, considerando cada dependente por vez.
Para esses autores, no importa o nmero de variveis independentes, podendo ser at
mesmo uma s. Considerando essa controvrsia do que seja uma anlise multivariada,
fica difcil, s vezes, enquadrar como multivariadas algumas anlises de componentes
principais (ACP) ou regresses mltiplas de uma s varivel dependente.
Na anlise multivariada, normalmente h pelo menos duas variveis dependentes. Mas
possvel tambm realizar anlise multivariada quando se tem uma grande quantidade
de variveis (sem considerar se h ou no dependncia entre elas, como nas tabelas
de contingncia).
Essas anlises no so exatamente estatsticas, uma vez que no envolvem um valor
de P (probabilidade). No entanto, nas ordenaes, por exemplo, possvel aplicar seus
resultados (eixos) em testes estatsticos e ento se obtm um P.
Na estatstica univariada, o n amostral ideal varia muito dependendo do conjunto de
dados e da anlise a ser empregada, sendo n = 30 considerado um mnimo para alguns
autores e em alguns programas (softwares) geralmente o tamanho amostral mnimo
para que o teste seja rodado de n = 5, o que no significa que uma quantidade
aceitvel para se ter um resultado estatisticamente importante. J com relao ao
nmero mnimo de observaes para se aplicar uma anlise multivariada, Sartorio
(2008) discorre que, em tcnicas de ordenao, preciso n - p > 50, ou seja, o nmero
total de observaes menos o nmero de variveis deve ser maior que 50 observaes.
J em tcnicas de comparao de grupos (MANOVA, Anlise Discriminante), preciso
considerar o n de cada grupo, que no pode ser inferior a 20.
Considerando essa regra do n p > 50, em uma tabela de dados para anlise
multivariada, deve haver muitos objetos para poucos descritores, ou seja, o formato da
tabela ideal o mais retangular possvel, quanto mais repeties melhor.
Nas anlises multivariadas, exigida a normalidade (distribuio normal multivariada ou
multinormal) quando envolve testes como Pearson (Fig. 21). Por isso, costuma-se fazer
a estandardizao e a transformao na planilha de dados originais antes de aplica-la
a tais anlises. Essa normalidade geralmente ignorada. Embora haja vrios testes
(como o de Doornik & Hansen) para calcula-la, estes so conflitantes e ainda no se
chegou a um consenso. Ento, ao menos preciso testar a normalidade individual de
cada varivel, embora nem sempre isso garanta a multinormalidade.
42
Figura 21 - Comparao entre a normalidade univariada e a multivariada. O mais prximo que
se pode visualizar de uma distribuio multivariada na verdade uma bivariada (sino 3D).
43
Tabela 8 Medidas de distncia (dissimilaridade) mais comumente usadas por eclogos.
44
H vrios 3 tipos de anlises multivariadas:
a) Comparao de mdias multivariadas (MANOVA, MANCOVA, PERMANOVA,
ANOSIM)
b) Classificao (anlise de agrupamento e anlise discriminante)
c) Ordenao
* Anlise indireta de gradiente (PCA, AF, AC, PCoA, MDS, NMDS)
* Anlise direta de gradiente (RDA, CCA e CCorA)
45
Quadro 3 Testes utilizados para comparao de mdias univariadas e multivariadas.
NMERO DE
MDIAS (=N DE
UNIVARIADA MULTIVARIADA
NVEIS DOS
FATORES)
Independncia dos dados
Independncia dos dados Igualdade de matrizes de
covarincia / esfericidade
Igualdade de varincias
(teste M de Box, que a razo
Pressupostos (Fmax, Bartlett, Levene)
de verossimilhana, extenso
Normalidade (G1 e G2, KS, do de Bartlett)
Lilliefors, Shapiro-Wilk)
Multinormalidade (teste de
Doornik & Hansen)
2 mdias Teste T Teste T2 (Hotelling)
ANOVA MANOVA
(comparam-se mdias) (comparam-se centroides)
SQ dentro
SQPC dentro (matriz E)
> 2 mdias SQ entre
SQPC entre (matriz H)
Estatstica F (resultado)
4 estatsticas (semelhantes)
- Lambda de Wilk
- Trao de Pillai (mais sensvel)
- Trao de Hotteling-Lawley
- Maior raiz de Roy
Ps-testes:
Ps-testes:
- Tukey
- Teste T2 corrigido por
- LSD (teste T) Bonferroni (intervalos
- Bonferroni simultneos)
- Anlise discriminante
(Fonte: GOTELLI; ELLISON, 2011 - Informaes)
46
Da mesma forma que para a ANOVA existe uma variao que chamamos de ANCOVA,
para a MANOVA tambm existe a MANCOVA. Na MANCOVA, as variveis
dependentes (relacionadas entre si) sofrem influncia tanto do fator (varivel
independente categrica) como de uma outra varivel (independente contnua).
A ANOSIM (anlise de similaridade) uma alternativa no-paramtrica para a
MANOVA, porm s serve para delineamentos de 1 fator ou de 2 fatores aninhados. A
PERMANOVA (MANOVA por permutao) semelhante ANOSIM, porm uma
anlise mais robusta.
Quando o foco da pesquisa mais confrontar as variveis do que testar grupos, faz-se
uma anlise multivariada de classificao (que classifica descritores ou objetos em
grupos) ou de ordenao (que ordena descritores ou objetos em gradientes). o que
veremos a partir de agora.
Na classificao, os dados so geralmente discretos, enquanto que, na ordenao, so
geralmente contnuos.
5.3 Classificao
H dois tipos de classificao: anlise de agrupamento e anlise discriminante.
47
Segundo Nonato (2015), a anlise de agrupamento deve considerar:
a) Medidas de similaridade ou distncia
Podem ser usadas quaisquer medidas, como Jaccard, Sorensen (Dice), para dados
qualitativos (binrios), ou Distncia Euclidiana, Bray-Curtis (para dados quantitativos,
contnuos). O coeficiente de Sorensen o mais utilizado para dados binrios porque
enfatiza as coincidncias e as espcies dominantes.
b) Algoritmo de aglomerao
UPGMA (mtodo da associao mdia, para amostras balanceadas), WPGMA (mtodo
dos pesos proporcionais, para amostras no-balanceadas), Wards (mtodo da varincia
mnima), Neighbor-joining (mais parcimonioso, usado na Filogenia). Alm desses, h o
mtodo de ligaes simples, que apresenta fragilidades, e o mtodo de ligaes
completas.
Conforme Gotelli e Ellison (2011), uma anlise de agrupamento pode ser descrita com
base em dois critrios:
a) Aglomerativas x Divisivas
Nas aglomerativas, os objetos comeam separados e vo sendo agrupados conforme
as semelhanas at ficarem em um s grupo maior. Geralmente formam-se muitos
grupos com poucos objetos em cada.
Nas divisivas, os objetos comeam juntos em um s grupo e vo sendo separados
conforme as diferenas at que cada um forme um grupo individual. Geralmente,
formam-se poucos grupos, com muitos objetos em cada.
O resultado final semelhante em ambos os mtodos.
b) Hierrquicas x No-hierrquicas
Nas hierrquicas, h uma hierarquia externa a priori, como o sistema de Lineu (Fig. 24).
So as mais usadas.
Figura 24 Hierarquia do sistema de classificao de Lineu.
48
Figura 25 Exemplo de dendrograma obtido com anlise de agrupamento. O coeficiente usado
foi o de Bray-Curtis e o algoritmo de aglomerao foi o UPGMA. possvel observar que as
reas B e E formaram um grupo bem semelhante (cerca de 80% de semelhana), e que a rea
C se mostrou bem diferente das demais em relao s espcies, com uma semelhana de pouco
mais de 11%.
Nas anlises de agrupamento, testes de Monte Carlo e bootstrap so usados para testar
a significncia estatstica da diferena entre grupos. possvel tambm fazer um teste
de coeficiente de correlao cofentica, que a comparao entre a matriz de
similaridade original e a matriz produzida com base no dendrograma escolhido.
Para se obter uma interpretao ecolgica mais apurada, as parties do agrupamento
de uma matriz podem ser usadas para comparar com a outra, por regresso, correlao
ou algum outro teste estatstico. Esse tipo de procedimento tambm pode ser aplicado
nas ordenaes (vista mais adiante).
49
Figura 26 Exemplo de representao grfica de uma anlise discriminante. O resultado pode
ser apresentado em forma de tabelas, semelhante ao de uma ANOVA, ou em forma grfica.
5.4 Ordenao
As tcnicas de ordenao (anlise de gradiente) projetam (plotam) em um espao
reduzido (bidimensional) os objetos ou os descritores, enfatizando os gradientes,
conforme sua distncia. Caso a ordenao evidencie grupos, da mesma forma que nas
tcnicas de agrupamento, preciso que o eclogo explique que grupos so esses, que
fatores os principais eixos da ordenao representam.
50
Desta forma, uma ordenao tem a finalidade de pelo menos uma das funes: reduzir
o nmero de variveis originais, evidenciar padres ou separar amostras.
A ordenao pode ser classificada em dois tipos: (a) anlise indireta de gradiente e (b)
anlise direta de gradiente.
51
nem menor que p (tabela tem de ser retangular), porm isso afetaria mais os ltimos
eixos, que so descartveis, por terem uma importncia residual em termos de varincia
dos dados.
H dois tipos de matrizes que podem ser utilizadas em uma ACP:
Figura 27 Processo de construo de um eixo principal que resume 2 variveis originais, para
efeito de entendimento, j que visualmente no possvel explicar com mais de duas variveis
originais ao mesmo tempo, embora matematicamente a ACP normalmente funcione com esse
tipo de situao.
52
Os eixos (ortogonais entre si) so novas variveis fantasmas (variveis-chave) sem
correlao, o que permite serem usadas em regresso mltipla, ANOVA (no
apresentam multicolinearidade).
O autovetor do eixo formado por coeficientes (cargas, factor loadings, saturaes)
para cada varivel naquele eixo. A coordenada de cada objeto nesse eixo, calculada
por meio da frmula com as cargas do autovetor, so os scores.
Uma varivel (descritor) s pode ser considerada importante para o eixo se 2/m,
sendo d a coordenada dessa varivel no eixo e m o nmero de variveis na ACP.
Uma ACP no mostra a relao entre variveis biticas e abiticas, e no se deve
colocar nela espcies, pois muito afetada pelas raras (tabela com muitos zeros) e
eliminar as espcies raras muito subjetivo.
53
diagrama de Shepard (usando, por exemplo, o teste de esfericidade de Bartlett), porm
exige algo raro: normalidade de todos os descritores.
Os valores (cargas) que aparecem para cada varivel em cada componente so usados
para calcular o autovetor do componente (frmula apresentada na explicao de
ordenao). Alguns autores escolhem um corte para interpretar o eixo (os 3 maiores
positivos e os 3 maiores negativos; os maiores que 0,70 etc) mas h controvrsia se
deve haver corte. Uma coisa certa: se for usar o componente para testar hiptese
(ANOVA, regresso), tem de usar todos.
O tamanho do eixo (componente) o autovalor, que a proporo da varincia
explicada por cada componente.
Ao final da ACP, aconselhvel a aplicao de um teste de significncia baseado em
modelo nulo (citado acima). Variveis que ficarem de fora (por algum motivo), podem
ser inseridas mo nos resultados pelas suas coordenadas.
Abaixo, colocamos como exemplo um resultado de ACP (Fig. 29), feita com os dados
coletados em duas represas, A e B (Tab. 9).
Tabela 9 Para caracterizar o ambiente em duas represas (A e B), foram feitas medies de
variveis limnolgicas em 25 pontos, alguns deles na represa A e outros na represa B. As
variveis medidas foram: condutividade eltrica (Cond, em S/cm), alcalinidade (Alc, em
mgCaCO3/L) e alguns nutrientes (em g/L): o nitrotnio inorgnico (N_in), o nitrognio total (N_t),
o ortofosfato (PO4) e o fsforo total (P_t).
Ponto Cond alcal Ninor Ntot Porto Ptot
A 1817,1 157,3 63,2 598,2 12,6 33,1
A 341,1 173,8 73,7 417,7 10 16,3
A 330,3 165 73,7 588,7 11,3 29,9
A 1773 148,5 84,2 598,2 10 29,1
A 756,9 150,7 94,7 498,45 8,7 17,9
A 150,3 11 94,7 598,2 11,3 37,1
A 55,8 17,6 147,2 826,2 10 36,3
A 1207,8 140,8 168,2 569,7 23 33,9
A 230,4 173,8 336,2 484,2 6,1 12,3
A 84,6 53,9 346,7 579,2 7,4 17,9
A 200,7 144,1 399,2 503,2 4,8 12,3
A 132,3 82,5 577,7 854,7 20,4 31,5
A 270,9 119,9 609,2 892,7 39,9 47,5
A 345,6 196,9 630,2 740,7 4,8 8,3
A 1163,7 125,4 724,7 1139,7 124,4 109,1
A 227,7 106,7 777,2 1073,2 49 69,9
B 48,33 21,12 215,471 491,724 21,648 17,756
B 62,352 29,15 280,193 568,712 24,755 19,3
B 40,5 26,301 424,148 973,64 16,032 18,668
B 109,296 36,85 508,978 826,276 11,716 21,572
B 88,884 34,1 514,826 649,69 12,678 18,124
B 96,57 31,625 604,003 1065,73 22,727 36,012
B 99,216 37,675 680,611 998,587 15,434 17,284
B 133,83 27,5 684,296 1273,12 44,775 53,988
B 135,927 42,35 999,443 2062,51 33,79 66,988
54
Figura 29 Exemplo de ACP feita no PC-Ord. Por meio do critrio de Brocken-stick, foram
considerados somente os 2 primeiros eixos. O eixo 1, que responde por 49,8% da varincia dos
dados, foi mais influenciado pelos valores de nitrognio, enquanto que o eixo 2 (responsvel por
29,7% da varincia) sofreu mais influncia da condutividade eltrica e da alcalinidade. A
separao entre as represas A e B ficou mais bem evidente no eixo 2. Desta forma, pode-se
concluir que a condutividade eltrica e a alcalinidade so os principais responsveis pela
diferenciao das duas reservas.
Igualmente ACP, reduz o nmero de variveis, porm de forma diferente; nela, usam-
se somente as variveis com fatores perceptveis por trs delas, enquanto que na ACP
a reduo por criao de novas variveis fantasmas (eixos, componentes principais).
Uma vez que trabalha com distncia euclidiana, deve ser usada com dados
quantitativos.
H 3 tipos de anlise fatorial: anlise fatorial stricto sensu (AF), anlise fatorial de
correspondncia (AFC) e anlise fatorial de postos (AFP). Originalmente, a anlise de
correspondncia foi criada para tabelas de contingncia, e se baseia nas frequncias.
55
Figura 30 Formao de fatores comuns por meio de uma AF. Os fatores nicos so
descartados.
y1 = 10.4 x f1
y2 = 1.5 x f1 0.3 x f2
y3 = 4.0 x f1 1.7 x f2
y4 = 6.1 x f2
y5 = - 9.3 x f2
56
5.4.1.2.2 Anlise Fatorial de Correspondncia (AFC)
Tambm chamada de anlise de correspondncia (AC, CA), anlise de tabela de
contingncia, anlise RQ, mdias recprocas (RA).
Semelhante ACP (com autovetores e autovalores), porm pode plotar objetos e
descritores ao mesmo tempo, em um bi-plot (Figs. 32 e 33). Serve para qualquer tipo de
dados (qualitativos, quantitativos, binrios) e pode incluir espcies raras, pois os dados
precisam ser homogneos mas no exige que haja normalidade. A homogeneidade
pode ser advinda do fato de serem de mesma natureza como nas tabelas de
contingncia, ou transformados, ou estandardizados ou colocados em classes
ordenadas. Esta anlise pode ser feita com dados de contingncia (contagem ou
binrios), sendo uma tabela do tipo espcie x local; na verdade, inicialmente foi pensada
para esta finalidade, at porque nesse tipo de tabela ocorrem muitos zeros, o que
inviabiliza uma ACP. Ela pode tambm ser feita com dois conjuntos de descritores
(biticos e abiticos), porm o mais adequado neste caso uma anlise de
correspondncia cannica (CCA), feita com a agregao da ordenao cannica AFC.
Enquanto que a ACP geralmente feita com distncia euclidiana, a AFC feita com
distncia qui-quadrado (frequncias) e padronizar os objetos pela amplitude
(MAGNUSSON; MOURO, 2005).
Figura 32 - Exemplo de Anlise de Correspondncia (AFC). Uma espcie foi analisada em 100
locais, sendo estes agrupados em frio (1), mdio (2) e quente (3), conforme a temperatura
medida. A presena da espcie em questo foi codificada como ausente/rara (0), abundante (+)
e muito abundante (++). Os resultados da AC so mostrados com os 2 primeiros eixos (os que
mais explicam a variao dos dados, neste caso, somaram 70,1%). Uma AC pode ser plotada
com os dados das linhas no centro (a), escalonamento tipo I, ou os dados das colunas no centro
(b), escalonamento tipo II; isso no interfere no resultado. Percebe-se que as maiores
abundncias esto ligadas aos locais mais frios.
57
Figura 33 Exemplo de anlise de correspondncia (CA). (A) locais, (B) espcies e (C) bi-plot
de locais e espcies.
A distribuio das espcies para esta anlise deve ser unimodal (em forma de sino) e
quase normal. Esses dados de distribuio de espcies ao longo de gradientes
ambientais, que so unimodais com um timo e os extremos, costumam apresentar o
chamado efeito em arco (curva, ferradura, Guttman) e alguns eclogos preferem
elimin-lo (linearizando os dados), o que se denomina de "detrending"
(destendenciamento).
Antigamente, essa correo era feita pela DCA (anlise de correspondncia
destendenciada), porm isso foi criticado e desaconselhvel, uma vez que modifica
muito as distncias originais, distorcendo demais a ordenao em funo dessa
correo de arco.
Na verdade o uso de distncia qui-quadrada para espcies distribudas de forma
unimodal que gera o efeito de arco, como na CA. De fato, quase todas as distncias,
nessas condies, geram esse efeito, mas h algumas distncias alternativas, que so
aconselhveis para corrigir o problema.
A bondade de ajuste usada para testar o ajuste da CA.
58
5.4.1.3 Anlise em Coordenadas Principais (PCoA)
semelhante ACP, porm, segundo Magnusson e Mouro (2005), com o uso de
outros tipos de distncia (em vez da distncia do coeficiente de correlao de Pearson)
e com a matriz de associao transformada para possuir propriedades mtricas. Desta
forma, serve tambm para dados para os quais a PCA no se aplica: binrios, genticos
(distncia entre bandas de eletroforese, por exemplo), ou seja, para dados de qualquer
tipo. Na verdade, no s a PCoA mas tambm a anlise de correspondncia (CA) e o
escalonamento multidimensional no-mtrico (NMDS) servem para esse tipo de dados.
importante notar que uma PCoA usando distncia euclidiana equivale a uma ACP, e
usando distncia qui-quadrado equivale a uma CA.
A PCoA substitui a PCA quando os descritores no so quantitativos ou quando h
muitos duplos-zeros. Paramtrica (em contraste com a MDA ou ADM, vista mais
adiante, que no-paramtrica). Diferentemente da PCA, no serve para mostrar a
relao entre descritores e eixos, s plota os objetos (Fig. 34).
Figura 34 Exemplo de PCoA. Com dados de Marcelino Ramos - RS, em 25 reas amostrais
com rvores adultas e em 20 reas com rvores (plntulas) regenerantes, foi analisada a
abundncia das espcies, a partir de uma matriz de abundncia de cada componente,
empregando-se o ndice de similaridade Bray-Curtis entre unidades amostrais. A finalidade era
averiguar uma relao entre as abundncias das espcies das duas fitofisionomias. Aps a
PCoA, que mostrou a separao das reas conforme sua composio, foi utilizado o teste de
Mantel (9.999 iteraes) com a finalidade de comparar as similaridades entre ambas as matrizes
e verificar se houve associao entre elas, esperando-se encontrar uma relao de dependncia
derivada do componente regenerante para o adulto, porm no foi constatada essa similaridade,
confirmando a separao apontada pela PCoA (r= 0,19; p = 0,11).
59
autovetores, pode ser rotacionado e gerar vrios outros resultados. A MDS capaz de
evidenciar padres ecolgicos no imaginados pelo eclogo (Fig. 35).
Figura 35 - Exemplo de ordenao MDS, mostrando uma sequncia de 19 locais de coleta de 3
espcies fictcias, imaginadas com um gradiente de distribuio ao longo desses 19 locais. A
anlise, por conta disso, mostrou somente as semelhanas entre os locais 4,5,6 entre si e
14,15,16 entre si, e a diferenciao gradual e sequencial de todos os locais.
60
5.4.2 Ordenao por anlise direta de gradientes
61
Figura 37 Tcnicas de comparao posteriori direta ou indireta, para interpretao dos
resultados de anlises de agrupamento ou de ordenao. X e Y (tabelas originais de dados), S
(matriz de similaridade) e D (matriz de distncias).
62
A anlise cannica um mtodo de comparao direta, ento melhor do que a indireta,
j que maximiza a comparao entre as tabelas originais de dados.
Cnon vem do grego e significa "regra", e na matemtica um termo usado como
representao mais simples de uma frmula ou funo matemtica. Uma matriz de
autovalores a forma cannica de uma matriz de covarincia.
A anlise cannica compara cada descritor resposta (dependente) com a tabela de
descritores explanatrios (independentes), por meio de regresso.
As anlises cannicas podem ser simtricas ou assimtricas. Nas simtricas (anlise
de redundncia, anlise de correspondncia cannica e anlise de correlao
cannica), no h dependncia, enquanto que nas assimtricas (anlises de
discriminante cannicas), h dependncia, a tabela Y dependente e a X
independente; os objetos so divididos em grupos por meio de descritores qualitativos;
so usadas quando a varivel resposta qualitativa.
63
O teste de significncia (hiptese) feito por Monte Carlo.
Obs.: A db-RDA (RDA com base em distncias) um mtodo alternativo, podendo ser
usada para dados no-normais, com qualquer medida de distncia.
Exerccios
16) Quando se deve utilizar uma Anlise de Varincia Multivariada (MANOVA)?
17) Pretende-se averiguar as relaes entre 6 variveis ambientais (dados climticos de
pluviosidade, umidade relativa do ar, temperatura, radiao solar, velocidade dos ventos
e presso atmosfrica) em uma regio do interior do Piau. Dispe-se, para tal, de dados
mdios dirios referentes a 1 ano de registro. Que tipo(s) de anlise pode(m) ser
indicado(s) para tal finalidade, sabendo que no h dados faltando e que todos seguem
uma distribuio normal, tendo sido a nica exceo a pluviosidade, porm esta foi
normalizada por transformao?
18) Que tipo de anlise(s) multivariada(s) pode(m) ser sugerido(s) para uma tabela de
dados em que h uma varivel resposta e 3 variveis explanatrias, todas distribudas
de forma normal e com a inteno de saber se as variveis explanatrias influenciam (e
de que forma) na varivel resposta.
19) O que um eixo em uma ordenao? Que atributos ele possui em uma ACP, por
exemplo, e o que significam?
20) Relacione a 2 coluna de acordo com a 1 conforme o tipo de anlise multivariada
por ordenao mais indicada em cada caso, conforme os dados disponveis. possvel
que haja mais de um tipo de ordenao indicado para cada caso. Pode utilizar como
auxlio o guia do Captulo 7.
64
(1) ACP ( ) Uma tabela com dados binrios (no normais) de 20 espcies
(2) AC em 50 pontos e se pretende comparar os pontos.
(3) PCoA ( ) Duas tabelas, uma com dados (normais) de 5 variveis
limnolgicas em 15 pontos e outra com dados de contagem de
(4) MDS
10 espcies de peixe para esses 15 pontos e se deseja saber
(5) RDA que variveis limnolgicas mais interferem nos peixes.
(6) CCA ( ) Uma tabela com 8 variveis da morfologia de 12 espcies de
rvores da caatinga. Alguns dados em algumas dessas
variveis esto ausentes e a inteno comparar as espcies.
( ) Duas tabelas referente a dados de 30 pontos amostrais, uma
tabela com 6 variveis explanatrias no normalizveis e a
outra com dados de presena e ausncia de 8 espcies. A
inteno saber se existe relao entre as variveis biticas e
abiticas.
( ) Pretende-se fazer uma avaliao prvia das 10 parcelas
pesquisadas em uma rea de cerrado (comparao entre as
parcelas) e, para isso, dispe-se de uma tabela contendo
dados quantitativos contnuos de 4 variveis explanatrias com
distribuio que foi normalizada por transformao logartmica.
21) Observe o resultado da ordenao abaixo e o interprete da forma como for mais
apropriada com as informaes disponveis somente por meio da imagem.
65
22) Observe o grfico abaixo, resultado de uma anlise de agrupamento (cluster
analysis) e responda ao que se pede com base nele.
66
24) Utilizando a tabela abaixo, realize uma anlise multivariada apropriada aos dados e
exponha os resultados, sabendo que o intuito foi relacionar os dados biticos aos dados
abiticos. Os locais so X e Y e foram feitas coletas nos meses de janeiro a setembro.
Os dados so quantitativos (contnuos nas variveis explanatrias e discretos nas
variveis resposta).
LOCAL/MS PH Turbidez Nitrato Fosfato Esp_1 Esp_2 Esp_3
X-jan 9,0 47,0 126,5 1,9 100 250 3
X-fev 8,0 57,0 125,0 4,5 120 245 5
X-mar 7,0 62,0 139,0 8,4 130 270 8
X-abr 6,0 49,5 134,5 3,2 105 265 4
X-mai 8,0 32,0 10,5 5,8 70 15 6
X-jun 9,0 34,0 7,0 3,2 74 10 4
X-jul 6,0 37,0 7,0 5,8 80 8 6
X-ago 6,0 37,5 8,0 1,9 81 13 3
X-set 8,0 40,5 10,0 9,7 87 11 9
Y-jan 9,0 22,0 255,0 37 50 480 30
Y-fev 8,0 25,5 265,5 38,3 57 500 31
Y-mar 8,0 17,0 255,0 42,2 40 476 34
Y-abr 6,0 28,5 270,0 47,4 63 502 38
Y-mai 7,0 2,0 30,0 47,4 10 22 38
Y-jun 9,0 2,5 27,5 48,7 11 16 39
Y-jul 8,0 1,5 25,5 40,9 9 18 33
Y-ago 6,0 1,5 30,5 43,5 9 26 35
Y-set 8,0 2,0 25,5 39,6 10 19 32
25) Dada a matriz de distncias abaixo, faa uma anlise de agrupamento construindo
o dendrograma manualmente:
67
CAPTULO 6 Diversidade biolgica e seus
ndices
6.1 Introduo
O conceito de diversidade biolgica pode abranger diversos nveis de abrangncia,
desde a diversidade no nvel gentico at a diversidade de populaes (espcies) e
comunidades / ecossistemas. Certamente a quantidade de espcies de uma regio o
conceito mais populao de biodiversidade, embora seja bem restrito.
Ao se realizar um levantamento de espcies de uma regio, a cada nova investida de
esforo amostral, a quantidade total de espcies encontradas aumenta, no entanto essa
quantidade de novas espcies comea a ter uma queda de crescimento, gerando um
grfico conhecido como curva de rarefao (Fig. 39)
Figura 39 Exemplo de curva de rarefao (curva do nmero cumulativo de espcies); a partir
de determinado ponto, ela pode ser um indicativo de que o n amostral em uma coleta j
suficiente.
68
Figura 40 Nveis da biodiversidade.
69
6.2 ndices de riqueza
O ndice de riqueza (richness) de Margalef (1958) representado pela letra S. Serve
tambm para calcular as diversidades alfa, beta e gama.
S = (s 1) / ln N
Onde: s = Nmero de total de espcies;
N = Nmero total de indivduos.
Valores maiores que 5,0 significam grande riqueza de espcies.
Como exemplo, observe o inventrio de espcies de uma regio (Tab. 10):
Tabela 10 Nmero de indivduos de cada espcie encontrada em uma regio.
N de
Espcies
indivduos (Ni)
Croton salutares 100
Aloysia virgata 120
Peltrophorum dubium 10
Terminalia triflora 50
Trichilia catiqua 60
Metrodorea nigra 5
Aplicando a frmula:
Alm do ndice de riqueza de Margalef, h vrios outros, como: Chao, ACE, ICE e
Jacknife (GOTELLI; CHAO, 2013).
70
O ndice de Shannon (H) pode considerar propores (abundncia relativa), enquanto
que os demais ndices utilizam como base de clculo os valores absolutos de contagem
(Valentin et al., 1989).
H = - (Pi ln Pi)
Onde:
Pi = Probabilidade de coleta da espcie i na populao (Pi = Ni / N);
Ni = Nmero de indivduos de cada espcie;
N = Nmero total de indivduos;
H = ndice de diversidade de Shannon, em nits/cel (1 nit/cel = 0,693 bit/cel).
Um valor de H < 1,50 bit/ind significa, para a maioria dos autores, um ambiente
desequilibrado, indicando que h uma espcie com dominncia muito elevada, o que
representa um valor crtico.
Outra opo de referncia por Cavalcanti e Larrazbal (2004), que consideram a
diversidade de Shannon alta quando est acima de 3,0 bits/ind, mdia entre 2,0 e 3,0
bits/ind, baixa entre 1,0 e 2,0 bits/ind e muito baixa quando menor que 1,0 bit/cel.
Considerando o exemplo da Tabela 10, foram feitos os clculos do H (Tab. 11):
Tabela 11 ndice de Shannon (H) para os valores do exemplo da Tabela 10.
Ni Pi lnPi Pi x lnPi
100 0,29 -1,23837 -0,35895
120 0,35 -1,05605 -0,36732
10 0,03 -3,54096 -0,10264
50 0,14 -1,93152 -0,27993
60 0,17 -1,7492 -0,30421
5 0,01 -4,23411 -0,06136 H
345 -1,47441 1,474411
O valor do ndice de Shannon para os dados do exemplo 1,47 nit/ind (= 1,01 bit/ind),
que representam uma mdia diversidade conforme Margalef (1958) e uma baixa
diversidade segundo Cavalcanti e Larrazbal (2004).
71
6.4 ndices de equitabilidade
Para verificar a equitabilidade (ou equidade, ou uniformidade, ou evenness), geralmente
se usa o ndice de Pielou (1966), representado pela letra J; valores variam de 0 a 1,
sendo que os valores altos (acima de 0,50) refletem um equilbrio da comunidade, o que
pode significar serem reas de pouca interveno humana direta.
J = H / ln S
Onde: H = ndice de Shannon (em nits/ind);
S = Nmero total de espcies.
Com os dados do exemplo, tem-se:
J = 1,47 / 1,79 = 0,82 (comunidade com uma boa equitabilidade).
Observe que, embora a riqueza de espcies e a diversidade tenham ficado com um
valor baixo, a equitabilidade assumiu um valor alto.
Alm do ndice de Pielou, h vrios outros ndices de equitabilidade, sendo os mais
importantes: Hurlbert, Heip e Bulla (BEISEL et al., 2003).
As tabelas abaixo auxiliaro nos clculos dos ndices, pois apresenta os valores mais
importantes de ln (Tabs. 12 e 13).
Tabela 12 Valores de ln (logaritmo natural) para os nmeros de 0,0 a 1,0.
0 1 2 3 4 5 6 7 8 9
0.0 -4.61 -3.91 -3.51 -3.22 -3.00 -2.81 -2.66 -2.53 -2.41
0.1 -2.30 -2.21 -2.12 -2.04 -1.97 -1.90 -1.83 -1.77 -1.71 -1.66
0.2 -1.61 -1.56 -1.51 -1.47 -1.43 -1.39 -1.35 -1.31 -1.27 -1.24
0.3 -1.20 -1.17 -1.14 -1.11 -1.08 -1.05 -1.02 -0.99 -0.97 -0.94
0.4 -0.92 -0.89 -0.87 -0.84 -0.82 -0.80 -0.78 -0.76 -0.73 -0.71
0.5 -0.69 -0.67 -0.65 -0.63 -0.62 -0.60 -0.58 -0.56 -0.54 -0.53
0.6 -0.51 -0.49 -0.48 -0.46 -0.45 -0.43 -0.42 -0.40 -0.39 -0.37
0.7 -0.36 -0.34 -0.33 -0.31 -0.30 -0.29 -0.27 -0.26 -0.25 -0.24
0.8 -0.22 -0.21 -0.20 -0.19 -0.17 -0.16 -0.15 -0.14 -0.13 -0.12
0.9 -0.11 -0.09 -0.08 -0.07 -0.06 -0.05 -0.04 -0.03 -0.02 -0.01
1.0 0.00
72
Tabela 13 Valores de ln (logaritmo natural) para os nmeros de 1 a 200.
0 1 2 3 4 5 6 7 8 9
0 0.00 0.69 1.10 1.39 1.61 1.79 1.95 2.08 2.20
1 2.30 2.40 2.48 2.56 2.64 2.71 2.77 2.83 2.89 2.94
2 3.00 3.04 3.09 3.14 3.18 3.22 3.26 3.30 3.33 3.37
3 3.40 3.43 3.47 3.50 3.53 3.56 3.58 3.61 3.64 3.66
4 3.69 3.71 3.74 3.76 3.78 3.81 3.83 3.85 3.87 3.89
5 3.91 3.93 3.95 3.97 3.99 4.01 4.03 4.04 4.06 4.08
6 4.09 4.11 4.13 4.14 4.16 4.17 4.19 4.20 4.22 4.23
7 4.25 4.26 4.28 4.29 4.30 4.32 4.33 4.34 4.36 4.37
8 4.38 4.39 4.41 4.42 4.43 4.44 4.45 4.47 4.48 4.49
9 4.50 4.51 4.52 4.53 4.54 4.55 4.56 4.57 4.58 4.60
10 4.61 4.62 4.62 4.63 4.64 4.65 4.66 4.67 4.68 4.69
11 4.70 4.71 4.72 4.73 4.74 4.74 4.75 4.76 4.77 4.78
12 4.79 4.80 4.80 4.81 4.82 4.83 4.84 4.84 4.85 4.86
13 4.87 4.88 4.88 4.89 4.90 4.91 4.91 4.92 4.93 4.93
14 4.94 4.95 4.96 4.96 4.97 4.98 4.98 4.99 5.00 5.00
15 5.01 5.02 5.02 5.03 5.04 5.04 5.05 5.06 5.06 5.07
16 5.08 5.08 5.09 5.09 5.10 5.11 5.11 5.12 5.12 5.13
17 5.14 5.14 5.15 5.15 5.16 5.16 5.17 5.18 5.18 5.19
18 5.19 5.20 5.20 5.21 5.21 5.22 5.23 5.23 5.24 5.24
19 5.25 5.25 5.26 5.26 5.27 5.27 5.28 5.28 5.29 5.29
20 5.30
Exerccios
26) Observe o ecossistema abaixo, onde foram coletadas informaes quanto s
espcies de plantas presentes em cada um dos seus hbitats intercomunicantes,
representados pelos nmeros de 1 a 5. As espcies foram representadas por letras.
Considerando essas informaes, responda:
73
a) Qual hbitat apresenta o maior valor de -diversidade?
b) Qual o valor para a -diversidade desse ecossistema?
c) Qual a -diversidade do ecossistema?
74
CAPTULO 7 - Guia de orientao para escolha do
teste
Antes de mais nada, faa uma descrio de seus dados, de cada varivel, incluindo
dizer de que tipo so. Faa a estatstica descritiva de suas variveis (mdia, varincia,
desvio-padro etc). Teste se cada uma das variveis contnuas (caso as possua) segue
ou no a distribuio normal, ou se segue alguma outra distribuio padro. Veja se
cada varivel possui ou no mais de uma moda. Monte grficos de disperso de seus
dados, comparando as variveis par a par para ver se elas tm alguma relao (linear
ou no). Reflita sobre esses resultados. Voc precisar conhecer muito bem seus dados
para saber o que fazer com eles.
Agora, pense nos objetivos de seu estudo e siga a chave abaixo, que poder ser til na
escolha do que fazer com seus dados. Pode acontecer de voc ter mais de um objetivo,
mais de uma abordagem estatstica (s vezes, para cada objetivo necessrio realizar
uma ou mais de uma anlise). O ideal j ter a previso de que anlises sero utilizadas
desde o projeto, porm muitas vezes preciso fazer adaptaes nas escolhas. Quando
h vrias opes de testes no-paramtricos, isso foi representado pela sigla NP na
chave abaixo.
75
7b. A varivel resposta no possui distribuio normal nem normalizvel .................... 9
8a. Somente 1 varivel categrica, com somente 2 nveis, e n < 30 ................... Teste T
8b. Somente 1 varivel categrica, com somente 2 nveis, e n 30 ................... Teste Z
8c. Somente 1 varivel categrica mas com mais de 2 nveis .. ANOVA 1 fator (one way)
8d. Mais de 1 varivel categrica ...................................................... ANOVA 2, 3 fatores
9a. Somente 1 varivel categrica e com somente 2 nveis ........................... Teste T NP
9b. Somente varivel(is) categrica(s) e com mais de 2 nvei .... Kuskal Wallis / Friedman
10a. H mais de 2 variveis explanatrias e quer compara-las (plotar descritores) ..... 11
10b. H mais de 2 variveis explanatrias e quer plotar os objetos ............................. 14
10c. H variveis explanatrias e resposta e quer plotar descritores e objetos ........... 18
10d. H 2 ou mais variveis resposta e varivel(is) categrica(s) ................................ 19
10e. H 2 ou mais varivel resposta e varivel(is) explanatria(s) e voc quer relaciona-
las................................................................................................................................. 17
11a. A inteno dar nfase formao de grupos ..... Anlise de agrupamento (cluster)
11b. A inteno reduzir o nmero de variveis em eixos ou ver os gradientes ......... 12
12a. A matriz simtrica (com todos os valores) ......................................................... 13
12b. A matriz no simtrica (valores faltando, ausentes) .......................... MDS / NMDS
13a. A distribuio das variveis normal ou normalizvel ..................................... PCoA
13b. A distribuio das variveis no normal nem normalizvel ......... PCoA / AC (AFC)
14a. A inteno dar nfase formao de grupos ..........................................................
Anlise de agrupamento (cluster) ou 19
14b. A inteno ver os gradientes entre os objetos ................................................... 15
15a. A matriz simtrica (com todos os valores) ......................................................... 16
15b. A matriz no simtrica (valores faltando, ausentes) .......................... MDS / NMDS
16a. A distribuio das variveis normal ou normalizvel ........................... PCoA / PCA
16b. A distribuio das variveis no normal nem normalizvel ......... PCoA / AC (AFC)
17a. A distribuio normal ou normalizvel ............................................................ RDA
17b. A distribuio no normal nem normalizvel (unimodal e quase normal) ....... CCA
18a. A matriz simtrica (com todos os valores) ............................................ PCoA / AC
18b. A matriz no simtrica (valores faltando, ausentes) .......................... MDS / NMDS
19a. H tambm varivel(is) explanatria(s) contnua(s) ............................... MANCOVA
19b. Somente as variveis resposta e a(s) categrica(s) ............................................. 20
20a. Dados normais ou normalizveis .............................................................. MANOVA
20b. Dados no normais e nem normalizveis ......................... PERMANOVA / ANOSIM
76
Respostas dos exerccios
1) Parmetro uma caracterstica estudada da populao, representado por letra latina
maiscula. Estimador a varivel medida na amostra, representado por letra grega
minscula.
2) As variveis so: nmero de lagartos (quantitativa discreta), temperatura do micro-
hbitat (quantitativa contnua) e tempo (qualitativa categrica).
3)
a)
b)
c)
77
d)
e)
Temp Umid Pluv rvores
1.37 -1.32 39.47 4.44
-0.09 -1.39 36.39 3.37
1.06 1.83 19.50 1.29
-1.01 5.52 113.20 11.82
-1.24 2.60 59.44 5.67
1.22 -0.86 33.32 2.68
-1.62 -0.78 70.96 7.59
0.14 4.60 59.44 5.67
-0.09 2.60 37.93 3.14
0.37 4.14 57.90 6.29
0.30 5.37 120.88 11.82
-0.47 4.44 64.04 5.75
1.22 -1.09 43.31 4.83
-1.16 -0.78 102.45 9.97
f)
possvel observar que existe uma linearidade nos dados, uma varivel varia de forma
correlacionada outra. Provavelmente, a pluviosidade (independente) influencia
positivamente no nmero de rvores (dependente). A varivel dependente deve ser
colocada no eixo Y e a independente no eixo X.
78
4)
a) Teste T pareado ou ANOVA de medida repetida
b) Teste T ou ANOVA
c) ANOVA 1 fator (one way)
d) Regresso linear mltipla
e) Correlao de Spearman
f) Regresso linear simples
g) ANCOVA
h) Teste Z ou ANOVA
i) Correlao de Pearson
5)
a) No existe relao significativa estatisticamente (correlao de Spearman, t=1,13,
p=0,28).
b) Sim, existe. A pluviosidade influencia o nmero de rvores (Regresso Linear
Simples, F=547,28, p=0,00) e essa relao dada pela frmula da reta Y = 0,10*X +
18,9 (ou seja, "Nmero de rvore" = 0,10 * "pluviosidade" + 18,9.
c) Sim, existe (correlao de Spearman, t=2,63, p=0,02).
6) Na ANOVA bifagorial (two way) cujo resultado foi apresentado, possvel perceber
que houve interao dos fatores (locais e meses), cujo P<0,05, portanto no possvel
considerar o fator locais sozinho nem o fator tempo (meses), e sim a interao entre
ambos, ou seja, em um local ocorre de uma forma e no outro ocorre de outra.
79
seja: a temperatura faz diferena no crescimento das lagartas, sendo que a temperatura
mais favorvel ao crescimento foi a de 25C, podendo ser considerado o ponto timo
em relao aos demais.
10) um estudo em que se analisa descritores para relacionar os objetos (que ficam
nas linhas, raws), como ocorre na PCA.
15)
16) Quando se tem dados com distribuio normal e com varincias iguais e o propsito
maior for a separao em grupos, saber se existe ou no tal separao / diferenciao.
80
17) Pode ser aplicada uma PCoA com distncia euclidiana, que equivale a uma ACP,
ou a prpria ACP, ou pode ser feita uma anlise de agrupamento (cluster) por meio de
distncia de Bray-Curtis ou ento Euclidiana.
18) Neste caso, no se aplica anlise multivariada, pois s h uma varivel resposta e
3 explanatrias (insuficientes para uma ACP, por exemplo). O que se pode indicar
uma regresso mltipla, que vai gerar, inclusive, uma frmula (modelo) do efeito das
explanatrias sobre a resposta, caso haja tal efeito significativo estatisticamente.
20) 2/3, 5, 4, 6, 1
22)
a) Os grupos separados pela anlise.
b) Cerca de 80%.
c) Cerca de 20%.
d) Cerca de 40%.
e) Dados quantitativos contnuos (ou da quantidade desses organismos em cada ponto
ou de variveis medidas neles).
f) No. Se foram medidas variveis desses organismos para se chegar a essa
separao, o estudo foi em modo R, pois as variveis seriam os descritores e o grfico
(dendrograma) seria a plotagem dos organismos (objetos). Porm se o estudo foi em
modo Q, estaramos plotando os descritores (organismos) com base nos dados de
meses ou pontos de coleta (objetos).
23) V-F-F-V-V-F-F-F-V-F.
24) O primeiro passo perceber que a tabela mista, com dados de variveis
explanatrias (pH, turbidez, nitrato e fosfato) e resposta (espcies 1 a 3). A turbidez e a
espcie 1 seguem uma distribuio normal, mas nenhuma das outras variveis pode ser
normalizada. Portanto, para comparar as duas matrizes (explanatria e resposta) ser
utilizada uma anlise multivariada do tipo ordenao por CCA (anlise cannica de
81
correspondncia), j que no poderemos usar RDA, que seria a outra opo para esse
tipo de anlise. Trabalharemos ento com os dados originais (sem transformao).
O segundo passo ser separar a tabela em 2, uma explanatria e outra resposta, e
adapta-la ao formato exigido no programa de estatstica que vamos utilizar para a
anlise.
Em seguida, s importar os dados para o programa e aplicar a anlise
adequadamente. Veja os resultados obtidos com o programa PC-Ord:
25)
82
26)
a) 1 (biodiversidade alfa = 8)
b) 10 (possui 10 espcies no total: a, b, c, d, e, f, g, h, t, x)
c) = 10 / 5,4 = 1,85
27)
a) 1 (riqueza = 2,12)
b) 1 (diversidade H = 2,01)
c) 3 (diversidade H = 0,46)
d) 3 (equitabilidade J = 0,45)
e)
Riqueza S = 1,91
Diversidade H = 2,00 nits/ind
Equitabilidade J = 0,83 (boa, bem equilibrada, pois acima de 0,5).
83
Bibliografia
BAUMGRTNER, S. Measuring the diversity of what? And for what purpose? A
conceptual comparison of ecological and economic measures of biodiversity.
Verhandlungen der Gesellschaft fr kologie 33: 490. 2003.
BEISEL, Jean-Nicolas; USSEGLIO-POLATERA, Philippe; BACHMANN, Vincent;
MORETEAU, Jean-Claude. A comparative analysis of evenness index sensitivity.
Internat. Rev. Hydrobiol. 88(1): 3-15. 2003.
CAVALCANTI, E.A.H.; LARRAZBAL, M.E.L. Macrozooplncton da zona econmica
exclusiva do Nordeste do Brasil (segunda expedio oceanogrfica - REVIZEE/NE II)
com nfase em Copepoda (Crustacea). Revista Brasileira de Zoologia, v.21, p.467-
475, 2004.
DE-LACERDA, Anthony. Testes qui-quadrado: aderncia e independncia. Disponvel
em: <http://slideplayer.com.br/slide/1574738/#>. Acesso em 15 nov 2015.
LEYSER, Gabriela; ZANIN, Elisabete Maria; BUDKE, Jean Carlos; MLO, Mida Ariane;
HENKE-OLIVEIRA, Carlos. Regenerao de espcies arbreas e relaes com
componente adulto em uma floresta estacional no vale do rio Uruguai, Brasil. Acta
Botanica Brasilica 26(1): 74-83. 2012.
GOTELLI, Nicholas J.; CHAO, Anne. Measuring and estimating species richness,
species diversity and biotic similarity from sampling data. In: LEVIN, S.A. (Ed.).
Encyclopedia of Biodiversity, 2.ed., Vol.5, Waltham: Elsevier, 2013.
GOTELLI, Nicholas J.; ELLISON, Aaron M. Princpios de Estatstica em Ecologia.
Porto Alegre: Artmed, 2011. 528p.
GRAFEN, Alan; HAILS, Rosie. Modern statistics for the life sciences. Nova Iorque:
Oxford, 2002. 349p.
HURLBERT, Stuart H. Pseudoreplication and the design of ecological field experiments.
Ecological Monographs, 54(2), p.187-211, jun.1984.
JURASINSKI, Gerald; RETZER, Vroni; BEIERKUHNLEIN, Carl. Inventory,
differentiation, and proportional diversity: a consistent terminology for quantifying
species diversity. Oecologia 159: 15-26. 2009.
KREBS, Charles J. Ecological Methodology. 2.ed. Menlo Park: Benjamin/Cummings,
1999. 620p.
KUMMER, Larissa; MELO, Vander; BARROS, Yara Jurema; AZEVEDO, Jlio Csar
Rodrigues. Extraes sequenciais de chumbo e zinco em solos de rea de minerao e
metalurgia de metais pesados. R. Bras. Ci. Solo, 35: 2005-2018, 2011.
LEGENDRE, Pierre; LEGENDRE, Louis. Numerical Ecology. 2.ed. Amsterdan:
Elsevier, 1998. 853p.
MAGNOSSUN, Willian E.; MOURO, Guilherme de Miranda. Estatstica sem
Matemtica. Londrina: Planta, 2005. 138p.
MANLY, Bryan Frederick John. Multivariate Statistical Methods. 2.ed. London:
Chapman & Hall, 1994. 215p.
MARGALEF, R. Temporal sucession and spatial heterogeneity in phytoplankton. In:
BUZZATI-TRAVERSO, A.A. (Ed.). Perspectives in Marine Biology. Berkeley:
Universidade California Press, p.323-349. 1958.
MAY, R. M. Patterns of species abundance and diversity. In: CODY, M.L.; DIAMOND,
J.M. (Ed.). Ecology and Evolution of Communities. Harvard: Harvard University
Press. pp 81-120. 1975.
84
NONATO, E.F. Universidade Federal do Rio de Janeiro / Departamento de Zoologia /
Laboratrio de Plychaeta. Delineamentos multivariados e mtodos de
reamostragem e permutao. Disponvel em <
http://www.biologia.ufrj.br/labs/labpoly/delin6.pdf>. Acesso em 02 jul 2015.
OLUBUSOLA, Adeoye N.; ORJI, Edward C.; ADAMS, Abiodun Emmanuel. Biodiversity
conservation: course guide. Lagos: National Open University of Nigeria, 2010. 69p.
PIELOU, E. C. The measure of diversity in different types of biological collections. J.
Theor. Biol., 13: 133-144. 1966.
PORTAL-ACTION. Distribuio aleatria de uma varivel aleatria binomial.
Disponvel em: <http://www.portalaction.com.br/inferencia/22-distribuicao-amostral-de-
uma-variavel-aleatoria-binomial>. Acesso em 15 nov 2015.
QUINN, Gerry P.; KEOUGH, Michael J. Experimental design and data analysis for
biologists. Cambridge: Cambridge University Press, 2005. 537p.
SARTORIO, Simone Daniela. Aplicaes de tcnicas de anlise multivariada em
experimentos agropecurios usando o software R. Dissertao (Mestrado), Escola
Superior de Agricultura Luiz de Queiroz, Piracicaba, 2008. 130p.
SCHWARDT, Ludwig; PREEZ, Johan. Linear Discriminant Analysis. PR414 / PR813
Lecture 1. Disponvel em:
<http://courses.ee.sun.ac.za/Pattern_Recognition_813/lectures/lecture01/nod e6.html>.
Acesso em: 19 nov 2015.
SHANNON, C.E. A mathematical theory of communication. Bulletin of System
Tecnology Journal, v. 27, p.379-423, 1948.
SHIMAKURA, Slvia. A distribuio Poisson. Disponvel em:
<http://leg.ufpr.br/~silvia/CE701/node35.html>. Acesso em 15 nov 2015.
SIMPSON, E. H. Measurement of diversity. Nature 163: 688. 1949.
SOARES, Marcelo de Oliveira; LEMOS, Valesca Brasil; KIKUCHI, Ruy Kenji Papa.
Sedimentos carbonticos bioclsticos do Atol das Rocas, Atlntico Sul Equatorial.
Revista Brasileira de Geocincias, 39(4): 624-634, dezembro de 2009.
TRIOLA, Mrio F. Introduo Estatstica. 7.ed. Rio de Janeiro: LTC, 1999. 410p.
TUTOR-TEDDY. Basic Statistics. Disponvel em
<http://tutorteddy.com/statistics/basic-statistics.php>. Acesso em 15 nov 2015.
VALENTIN, Jean Louis. Ecologia Numrica: uma introduo anlise multivariada de
dados ecolgicos. Rio de Janeiro: Intercincia, 2000. 117p.
VALENTIN, Jean Louis; MACEDO-SAIDAH, F. E.; TENENBAUM, D. R.; SILVA, N. M.
L. A diversidade especfica para a anlise das sucesses fitoplanctnicas. Aplicao ao
ecossistema da ressurgncia de Cabo Frio (RJ). Nertica, Curitiba, v.6, n.1/2, p. 7-26,
1989.
VASSILIOU, Miguel. 13 relatrio de monitoramento: Rev. 01. Programa de
Monitoramento do Projeto de Recuperao Ambiental Lotes 42 e 44. Siderpolis:
UNESC, 2010.
VIEIRA, Snia. Estatstica Experimental. 2.ed. So Paulo: Atlas, 1999. 185p.
85