You are on page 1of 122

Universidade Estadual Paulista

Programa de Ps-Graduao Biologia Animal

Estatstica aplicada ecologia usando o R

Professores responsveis:
Diogo Borges Provete (dbprovete@gmail.com)
Fernando Rodrigues da Silva (bigosbio@yahoo.com.br)
Thiago Gonalves Souza (tgoncalves.souza@gmail.com)
So Jos do Rio Preto, SP
Abril, 2011

SUMRIO
Objetivo do curso

O que voc no encontrar nesta apostila

Introduo: integrando questes ecolgicas e anlises estatsticas

O melhor caminho para fazer a pergunta certa

Introduo ao ambiente de programao R

Baixando e instalando a verso base do R

10

Porque usar o R

10

O workspace do R e o Tinn-R

11

Os tipos de objeto: criao e manipulao

12

Operaes aritmticas bsicas

15

Entendendo o arquivo de ajuda

16

Instalando e carregando pacotes

17

Importao e exportao de dados

18

Criao e manipulao de grficos no R

20

Distribuies estatsticas

18

Funes de probabilidade

23

Funes de distribuio acumulada

24

Distribuio binomial

24

Distribuio Poisson

28

Distribuio Normal

32

Modelos Lineares Generalizados

36

Curva de acumulao de espcies

65
2

Estimadores de riqueza

69

ndices de diversidade e diversidade beta ()

82

Introduo estatstica multivariada

93

Leitura recomendada

118

OBJETIVO DO CURSO

Esta apostila foi elaborada para servir como material de apoio para um curso ministrado

no PPG Biolgia Animal da UNESP de S.J. Rio Preto. Nossa proposta com o curso e com esta
apostila de traar o melhor caminho (pelo menos em nosso ponto de vista) entre questes
ecolgicas e os mtodos estatsticos mais robustos para test-las. Guiar seus passos nesse
caminho (nem sempre linear) necessita que voc utilize um requisito bsico: o de utilizar seu
esforo para caminhar. O nosso esforo, em contrapartida, ser o de segurar suas mos, mantlo de p e indicar as melhores direes para que adquira certa independncia em anlises
ecolgicas. Todo o material utilizado durante este curso, incluindo scripts e pdf das aulas est
disponvel

em:

https://sites.google.com/site/diogoprovetepage/teaching.

Um

dos

nossos

objetivos mostrar que o conhecimento de teorias ecolgicas e a utilizao de questes


apropriadas so o primeiro passo na caminha rumo compreenso da lgica estatstica. No
deixe que a estatstica se torne a pedra no seu caminho. Em nossa opinio, programas com
ambiente de programao favorecem o entendimento da lgica estatstica, uma vez que cada
passo (lembre-se de que voc est caminhado em uma estrada desconhecida) precisa ser
coordenado, ou seja, as linhas de comando (detalhes abaixo) precisam ser compreendidas para
que voc teste suas hipteses.
A primeira parte desta apostila pretende utilizar uma estratgia que facilita a escolha do
teste estatstico apropriado, por meio da seleo de questes/hipteses claras e da ligao dessas
hipteses com a teoria e o mtodo. Posteriormente escolha de suas questes necessrio
transferir o contexto ecolgico para um contexto meramente estatstico (hiptese
nula/alternativa). A partir da definio de sua hiptese nula partiremos para a aplicao de cada
teste estatstico (de modelos lineares generalizados anlises multivariadas) utilizando como
plataforma o programa R. Antes de detalhar cada anlise estatstica, apresentaremos os
comandos bsicos para a utilizao do R e os tipos de distribuio estatstica que so essenciais
para o desenvolvimento do curso. Para isso, organizamos um esquema que chamamos de
estrutura lgica que facilita a compreenso dos passos necessrios para testar suas hipteses
(Fig. 1).
sempre bom ter em mente que muito importante saber aonde se quer chegar para
poder escolher o que fazer.

O QUE VOC NO ENCONTRAR NESTA APOSTILA

Aprofundamento terico, detalhes matemticos, e explicao dos algoritmos so

informaes que infelizmente no sero abordadas neste curso. O foco do curso a explicao
de como cada teste funciona (teoria e procedimentos matemticos bsicos) e sua aplicao em
testes ecolgicos usando o programa R. Para tanto, o livro dos irmos Pierre e Louis Legendre
(Legendre & Legendre 1998) uma leitura que permite o aprofundamento de cada uma das
anlises propostas aqui. Alm disso, so de fundamental importncia para o amadurecimento
em anlises ecolgicas as seguintes leituras: Manly (1991), Pinheiro & Bates (2000), Scheiner
& Gurevitch (2001), Quinn & Keough (2002), Venables & Ripley (2002), Magurran (2004) e
Gotelli & Ellison (2004).

Unidade amostral
Variveis
Covariveis
Escala

Questes

Predies

Hipteses biolgicas

Hiptese nula
Hiptese alternativa

Hipteses estatsticas

TEORIA

Generalizao

Observao

Anlises
estatsticas
P, R2, F, t, r, Z, AIC,
AICc ...

DECISO

Figura 1. Estrutura lgica para integrar teorias/questes ecolgicas com anlises estatsticas (e
vice-versa). Lembre-se de que omitimos etapas importantes desta estrutura lgica, como o
delineamento experimental, a coleta e organizao dos dados, que esto alm do objetivo desta
apostila.
5

INTRODUO INTEGRANDO QUESTES ECOLGICAS E ANLISES ESTATSTICAS

Para a grande maioria dos estudantes [e professores] de biologia a palavra estatstica

traz certa vertigem e averso. Em geral, alunos e professores consideram este passo um dos
mais (se no o mais) problemticos da pesquisa cientfica. Para ecologia e, especialmente,
ecologia de comunidades, mtodos analticos complexos e que consomem muito tempo para
serem realizados tornam a estatstica uma tarefa ainda mais distante de ser alcanada (e
compreendida). Infelizmente, a maioria opta por no cumprir esta tarefa. Em nossa opinio,
muito dessa averso estatstica se deve s disciplinas introdutrias do curso de graduao em
Cincias Biolgicas (a maioria, claro) estarem baseados em um contexto puramente estatstico
e com exemplos no-biolgicos, sem um programa que integre a ferramenta analtica a um
problema de pesquisa. De fato, entender exemplos estatsticos com uma lgica puramente
estatstica no parece uma tarefa trivial para alunos que buscam entender, por exemplo, como
processos populacionais, de comunidades e ecossistmicos determinam a distribuio das
espcies. Uma alternativa que pode facilitar a compreenso das anlises estatsticas para
bilogos (e para todos os cientistas!) a utilizao da lgica do mtodo cientfico tomando
como fator de deciso os resultados estatsticos. Ao final do curso, ou da leitura desta apostila,
gostaramos de que voc refletisse um pouco sobre as seguintes questes: (1) qual a principal
teoria do meu trabalho? (2) Qual a principal pergunta do meu trabalho? (3) Qual a unidade
amostral, a varivel dependente e independente do meu trabalho? A seguir, apresentamos a
seqncia lgica que sugerimos que seja aplicada a todo e qualquer teste que utilize estatstica
frequentista (interpretao objetiva da probabilidade baseada no critrio de falseamento de Karl
R. Popper). Esta interpretao , por sua vez, diferente da interpretao subjetiva da
probabilidade utilizada no arcabouo da estatstica Bayesiana e da Maxima Verossimilhana.
importante ressaltar ainda que a probabilidade (o fator de deciso dos frequentistas, i.e., o to
sonhado p < 0,05) representa uma classe de eventos (observados) comparados com uma srie
de repeties, e portanto o grau de incerteza relacionada a eventos. Todo este arcabouo dos
testes de hipteses estatsticas foi desenvolvido por Jerzy Neyman e Egon S. Pearson (Neyman
& Pearson, 1933) adotando a viso Popperiana de que uma observao no fornece confirmao
para uma teoria, devido ao problema da induo (para uma discusso mais detalhada veja os
cap. 2 e 3 de Godfrey-Smith, 2003). Ao contrrio, um teste deveria procurar refutar uma teoria,
somente desta forma haveria ganhado conhecimento. Ento, segundo o arcabouo de NeymanPearson, o teste estatstico procura rejeitar a hiptese nula, e no a confirmao da hiptese
alternativa. Numa regresso, por exemplo, se o teste verificar que o coeficiente significativo,
isto quer dizer que a inclinao da reta diferente de zero, no entanto a interpretao biolgica
de uma relao linear entre as duas variveis deve ser feita luz das predies da teoria que se
pretende testar. Por outro lado, os testes de modelos lineares generalizados em mistos utiliza a
6

lgica da estatstica Bayesiana e da Maxima Verossimilhana. Estes arcabouos utilizam a


interpretaoo subjetiva da probabilidade. Como uma analogia, o arcabouo frequentista
presume que a verdade ou todo o universo amostral est numa nuvem, distante e inalcanvel,
e que somente temos acesso a pequenas amostras de dados, que nesta metfora, seriam um
monte, com o qual chegaramos o mais prximo possvel da nuvem. Seguindo esta metfora, a
estatstica Bayesiana e Maxima Verossimilhana assumem que j que a nuvem algo
inatingvel no devemos consider-la na anlise e que a melhor estimativa que temos so os
dados reais que coletamos. Portanto, neste contexto, devemos considerar nossos dados como o
universo amostral total.
Ao definir a questo de pesquisa essencial conhecer como a teoria pode ser usada e
como e porque ela pode explicar ou ser aplicada sua questo (Ford 2000). Os modelos gerados
pelas teorias podem ser aproveitados para criar suas hipteses e predies. As hipteses
[cientficas] so definidas como explicaes potenciais que podem ser retiradas de observaes
do mundo externo (processo indutivo) ou de componentes de uma teoria (processo dedutivo).
Uma hiptese cientfica, do ponto de vista de Popper, deve ser falsevel. As predies so
afirmaes deduzidas de uma estrutura lgica ou causal de uma teoria, ou induzidas a partir de
informaes empricas; em outras palavras, a predio a conseqncia da hiptese, o resultado
esperado se a hiptese for verdadeira. Uma hiptese bem articulada deve ser capaz de gerar
predies. Um exerccio fundamental para a criao de hipteses e articulao de suas predies
se faz a partir da construo de fluxogramas (Fig. 2). No fluxograma voc pode separar cada
varivel e a relao esperada entre cada uma delas. As setas indicam a relao esperada entre as
variveis (os sinais acima das setas mostram a direo da relao). Setas com espessuras
diferentes podem ser usadas como forma de demonstrar a importncia relativa esperada para
cada varivel.

Figura 2. Fluxograma representando as predies que foram articuladas a partir da hiptese as


florestas riprias aumentam a riqueza de macro-invertebrados.

O MELHOR CAMINHO PARA FAZER A PERGUNTA CERTA

Em geral, questes no devem ser muito gerais (e.g., qual o efeito das mudanas globais

nas florestas?) por que dificultam a compreenso do que efetivamente voc est testando.
prefervel que suas hipteses sejam mais gerais (tericas) e suas questes mais especficas
(referidas como operacionais daqui pra frente), para que voc e o seu leitor saibam o que vai ser
testado efetivamente e qual teste dever ser empregado. Por exemplo, um pesquisador tem a
seguinte hiptese: mudanas globais afetam a dinmica e estrutura de florestas; para testar
esta hiptese este pesquisador levantou duas questes operacionais: (1) o aumento da
temperatura modifica a composio de espcies vegetais? (2) O aumento da temperatura
aumenta a ocorrncia de espcies exticas? Com essas questes operacionais fica mais fcil
compreender qual sua varivel independente (neste caso temperatura) que representa a
mudana climtica e que afeta sua varivel dependente (dinmica e estrutura de florestas)
que foi operacionalizada em duas variveis composio de espcies vegetais e ocorrncia de
espcies exticas. Alm disso, muito importante saber qual a unidade amostral do seu
trabalho. No exemplo acima, o pesquisador coletou em 30 reas de floresta em diversos pontos
da Amrica do Norte. Desse modo, os pontos seriam unidades amostrais (as linhas em sua
planilha) e as variveis dependentes e independentes seriam consideradas as colunas de sua
anlise. bastante importante ter em mente o formato padro das planilhas utilizadas na maioria
das anlises ecolgicas (Tabela 1). Alguns pacotes ou funes do R utilizam como padro a
matriz transposta da Tabela 1.
Aps a definio das hipteses/questes e de suas predies, preciso pensar na
estatstica (lembra-se que entre os dois preciso coletar e organizar os dados!). A estatstica
necessria para descrever padres nos nossos dados e para decidir se predies das hipteses so
verdadeiras ou no. Para comear a anlise estatstica preciso definir as hipteses estatsticas,
i.e., hiptese nula (H0) e hiptese alternativa (H1). A hiptese nula representa a ausncia de
padro na hiptese cientfica (i.e., as diferenas entre grupos no maior do que o esperado ao
acaso), enquanto a hiptese alternativa mostra exatamente a existncia do padro (notem que
uma hiptese nula pode ter uma ou mais hipteses alternativas). Por exemplo, a hiptese nula da
Fig. 2 que a densidade de rvores da zona ripria no afeta a riqueza de macro-invertebrados
aquticos, enquanto a hiptese alternativa de que a densidade de rvores afeta positivamente a
riqueza desses organismos. Neste exemplo, o pesquisador comparou grupos de riachos com
densidades diferentes (e.g., variando de 0 a 10 rvores/m2) e encontrou que riachos com
florestas riprias com densidade de rvores acima de 7/m2 possuem 20% mais macroinvertebrados aquticos (P = 0,01). Desse modo, a hiptese nula de ausncia de padro
rejeitada. Para decidir se a hiptese nula pode ser aceita ou no, os testes estatsticos utilizam
8

um valor de probabilidade. Como posso dizer que a mdia de um grupo diferente da mdia de
outro grupo ou que o aumento na varivel X representa um aumento na varivel Y? Como posso
diferenciar se essas diferenas so reais ou frutos do acaso? O fator de deciso para a maioria
dos testes estatsticos o valor de P (probabilidade). O valor de P mede a probabilidade de que
a hiptese nula (a ausncia de um padro) seja verdadeira. Desse modo, valores de P muito
prximos de zero indicam que a probabilidade de que a hiptese nula seja verdadeira muito
baixa e que possvel considerar cenrios alternativos, ou seja, aceitar a hiptese alternativa. No
exemplo acima, a chance de a hiptese nula (a zona ripria no afeta a riqueza de macroinvertebrados) ser verdadeira de 1 em 100 (P = 0,01). Se o valor de P fosse 0,76 a chance de a
hiptese nula ser verdadeira seria de 76 em 100. O nmero mgico considerado como valor
crtico de deciso de 0,05. Desse modo, se a probabilidade de a hiptese nula ser verdadeira
em um teste especfico for 0,05 (resultado significativo), decidimos por rejeit-la. Do

Tabela 1. Planilha modelo para anlises estatstica, com unidades amostrais nas linhas, e variveis dependentes e independentes
nas colunas
contrrio, valores maiores do que 0,05 indicam que a hiptese nula deve ser aceita. A fixao do
v. dependente1 v. dependente2 ... v. dependente n v. independente1 v. independente2 ... v. independente m
valor de significncia de 5% foi puramente nominal, um consenso que visou o equilbrio entre o
unid.amostral1
2.593
3.789
n1
2.177
3.318
m1

erro do tipo 2.326


I e do tipo II.
Para entender osn2 porqus desse
valor de corte,
unid.amostral2
1.000
2.910
2.575consulte o livrom2do

unid.amostral3
2.190 (2004, p.
1.828
n3 livro preciso
5.007 dedicar uma
3.128
3
Gotelli & Ellison
96). Neste mesmo
ateno especialmaos
unid.amostral4
2.883
3.207
n4
5.479
4.250
m4

erros atribudos ao teste de hipteses (erros do tipo I e II), que tm importncia fundamental no

unid.amostral5

1.828

processo analtico.
unid.amostral6
3.657

1.810

n5

1.404

3.298

m5

2.760

n6

2.614

3.491

m6

unid.amostral7
3.487
1.602
n7
2.014
1.520
m7
Tabela 1. Planilha modelo
para anlises3.206
estatstica, com unidades
linhas, e variveis4.081
dependentes e independentes
unid.amostral8
3.783
n8 amostrais nas1.970
m8
nas
colunas
unid.amostral9
1.643
4.069
n9
3.310
3.947
m9
v. dependente1 v. dependente2 ... v. dependente n v. independente1 v. independente2 ... v. independente m
unid.amostral10
3.288
3.728
n10
3.214
2.665
m10
unid.amostral1
2.593
3.789
n1
2.177
3.318
m1
unid.amostral11
2.856
4.234
n11
2.862
3.026
m11
unid.amostral2
2.326
1.000
n2
2.910
2.575
m2
unid.amostral12
3.608
3.032
n12
2.925
3.993
m12
unid.amostral3
2.190
1.828
n3
5.007
3.128
m3
unid.amostral13
3.611
3.178
n13
2.403
3.112
m13
unid.amostral4
2.883
3.207
n4
5.479
4.250
m4
unid.amostral14
2.514
2.162
n14
4.532
3.876
m14
unid.amostral5
1.828
1.810
n5
1.404
3.298
m5
unid.amostral15
3.716
0.851
n15
2.935
4.154
m15
unid.amostral6
3.657
2.760
n6
2.614
3.491
m6
unid.amostral16
2.344
1.706
n16
1.480
2.099
m16
unid.amostral7
3.487
1.602
n7
2.014
1.520
m7
...
...
...
...
...
...
...
unid.amostral8
3.783
3.206
n8
1.970
4.081
m8
unid.amostral n i
n1
n2
np
m1
m2
mq
unid.amostral9
1.643
4.069
n9
3.310
3.947
m9

unid.amostral10

3.288

3.728

n10

3.214

2.665

m10

unid.amostral11

2.856

4.234

n11

2.862

3.026

m11

unid.amostral12

3.608

3.032

n12

2.925

3.993

m12

unid.amostral13

3.611

3.178

n13

2.403

3.112

m13

unid.amostral14

2.514

unid.amostral15

3.716

INTRODUO
AO nAMBIENTE
DE PROGRAMAO
R
2.162
4.532
3.876
14
0.851

n15

2.935

4.154

m14
m15

unid.amostral16 O objetivo
2.344 desta seo
1.706 apresentarn16
1.480 para qualquer
2.099pessoa livrar-se
m16do
aspectos bsicos
...
...
...
...
...
...
...
receio inicial e comear a usar o R para efetuar anlise de dados. Todo processo de
unid.amostral n i
n1
n2
np
m1
m2
mq

aprendizagem torna-se mais efetivo quando a teoria combinada com a prtica, ento ns
recomendamos fortemente que voc leitor acompanhe os exerccios desta apostila ao mesmo
9

tempo que os executa no seu computador, e no s os leia passivamente. Ainda, por motivo de
tempo e espao no abordaremos todas as questes relacionadas ao uso do R nesta apostila.
Logo, aconselhamos que o leitor ao final das aulas voc consulte o material sugerido para poder
se aprofundar nas questes abordadas.

BAIXANDO E INSTALANDO A VERSO BASE DO R

Para comearmos a trabalhar com o R necessrio baix-lo na pgina do R project da


internet. Ento, digite http://www.r-project.org na barra de endereos do seu navegador. Em
seguida, clique no link download R embaixo da pgina, que o levar pagina do CRAN
(Comprehensive R Archive Network). Escolha qualquer pgina espelho do Brasil para baixar o
programa. Escolha o sistema operacional do seu computador e clique em base.
Reserve algum tempo posteriormente para explorar esta pgina do R-project. Existem
vrios livros (http://www.r-project.org/doc/bib/R-books.html) dedicados a diversos assuntos
baseados no R, alm disso, esto disponveis manuais (http://cran.r-project.org/manuals.html)
em

diversas

lnguas

(http://cran.r-project.org/other-docs.html)

para

serem

baixados

gratuitamente.
Como o R um software livre, no existe a possibilidade de o usurio entrar em contato
com um servio de suporte de usurios, muito comuns em softwares pagos. Ao invs disso,
existem vrias listas de correio eletrnico que fornecem suporte comunidade de usurios
(http://www.r-project.org/mail.html). Ns, particularmente, recomendamos o ingresso nas
seguintes listas: R-help, R-sig-ecology, e R_BR (http://www.leg.ufpr.br/doku.php/software:rbr).
Este ltimo representa um grupo de usurios brasileiro do programa R. Ainda, existem vrios
blogs e pginas com arquivos de ajuda e planilhas com comandos, alguns deles podem ser
baixados aqui: http://www.nceas.ucsb.edu/scicomp/software/r e http://devcheatsheet.com/tag/r/.

PORQUE USAR O R?

Os criadores do R o chamam de uma linguagem e ambiente de programao estatstica e

grfica. O R tambm chamado de programa orientado ao objeto (object oriented


programming), o que significa que utilizar o R envolve basicamente a criao e manipulao de
objetos em uma tela branca em que o usurio tem de dizer exatamente o que deseja que o
10

programa execute ao invs de simplesmente pressionar um boto. E vem da uma das grandes
vantagens em se usar o R: o usurio tem total controle sobre o que est acontecendo e tambm
tem de compreender totalmente o que deseja antes de executar uma anlise.
Na pgina pessoal do Prof. Nicolas J. Gotelli existem vrios conselhos para um
estudante iniciante de ecologia. Dentre esses conselhos, o Prof. Gotelli menciona que o domnio
de uma linguagem de programao uma das mais importantes, porque d liberdade ao eclogo
para executar tarefas que vo alm daquelas disponveis em pacotes comerciais. Alm disso, a
maioria das novas anlises propostas nos mais reconhecidos peridicos em ecologia
normalmente so implementadas em linguagem R, e os autores incluem normalmente o cdigo
fonte no material suplementar dos artigos, tornando a anlise acessvel. A partir do momento
que essas anlises ficam disponveis (seja por cdigo fornecido pelo autor ou por
implementao em pacotes pr-existentes), mais simples entendermos a lgicas de anlises
complexas, especialmente as multivariadas, com nossos prprios dados realizando-as passo a
passo. Sem a utilizao do R, normalmente temos que contatar os autores que nem sempre so
acessveis.
Uma ltima vantagem que por ser um software livre, a citao do R em artigos
permitida e at aconselhvel. Para saber como citar o R, digite citation()na linha de
comando. Para citar um pacote especfico, digite citation()com o nome do pacote entre
aspas dentro dos parnteses. Neste ponto, esperamos ter convencido voc leitor de que aprender
a utilizar o R tem inmeras vantgens, vai ser difcil no comeo mas continue e perceber que o
investimento vai valer pena no futuro.

O WORKSPACE DO R E O TINN-R

Com o R possvel manipular e analisar dados, visualizar grficos e escrever desde


pequenas linhas de comando at programas inteiros. O R a verso em cdigo aberto de uma
linguagem de programao inventada nos anos 1980 no Bell Labs chamada de S. Essa
linguagem tornou-se bastante popular e vrios produtos comerciais que a usam esto
disponveis, como o S-PLUS, SPSS, STATA e SAS. Um aspecto digno de nota que a
linguagem R, ao contrrio de outras linguagem como Fortran e C, uma linguagem
interpretada, o que a faz ser mais fcil de programar, pois processa linhas de comando e as
transforma em linguagem de mquina (cdigo binrio que o computador efetivamente l), mas
isso diminui a velocidade de processamento.
11

Nas linhas de comandos do R haver um sinal de >, que indica o prompt, representando
que o R est pronto para receber comandos. Se uma linha de comando no est completa,
aparecer um sinal de +, indicando que voc poder continuar a digitar aquela linha. Para que o
prompt aparea novamente, pressione Esc. Para que os comandos sejam executados, pressione
Enter. Para criar objetos, podemos utilizar os smbolos -> ou = . Estes smbolos representam
que queremos guardar a informao dentro do objeto.
Neste curso iremos utilizar o R em conjunto com um editor, o Tinn-R. Existem vrios
editores para a linguagem R, como o RStudio, Eclipse etc. (veja uma lista no exaustiva em
http://en.wikipedia.org/wiki/R_(programming_language)), mas preferimos o Tinn-R por ser de
mais fcil utilizao e por possibilitar o destaque das sintaxes de programao, diminuindo erros
de digitao to comuns. E ainda, possvel salvar os scripts para continuar a trabalhar neles
posteriormente. Para baix-lo, v at http://www.sciviews.org/Tinn-R/ e faa o download do
programa. Assim que o instalar, somente ser necessrio clicar no cone do Tinn-R e o R abrir
automaticamente. Toda vez que terminar de escrever uma linha de comando, pressione
Ctrl+Enter para envi-la para o R.
Para saber qual o diretrio de trabalho do R, ou seja, em qual pasta o programa salvar
arquivos, digite:
>get.wd()
possvel mudar o diretrio de trabalho do R de acordo com as necessidades do
usurio. Ento, como exerccio para este curso, clique em Arquivo>mudar dir. e defina o
diretrio para uma pasta deste curso dentro de Meus documentos. Ns recomendamos mudar o
diretrio sempre que um novo conjunto de anlises for feito como, por exemplo, quando for
mudar das anlises do primeiro captulo da sua dissertao para o segundo, escolha a pasta onde
estaro os dados deste captulo como diretrio de trabalho.
OS TIPOS DE OBJETOS: CRIAO E MANIPULAO

Existem cinco classes de objetos na linguagem R: vetor, matriz, data frame, funes e
lista.
Vetor
Existem trs tipos de vetores: o vetor de caracteres, numrico e o lgico.

12

Vetor numrico
>a<-1
>c(1,2,3,4,5)->b
>dados.campo=seq(1,10,2)#cria uma sequncia de nmeros de 1 at
10, de 2 em 2
>x=seq(3,10) #cria uma sequncia de nmeros de 3 at 10
>sample(x, 2, replace=T)
>mata.1=rep(1:2, c(10,3))#repete o nmero 1 dez vezes e o nmero
2 trs vezes
>exemplo=c(1:10)
>length(exemplo)
A linguagem R case sensitive, o que quer dizer que ele distingue entre letras
minsculas e maisculas. Desse modo, fique atento ao criar um objeto e digite-o exatamente
como quando voc o criou. Ainda, no use acentos, til, crases etc. ao dar nome aos objetos.

Vetor de caracter
Tambm possvel criar vetores de caracteres, ou seja, com nomes ao invs de
nmeros. No R, sequncias de caracteres textuais so sempre delimitados por aspas:
>dados.pessoais=c(nome=seuNome, nascimento=aniversario,
estadoCivil=solteiro)
>dados.pessoais
Vetor lgico
Vetores lgicos so quantidades lgicas manipuladas no R. Estes vetores so bastante
teis em programao. Os elementos de um vetor lgico so TRUE, FALSE ou NA (not
available). Abaixo esto exemplos de condies criadas, quando a condio satisfeita, o R
retorna o valor TRUE, quando a mesma no satisfeita, retorna FALSE
>is.factor(x)
>FALSE
>is.matrix(xy)
>FALSE
>a<-1
13

>a<1
>a==1
>a>=1
>a!=2
Fator
Um fator utilizado para criar uma varivel categrica, muito comum em anlises
estatsticas. Para criar um fator, digite:
>dados=factor(c(baixo, menos baixo,mdio ,alto))#notem
que utilizamos um acento em mdio, isto possvel porque esta
palavra aqui tratada como um caracter (por isso as aspas) e
no como um objeto
>is.factor(dados)#testa a converso
Matriz
Uma matriz um arranjo bi-dimensional de vetores, todos os vetores devem ser do
mesmo tipo (numrico ou de caracteres). Veja um exmplo abaixo de como criar uma matriz e
manipul-la:
>xy=matrix(1:12, nrow=3)
>rownames(xy)=LETTERS[1:3]
>colnames(xy)=c(mata.1, mata.2, mata.3, mata.4)
>xy
>t(xy)#transpe a matriz
>class(xy)
>xy[,1] #para acessar a primeira coluna de uma matriz
>xy[1,] #para acessar a primeira linha de uma matriz. Veja que
as chaves representam [linha, coluna]
>head(xy) #para acessar as primeiras linhas de uma matriz
>tail(xy) #para acessar as ltimas linhas de uma matriz
>fix(xy) #edita uma matriz ou data frame
>str(xy)#avalia a estrutura do objeto
>summary(xy)

14

Data frame
O mesmo que uma matriz, mas aceita vetores de tipos diferentes. Este o tipo mais
comum de objeto que iremos usar ao longo deste curso. Um data frame permite incluir num
mesmo objeto vetores numricos e de caracteres, por exemplo:

>comunidade<- data.frame(especies = c("D.nanus",


"S.alter","I.guentheri", "A. callipygius"), habitat =
factor(c("Folhio", "Arbreo", "Riacho", "Poa")), altura =
c(1.1, 0.8, 0.9, 1), distancia = c(1, 1.7, 0.6, 0.2))
>class(comunidade)
>xy=as.data.frame(xy)#converte (coerce) a matriz que criamos
acima numa data frame
>class(xy) #testa a converso
>str(comunidade)
>fix(comunidade)
>edit(comunidade)
Lista
Uma lista um objeto que consiste de um conjunto de objetos ou componentes
ordenados de forma hierrquica. Por exemplo, possvel construir uma lista com uma matriz,
um vetor lgico, etc.
> Lista.ex <- list(name="Toyoyo", wife="Rafaela", no.children=2,
child.ages=c(2,6))
Muitos testes produzem objetos em formato de listas como resultado. s vezes til
extrair partes de uma lista para que possam ser utilizados posteriormente.
>Lista.ex$name

OPERAES ARITMTICAS BSICAS

O R tambm pode ser utilizado como uma calculadora. Faa algumas operaes
aritmticas com os objetos que voc acabou de criar, por exemplo:
15

>a*2
>b*3 #observe o que aconteceu? Como foi feita essa operao?
>b[1]*3 #e agora?
>b/4
>2+3
>3^3
>log(2)#observe o que aconteceu? Este a funo que calcula o
logaritmo neperiano (ln).
>log10(2) #compare o resultado anterior com este. So
diferentes?
>sqrt(3)
>sum(a)
>mean(b)
>sum(b)/length(a)
>pi
>cor(a,b)
>cor.test(a,b)
?cor.test

ENTENDENDO O ARQUIVO DE AJUDA

Um importante passo para ter certa intimidade com a linguagem R aprender a usar a
ajuda de cada funo. Alm disso, existem uma funo (RSiteSearch) e um pacote (sos) que
tambm auxiliam o usurio a realizar uma anlise quando no se sabe qual (e se) a mesma j foi
implementada no R. Para utilizar o RSiteSearch, digite um tema ou o nome de uma anlise entre
aspas no argumento da funo, como no exemplo abaixo:
>RSiteSearch("analysis of variance")
A funo ir buscar na pgina do R na internet qual(is) funo est(o) disponvel(is) para
implementar aquela dada anlise.
Se o pacote sos estiver instalado e carregado, basta digitar:
>???analysis of variance
e o navegador de internet abrir uma pgina mostrando qual(is) funes executam aquela
anlise. Tambm necessrio acesso internet. Outra ferramenta de busca a pgina
16

http://www.rseek.org na qual possvel buscar por um termo no s nos pacotes do R, mas


tambm em listas de emails, manuais, pginas na internet e livros sobre o programa.
Vamos fazer um exerccio para nos ambientarmos com a pgina de ajuda do R, digite:
>?aov
O arquivo de ajuda do R possui geralmente nove ou dez tpicos:
Description - resumo da funo
Usage*- como utilizar a funo e quais os seus argumentos
Arguments* - detalha os argumentos e como os mesmos devem ser especifidados
Details - detalhes importantes para se usar a funo
Value - mostra como interpretar a sada (output) da funo (os resultados)
Notes - notas gerais sobre a funo
Authors - autores da funo
References - referncias bibliogrficas para os mtodos usados pra construir a funo
See also - funes relacionadas
Examples* - exemplos do uso da funo. s vezes pode ser til copiar esse trecho e colar no R
para ver como funciona e como usar a funo.
INSTALANDO E CARREGANDO PACOTES

O R um ambiente de programao e existem atualmente mais de 3000 pacotes que

desempenham

funes

especficas

que

precisam

ser

instalados

carregados

independentemente. Os pacotes stats e base j vm instalados e carregados, so estes pacotes


que possuem as funes para o clculo de modelos lineares simples, como teste t, ANOVA, 2,
glm etc. A funo que instala pacotes no R a install.packages().
Ao longo deste curso utilizaremos vrios pacotes, entre eles o vegan, para instal-lo,
utilize:
>install.packages(vegan)
para instalar vrios pacotes ao mesmo tempo, utilize a funo
c()para criar um vetor:
17

>install.packages(c(vegan, sos))
e para carreg-los, utilize:
>library(vegan)
?vegan
Sempre que tiver de usar as funes de um pacote ser preciso carreg-lo usando a
funo library(). A maioria dos pacotes vem com bancos de dados que podem ser
acessados pelo comando data(). Esses bancos de dados podem ser usados para testar as
funes do pacote. Se estiver com dvida na maneira como voc deve preparar a planilha para
realizar uma anlise especfica, entre no help da funo e veja os conjuntos de dados que esto
no exemplo desta funo.

IMPORTAO E EXPORTAO DE DADOS


>obj=read.table(file.choose(), header=TRUE) # este comando ir
abrir uma tela para que o usurio navegue nas pastas e escolha o
arquivo a ser aberto.
>obj=read.table(clipboard, h=T)#importa objetos que estiverem
na rea de transferncia
>obj=read.table(nomedoarquivo.txt, h=T) #para utilizar este
argumento, o arquivo a ser importado deve estar no diretrio de
trabalho
>obj=read.csv(file.choose(), h=T)
>write.table(nomeDoObjeto, NomeDoObjetoParaSerGravado, sep=
, quote=F, dec=.)
>sink("japi-so.xls") #Exporta pra o wd o(s) objetos que forem
exibidos depois, com o nome que for colocado nesta linha de
comando
>japi.so1
>sink()#Fecha o dispositivo
>?tiff
>?jpeg

18

Exerccios
1) Crie 2 conjuntos de dados de 30 unidades amostrais cada com distribuio normal, mdia 1 e
desvio padro 2.5 e descubra como calcular um teste t para este conjunto, tentem:
>?rnorm
>?t.test
2) Crie 4 vetores numricos de qualquer tamanho com a funo c(), voc tambm pode
combinar as funes seq() e c() se desejar.
a) calcule o comprimento de cada um desses vetores e guarde o resultado num outro vetor.
b) calcule o somatrio dos componentes de cada vetor e guarde o valor num outro vetor.
c) utilize os itens b) e c) para calcular a mdia dos valores de cada um dos vetores.
3) Calcule novamente a mdia dos vetores, agora utilizando a funo mean().
4) Digite ls() e recupere o objeto dados.campo, selecione:
a) os cinco primeiros elementos deste objeto;
b) todos os elementos MENOS os 2 primeiros;
c) o 3 elemento;
d) todos menores que 4.
5) Crie duas sequncias de 1 a 20 com intervalo de 1. Atribua nomes diferentes a cada uma.
7) Utilize a funo cbind() para unir os dois vetores. Nomeie as colunas de a at u utilizando
o vetor letters, e as duas colunas com o vetor LETTERS j disponveis no R.
8) Recupere o objeto xy que criamos h pouco, ele uma matriz.
a) Multiplique-o por um escalar qualquer, por exemplo 3, veja o que acontece;
b) Divida o valor encontrado por 4, observe o que acontece e tente se lembrar das aulas de
lgebra de matrizes do 3 colegial.
c) acesse o elemento a3,1.

19

CRIAO E MANIPULAO DE GRFICOS NO R

O R uma poderosa ferramenta para criao e manipulao de grficos. Os pacotes


graphics e grid, que j vm instalados no R, possuem a funo genrica plot(), alm de
outras como hist(). As funes par() e layout() permitem ainda plotar vrios
grficos conjuntamente, formando uma nica figura.
Alguns pacotes foram desenvolvidos especialmente para manipulao de grficos, como
lattice, ggplot2, ggobi e rgl. Estes pacotes nos permitem fazer praticamente todos os tipos de
grficos, incluindo 3-D e mapas em relevo. Para visualizar uma parte das potencialidades dos
pacotes, instale e carregue-os. Digite no prompt do R demo(lattice) e v apertando Enter.
Faa o mesmo com o ggplot2. Neste mdulo iremos demonstrar algumas das potencialidades
grficas do R. Reiteramos que esses pacotes so um mundo em si s. Logo, convidamos o leitor
a ler e explorar a literatura sugerida abaixo, consultar os quadros resumos, alm de acessar as
seguintes pginas da internet:
http://research.stowers-institute.org/efg/R/
http://addictedtor.free.fr/graphiques/
http://www.gnuplot.info/
http://gnuplot.sourceforge.net/demo_4.2/
http://www.statmethods.net/advgraphs/parameters.html.
As principais funes que possibilitam modificar grficos no R so:
plot()#Funo genrica para plotar grficos
#utilize os argumentos xlab e ylab para adicionar legendas aos eixos, use aspas.
# bty=L retira as molduras das partes direita e superior.
# xlim e ylim determina os limites das escalas dos eixos.
# cex modifica o tamanho dos pontos.
# pch modifica o tipo do ponto
# col modifica as cores dos pontos. Veja tambm a ajuda da funo par().
hist()# plota um histograma
barchart()# plota um grfico de barras
20

locator()#localiza uma coordenda x-y no grfico, utilize o


argumento 1, 2 etc para definir quantos pontos quer localizar
text()#adiciona um texto
arrows()#adiciona uma seta
mtext()adiciona um texto nas margens do grfico
box()#adiciona uma moldura
segments()#adiciona uma linha
legend()#adiciona legendas no alto e embaixo
points()#adiciona pontos no grfico
lines()#adiciona linhas no grfico
par()#divide o layout e plota vrios grficos, utilize o
argumento mfrow=c(2,2) para especificar o nmero de linhas e
colunas. Neste caso a funo par(mfrow=c(2,2)) cria uma janela
para que quatro grficos sejam visualizados (i.e., duas linhas e
duas colunas)
layout()#divide o layout e plota vrios grficos, utilize o
argumento layout(matrix(1:4, ncol=2, nrow=2)) pra definir o
nmero de colunas e linhas.

O pacote lattice permite fazer grficos univariados e multivariados de alto nvel. Alm
disso, ele permite criar objetos da classe trellis que podem ser exportados e modificados.
xyplot()#funo do lattice para grficos univariados
bwplot()# plota um boxplotcoplot()#plota vrios grficos com
estilos diferentes
Exerccios

1) Carregue o pacote lattice e o conjunto de dados quakes, data(quakes), plote os dados


utilizando a funo xyplot().
2) Carregue o conjunto de dados melanoma e utilizando a funo plot() faa um grfico
com o tamanho dos pontos 24, legenda do eixo x Frequncia, legenda do eixo y Anos e sem
as molduras da direita e superior.
3) Crie dois conjuntos de dados quaisquer e combinando as funes abline() e lm()
calcule uma regresso linear simples e ajuste uma reta que indique o modelo.
21

4) Crie um conjunto aleatrio de nmeros com distribuio normal e d nome a este objeto.
Utilize a funo hist() para plotar um grfico com as barras em cor cinza.
a) Utilize a funo points() para criar um ponto em formato de crculo no eixo x no lugar da
mdia.
b) Agora crie dois pontos verdes em formato de tringulo verde invertido no lugar dos 2 quantis.
c) Crie uma legenda no canto superior esquerdo com os smbolos utilizados (tringulo e
crculo), com os significado (mdia e quantil).
d) Pinte de vermelho e verde os smbolos.

Quais funes voc aprendeu?


Uma linguagem de programao uma linguagem como qualquer outra, e sua
aprendizagem exige domnio de vocabulrio e sintaxe. O vocabulrio da linguagem R so as
funes e comandos. Ento, sempre que um mdulo acabar, lembre-se de tomar nota das
funes e comandos, bem como para que serve cada uma delas. Utilize o marcador # em frente
a uma funo para explicar a sua utilidade. Voc se lembra de todas que aprendeu hoje?
DISTRIBUIES ESTATSTICAS
Uma distribuio estatstica definida como uma funo que define uma curva. A rea sob essa
curva determina a probabilidade de ocorrncia de um dado evento.

Variveis aleatrias:
A varivel aleatria (X) uma varivel que tem um valor nico (determinado
aleatoriamente) para cada resultado de um experimento. A palavra aleatria indica que em geral
s conhecemos aquele valor depois do experimento ser realizado.
Exemplos de variveis aleatrias:
a. Nmero de presas capturadas em um determinado dia;
b. Comprimento de um peixe adulto selecionado aleatoriamente.
As variveis aleatrias podem ser discretas ou contnuas.

22

Varivel aleatria discreta: nmero ou a quantidade observada na unidade experimental ou


tentativa.
-

Representada por nmeros inteiros (0, 1, 2, 3, 4...);

No pode conter nmeros negativos;

Nmero finito de possibilidades;

Podemos achar a probabilidade de cada evento.

Varivel aleatria contnua: usualmente medidas contnuas como peso, altura, distncia, pH,
biomassa, etc.
-

Representada por nmeros no inteiros (1,3; - 1,54; - 1,7);

Pode conter nmeros negativos;

Nmero infinito de possibilidades;

Probabilidade de cada evento zero.


FUNES DE PROBABILIDADE
A funo probabilidade associa cada possvel valor da varivel aleatria (X) sua

probabilidade de ocorrncia P(X). Quando conhecemos todos os valores de uma varivel


aleatria, juntamente com suas respectivas probabilidades, temos uma distribuio de
probabilidades (Fig. 3). As distribuies de probabilidade discreta conhecida como funo
massa de probabilidade, enquanto que distribuies de probabilidade contnua conhecida
como funo de densidade de probabilidade. A diferena est no fato de que nas distribuies
discretas temos a probabilidade para cada valor de X (Fig. 3a), enquanto que nas distribuies
contnuas temos a probabilidade para um intervalo (Fig. 3b).
(b)
(a)

Funodensidadedeprobabilidade
Funomassadeprobabilidade
Figura 3. Funes de probabilidade para (a) varivel discreta e (b) varivel contnua.
23

FUNESDEDISTRIBUIOACUMULADA
A funo de distribuio acumulada igual probabilidade de que a varivel
aleatria X assuma um valor inferior ou igual a determinado x (Figura 4).

Figura 4. Funo de distribuio acumulada.


DISTRIBUIOBINOMIAL
a distribuio de probabilidade discreta do nmero de sucessos em uma sequncia
de n tentativas tal que: i) as tentativas so independentes; ii) cada tentativa resulta apenas em
duas possibilidades, sucesso ou fracasso; e iii) a probabilidade de cada tentativa, p, permanece
constante.
Se a varivel aleatria X que contm o nmero de tentativas que resultam em sucesso tem uma
distribuio binomial com parmetros n e p, escrevemos X ~ B(n, p). A probabilidade de se ter
exatamente k sucessos dada pela funo de probabilidade:
=

!
(1 )!!!

onde q a probabilidade de um evento ocorrer, 1 q a probabilidade do evento no ocorrer, X


a freqncia de ocorrncia e pode adquirir os valores 0, 1, 2, ..., n. Portanto, esta funo
fornece a probabilidade de ocorrerem X sucessos em n tentativas.
Se a X ~ B(n, p), isto , X uma varivel aleatria distribuda binomialmente, ento o valor
esperado de X :
=
e a varincia
= (1 )

24

Exemplo
H uma probabilidade de 0,30 de um girino, ao forragear em um corpo dgua, ser
predado por uma larva de odonata. Determine as probabilidades de que, dentre seis girinos que
esto forrageando no corpo dgua, 0, 1, 2, 3, 5 ou 6 sejam predados. Trace um histograma
dessa distribuio de probabilidade.
Soluo
Admitindo que a escolha seja aleatria, fazemos n = 6, q = 0,30 e, respectivamente, X = 0, 1, 2,
3, 4, 5 e 6 na frmula da distribuio binomial:
=

6
0
6
p(0) = (0,30 ) (0,70 ) 0,118
0
6
1
5
p(1) = (0,30 ) (0,70 ) 0,303
1
6
2
4
p(2) = (0,30 ) (0,70 ) 0,324
2

!
(1 )!!!

6
4
2
p(4) = (0,30 ) (0,70 ) 0,060
4

6
5
1
p(5) = (0,30 ) (0,70 ) 0,010
5
6
6
0
p(6) = (0,30 ) (0,70 ) 0,001
6

6
3
3
p(3) = (0,30 ) (0,70 ) 0,185
2

Nmerodegirinospredados

Figura 5. Histograma da distribuio binomial com n = 6 e q = 0,30.

25

REALIZANDO O MESMO EXERCCIO NO PROGRAMA R:


Comandos
Existem quatro funes que podem ser utilizadas para gerar os valores associados distribuio
binomial. Voc pode obter uma lista completa das mesmas e as suas opes com o comando
help:
>help(Binomial)
Quando o nmero de tentativas (size) e a probabilidade de sucesso so conhecidos para cada
evento (prob) possvel utilizar o comando abaixo para descobrir a probabilidade para qualquer
valor da varivel x.
>dbinom(x, size, prob)
No caso do exemplo acima, para descobrirmos qual a probabilidade de dois girinos serem
predados, precisamos digitar o seguinte comando:
>dbinom (2, size = 6, prob = 0.3)
0.324135
A probabilidade de trs girinos serem predados
>dbinom (3, size = 6, prob = 0.3)
0.18522
Funo de probabilidade acumulativa - Para descobrir a probabilidade de valores menores ou
iguais a X utilizamos o comando:
>pbinom(q, size, prob)
Para descobrirmos qual a probabilidade de dois ou menos girinos (0, 1) serem predados,
precisamos digitar o seguinte comando:
>pbinom (2, size = 6, prob = 0.3)
0.74431

Para descobrirmos qual a probabilidade de que cinco ou menos girinos (0, 1, 2, 3, 4) sejam
predados, precisamos digitar o seguinte comando:
26

>pbinom (5, size = 6, prob = 0.3)


0.999271
Inverso da funo de probabilidade acumulativa - Um exemplo contrrio ao comando
anterior utilizado quando um valor de probabilidade fornecido e o programa retorna o valor
de X associado a ele. Para isso utiliza-se o seguinte comando:
>qbinom(p, size, prob)
Qual o valor de X (nmero de girinos predados) associado probabilidade de 0,74?
>qbinom(0.74, size = 6, prob = 0.3)
2
Qual o valor de X (nmero de girinos predados) associado a probabilidade de 0,99?
>qbinom(0.99, size = 6, prob = 0.3)
5
Finalmente, nmeros aleatrios podem ser gerados de acordo com a distribuio binomial com
o seguinte comando:
>rbinom(n, size, prob)
Por exemplo, para gerar dez nmeros aleatrios de uma distribuio binomial com 20 tentativas
e probabilidade 0,63.
>rbinom(10,

size = 20, prob = 0.63)

Voc pode plotar o grfico da funo massa de distribuio atravs do seguinte comando:

>plot(dbinom(seq(0,6, by =1), size = 6, prob = 0.3), type ="h",


xlab = "Nmero de girinos predados", ylab = "Probabilidade",
main = "Funo massa de probabilidade")

O grfico da funo de probabilidade acumulada pode ser plotado com o seguinte comando:
>plot(pbinom(seq(0,6, by =1), size = 6, prob = 0.3),type ="h",
xlab = "Nmero de girinos predados", ylab = "Probabilidade",
main = "Funo de probabilidade acumulada")
27

DISTRIBUIOPOISSON
Na teoria da probabilidade e na estatstica, a distribuio de Poisson uma distribuio
de probabilidade discreta. Expressa a probabilidade de uma srie de eventos ocorrem em um
perodo fixo de tempo, rea, volume, quadrante, etc. Esta distribuio segue as mesmas
premissas da distribuio binomial: i) as tentativas so independentes; ii) a varivel aleatria
o nmero de eventos em cada amostra; e iii) a probabilidade constante em cada intervalo.
A probabilidade de que existam exatamente k ocorrncias (k sendo um nmero inteiro,
no negativo, k = 0, 1, 2, ...) :
; =

!! ! !! !
!
!

e base do logaritmo natural (e = 2.71828...),

k! o fatorial de k,

um nmero real, igual ao nmero esperado de ocorrncias que ocorrem num dado
intervalo de tempo.

Se a X ~ Pois(), isto , X uma varivel aleatria com distribuio Poisson, ento o valor
esperado de X
=
e a varincia
=
Exemplo
Suponha que um pesquisador registrou o nmero de visitas flor de uma planta durante um
perodo de 15 minutos. O nmero mdio de borboletas que visitam no perodo de 15 minutos
10 (). Determine a probabilidade de que cinco borboletas visitem a flor em 15 minutos. A
probabilidade de uma borboleta visitar a mesma para quaisquer dois perodos de tempo de
igual comprimento. Trace um histograma dessa distribuio de probabilidade.

28

Soluo
Admitindo que a visita ou no visita de uma borboleta em qualquer perodo de tempo
independente da visita ou no visita de uma segunda borboleta em qualquer outro perodo de
tempo, fazemos = 10 e X = 5 na frmula da distribuio poisson:

P( X = 5) ==

P( X = 5) ==

10 5 e 10
= 0,0378
5!

10 5 e 10
= 0,0378
5!

0.04

0.06

0.08

0.00

0.02

Probabilidade

0.10

0.12

Funo distribuio de probabilidade

10

12

14

Nmero de visitas

REALIZANDO O MESMO EXERCCIO NO PROGRAMA R:


Comandos
Existem quatro funes que podem ser utilizadas para gerar os valores associados distribuio
poisson. Voc pode obter uma lista completa das mesmas e as suas opes com o comando
help:
>help(Poisson)
Quando voc tem a mdia por unidade de tempo, rea ou quadrante () voc pode utilizar o
comando abaixo para descobrir a probabilidade para qualquer valor da varivel X.
>dpois(x, lambda)
No caso do exemplo acima, para descobrirmos qual a probabilidade de que cinco borboletas
visitem uma flor, precisamos digitar o seguinte comando:
29

>dpois (5, lambda = 10)


0.03783327
A probabilidade de que oito borboletas visitem uma flor :
>dpois (8, lambda = 10)
0.1125
Funo de probabilidade acumulativa - Para descobrir a probabilidade de valores menores ou
iguais a X utilizamos o comando:
>ppois(x, lambda)
Para descobrirmos qual a probabilidade de duas ou menos visitas (1) flor, precisamos digitar o
seguinte comando:
>ppois (2, lambda = 10)
0.00276
A probabilidade de cinco ou menos visitas (1, 2, 3, 4) flor :
>ppois (5, lambda = 10)
0.06708
Inverso da funo de probabilidade acumulativa - Um exemplo contrrio ao comando
anterior quando voc fornece um valor de probabilidade e o programa retorna o valor de X
associado a ele. Para isso usa-se o seguinte comando:
>qpois (p, lambda)
Qual o valor de X (nmero de visitas) associado probabilidade de 0.8?
>qpois (0.8, lambda = 10)
13
Qual o valor de X (nmero de visitas) associado a probabilidade de 0.1?
>qpois (0.1, lambda = 10)
6

30

Finalmente nmeros aleatrios podem ser gerados de acordo com a distribuio Poisson com o
seguinte comando:
>rpois (n, lambda)
Por exemplo, para gerar dez nmeros aleatrios de uma distribuio Poisson com mdia ( ) 22.
>rbinom(10,

lambda = 22)

Voc pode plotar o grfico da funo massa de distribuio atravs do seguinte comando:
>plot(dpois(seq(1,10, by =1), lambda = 10), type ="h",xlab =
"Nmero

de

visitas",

ylab

"Probabilidade",

main

"Funo

massa de probabilidade")

O grfico da funo de probabilidade acumulada pode ser plotado com o seguinte comando:
>plot(ppois(seq(1,10, by =1), lambda = 10),type ="h", xlab =
"Nmero

visitas",

ylab

"Probabilidade",

main

"Funo

de

probabilidade acumulada")
Podemos usar a distribuio de Poisson como uma aproximao da distribuio
Binomial quando n, o nmero de tentativas, for grande e p ou 1 p for pequeno (eventos
raros). Um bom princpio bsico usar a distribuio de Poisson quando n 30 e n.p ou n.(1p) < 5%. Quando n for grande, pode consumir muito tempo em usar a distribuio binomial e
tabelas para probabilidades binomiais, para valores muito pequenos de p podem no estar
disponveis. Se n(1-p) < 5, sucesso e fracasso devero ser redefinidos de modo que Np < 5 para
tornar a aproximao precisa.
>plot(dbinom(seq(1,50,

by

=1),

="h", ylab = "Probabilidade",

size

=50,

prob

0.09),

type

main = "Distribuio Binomial")

>plot(dpois(seq(1,50, by =1), lambda = 50*0.09), type ="h", ylab


= "Probabilidade", main = "Distribuio Poisson")

31

DISTRIBUIONORMAL
A distribuio normal uma das mais importantes distribuies com probabilidades
contnuas. Conhecida tambm como Distribuio de Gauss ou Gaussiana. Esta distribuio
inteiramente descrita por parmetros de mdia () e desvio padro (), ou seja, conhecendo-se
estes parmetros consegue-se determinar qualquer probabilidade em uma distribuio Normal.
A importncia da distribuio normal como um modelo de fenmenos quantitativos devido em
parte ao Teorema do Limite Central. O teorema afirma que "toda soma de variveis aleatrias
independentes de mdia finita e varincia limitada aproximadamente Normal, desde que o
nmero de termos da soma seja suficientemente grande" (Fig. 7). Independentemente do tipo de
distribuio da populao, na medida em que o tamanho da amostra aumenta, a distribuio das
mdias amostrais tende a uma distribuio Normal.

Figura 7. Grficos demonstrando que mesmo com um grande nmero de variveis aleatrias, as
distribuies tm um padro aproximadamente normal.
A distribuio binomial B(n,p) aproximadamente normal N(np,np(1 p)) para
grande n e para p no to prximos de 0 ou 1. Enquanto que a distribuio Poisson Pois()
aproximadamente Normal N(, ) para grandes valores de .
A funo de densidade de probabilidade da distribuio normal com mdia e varincia 2
(de forma equivalente, desvio padro ) assim definida,

f ( x) =

1
2

(x )

2 2

Variveis aleatrias com distribuio aproximadamente normal apresentam as seguintes


propriedades:

Metade (50%) est acima (e abaixo) da mdia

Aproximadamente 68% est dentro de 1 desvio padro da mdia


32

Aproximadamente 95% est dentro de 2 desvios padres da mdia

Virtualmente todos os valores esto dentro de 3 desvios padres da mdia

Na prtica desejamos calcular probabilidades para diferentes valores de

e . Para isso

teramos que realizar uma 2integral:


2
b

P (a < x < b ) =
a

( x ) / 2

dx

Para facilitar, a varivel X cuja distribuio N ( , ) transformada em uma forma


padronizada Z com distribuio N (0, 1) (distribuio Normal padro) cuja distribuio
tabelada. A quantidade Z dada por :

X ~ N ( , ) Z =

~ N (0,1)

Exemplo
Qual a probabilidade de que um peixe capturado aleatoriamente tenha 20,15 cm ou mais,
sabendo que a mdia da populao 17,1 cm e o desvio padro de 1,21 cm? Trace um
histograma dessa distribuio de probabilidade.
Soluo

ZL =

20.15 17.1
= 2.52
1.21

ZU =

Para descobrir a probabilidade de se capturar um peixe maior que 20,15 cm, voc precisa
procurar pelo valor de Z = 2.52 em uma tabela de distribuio Z:
P(X20.15)=P(Z2.52)=.0059(1/170)

Portanto, a probabilidade de se capturar um peixe aleatoriamente maior que 20,15 cm numa


populao com mdia 17,1 cm e desvio de 1,21 cm de 0.006%.
REALIZANDO O MESMO EXERCCIO NO PROGRAMA R:
Comandos
Existem quatro funes que podem ser utilizadas para gerar os valores associados distribuio
Normal. Voc pode obter uma lista completa das mesmas e as suas opes com o comando
help:
33

>help(Normal)
Quando tem-se a mdia e o desvio padro da populao voc pode utilizar o comando abaixo
para descobrir a probabilidade para qualquer intervalo.
>pnorm(x, mean, sd, lower.tail = TRUE) ## Ficar atento para
quando voc quer medir intervalo acima da mdia ou abaixo
dela. Quando for acima, voc precisa substituir o TRUE
por FALSE
No caso do exemplo acima, para descobrirmos qual a probabilidade de se capturar um peixe
maior que 20,15 cm, precisamos digitar o seguinte comando:
>pnorm (20.15, mean = 17.1, sd = 1.21, lower.tail = FALSE)
0.0058567
Imagine que se tenha uma populao com mdia 100 cm e um desvio padro de 10 cm, para
descobrir o intervalo associado com 95% de probabilidade voc deve usar o seguinte comando:
>qnorm (0.95, mean = 100, sd = 10)
116.45
Para descobrir a probabilidade de se obter valores entre 80 e 120 cm, deve-se usar o seguinte
comando:
>pnorm(120, mean=100, sd=10) - pnorm(80, mean=100, sd=10)
0.95449
Voc pode plotar o grfico da funo densidade de probabilidade atravs do seguinte
comando:
x = seq(70,130,length = 200)
y = dnorm(x, mean=100, sd=10)
plot(x,

y,

type="l",

lwd=2,

col="red",

ylab

"Probabilidade",main ="Funo densidade de probabilidade")

O grfico da funo de probabilidade acumulada pode ser plotado com o seguinte comando:

34

x = seq(70,130,length = 200)
y = pnorm(x, mean=100, sd=10)
plot(x,

y,

type="l",

lwd=2,

col="red",

ylab

"Probabilidade",main ="Funo de probabilidade acumulada")


Exerccios
1) Uma aranha predadora que vive em flores polinizadas por pequenas mariposas consome em
mdia cinco mariposas por hora. Qual a probabilidade da aranha predar duas mariposas em uma
hora selecionada aleatoriamente?
2) Um pesquisador verificou que seis ovos de uma determinada ave so consumidos em mdia
por hora em uma rea de nidificao.
a) Qual a probabilidade de que trs ovos sejam predados?
b) Qual a probabilidade de que trs ou menos ovos sejam predados?
3) Um trabalho recente verificou que 1% dos fgados de cobaias submetidas ao tratamento com
lcool apresentavam danos teciduais. Encontre a probabilidade de que mais de um fgado em
uma amostra aleatria de 30 fgados apresente danos teciduais usando:
a) Distribuio Binomial
b) Distribuio Poisson
4) Uma nova tcnica de amostragem registra dez indivduos de lagartos por hora em uma rea
florestal. Encontre a probabilidade de que quatro ou menos indivduos sejam registrados em
uma hora aleatria.
5) Supondo que a probabilidade de um casal de ursos pandas ter filhotes albinos de . Se um
casal produzir seis filhotes, qual a probabilidade de que metade deles sejam albinos?
6) Se a probabilidade de um sapo capturar uma mosca em movimento de 30%. Qual a
probabilidade de que em quatro tentativas ele capture no mnimo trs moscas?
7) Um pesquisador extrai 15 amostras de DNA aleatoriamente de um banco de dados que
produz 85% de amostras aceitveis. Qual a probabilidade de que dez amostras extradas sejam
aceitveis?

35

8) Um populao de crocodilos tem tamanho corporal mdio de 400 cm e desvio padro de 50


cm. Qual a probabilidade de capturarmos um crocodilo dessa populao com tamanho entre 390
e 450 cm?
9) O comprimento do antebrao de uma espcie de morcego endmica do Cerrado de 4 cm
com desvio padro de 0,25 cm. A partir de qual comprimento os morcegos teriam os antebraos
mais compridos nessa populao?
10) Suponha que o tempo necessrio para um leo consumir sua presa siga uma distribuio
normal de mdia de 8 minutos e desvio padro de 2 minutos.
(a) Qual a probabilidade de que um leo consuma sua presa em menos de 5 minutos?
(b) E mais do que 9,5 minutos?
(c) E entre 7 e 10 minutos?
11) A distribuio dos pesos de coelhos criados em uma granja pode muito bem ser
representada por uma distribuio Normal, com mdia 5 kg e desvio padro 0,9 kg. Um
pesquisador comprar 5000 coelhos e pretende classific-los de acordo com o peso do seguinte
modo: 15% dos mais leves como pequenos, os 50% seguintes como mdios, os 20% seguintes
como grandes e os 15% mais pesados como extras. Quais os limites de peso para cada
classificao?
Classificao do pesquisador

15%

50%
x1

20%
x2

15%
x3

Seja,
x1 o valor do peso que separa os 15% mais leves dos demais,
x2 o valor do peso que separa os 65% mais leves dos demais,
x3 o valor do peso que separa os 85% mais leves dos demais.

GeneralizedLinearModels(GLM)ModelosLinearesGeneralizados
Muitos mtodos estatsticos populares so baseados em modelos matemticos que
assumem que os dados seguem uma distribuio Normal, dentre eles a anlise de varincia e a
36

regresso mltipla. No entanto, em muitas situaes a suposio de normalidade no


plausvel. Conseqentemente, o uso de mtodos que assumem a normalidade pode ser
insatisfatrio e aumentam a probabilidade de cometermos erros inferenciais (erros do Tipo I e
II). Nestes casos, outras alternativas que no pressupoem distribuio normal dos dados so
atraentes e mais robustas.
Podemos usar modelos lineares generalizados (GLM) quando a varincia no
constante, e/ou quando os erros no so normalmente distribudos. Muitos tipos de dados tm
erros no normais. No passado, as nicas maneiras capazes de lidar com esse problema eram a
transformao da varivel resposta ou a adoo de mtodos no paramtricos. Em GLM,
assumimos que cada resultado da varivel dependente Y seja gerado a partir de uma variedade
de diferentes tipos de distribuies que lidam com esse problema:
Poisson teis para dados de contagem
Binomial teis para dados com propores
Gamma teis para dados mostrando um coeficiente constante de varincia
Exponencial teis com dados de anlises de sobrevivncia
Existem muitas razes para usar GLMs, em vez de regresso linear. Dados de presena-ausncia
so (geralmente) codificados como 1 e 0, os dados proporcionais so sempre entre 0 e 100%, e
os dados de contagem so sempre no-negativos. GLMs usados para 0-1 e dados proporcionais
so normalmente baseados em distribuio binomial e para dados de contagem as distribuies
de Poisson e binomial negativa so opes comuns.
A mdia, , da distribuio depende das variveis independentes, X, e calculada atravs de:
= = g ! ()
onde E (Y) o valor esperado de Y; X o preditor linear, uma combinao linear de
parmetros desconhecidos, ; g a funo de ligao.
GLM consiste em trs etapas:
1. Uma hiptese sobre a distribuio da varivel resposta Yi. Isso tambm define
a mdia e a varincia de Yi. (e.x., Distribuio Poisson, Binomial, Gamma).
2. Especificao da parte sistemtica. Esta uma funo das variveis explicativas.
! = + ! !! + ! !! + + ! !!

37

3. A relao entre o valor mdio de Yi e a parte sistemtica. Esta tambm chamada de ligao
entre a mdia e a parte sistemtica (Tabelas 2 e 3).
Tabela 2. Funes de ligaes para GLM.

Tabela 3. Algumas das ligaes mais comuns para GLM.

Likelihood
Os passos finais do processo de modelagem so constitudos pela estimativa dos
parmetros a partir dos dados e teste dos modelos uns contra os outros. Estimar os parmetros
dos modelos significa achar os parmetros que fazem o modelo se ajustar melhor aos dados
coletados. Nosso goodness-of-fit ser baseado na probabilidade (likelihood) - a probabilidade de
se encontrar nossos dados dado um modelo particular. Queremos a estimativa da mxima
verossimilhana (maximum likelihood estimate) dos parmetros aqueles valores dos
parmetros que fazem os dados observados mais provveis de terem acontecido. Uma vez que
38

as observaes so independentes, a juno das probabilidades dos dados totais o produto das
probabilidades de cada observao individual. Por convenincia matemtica, sempre
maximizamos o logaritimo das probabilidades (log-likelihood) ao invs da probabilidade direto.

LikelihoodRatioTest
Os modelos GLM so ajustados aos dados pelo mtodo de mxima verossimilhana,
proporcionando no apenas estimativas dos coeficientes de regresso, mas tambm estimando
erros padres dos coeficientes. Ns podemos utilizar a likelihood ratio test (LRT) para escolher
modelos em certas situaes. A LRT compara dois modelos aninhados, testando se os
parmetros aninhados do modelo mais complexo diferem significativamente do valor nulo. Um
modelo mais simples (com menos parmetros) aninhado em outro, mais complexo (com mais
parmetros), se o modelo complexo for reduzido para o mais simples pela retirada de um dos
parmetros. Em outras palavras, ele testa se h necessidade de se incluir um parmetro extra no
modelo para explicar os dados. O residual deviance para um GLM Dm = 2 (loge Ls - loge Lm),
onde Lm a mxima verossimilhana sob o modelo em questo, e Ls a mxima
verossimilhana sob um modelo saturado (modelo mais complexo) que dedica um paramtro
para cada observao e consequentemente ajusta os dados o mais prximo possvel. O residual
deviance anlogo soma dos quadrados dos resduos para um modelo linear. Em GLM para o
qual o parmetro de disperso fixado em 1 (binomial e Poisson), a razo da verossimilhana
estatstica do teste a diferena dos residual deviance para os modelos aninhados. LRT
apresenta uma distribuio de qui-quadrado com k1- K0 graus de liberdade. Para GLM em que
existe um parmetro para estimar a disperso (Gaussian, Quasi-poisson e Gamma), podemos
comparar modelos aninhados por um teste F.

Akaike Information Criterion (AIC) - Critrio de Informao de Akaike


O critrio de Akaike uma ferramenta para seleo de modelos, pois oferece uma
medida relativa do goodness-of-fit (qualidade do ajuste) de um modelo estatstico. AIC no
fornece um teste de um modelo no sentido usual de testar uma hiptese nula, ou seja, ele no
pode dizer nada sobre o quo bem o modelo ajusta os dados em um sentido absoluto.
No caso geral, AIC
= 2 2ln()

39

onde k o nmero de parmetros no modelo estatstico, e L o valor maximizado da funo


likelihood para o modelo estimado. Dado um conjunto de modelos candidatos, o modelo
preferido aquele com o valor mnimo de AIC. O valor de AIC no s recompensa goodnessof-fit, mas inclui tambm uma penalizao que uma funo crescente do nmero de
parmetros estimados. Esta penalidade desencoraja overfitting (aumentando o nmero de
parmetros livres no modelo melhora a qualidade do ajuste, independentemente do nmero de
parmetros livres no processo de gerao de dados).
AICC AIC com uma correo para amostras finitas:
! = +

2( + 1)
1

onde k denota o nmero de parmetros do modelo. Assim, AICC AIC com uma maior
penalizao para os parmetros extra.
Burnham & Anderson (2002) recomendam o uso do AICC, ao invs de AIC, se n for pequeno ou
k grande. Uma vez que o valor de AICc converge para AIC quando n se torna grande, AICc
geralmente devem ser empregados independentemente do tamanho da amostra. Usar AIC, em
vez de AICC, quando n no muitas vezes maior do k2 aumenta a probabilidade de seleo dos
modelos que tm muitos parmetros (overfitting).
Uma outra comparao entre os modelos pode ser baseada no clculo do Peso do Akaike
(Akaike weigths - Buckland et al. 1997). Se existem M modelos candidatos, ento o peso para o
modelo i :

(/2)
1
2

exp 2 + exp 2 + exp( 2 )

onde a diferena entre o valor do AIC entre modelo i e os modelos restantes. Os pesos do
Akaike calculados desta forma so usados para medir a fora da evidncia em favor de cada um
dos modelos, com um grande peso indicando alta evidncia.
Dez orientaes para Seleo de Modelo
1) Cada modelo deve representar uma hiptese (interessante) especfica a ser testada.
2) Mantenha os sub-grupos de modelos candidatos curtos. desaconselhvel considerar tantos
modelos quanto o nmero de dados que voc tem.

40

3) Verificar a adequao do modelo: use o seu modelo global (modelo mais complexo) ou
modelos subglobais para determinar se as hipteses so vlidas. Se nenhum dos modelos se
ajustar aos dados, critrios de informao indicaro apenas o mais parcimonioso dos modelos
mais pobres.
4) Evitar a dragagem de dados (e.g., procura de padres aps uma rodada inicial de anlise).
5) Evite modelos overfitted.
6) Tenha cuidado com os valores faltantes (NA). Lembre-se de que valores faltantes somente
para algumas variveis alteram o tamanho do conjunto de dados e amostras dependendo de qual
varivel includa em um dado modelo. sugirido remover casos omissos antes de iniciar a
seleo de modelos.

7) Use a mesma varivel resposta para todos os modelos candidatos. inadequado executar
alguns modelos com varivel resposta transformados e outros com a varivel no transformada.
A soluo usar uma funo de ligao diferente para alguns modelos (e.g., identity vs. log
link).
8) Quando se trata de modelos com overdispersion, utilize o mesmo valor de c-hat para todos os
modelos em um conjunto de modelos candidatos. Para modelos binomiais com trials > 1 ou
com Poisson GLM, deve-se estimar o c-hat do modelo mais complexo (modelo global). Se c hat
> 1, deve-se usar o mesmo valor para cada modelo do conjunto de modelos candidatos e incluilo na contagem dos parmetros (K). Da mesma forma, para binomial negativa, voc deve
estimar o parmetro de disperso do modelo global e usar o mesmo valor em todos os modelos.
9) Burnham e Anderson (2002) recomendam evitar misturar a abordagem da teoria da
informao e noes de significncia (ou seja, os valores P). melhor fornecer estimativas e
uma medida de sua preciso (erro padro, intervalos de confiana).
10) Determinar o ranking das modelos apenas o primeiro passo. A soma do Peso Akaike 1
para o modelo de todo o conjunto e pode ser interpretado como o peso das evidncias em favor
de um determinado modelo. Modelos com grandes valores do Peso Akaike tm forte apoio.
Taxas de evidncias, valores de importncia, e intervalo de confianca para o melhor modelo so
outras medidas que auxiliam na interpretao. Nos casos em que o melhor modelo do ranking
tem um Peso Akaike > 0,9, pode-se inferir que este modelo o mais parcimonioso. Quando
muitos modelos so classificados por valores altos (ou seja, o delta (Q) AIC (c) < 2 ou 4), devese considerar a mdia dos parmetors dos modelos de interesse que aparecem no topo. A mdia
dos modelos consiste em fazer inferncias com base no conjunto de modelos candidatos, em vez
41

de basear as concluses em um nico "melhor" modelo. uma maneira elegante de fazer


inferncias com base nas informaes contidas no conjunto inteiro de modelos.
Exemplos
A partir dos exemplos a seguir irei explicar os comandos bsicos necessrios para
realizar as anlises de GLM. altamente recomendvel que vocs recorram aos livros sugeridos
no incio desta apostila para um aprofundamento no assunto e para que possam realizar anlises
mais complexas.
Carregando pacotes necessrios para as anlises
>library(languageR)
>library(nlme)
>library(glmmML)
>library(lme4)
>library(AICcmodavg)
>library(bestglm)
>library(mgcv)
>library(MuMIn)
>library(pscl)
>library(MASS)
>library(bbmle)
>library(lattice)
>library(AED) ## Esse pacote tem deve ser baixado da pgina
#http://www.highstat.com/book2.htm
Primeiro Exemplo
>data(RoadKills)

## Carregando dados - Os dados consistem do

nmero de mortes de anfbios em uma rodovia em 52 stios em


Portugal
Teoria: Ecologia de Paisagem
Varivel dependente: Nmero de anfbios mortos
Questo: Quais variveis da paisagem melhor explicam a mortalidade de anfbios?
>RK <- RoadKills

## Renomeando para facilitar


42

Modelo Global
>M1 <- glm (TOT.N ~ OPEN.L + MONT.S + SQ.POLIC + SQ.SHRUB +
SQ.WATRES + L.WAT.C + SQ.LPROAD + SQ.DWATCOUR + D.PARK,
family = poisson, data=RK)
SELEO DO MELHOR MODELO
Akaike Information Criterion (AIC)
>step(M1) ## Esse comando faz a seleo automaticamente
Outra maneira de utilizar Akaike Information Criterion. preciso construir os modelos
de acordo com suas hipteses ou retirando as variveis que no apresentam um efeito
significativo.
>M2 <- glm (TOT.N ~ OPEN.L + MONT.S + SQ.POLIC +
SQ.WATRES

L.WAT.C

SQ.LPROAD

D.PARK,

SQ.SHRUB +
family

poisson, data=RK)
>M3 <- glm (TOT.N ~ MONT.S + SQ.POLIC + SQ.SHRUB + SQ.WATRES +
L.WAT.C + SQ.LPROAD +

D.PARK, family = poisson,

data=RK)
>M4 <- glm (TOT.N ~ L.WAT.C + SQ.LPROAD + D.PARK, family =
poisson, data=RK)
Esse comando cria uma tabela colocando os modelos em ordem crescente de valores, ou
seja, com o melhor modelo no topo. Ele apresenta o valor de delta que a diferena entre o
melhor modelo que recebe o valor de zero e os outros modelos.
WEIGHT = so usados para medir a fora da evidncia em favor de cada um dos modelos
>AIC <- ICtab (M1, M2, M3, M4, type = c("AIC"), weights = TRUE,
delta = TRUE, sort = TRUE)
>AIC
Contudo, quando o nmero de amostras dividido pelo nmero de paramtros for < 40
recomendado utilizar um AIC corrigido (AICc) para pequenas amostras. Na verdade, como em
43

grandes amostras o valor de AICc tende ao valor de AIC sem correo, recomendado sempre
utilizar AICc.
>AICc <- ICtab(M1, M2, M3, M4, type = c("AICc"), weights = TRUE,
delta = TRUE, sort = TRUE, nobs = 52)
>AICc
Terceira maneira de calcular AIC, AICc
Cria um vetor com lista de modelos:
>Modelos <- list()
>Modelos

[[1]]

<-

glm(TOT.N

OPEN.L

MONT.S

SQ.POLIC

SQ.SHRUB + SQ.WATRES + L.WAT.C + SQ.LPROAD + SQ.DWATCOUR +


D.PARK, family = poisson (link = "log"), data=RK)
>Modelos

[[2]]

SQ.SHRUB

<+

glm(TOT.N

SQ.WATRES

~
+

OPEN.L

MONT.S

L.WAT.C

SQ.LPROAD

SQ.POLIC
+

D.PARK,

family = poisson (link = "log"), data=RK)


>Modelos [[3]] <- glm(TOT.N ~ MONT.S + SQ.POLIC + SQ.SHRUB +
SQ.WATRES + L.WAT.C + SQ.LPROAD + D.PARK, family = poisson
(link = "log"), data=RK)
>Modelos [[4]] <- glm(TOT.N ~ L.WAT.C + SQ.LPROAD + D.PARK,
family = poisson, data=RK)
Cria um vetor com nomes dos modelos
>(Modnames <- paste("Mod", 1:length(Modelos), sep=""))
Gera uma tabela com valores de AIC
>(res.table <- aictab(cand.set = Modelos, modnames = Modnames,
second.ord = FALSE))

## FALSE: mostrar valores de AIC

>(res.table <- aictab(cand.set = Modelos, modnames = Modnames,


second.ord = TRUE)) ## TRUE: mostrar valores de AICc

44

TESTE DE HIPTESES - Likelihood ratio test (LRT)


DEVIANCE = RESIDUAL DEVIANCE = 2 x a diferena entre o log likelihood do modelo
que apresenta um ajuste perfeito (modelo saturado) e o modelo em questo. Quanto menor o
residual deviance, melhor o modelo.
>drop1(M1,test = "Chi") # A diferena entre as deviance dos
modelos apresenta uma distribuio chi- square com p1 - p2
graus de liberdade
>DM1 <- glm(TOT.N ~ OPEN.L + MONT.S + SQ.POLIC + SQ.SHRUB +
SQ.WATRES + L.WAT.C + SQ.LPROAD +

D.PARK, family =

poisson, data = RK)


>drop1(DM1, test = "Chi")

Este resultado indica que podemos retirar a varivel SQ.DWATCOUR, pois o modelo sem esta
varivel tem o mesmo poder de explicao do modelo com esta varivel. Repita o processo at
que nenhuma varivel possa ser retirada do modelo.
OVERDISPERSION
Contudo a vida no to simples, antes de analisar os resultados e realizar as anlises
de seleo voc precisa checar se os seus dados possuem overdispersion. A overdispersion
significa que a varincia maior do que a mdia.

45

Como saber se os dados apresentam overdispersion?


>M1 <- glm (TOT.N ~ OPEN.L + MONT.S + SQ.POLIC + SQ.SHRUB +
SQ.WATRES + L.WAT.C + SQ.LPROAD + SQ.DWATCOUR + D.PARK,
family = poisson, data=RK)
>summary(M1)

Veja que o resultado mostra que o parmetro de disperso para famlia Poisson tem que
ser 1. Nesse caso o parmetro de disperso do seu modelo 270,23/42 = 6,43. Desse modo, seu
modelo apresenta overdispersion e voc no pode continuar a anlise considerando a famlia
Poisson.
Existem duas alternativas: corrigir o Poisson com Quasi-Poisson ou usar a distribuio
Binomial Negativa.
QUASI-POISSON
>M4

<-

glm(TOT.N

SQ.WATRES

OPEN.L

L.WAT.C

MONT.S

SQ.LPROAD+

SQ.POLIC+
SQ.DWATCOUR

SQ.SHRUB
+

D.PARK,

family = quasipoisson, data = RK)


>summary(M4)

46

Veja que o parmetro de disperso f estimado em 5,93. Isto significa que todos os
erros padres foram multiplicados por 2,43 (a raiz quadrada de 5,93), e como resultado, a
maioria dos parmetros no so mais significativos. No escreva na sua dissertao ou artigo
que usou uma distribuio Quasi-Poisson. Quasi-Poisson no uma distribuio. Basta dizer
que voc fez GLM com distribuio Poisson, detectou overdispersion, e corrigiu os erros
padres usando um modelo Quasi-GLM, onde a varincia dada por f , onde a mdia e f
o parmetro de disperso.
Seleo modelos em Quasi-Poisson
Quando inserirmos uma varivel para a disperso, os modelos no podem ser comparados por
qui-quadrado. Eles so comparados por distribuio F.
>drop1(M4, test = "F")

Repita o procedimento at que nenhuma varivel possa ser retirada do modelo.


Modelo final selecionado
>M12 <- glm (TOT.N ~ D.PARK, family = quasipoisson, data = RK)
Grfico com os dados ajustado para a curva Quasi-Poisson-Glm e intervalo de confiana de
95% (IC 95%).
>G <- predict (M12, newdata = RK, type = "link", se = TRUE)
>F <- exp(G$fit)
47

>FSEUP <- exp(G$fit + 1.96 * G$se.fit)


>FSELOW <- exp(G$fit - 1.96 * G$se.fit)
>plot(RK$D.PARK, RK$TOT.N, xlab = "Distance to park",
ylab = "Nmero de anfbios mortos")
>lines(RK$D.PARK, F, lty = 1, col = "red")
>lines(RK$D.PARK, FSEUP, lty = 2, col = "red")
>lines(RK$D.PARK, FSELOW, lty = 2, col = "red")
Em Quasi-Poisson no possvel calcular o valor de AIC. Por isso, necessrio calcular
um valor de QUASI-AIC
>dd1

<-

dredge

(M4,

rank

"QAICc",

chat

summary(M4)$dispersion)
>MQP1 <- get.models (dd1, 1:4)
model.avg(MQP1)
Os usurios devem ter em mente os riscos que correm usando tal "abordagem
impensada" de avaliao de todos os modelos possveis. Embora este procedimento seja til em
certos casos e justificado, ele pode resultar na escolha de um "melhor" modelo esprio.
Deixar o computador descobrir uma estratgia pobre e geralmente reflete o fato de
que o pesquisador no se preocupou em pensar claramente sobre o problema de interesse e sua
configurao cientfica (Burnham e Anderson, 2002).
Outra maneira de computar QAIC
>MQP <- list()
>MQP [[1]] <- glm (TOT.N ~ OPEN.L + MONT.S + SQ.POLIC+ SQ.SHRUB
+ SQ.WATRES + L.WAT.C + SQ.LPROAD+ SQ.DWATCOUR + D.PARK,
family = poisson, data = RK)
>MQP [[2]] <- glm (TOT.N ~ OPEN.L + MONT.S + SQ.POLIC+ SQ.SHRUB
+

SQ.WATRES

L.WAT.C

SQ.LPROAD+

D.PARK,

family

SQ.SHRUB

poisson, data = RK)


>MQP

[[3]]

<-

glm

(TOT.N

MONT.S

SQ.WATRES + L.WAT.C + SQ.LPROAD+

SQ.POLIC+

D.PARK, family =

poisson, data = RK)


>MQP

[[4]]

<-

glm

(TOT.N

MONT.S

SQ.POLIC

SQ.SHRUB

L.WAT.C + SQ.LPROAD + D.PARK, family = poisson, data = RK)


48

>MQP [[5]] <- glm (TOT.N ~ MONT.S + SQ.POLIC+ SQ.SHRUB + L.WAT.C


+ D.PARK, family = poisson, data = RK)
>MQP [[6]] <- glm (TOT.N ~ MONT.S + SQ.POLIC+ L.WAT.C + D.PARK,
family = poisson, data = RK)
>MQP [[7]] <- glm (TOT.N ~ MONT.S + L.WAT.C + D.PARK, family =
poisson, data = RK)
>MQP [[8]] <- glm (TOT.N ~ L.WAT.C + D.PARK, family = poisson,
data = RK)
>MQP [[9]] <- glm (TOT.N ~ D.PARK, family = poisson, data = RK)
Cria um vetor com nomes dos modelos:
>(Modnames <- paste ("MQP", 1:length(MQP), sep=""))
Overdispersion
>c_hat(MQP[[1]])
>c_hat(MQP[[2]])
>c_hat(MQP[[3]])
>c_hat(MQP[[4]])
>c_hat(MQP[[5]])
>c_hat(MQP[[6]])
>c_hat(MQP[[7]])
>c_hat(MQP[[8]])
>c_hat(MQP[[9]])
Gera uma tabela com valores de QAIC:
>(res.table

<-

aictab(cand.set

MQP,

modnames

Modnames,

second.ord = TRUE, c.hat = 5.92))


BINOMIAL NEGATIVA
odTest = Compara o log-likelihood do modelo de regresso binomial negativa com modelo de
regresso Poisson.

49

>NB <- glm.nb(TOT.N ~ OPEN.L + MONT.S + SQ.POLIC + SQ.SHRUB +


SQ.WATRES

L.WAT.C

SQ.LPROAD

SQ.DWATCOUR

D.PARK,

link="log", data=RK)
>odTest(NB)

O resultado mostra que a LRT entre Poisson e Binomial Negativa com uma diferena na
deviance de 141.515 e com grau de liberdade 1 p < 0.0000. Portanto, Binomial Negativa
melhor que Poisson.
Modelos de Binomial Negativa:
>NB1 <- glm.nb (TOT.N ~ OPEN.L + MONT.S + SQ.POLIC + SQ.SHRUB +
SQ.WATRES + L.WAT.C + SQ.LPROAD + SQ.DWATCOUR + D.PARK,
link="log", data=RK)
>NB2 <- glm.nb (TOT.N ~ OPEN.L + MONT.S + SQ.POLIC + SQ.SHRUB +
SQ.WATRES + L.WAT.C + SQ.LPROAD + D.PARK, link = "log",
data = RK)
>NB3 <- glm.nb (TOT.N ~ OPEN.L + MONT.S + SQ.SHRUB + SQ.WATRES +
L.WAT.C + SQ.LPROAD + D.PARK, link = "log", data = RK)
>NB4 <- glm.nb (TOT.N ~ OPEN.L + MONT.S + SQ.SHRUB + L.WAT.C +
SQ.LPROAD + D.PARK, link = "log", data = RK)
>NB5 <- glm.nb (TOT.N ~ OPEN.L + MONT.S + L.WAT.C + SQ.LPROAD +
D.PARK, link = "log", data = RK)
>NB6 <- glm.nb (TOT.N ~ OPEN.L + L.WAT.C + SQ.LPROAD +

D.PARK,

link = "log", data = RK)


>NB7 <- glm.nb (TOT.N ~ OPEN.L + L.WAT.C + D.PARK, link = "log",
data = RK)
>NB8 <- glm.nb (TOT.N ~ OPEN.L + D.PARK, link = "log", data =
RK)

50

Seleo automtica por AIC:


>AIC <- stepAIC(NB1)
>AIC
Seleo dos modelos por AICc:
>AICc <- ICtab (NB1, NB2, NB3, NB4, NB5, NB6, NB7, NB8, type =
c("AICc"), weights = TRUE, delta = TRUE, sort = TRUE, nobs
= 52)
>AICc
Likelihood Ratio Test (LRT)
>drop1(NB1,test="Chi")
Repita o procedimento at que nenhuma varivel retirada apresente efeito siginificativo
na comparao.
Para o modelo final, os autores justificaram a retirada de L.WAT.C porque seu valor
estava muito prximo de 0.05.
Modelo Final:
>NB8 <- glm.nb(TOT.N ~ OPEN.L + D.PARK, link="log", data = RK)
>summary(NB8)
BINOMIAL NEGATIVA
>plot (NB8)
QUASI-POISSON
>mu <- predict (M12, type = "response")
>E <- RK$TOT.N - mu
>EP2 <- E / sqrt (7.630148 * mu)
>plot(x = mu, y = EP2, main = "Quasi-Poisson",
51

ylab = "residuos",
xlab = "predito")
abline(h = 0, v = 0)
Comparando os resduos do modelo final da Binomial Negativa e Quasi-Poisson vemos
que os resduos da Binomial no apresentam um padro, enquanto a Quasi-Poisson apresenta.
Ento, Binomial melhor.
GLM BINOMIAL
Agora mostraremos um exemplo bem simples com dados de presena e ausncia. GLM com
dados binrios ou proporo so tambm chamados de regresso logstica.
>data(Boar)
>head(Boar)
Varivel dependente: presena ou ausncia de tuberculose.
Varivel independente: Comprimento do javali (cabea-tronco).
>B1 = glm ( Tb ~ LengthCT, family = binomial, data = Boar)
>summary(B1)
Likelihood Ratio Test:
>drop1 (B1, test="Chi")

Funo para fazer o grfico:


>MyData <- data.frame (LengthCT = seq
(from = 46.5, to = 165, by = 1))
>Pred <- predict (B1, newdata = MyData,
type = "response")
52

>Plot (x = Boar$LengthCT, y = Boar$Tb,


xlab = "Comprimento",
ylab = "Probabilidade de tuberculose")
>lines(MyData$LengthCT,Pred)
Segundo exemplo Binomial
>data(Tbdeer)
Varivel dependente: proporo de infectados.
Varivel independente: variveis da paisagem.
Transforma a varivel Fenced em vetor:
>Tbdeer$fFenced <- factor(Tbdeer$Fenced)
Transforma a varivel dependente em proporo:
>Tbdeer$DeerPosProp <- Tbdeer$DeerPosCervi/
Tbdeer$DeerSampledCervi
Modelo Geral:
>Deer2

<-

glm

(DeerPosProp

OpenLand

ScrubLand

QuercusPlants + QuercusTrees + ReedDeerIndex + EstateSize


+

fFenced,

family

binomial,

weights

DeerSampledCervi,data = Tbdeer)
>summary(Deer2)

Como na distribuio Poisson, quando trabalhamos com distribuio Binomial temos


que verificar se existe overdispersion no modelo. Nesse caso, 152,79/15 = 10,18. A varincia
maior que a mdia. Portanto, utilizamos um modelo corrigido por Quasi-Binomial.
53

QUASI-BINOMIAL
>Deer2 <- glm(DeerPosProp ~ OpenLand + ScrubLand + QuercusPlants
+

QuercusTrees

ReedDeerIndex

EstateSize

fFenced,

family = quasibinomial, weights = DeerSampledCervi,data =


Tbdeer)
Seleo do modelo por LRT
>drop1(Deer2,test="F")
Continue at que no seja permitido retirar mais nenhuma varivel.
Modelo final:
>Deer8

<-

glm(DeerPosProp

OpenLand,

family

quasibinomial,weights = DeerSampledCervi,data = Tbdeer)


Funo para fazer o grfico:
>MyData <- data.frame(OpenLand = seq (from =
min(Tbdeer$OpenLand),
to = max(Tbdeer$OpenLand),by=0.01))
>P1 <- predict(Deer8, newdata = MyData, type = "link",
se = TRUE)
>plot(MyData$OpenLand,exp(P1$fit)/(1+exp(P1$fit)),
type="l",ylim=c(0,1),
xlab="Porcentagem de rea aberta",
ylab="Probabilidade de infeco por E. cervi")
>lines(MyData$OpenLand,exp(P1$fit+1.96*P1$se.fit)/
(1+exp(P1$fit+1.96*P1$se.fit)),lty=2)
>lines(MyData$OpenLand,exp(P1$fit-1.96*P1$se.fit)/
(1+exp(P1$fit-1.96*P1$se.fit)),lty=2)
>points(Tbdeer$OpenLand,Tbdeer$DeerPosProp)
Este resultado sugere que quanto maior a porcentagem de rea aberta menor a
probabilidade de amostrar um veado com infeco por E. cervi.

54

Visualizao dos resduos:


>EP = resid(Deer8,type = "pearson")
>mu = predict(Deer8,type = "response")
>E = Tbdeer$DeerPosProp - mu
>plot(x = mu,y = EP, main="Pearson residuals")
>plot(Deer8)
Generalized Mixed Effects Models
So usados para modelos mais complexos com design em blocos, medidas repetidas,
split plot e dados aninhados.
Aprensenta dois efeitos dentro da formla do modelo:
EFEITO FIXO - depende somente da mdia as variveis independentes de interesse.
EFEITO ALEATRIO - depende somente da varincia (no queremos medir o efeito, e.g.
blocos).
Exemplo 1
>data(RIKZ)
Riqueza de animais marinhos bentnicos em nove praias, cada praia com cinco
amostras.
NAP = altura da estao de amostral em relao ao nvel da mar
PERGUNTA: Existe relao positiva entre a riqueza e a NAP?
Transforma praia em fator:
>RIKZ$fBeach <- factor(RIKZ$Beach)
Modelo
>Mlme1 <- lme (Richness ~ NAP, random = ~1 | fBeach, data=RIKZ)
summary (Mlme1)

55

Utilizando praia como efeito aleatrio permite que cada praia tenha um intercepto
diferente. Se o StdDev do efeito aleatrio for zero, todos os interceptos ficam na linha predita.
Veja o grfico abaixo.
Funo para fazer o grfico:
>F0 <- fitted(Mlme1,level=0)
>F1 <- fitted(Mlme1,level=1)
>I <- order(RIKZ$NAP)
>NAPs <- sort(RIKZ$NAP)
>plot(NAPs,F0[I],lwd=4,type="l",ylim=c(0,22),

ylab="Riqueza

de

espcies",xlab="NAP")
for (i in 1:9){
x1<-RIKZ$NAP[RIKZ$Beach==i]
y1<-F1[RIKZ$Beach==i]
K<-order(x1)
lines(sort(x1),y1[K])
}
>text(RIKZ$NAP,RIKZ$Richness,RIKZ$Beach,cex=0.9)
Suponha que a relao entre riqueza de espcies e NAP diferente em cada praia. Isto
implica em que temos de incluir um interao entre NAP*Praia no modelo. Mas isso tem um
custo muito alto elevando o modelo para 17 parmetros. E no estamos interessados no efeito da
praia. Contudo, no podemos ignorar uma possvel variao entre praias e na interao
NAP*Praias. Se fizermos isso, a variao sistemtica vai aparecer nos resduos, levando
inferncias erradas. Podemos aplicar o Mixed Effects Model com intercepto e slope (inclinao)
aleatrios.
>Mlme2 <- lme (Richness ~ NAP, random = ~ 1 + NAP | fBeach, data
= RIKZ)
>summary(Mlme2)

56

O valor 3,54 a quantidade de variao no intercepto da populao. O valor 1,71 a


variao no slope (inclinao) nas nove praias. A correlao mostra que praias com interceptos
mais altos tambm tem inclinao negativa mais alta.
Veja o grfico abaixo.
Funo para fazer o grfico:
>F0 <- fitted(Mlme2,level=0)
>F1 <- fitted(Mlme2,level=1)
>I <- order(RIKZ$NAP)
>NAPs <- sort(RIKZ$NAP)
>plot(NAPs,F0[I],lwd=4,type="l",ylim=c(0,22),

ylab="Riqueza

de

espcies",xlab="NAP")
for (i in 1:9){
x1<-RIKZ$NAP[RIKZ$Beach==i]
y1<-F1[RIKZ$Beach==i]
K<-order(x1)
lines(sort(x1),y1[K])
}
>text(RIKZ$NAP,RIKZ$Richness,RIKZ$Beach,cex=0.9)
Likelihood em Mixed Models
MAXIMUM LIKELIHOOD (ML) - escolhe os parmetros tal que o valor de L mximo. O
problema que ML ignora o fato que intercepto e slope so estimados no modelo.
RESTRICTED MAXIMUM LIKELIHOOD (REML) - corrige o grau de liberdade incluindo o
intercepto e o slope.
Transformar algumas variveis em fatores:
>RIKZ$fExp <- RIKZ$Exposure
>RIKZ$fExp[RIKZ$fExp==8]<- 10
>RIKZ$fExp <- factor(RIKZ$fExp,levels = c (10,11))
Modelos com ML e com REML:
57

>M0.ML <- lme (Richness ~ NAP, data = RIKZ, random = ~1| fBeach,
method = "ML")
>M0.REML <-lme (Richness ~ NAP, random = ~1|fBeach, data = RIKZ,
method = "REML")
>M1.ML <- lme (Richness ~ NAP + fExp, data = RIKZ, random = ~1|
fBeach, method = "ML")
>M1.REML <- lme (Richness ~ NAP + fExp, data = RIKZ, random =
~1| fBeach, method = "REML")
Tabela 4. Resultados para dois modelos usando ML (coluna da esquerda) e REML (coluna da
direita). Nmeros entre parnteses so erros padres. O primeiro modelo (parte de cima da
tabela) usa um intercepto e NAP como varivel fixa e um intercepto aleatrio. O segundo
modelo (parte inferior da tabela) usa os mesmos termos, exceto que a varivel nominal exposure
usada como uma varivel fixa tambm.

PROTOCOLO PARA MIXED MODELS


1 - Comece com um modelo onde o componente fixo contm todas as variveis independentes e
tantas interaes possveis.
2 - Ache a melhor estrutura para o modelo aleatrio. Modelos com REML precisam ser
comparados tanto para LRT como para AIC ou BIC;

58

3 - Depois de achar o modelo aleatrio, temos que comparar os modelos fixos. Para isso temos
que usar ML;
4 - Apresente o modelo final com REML;
PASSOS 1 e 2 - Selecionando efeito aleatrio
>B1 <- gls(Richness ~ 1 + NAP * fExp, method = "REML", data =
RIKZ)
>B2 <- lme(Richness ~1 + NAP * fExp, data = RIKZ, random = ~1 |
fBeach, method = "REML")
>B3 <- lme(Richness ~ 1 + NAP * fExp,data = RIKZ, random = ~1
NAP | fBeach, method = "REML")
Seleo de Modelos Aleatrios
AIC (B1, B2, B3)
ou
anova (B1, B2, B3)
PASSO 3 - Selecionando efeito fixo
>B2 <- lme (Richness ~ NAP * fExp, data = RIKZ, random = ~1 |
fBeach, method = "ML")
Fiquem atentos com valores de P prximos a 0,05.
>B3 <- lme (Richness ~ NAP + fExp, data = RIKZ, random = ~1 |
fBeach, method = "ML")
>B3a <- lme (Richness ~ NAP + fExp, data = RIKZ, random = ~1 |
fBeach, method = "ML")
>B3b <- lme (Richness ~ NAP + fExp, data = RIKZ, random = ~1 |
fBeach, method = "ML")
>AICc <- ICtab(B2, B3, B3a, B3b, type = c("AICc"), weights =
TRUE, delta = TRUE, sort = TRUE, nobs = 45)
>AICc

59

PASSO 4 - Modelo Final com REML


>B2 <- lme (Richness ~ NAP + fExp, data = RIKZ, random = ~1 |
fBeach, method = "REML")
>plot(B2)
Exemplo Abelhas
Os dados so aninhados com mltiplas observaes na mesma colmia. No total so 24
colmias com trs medidas por colmia.
Mostrar comando VarIdent
>data(Bees)
Como varivel dependente temos densidade de esporos medido em cada colmia. A varivel
independente Infection quantifica o grau de infeco, com valores 0, 1, 2 e 3. Embora mixed
effects modelling podem lidar com um certo grau de dados desbalanceados, neste caso, melhor
converter a varivel Infection em 0 (sem infeco) e 1 (infectado) porque existem poucas
observaes com valores 2 e 3.
Transformar a varivel Infection em presena e ausncia:
>Bees$Infection01 <- Bees$Infection
>Bees$Infection01[Bees$Infection01 > 0] <- 1
>Bees$fInfection01 <- factor(Bees$Infection01)
Transformar colmia em fator e logaritimizar esporos:
>Bees$fHive <- factor(Bees$Hive)
>Bees$LSpobee <- log10(Bees$Spobee + 1)
Plotar os dados por colmia:
>op <- par(mfrow = c(1, 2), mar = c(3, 4, 1, 1))
>dotchart(Bees$Spobee, groups = Bees$fHive)
>dotchart(Bees$LSpobee, groups = Bees$fHive)
60

>par(op)
Comearemos com uma regresso linear e plotaremos os resduos por colmeia:
>M1 <- lm (LSpobee ~ fInfection01 * BeesN, data = Bees)
>E1 <- rstandard(M1)
>plot (E1 ~ Bees$fHive, ylab = "Resduos", xlab = "Colmias")
>abline (0, 0)
Veja que algumas colmias apresentam os trs resduos acima do esperado, enquanto
outras possuem trs resduos abaixo do esperado. Temos a opo de colocar colmia como
random effect.
Vantagens
(1) requer um parmetro extra (varincia do intercepto), comparado com regresso linear que
requer 23 parmetros extras.
(2) Podemos fazer afirmaes para colmias em geral no s para as 24 colmias do estudo.
Selecionando random effect
>M1 <- lme(LSpobee ~ fInfection01 * BeesN, random = ~ 1 | fHive,
method = "REML", data = Bees)
>M2 <- lme(LSpobee ~ fInfection01 * BeesN, random = ~ 1 + BeesN
| fHive, method = "REML", data = Bees)
>M3 <- lme (LSpobee ~ fInfection01 * BeesN, random = ~ 1 +
fInfection01 | fHive, method = "REML", `

data = Bees)

>anova(M1,M2)
>anova(M1,M3)
Verificando o modelo selecionado:
>plot (M1, col = 1)
plota por infeco:
>boxplot (LSpobee ~ fInfection01, data = Bees, varwidth = TRUE)
61

Veja que h diferena na variao entre as categorias.


Inserimos um comando para dizer que as varincias para infeco so diferentes.
varIdent = permite modelar diferentes varincias para variveis categricas.
>M1 <- lme (LSpobee ~ fInfection01 * BeesN, random = ~ 1 |
fHive, method = "REML", data = Bees)
>M4 <- lme (LSpobee ~ fInfection01 * BeesN, random = ~ 1 |
fHive, method = "REML", data = Bees, weights = varIdent
(form = ~ 1 | fInfection01))
>anova (M1,M4)
Selecionando estrutura fixa:
>M7full<-

lme

(LSpobee

fInfection01

BeesN,

random

1|fHive, weights = varIdent(form = ~ 1 | fInfection01),


method = "ML", data = Bees)
>M7sub <- update(M7full, .~. -fInfection01 : BeesN )
>anova (M7full,M7sub)
>M8full

<-

lme

1|fHive,

(LSpobee
method

fInfection01
"ML",

data

BeesN,

Bees,

random
weights

~
=

varIdent(form =~ 1 | fInfection01))
>M8sub1 <- update (M8full, .~. -fInfection01 )
>M8sub2 <- update (M8full, .~. -BeesN )
>anova(M8full,M8sub1)
>anova(M8full,M8sub2)
>M9full<-lme(LSpobee

fInfection01,

random

1|fHive,

method="ML", data = Bees, weights = varIdent(form =~ 1 |


fInfection01))
>M9sub1<-update(M9full, .~. -fInfection01 )
>anova(M9full,M9sub1)
Modelo final:
>Mfinal <- lme (LSpobee ~ fInfection01, random =~ 1|fHive, data
=

Bees,

weights

varIdent

(form

fInfection01),

method = "REML")
62

>plot(Mfinal)
Dados categricos:
>data(ergoStool)
Esforo requerido por quatro diferentes mandbulas para rasgar nove objetos diferentes.
>fm1Stool <- lme (effort ~ Type, data = ergoStool, random = ~ 1
| Subject)
>summary(fm1Stool)
Tentar exe,plicar os valores:
> (mean <- tapply(ergoStool$effort, ergoStool$Type, mean))
O primeiro parmetro (intercepto) a mdia da primeira categoria definida por ordem
alfabtica. Portanto, sempre que for comparar categorias, o intercepto ser a categoria que
comear com a menor letra do alfabeto.
O segundo parmetro a diferena entre o segundo parmetro e o intercepto:
12.44 - 8.55 = 3.89
O terceiro parmetro a diferena entre o terceiro parmetro e o intercepto:
10.77 - 8.55 = 2.22
9.22 - 8.55 = 0.66
As comparaes podem ser alteradas de acordo com suas hipteses. Comparaes planejadas:
>contrasts(ergoStool$Type)<-cbind(c(3,-1,-1,-1),
c(0,2,-1,-1), c(0,0,-1,1))
>fm2Stool <- lme (effort ~ Type, data = ergoStool, random = ~ 1
| Subject)
>summary(fm2Stool)

63

Veja que o efeito totak de fm1Stool no muda quando alteramos os contrastes:


>anova(fm1Stool)
>anova(fm2Stool)
EXERCCIOS
EXERCCIO 1 Carreguem os dados das corujas como demonstrado abaixo:
>library (AED)## O pacote AED tem que ser baixado da pgina
## http://www.highstat.com/book2.htm
>data(Owls)
Varivel dependente = nmero de piados dos filhotes na ausncia dos pais - NegPerChick (Transforme em log essa varivel).
Variveis independentes = variveis fixas [sexo dos pais, tratamento da alimentao (saciado e
privado), hora de chegada dos pais] e varivel aleatria (ninho)
Unidade amostral = ninho
Teoria: Ecologia Comportamental
Responda: Quais variveis melhor explicam o comportamento de negociao dos filhotes de
coruja?
EXERCCIO 2 Carregue a planilha predador.csv
Varivel dependente = presena ou ausncia de predadores (larvas de odonata) em poas
dgua com diferentes tamanhos onde foram amostrados girinos de Pseudopaludicola falcipes.
Variveis independentes = tamanho das poas dgua
Unidade amostral = poa dgua
Teoria: Predao, Forrageio timo

64

Responda: A probabilidade da presena de predadores est relacionada com o tamanho das


poas dgua?
EXERCCIO 3 - Carregue os dados da planilha Solea.csv
Varivel dependente = presena ou ausncia do peixe Solea solea num esturio em Portugal.
Variveis independentes = 11 variveis preditoras
Unidade amostral = cada rea de coleta ou ponto de coleta no esturio
Teoria: Ecologia de Paisagem
Responda: Quais variveis melhor explicam a presena de Solea solea nos berrios de
Portugal?

CURVADEACUMULAODEESPCIES
Curvas de acumulao de espcies, algumas vezes chamadas de curva do coletor, so
representaes grficas que demonstram o nmero acumulado de espcies registradas (S) em
funo do esforo amostral (n). O esforo amostral pode ser o nmero de indivduos coletados,
ou uma medida tal como o nmero de amostras (e.g., quadrados) ou tempo amostral (e.g.,
meses). Colwell & Coddington (1994) sugeriram um mtodo que consiste em montar vrias
curvas adicionando-se as amostras em uma ordem aleatria. Aps construir vrias curvas com
este mtodo, pode-se calcular uma curva do coletor mdia (baseada na riqueza mdia para cada
nmero de amostra) e expressar a variao possvel em torno dessa mdia. importante frisar
que esta variao no corresponde ao conceito estatstico de intervalo de confiana, j que
calculada por repeties das mesmas unidades amostrais (Santos 2003). Se as curvas de
acumulao de espcies atingem um ponto em que o aumento do esforo de coleta no implica
num aumento no nmero de espcies, isto significa que aproximadamente toda a riqueza da rea
foi amostrada (Fig. 8).

65

Figura 8. Exemplo de uma curva de acumulao de espcies.

RAREFAO
Esse mtodo nos permite comparar o nmero de espcies entre comunidades quando o
tamanho da amostra ou o nmero de indivduos (abundncia) no so iguais. A rarefao
calcula o nmero esperado de espcies em cada comunidade tendo como base comparativa um
valor em que todas as amostras atinjam um tamanho padro, ou comparaes baseadas na
menor amostra ou com menos indivduos (dentre todas amostras possveis). Se considerarmos n
indivduos (n < N) para cada comunidade, quantas espcies iramos registrar?

() =

( ! )/
/

Onde:
E(S) = Nmero de espcies esperado
N = Nmero total de indivduos na amostra
Ni = Nmero de indivduos da isima espcie
n = tamanho da amostra padronizada (menor amostra)

Gotelli & Collwel (2001) descrevem este mtodo e discutem em detalhes as restries
sobre seu uso na ecologia: i) as amostras a serem comparados devem ser consistentes do ponto
de vista taxonmico, ou seja, todos os indivduos devem pertencer ao mesmo grupo
taxonmico; ii) as comparaes devem ser realizadas somente entre amostras com as mesmas
tcnicas de coleta; iii) os tipos de hbitat onde as amostras so obtidas devem ser semelhantes; e
iv) um mtodo para estimar a riqueza de espcies em uma amostra menor no pode ser
usado para extrapolar e estimar riqueza.

66

Exemplo:
Uma amostra de roedores tem quatro espcies e 42 indivduos. A abundncia de cada espcie foi
21, 16, 3, e 2 indivduos. Desejamos calcular a riqueza de espcies esperada para amostras com
30 indivduos.

= 1

42 21 /30
42 16 /30
42 3 /30
42 2 /30
+ 1
+ 1
+ 1

42/30
42/30
42/30
42/30

E(30) = 1 + 1 +0.981 + 0.923

E(30) = 3.9 espcies

REALIZANDO O MESMO EXERCCIO NO PROGRAMA R:


Comandos
Primeiramente carregue o pacote vegan:
>library(vegan)
O comando geral para realizar a anlise de rarefao :
>rarefy(x, sample, se = FALSE, MARG = 1)
Onde:
x = comunidade para a qual se deseja estimar a riqueza de espcies
sample = tamanho da sub-amostra (n)
se = desvio padro
MARG = maneiras de visualizar o resultado Utilizar nmero 2
Imagine que voc tenha uma planilha aberta no R com o nome rare. Nesta planilha,
existem trs colunas referentes trs comunidades de roedores, e em cada linha a abundncia de
cada espcie (exemplo abaixo):
67

rare
roedore roedore roedore
s

s1

s2

21

16

10

16

15

10

13

10

31

10

10

10

10

Para obter-se o mesmo resultado do exerccio anterior sem ter que realizar os clculos
manualmente, voc precisa digitar o seguinte comando:
>rarefy(rare$roedores, sample = 30, MARG = 2)
>3.9

Para calcular a rarefao para diferentes valores de sub-amostras precisa criar um


comando com diversos tamanhos de amostras:
>amostras1 <-

c(seq(5, 40, by = 1))

>amostras2 <-

c(seq(5, 80, by = 1))

>amostras3 <- c(seq(5, 70, by = 1))

Rarefao para as trs comunidades com vrios valores de sub-amostras:


>roedor1 <- rarefy(rare$roedores, sample = amostras1, se = T,
MARGIN = 2)
>roedor2 <- rarefy(rare$roedores1, sample = amostras2, se = T,
MARGIN = 2)
>roedor3 <- rarefy(rare$roedores2, sample = amostras3, se = T,
MARGIN = 2)

68

Grfico de rarefao para as trs comunidades


>plot (amostras2, roedor2[1,], ylab = "Riqueza de espcies",xlab
= "No. de Individuos",ylim = c(1, 9), xlim = c(1,90), type= "n")
>text(30, 9, "Rarefao comunidade de roedores")
>lines (amostras1, roedor1[1, ], type = "b", col = "red", lwd =
1.7)
>lines (amostras2 + 0.2, roedor2[1, ], type = "b", col = "blue",
lwd = 1.7)
>lines

(amostras3

0.4,

roedor3[1,

],

type

"b",

col

"black", lwd = 1.7)


>labs <- c ("Comunidade 1","Comunidade 2", "Comunidade 3")
>legend

(locator(1),

labs,

lty

c(1,2,3),

col

c("red",

"blue", "black") ,bty = "n")


>abline (h = 0, v = 40, col = "yellow")

ESTIMADORESDERIQUEZA
Uma vez que determinar a riqueza total de espcies numa rea praticamente
impossvel, principalmente em regies com alta diversidade de espcies, os estimadores so
teis para extrapolar a riqueza observada e tentar estimar a riqueza total atravs de uma amostra
incompleta de uma comunidade biolgica (Walther & Moore 2005). Nesta apostila sero
considerados apenas os estimadores no paramtricos (que no so baseados nos parmetros de
um modelo de abundncia das espcies), para outros estimadores veja Magurran (2004).
Chazdon et al. (1998) e Horter et al. (2006) definem quatro caractersticas para um bom
estimador de riqueza:
i) Independncia do tamanho da amostra (quantidade de esforo amostral realizado);
ii) Insensibilidade a diferentes padres de distribuies (diferentes equitabilidades);
iii) Insensibilidade em relao ordem das amostragens;
iv) Insensibilidade heterogeneidade entre as amostras usadas entre estudos.

69

Tabela 5. Nmero de indivduos registrados de cada espcie de anuros em 14 amostras no


noroeste de So Paulo, Brasil. Ser utilizado nos exemplos abaixo.
Espcies
Delian
Dmelan
Dminu
Dnanu
Dmulle
Ebic
Esp
Enat
Halb
Hfab
Hran
Lchaq
Lfus
Llab
Riqueza Total

1
0
0
0
4
0
0
0
0
5
0
14
0
8
0
4

2
0
0
2
0
0
0
0
4
0
0
0
0
3
0
3

3
6
0
1
3
0
0
2
1
0
0
0
0
2
0
6

4
15
0
15
15
3
0
0
0
0
0
5
0
5
0
6

5
2
1
8
2
12
1
0
17
0
0
0
11
4
0
9

6
2
0
2
2
0
0
0
0
1
0
1
0
2
0
6

AMOSTRAS
7
8
9
0
0
0
0
1
0
0
1
2
0
7
0
2
0
0
0
1
0
0
0
0
2
0
1
0
9
0
0
4
0
0
0
0
3
0
0
1
6
1
0
0
0
4
7
3

10
1
0
2
2
0
0
1
0
1
0
2
0
3
1
8

11
0
0
0
0
0
0
0
4
0
0
0
0
1
0
2

12
5
0
4
3
0
0
0
0
0
0
0
0
2
0
4

13
5
0
0
2
0
1
0
0
4
0
8
0
3
0
6

14
2
0
2
2
0
0
0
1
0
0
0
0
6
0
5

Total
38
2
39
42
17
3
3
30
20
4
30
14
47
1

CHAO 1
Estimador simples do nmero absoluto de espcies em uma comunidade. baseado no nmero
de espcies raras dentro de uma amostra. Esse mtodo requer a abundncia das espcies.
! = !"# +

!!
2!

onde:
Sobs = o nmero de espcies na comunidade
F1 = nmero de espcies observadas com abundncia de um indivduo (espcies singleton)
F2 = nmero de espcies observadas com abundncia de dois indivduos (espcies doubletons).
O valor de Chao 1 mximo quando todas as espcies menos uma so nicas (singleton). Neste
caso, a riqueza estimada aproximadamente o dobro da riqueza observada.
Exemplo:
Usando os dados da tabela 1 calcule o valor de Chao 1 para a comunidade:
Chao 1 = 14 + [(12)/(2*1)] = 14 + (1/2) = 14 + 0,5
Chao 1 = 14,5

70

REALIZANDO O MESMO EXERCCIO NO PROGRAMA R:


Comandos
Carregue os pacotes Vegan e BiodiversityR
>library(vegan)
>library(BiodiversityR)

Imagine que voc tenha a mesma tabela acima salva no R com o nome est. Aps
carregar essa tabela voc pode obter o valor de Chao 1 atravs do seguinte comando:
>est <- read.table (estimadores, h = T)
>Chao1 <-estaccumR (est, permutations = 100)
>summary(Chao1, display = chao)

Outra maneira de conseguir o mesmo valor:


>est1

<-

colSums(est)##

soma

abundncia

de

cada

linha

abundncia total por espcie


>Chao1 <- estimateR (est1)
>Chao1
CHAO 2
De acordo com Anne Chao, o estimador Chao 1 pode ser modificado para uso com dados de
presena/ausncia levando em conta a distribuio das espcies entre amostras. Neste caso
necessrio somente conhecer o nmero de espcies encontradas em somente uma amostra e o
nmero de espcies encontradas exatamente em duas amostras. Essa variao ficou denominada
Chao 2:
! = !"# +

!
2

onde:
L = nmero de espcies que ocorrem apenas em uma amostra (espcies uniques)
M = nmero de espcies que ocorrem em exatamente duas amostras (espcies duplicates)
O valor de Chao 2 mximo quando todas as espcies menos uma so nicas
(singletons). Neste caso, a riqueza estimada aproximadamente o dobro da riqueza observada.
71

Collwel & Coddington (1994) encontraram que o valor de Chao 2 mostrou ser o estimador
menos enviesado para amostras com tamanho pequeno.
Exemplo:
Usando os dados da tabela 1 calcule o valor de Chao 2 para a comunidade:
Chao 2 = 14 + [(22)/(2*3)] = 14 + (4/6) = 14 + 0.66
Chao 2 = 14.66

REALIZANDO O MESMO EXERCCIO NO PROGRAMA R:


Comandos
A funo poolaccum do pacote vegan apresenta resultados mais completos com
valores de riqueza de espcie estimado para cada amostra
>est <- read.table (estimadores, h = T)
>Chao2 <- poolaccum (est, permutations = 100)
>summary(Chao2, display = chao)

Os comandos specpool e diversityresult so mais simples e diretos, pois


apresentam somente o valor final estimado:
>Chao2 <- specpool(est)
>Chao2
>Chao2 <- diversityresult(est, index = chao)

JACKKNIFE 1
Este estimador baseia-se no nmero de espcies que ocorrem em somente uma amostra (Q1).

! = !"# + !

Onde:
m = nmero de amostras

72

Palmer (1990) verificou que Jackknife 1 foi o estimador mais preciso e menos
enviesado quando comparado a outros mtodos de extrapolao.

Exemplo:
Usando os dados da tabela 1 calcule o valor de Jaccknife 1 para a comunidade:
Jack 1 = 14 + 2 * [(14-1)/14] = 14 + 2 * (0.92) = 14 + 1.857
Jack 1 = 15.857

REALIZANDO O MESMO EXERCCIO NO PROGRAMA R:


Comandos
>est <- read.table(estimadores, h = T)
>Jackk1 <- poolaccum(est, permutations = 100)
>summary(Jackk1, display = jack1)

Outra maneira de conseguir o mesmo valor:


>Jackk1 <- specpool(est)
>Jackk1
>Jackk1 <- diversityresult(est, index = jack1)
JACKKNIFE 2
Este mtodo basea-se no nmero de espcies que ocorrem em apenas uma amostra e no
nmero de espcies que ocorrem em exatamente duas amostras.

1 (2 3) 2 ( 2)2
2 = +

( 1)
Onde:
Q1 = nmero de espcies registradas em apenas uma amostra
Q2 = nmero de espcies registradas em exatamente duas amotras
73

m = nmero de amostras
Exemplo:
Usando os dados da tabela 1 calcule o valor de Jaccknife 2 para a comunidade:
Jack 2 = 14 + [2 *(((2*14)-3))/14))] [3*((14-2)2)/(14(14-1))] = 14 + 3,57 2,37
Jack 2 = 15.197

REALIZANDO O MESMO EXERCCIO NO PROGRAMA R:


Comandos
>est <-read.table(estimadores, h = T)
>Jackk2 <- poolaccum(est, permutations = 100)
>summary(Jackk2, display = jack2)

Outra maneira de conseguir o mesmo valor:


>Jackk2 <- specpool(est)
>Jackk2
>Jackk 2 <- diversityresult(est, index = jack2)

ACE (Abundance-based Coverage Estimator)


Este mtodo trabalha com a abundncia das espcies raras (abundncia baixa).
Entretanto, diferente dos estimadores anteriores, esse mtodo permite ao pesquisador determinar
os limites para os quais uma espcie seja considerada rara. Em geral, so consideradas raras
espcies com abundncia entre 1 e 10 indivduos. A riqueza estimada pode variar conforme se
aumente ou diminua o limiar de abundncia, e infelizmente no existem critrios biolgicos
definidos para a escolha do melhor intervalo (Santos 2003).

= !"#$% +

!"!#
! !
+

!"# !"# !"#

Onde:

74

!
!"#
=

!"
!"!#
!!! ( 1)!
1
!"# (!"!# )(!"!# 1)

!"# = 1 +

!
!"!#

!"

!"!# =

!
!!!

No precisa fazer cara feia, bvio que iremos usar o programa para fazer esses clculos.

REALIZANDO O EXERCCIO NO PROGRAMA R:


Comandos
>est <- read.table(estimadores.txt, h = T)
>ACE <- estaccumR(est, permutations = 100)
>summary(ACE, display = ace)

Outra maneira de conseguir o mesmo valor:


>est1<-colSums(est) ## soma abundncia de cada linha= abundncia
total por espcie
>ACE <- estimateR(est1)
>ACE

ICE (Incidence-based Coverage Estimator)


Este mtodo trabalha com o nmero de espcies infreqentes (que ocorrem em poucas
unidades amostrais). Esse mtodo permite ao pesquisador determinar os limites para os quais
uma espcie seja considerada infreqente. Em geral, so consideradas como tal espcies com
incidncia entre 1 e 10 indivduos (Chazdon et al. 1998) ou 1 a 20 (Walther & Morand 1998). A
riqueza estimada pode variar conforme se aumente ou diminua o limiar de incidncia, e

75

infelizmente no existem critrios biolgicos definidos para a escolha do melhor intervalo


(Santos 2003).

= !"#$ +

!"# !
! !
+

!"# !"# !"#

onde:

!
!"#
=

!"# ! !"# !
!"# (!"# !!! )

!"
!!! (

1)!

(!"# ! )!

!"# = 1 +

!
!"# !

!"

!"#! =

!
!!!

REALIZANDO O EXERCCIO NO PROGRAMA R:


Comandos
>est <-read.table(estimadores, h = T)
>ICE <- poolaccum(est, permutations = 100)
>summary(ICE, display = ice)

Outra maneira de conseguir o mesmo valor:


>ICE <- specpool(est)
>ICE

BOOTSTRAP
Este mtodo difere dos demais por utilizar dados de todas as espcies coletadas para
estimar a riqueza total, no se restringindo s espcies raras. Ele requer somente dados de

76

incidncia. A estimativa pelo bootstrap calculada somando-se a riqueza observada soma do


inverso da proporo de amostras em que cada espcie ocorre.
!!"#

(1 ! )!

= !"# +
!!!

Onde:
Pk = proporo do nmero de amostras em que cada espcie foi registrada
m = nmero de amostras
Exemplo:
Usando os dados da tabela 1 calcule o valor de bootstrap para a comunidade:
Bootstrap = 14 + [ (1- 8/14)14 +(1- 2/14)14 +(1- 10/14)14 +(1- 10/14)14 +(1- 3/14)14 +(1- 3/14)14
+(1- 2/14)14
+ (1- 7/14)14 +(1- 5/14)14 +(1- 1/14)14 +(1- 5/14)14 +(1- 2/14)14 +(1- 14/14)14 +(1- 1/14)14]
Bootstrap = 14 + 1 ,127
Boostrap = 15,127

REALIZANDO O MESMO EXERCCIO NO PROGRAMA R:


Comandos
>est <-read.table(estimadores, h = T)
>BOOT <- poolaccum(est, permutations = 100)
>summary(BOOT, display = boot)

Outra maneira de conseguir o mesmo valor:


>BOOT <- specpool (est)
>BOOT
>BOOT <- diversityresult (est, index = boot)

77

EXERCCIOS
1) Utilize os dados da planilha rarefao exercicios.csv que foi entregue no cd junto com a
apostila.
a) Calcule a abundncia total em cada uma das comunidades
b) Calcule a riqueza total em cada comunidade
c) Construa uma grfico de rarefao comparando as quatro comunidades
2) Para esse exerccio usaremos os dados disponveis na pagina do Prof. Dr. Adriano Melo da
Universidade Federal de Gois.
Para carregar os dados vocs precisam digitar o comando abaixo:
japi <read.table(http://www.ecologia.ufrgs.br/~adrimelo/div/japi.txt
, h=T)
a) Faa um grfico com a curva do coletor e acumulao (rarefao) de espcies/amostra juntos
no mesmo grfico.
3) Utilizando a planilha est.csv
a) Faa um grfico com o estimador de riqueza bootstrap e a riqueza observada
b) Faa um grfico com o estimador de riqueza chao1 e a riqueza observada
c) Faa um grfico com os estimadores jackknife 1 e 2 e a riqueza observada

ESTIMATES
O programa R tem grandes vantagens sobre outros programas estatsticos, por permitir
realizar diversos tipos de anlises, plotar grficos, e alterar funes de acordo com suas
necessidades (leia o incio dessa apostila). No entanto, existe um programa gratuito, disponvel
na internet no endereo http://viceroy.eeb.uconn.edu/estimates voltado analises com
estimadores de riqueza. Este site foi criado e mantido pelo Dr. Robert K. Colwell, um dos
maiores especialistas do mundo em estimativas da biodiversidade.

78

Aqui mostramos rapidamente como realizar as anlises nesse programa.


1 A planilha que voc utilizar deve ser montada da seguinte maneira no Excel. A1 = nome da
planilha; A2 = Nmero de espcies; B2 = Nmero de amostras. NO coloque o nome das
espcies.

2 Salve a planilha no formato .txt Texto separado por tabulao;


3 Depois de salvar a planilha no formato Texto separado por tabulao, abrir o programa
Estimates;
4 - A tela abaixo deve aparecer;
5 - Selecionar FILE;
6 Selecionar a opo LOAD DATA INPUT FILE para carregar a planilha. Procure onde
ela foi salva no seu computador;

7 Se o programa carregar a planilha corretamente, aparecer a tela abaixo;


8 Veja o nmero de espcies (Species) e amostras (Samples). Se estiver correto, clicar em OK
nas telas que aparecero;

79

9 Agora necessrio configurar o programa para realizar os testes;


10 Clicar em DIVERSITY, como demonstrado na tela abaixo;

11 Escolham a opo Diversity Settings

12 Coloque 500 no lugar de 50 aleatorizaes


13 Depois de colocarem 500 cliquem na aba Estimators (destacado em amarelo) e depois em
OK;

80

14 - Determine o nmero de espcies raras para o ACE e ICE. Esse nmero corresponde ao
nmero de espcies que o programa ir considerar como espcies raras;
15 Clicar em OK;
16 - Agora s correr o teste. Clicar em Compute Diversity Stats;

17 Aparecer uma tela com os resultados do teste;


18 Clicar em Export e salvar em algum lugar no seu computador, depois s abrir com o
Excel e fazer os grficos no R;

81

NDICES DE DIVERSIDADE E DIVERSIDADE BETA ()

ndices de diversidade
Os ndices de diversidade representam uma medida que combina a riqueza e abundncia
relativa (equitabilidade) das espcies de uma comunidade. O ndice de Shannon (H) um dos
mais utilizados na literatura para medir a diversidade de espcies. Este ndice derivado da
teoria da informao e sua funo foi derivada como:
H =

! ln!
Onde pi representa a proporo de indivduos na i-nsima espcie em relao

abundncia total na comunidade. Quanto maior o valor de H, maior a diversidade da


comunidade. Os valores de H raramente ultrapassam 4, sendo que para que H seja maior do
que 5 a comunidade precisa ter mais de 105 espcies. Um dos problemas do ndice de Shannon
que a diversidade confundida pela riqueza de espcies e equitabilidade. Desse modo, tanto o
nmero de espcies quanto o esforo amostral afetam o valor final do ndice. Alm disso,
quando confrontamos valores de diversidade entre duas comunidades, por exemplo, H = 2,71 e
H = 2,59, temos dificuldade para decidir se os valores so, de fato, diferentes.
Outro ndice de diversidade muito usado por eclogos o ndice de Simpson (D). Este
ndice mede a probabilidade de dois indivduos coletados ao acaso pertencerem mesma
espcie atravs da frmula:
D = !!
Onde pi representa a proporo de indivduos na i-nsima espcie em relao s
abundncia total na comunidade. Quanto maior o valor de D, menor a diversidade da
comunidade. Alguns autores expressam a frmula do ndice de Simpson como 1 D ou 1 / D.
Este ndice considerado uma das medidas de diversidade mais robustas.
Apesar de existir um nmero impressionante de mtricas para medir a diversidade
biolgica (Hulbert 1972, Magurran 2004), diversos autores desencorajam o uso dessas mtricas
para testar hipteses ecolgicas. Dentre os principais motivos destacamos: (1) ausncia de uma
base probabilstica que nos permita assinalar valores de significncia que, por sua vez, impede
que faamos comparaes biolgicas entre duas comunidades; (2) todos os ndices de
diversidade so fortemente sensveis ao nmero de indivduos e de espcies; (3) problemas
conceituais e de mltiplas definies que trazem pouco sentido biolgico e dificultam a
interpretao de padres ecolgicos. Dentre os autores que criticam a utilizao de ndices de
diversidade na ecologia, se destacam pela clareza dos argumentos o trabalho marcante de
82

Hulbert (1971) e Gotelli & Graves (1996). Resumindo as idias, a indefinio conceitual e
tcnica dos ndices de diversidade sugerem que sua utilizao seja abandonada (ou que sejam
utilizados com rigor tremendo). H quem se refira diversidade de espcies como um noconceito (Hulbert 1971). Como alternativa elegante, a utilizao da riqueza de espcies e da
abundncia relativa como mtricas distintas para medir a diversidade, bem como suas
respostas s alteraes ambientais, pode ser o melhor caminho para o desenvolvimento de bons
estudos ecolgicos.
Calculando os ndices de diversidade no R
>library(vegan)
>mata.atlantica=read.table("mata.atlantica.txt", header=T)
>H=diversity(mata.atlantica, index="shannon")
>D=diversity(mata.atlantica, index="simpson")
>D.inv=diversity(mata.atlantica, index="invsimpson")
>riqueza=specnumber(mata.atlantica)
>diversidade.MA=cbind(riqueza, H, D, D.inv)
>diversidade.MA
>pairs(cbind(riqueza, H, D, D.inv), pch="+", col="black")
Praticando:
Exemplo 1: Bromlias geralmente acumulam gua no fitotelmata e diversos grupos de
artrpodes utilizam esses tanques para depositar ovos. Desse modo, as larvas aquticas desses
animais vivem imersas at atingirem a fase adulta. Uma biloga coletou larvas em quatro
espcies de bromlias-tanque (n=30 plantas de cada espcie) e dividiu cada bromlia em trs
grupos de tamanho: pequena (<100 ml de gua acumulada; n=10/espcie), mdia (101 600 ml
de gua acumulada; n=10/espcie) e grande (> 601 ml de gua acumulada; n=10/espcie).
Utilize os arquivos bromelias.txt e bromelia1.txt.
Pergunta 1: Qual espcie de bromlia possui maior diversidade de artrpodes aquticos?
Pergunta 2: O volume de gua afeta a diversidade de espcies de artrpodes aquticos na
Bromlia sp.1?
- Teoria: teoria da biogeografia de ilhas (volume de hbitat).
83

- Unidade amostral: bromlia


- Varivel dependente: diversidade medida por algum ndice de diversidade
- Varivel independente: espcie de bromlia, volume (categorias pequena, mdia e grande)
Responda: Qual a espcie de bromlia com maior diversidade? O volume de gua acumulada
no fitotelmata aumenta a diversidade de artrpodes na Bromlia sp.1? Utilize as funes do R
que aprendeu e calcule o ndice de Shannon e Simpson.

Curvas de dominncia ou Padro de Distribuio da Abundncia das Espcies (SADs)


Uma alternativa mais interessante para investigar concomitantemente a riqueza e a
equitabilidade das espcies numa comunidade a construo de curvas de dominncia,
conhecida na literatura ecolgica por Species Abundance Distributions (SADs), curvas de
dominncia ou diagramas de abundncia relativa. Essas curvas descrevem a abundncia das
espcies encontradas na comunidade (McGill et al. 2007). A maioria das comunidades
dominada por poucas espcies, um padro conhecido como na literatura como J invertido.
Uma maneira comum de representar graficamente as curvas de dominncia organizar as
espcies em ordem decrescente de abundncia no eixo x (i.e., da espcie mais abundante para a
menos abundante) e o log da abundncia de cada espcie no eixo y (Fig. 9a).
A representao desses diagramas evidencia as diferenas no padro de equibilidade
entre diferentes comunidades. Aps o trabalho de Whittaker (1965), a utilizao de diagramas
de abundncia relativa ganhou fora, especialmente para ilustrar as modificaes na flora ou na
fauna durante a sucesso ecolgica ou aps um impacto ambiental. A informao mais bsica
que pode ser retirada dos diagramas est na inclinao das curvas; quanto maior a inclinao,
maior a dominncia da comunidade estudada (Fig. 9b). Alm disso, quanto mais longa a curva,
maior a riqueza de espcies da comunidade. Diversos trabalhos propuseram modelos tericos
para explicar os padres de distribuio da abundncia das espcies (Tokeshi 1999, Hubbel
2001, Magurran 2004, McGill et al. 2007). Alguns deles tm origem puramente estatstica,
como o modelo Log-normal, enquanto outros foram criados a partir de um arcabouo terico
(biolgico) explcito, como os modelos Broken-Stick (nomeado null no pacote radfit do R),
srie geomtrica (preemption no R), Zipf e Zipf-Mandelbrot.
A abundncia esperada (LNar) segundo o modelo estatstico Log-normal para a espcie
da ordem r :
! = exp(log + )
84

Onde N representa o desvio Normal e e so os coeficientes da frmula. A


abundncia esperada (BSar) para a espcie na ordem (do ingls rank) r para o modelo BrokenStick :
!

! = (/)

!!!

(1/)

Onde J representa o nmero total de indivduos na comunidade e S o nmero total de


espcies. Para o modelo Srie Geomtrica, a abundncia esperada (GSar) para a espcie da
ordem r :
! = (1 )!!!
Onde J representa o nmero total de indivduos na comunidade e o coeficiente uma
estimativa da taxa de decrscimo da abundncia por ordem r. Para o modelo Zipf, a abundncia
esperada (Zar) para a espcie da ordem r :
! = ! !
Onde J representa o nmero total de indivduos na comunidade, p1 a proporo
ajustada da espcie mais abundante e o coeficiente de decrscimo da abundncia por ordem
r. O modelo Zipf-Mandelbrot acrescenta um parmetro na frmula do Zipf para estimar a
abundncia (ZMar) da espcie da ordem r:
! = ( + )!
Onde J representa o nmero total de indivduos na comunidade, c e so constantes de
escala e o coeficiente de decrscimo da abundncia por ordem r (Wilson 1991).

A)

100

ComunidadeA

90

ComunidadeB

140

80

ComunidadeC

120

70

B)

Abundncia

Nmerodeespcies

160

100

80
60

60
50
40
30

40

20

20

10
0

10

20

40

60

10 11 12 13 14 15 16 17 18 19 20

Ordemdasespcies

Nmerodeindivduos

Figura 9. Duas representaes comuns do padro de distribuio da abundncia das


espcies. (A) Representao bsica com o nmero de espcies com suas respectivas
abundncias organizadas em ordem decrescente. (B) Diagramas de abundncia relativa (ou
curvas de dominncia) que podem ser utilizados para comparar o padro de dominncia
entre diferentes comunidades.
85

Escolhendo o melhor modelo terico no R


> library(vegan)
> rios=read.table("rios.txt", h=T)
> rios
> rad.rio1=radfit(rios[1,])
> rad.rio1
> plot(rad.rio1, xlab="Ordem das espcies", ylab="Abundncia",
pch=19)
> rad.rio2=radfit(rios[2,])
> rad.rio2
> plot(rad.rio2, xlab="Ordem das espcies", ylab="Abundncia",
pch=19)
> rad.rio3=radfit(rios[3,])
> rad.rio3
> plot(rad.rio3, xlab="Ordem das espcies", ylab="Abundncia",
pch=19)
> par(mfrow=c(2, 2))
> plot(rad.rio1, main="Rio 1", xlab="Ordem das espcies",
ylab="Abundncia", pch=19)
> plot(rad.rio2, main="Rio 2", xlab="Ordem das espcies",
ylab="Abundncia", pch=19)
> plot(rad.rio3, main="Rio 3", xlab="Ordem das espcies",
ylab="Abundncia", pch=19)
Praticando:
Exerccio 1: A biloga responsvel pela Secretaria de Meio Ambiente do Municpio de
Florianpolis/SC precisa determinar a qualidade da gua das seis praias mais movimentadas da
cidade. Este trabalho surgiu aps reclamaes de banhistas e de pescadores de algumas dessas
praias. A biloga mediu os nveis de colifrmes fecais e coletou peixes em vrios pontos de
cada praia. Um estagirio derrubou o computador da biloga e perdeu todos os dados dessa
pesquisa. Por sorte, a biloga havia anotado todos os dados referentes aos peixes coletados nas
praias. Porm, os dados sobre os nveis de colifrmes fecais s foram anotados em arquivo
digital. Com recursos limitados, a biloga no pde refazer as anlises da qualidade da gua e
precisa realizar uma avaliao indireta a partir dos dados de riqueza e abundncia de peixes.
Teoria: Teoria do distrbio + Distribuio da Abundncia das Espcies (SADs)

86

Pergunta: Praias mais poludas possuem padro de distribuio da abundncia da espcies mais
equitativo?
Unidade amostral: Pontos de amostragem em cada praia
Varivel dependente: Abundncia relativa
Varivel independente: Praia
Importe a planilha peixes.floripa.txt e indique a partir dos diagramas de abundncia relativa
qual a praia com melhor e pior qualidade da gua. Informe os modelos tericos que melhor
explicam o padro de distribuio de abundncia de cada praia e faa um diagrama de
abundncia relativa para cada praia e uma figura contendo todos os diagramas na mesma janela.

Diversidade beta
Desde o incio da ecologia, a identidade das espcies que constituem determinada
comunidade (i.e., composio de espcies) tem gerado uma srie de hipteses importantes para
o entendimento de como os organismos se distribuem no espao e no tempo. Uma das principais
perguntas sobre esse assunto O que torna comunidades de espcies mais ou menos similares
em diferentes lugares e tempos? (Vellend 2010). Aps os influentes estudos do eclogo Robert
Whittaker (Whittaker 1960, 1972), o termo diversidade beta (i.e., variao na composio de
espcies entre reas) ganhou fora na literatura ecolgica. Nas duas ltimas dcadas, o nmero
de trabalhos aumentou expressivamente com o desenvolvimento de novos mtodos para medir a
diversidade beta e de novos pacotes estatsticos. A grande quantidade de medidas, abordagens
estatsticas, termos e interpretaes para a diversidade beta aumentaram a confuso em relao
s maneiras corretas de acessar e testar os padres de modificao na composio de espcies
(Tuomisto 2010a,b, Anderson et al. 2011). Nesta apostila utilizaremos um roteiro prtico
baseado em hipteses sugerido recentemente por Anderson et al. (2011). Primeiro, importante
diferenciar dois tipos de conceito de diversidade beta, o conceito de substituio (turnover) e de
variao. A substituio representa a modificao na composio de espcies de uma unidade
amostral para a outra ao longo de um gradiente espacial, temporal ou ambiental. A substituio
requer um gradiente que indique direo como, por exemplo, investigar a mudana na
composio de espcies ao longo de um gradiente de profundidade em um lago (Fig. 10a). As
principais questes testadas na anlise de substituio so: (1) quantas novas espcies so
encontradas ao longo de um gradiente e quantas delas foram inicialmente presentes e agora
foram perdidas? (2) Qual a proporo de espcies encontradas em uma unidade amostral que
no so compartilhadas com a prxima unidade do gradiente?
87

Por outro lado, a variao representa a modificao na composio de espcies entre um


grupo de unidades amostrais (Fig. 10b). A variao necessariamente no-direcional e
representa a modificao das espcies dentro de uma extenso espacial ou temporal
determinada, ou dentro de um mesmo fator (e.g., tipo de hbitat, fragmentos florestais). As
principais questes testadas na anlise de variao so: (1) podemos encontrar as mesmas
espcies repetidamente entre diferentes unidades? (2) Qual a proporo esperada de espcies
no compartilhadas entre todas as unidades amostrais?
Antes de usar os ndices propostos nessa apostila, leia atentamente o artigo
recentemente publicado na Ecology Letters (Anderson et al. 2011) para escolher corretamente o
ndice que responde a sua questo. Alm disso, Koleff et al. (2003) e Legendre & Legendre
(1998) so extremamente importantes para compreender a formulao e caractersticas de cada
um dos ndices de diversidade beta.
B)

A)

Transecto

Gradienteespacial,temporalouambiental

Unidadeamostral

Figura 10. Diagrama esquemtico dos dois tipos de diversidade beta: (A) substituio, mede
taxa de modificao na composio de espcie em relao a um gradiente direcional; (B)
variao, mede a diferena na composio de espcies entre grupos de unidades amostrais e
no-direcional (adaptado de Anderson et al. 2011).

Mtricas para medir a diversidade beta


Um dos primeiros ndices propostos para medir a diversidade beta o ndice de
Whittaker (w), que examina a taxa de diferenciao na diversidade alfa (riqueza local; ) entre
duas ou mais comunidades em relao diversidade gama (riqueza regional; ). A frmula foi
proposta por Whittaker (1960) :
! = / = (b + c) / (2a + b + c)
Onde representa o total de espcies S, e o valor mdio da riqueza de uma amostra. O
valor a representa o nmero de espcies compartilhadas, e os valores b e c o nmero de
88

espcies no compartilhadas entre duas comunidades. O foco dessa anlise na identidade da


espcie e em quantas vezes a riqueza em uma regio maior do que o valor mdio da riqueza na
menor unidade amostral.
ndices binrios (presena/ausncia)
Os ndices mais conhecidos e utilizados na ecologia so o ndice de similaridade de
Jaccard (J) e Srensen (S). O inverso desses ndices, i.e., o valor de dissimilaridade, so
denomidados dJ e dS. Para calcular cada um desses ndices usamos as frmulas:
J = a / (a + b + c)
dJ = 1 J
S = 2a / (2a + b + c)
dS = 1 S
Onde a representa o nmero de espcies compartilhadas entre duas unidades
amostrais i e j, b representa o nmero de espcies que ocorrem na comunidade i, mas no em
j, e c representa o nmero de espcies que ocorrem na comunidade j, mas no em i. Os
valores de J e S variam de 0 (comunidades sem nenhuma espcie compartilhada) a 1
(comunidades que compartilham todas as espcies, i.e., similaridade total). Os valores de
dissimilaridade dJ e ds variam de 0 (comunidades idnticas) a 1 (comunidades que no
compartilham nenhuma espcies, i.e., dissimilaridade total). A diferena bsica entre os ndices
J e S que o segundo atribui maior peso presena das espcies (2a na frmula de S). Em
teoria, uma espcie que ocorre em duas comunidades mais importante do que uma espcie que
no ocorre em nenhuma das duas comunidades (dupla ausncia) (veja discusso em Anderson et
al. 2011).

ndices quantitativos (abundncia relativa)


Bray-Curtis
O ndice de Bray-Curtis (BCij) considerado um ndice semi-mtrico e utiliza a abundncia das
espcies em sua frmula :

(!!,!!) =

!
!!! !!
!
!!!(!!

!!
+ !! )

89

Onde y1j representa a abundncia da espcie j na localidade x1 e y2j na localidade x2. Esse
clculo prossegue at a espcie p.

Medidas multivariadas
Uma medida de diversidade beta interessante para comparar N amostras a disperso
em um espao multivariado, com uma anlise conhecida como teste de homogeneidade de
disperses multivariadas (Anderson 2006). Esta anlise calcula o centride (ou mediana
especial) de um grupo especfico (e.g., lagoa 1) e compara a dissimilaridade mdia das n
observaes individuais dentro desse grupo (e.g., abundncia de cada espcie p na lagoa 1)
utilizando uma medida apropriada de dissimilaridade (e.g., Bray-Curtis, Chao-Srensen,
Distncia Euclideana, Jaccard, Srensen). O clculo do centride para medidas que utilizam
distncia euclidiana a mdia aritmtica de cada varivel. Porm, para calcular o centride para
ndice de distncia no-euclidianos (e.g., Jaccard) necessrio fazer uma anlise de
coordenadas principais (Anderson 2006). A hiptese nula desta anlise a de que a diversidade
beta no diferente entre as amostras de interesse. Para acessar a probabilidade de a hiptese
nula ser verdadeira utiliza-se a estatstica F de Levene comparando a distncia mdia de cada
observao ao centride do seu grupo que, por sua vez, definido por uma medida de
dissimilaridade. Para gerar os valores do P so realizadas n permutaes (e.g., 1000) (detalhes
em Anderson 2006).

Calculando os ndices de diversidade no R


1. Calculando o ndice clssico de Whittaker (w):
> salinidade=read.table("salinidade.txt", header=T)
> salinidade
> diversidade.beta=betadiver(salinidade, "w")
> diversidade.beta
2. Calculando ndices de Jaccard e Srensen:
> jaccard=betadiver(salinidade, "j")
> sorensen=betadiver(salinidade, "sor")
> scores(jaccard)
> scores(sorensen)

90

3. Calculando os ndices de Bray-Curtis e Morisita-Horn:


> library(vegan)
> data(mite)
> bray=vegdist(mite, "bray")
> bray
> morisita.horn=vegdist(mite, "horn")
> morisita.horn
# Testando hipteses com as matrizes de
similaridade/dissimilaridade
> library(vegan)
> data(varespec)
> data(varechem)
> dist.species=vegdist(varespec, "bray")
> dist.chemical=vegdist(scale(varechem), "euclidean")
> associacao=mantel(dist.species, dist.chemical)
> associacao
4. Calculando os ndices de Chao-Jaccard e Chao-Srensen:
> CSoren.dist=ecol.dist(ilhas, chao.sorenson, type="dis")
> CSoren.simi=ecol.dist(ilhas, chao.sorenson, type="sim")
> CJaccar.dist=ecol.dist(ilhas, chao.jaccard, type="dis")
> CJaccar.simi=ecol.dist(ilhas, chao.jaccard, type="sim")
# se optar por calcular a similaridade entre duas localidades
use a seguinte funo:
> IlhaA=ilhas[,1]
> IlhaB=ilhas[,2]
> CSoren.A.B=chao.sorenson(IlhaA, IlhaB)
> CJaccar.A.B=chao.jaccard(IlhaA, IlhaB)
> CSoren.A.B
> CJaccar.A.B
5. Calculando outros ndices de similaridade com o pacote fossil:
> library (fossil)
> Comunidade.A <- c(1,0,4,3,5,0,0,7)
> Comunidade.B <- c(2,1,3,0,0,1,0,6)
> bray.curtis(Comunidade.A, Comunidade.B)
91

> jaccard(Comunidade.A, Comunidade.B)


> simpson(Comunidade.A, Comunidade.B)
> sorenson(Comunidade.A, Comunidade.B)
> morisita.horn(Comunidade.A, Comunidade.B)
6. Teste de homogeneidade de disperses multivariadas:
> library(vegan)
> cafe=read.table("cafe.txt", header=T)
> tipo.matriz=factor(c(rep(1,16), rep(2,8)), labels =
c("com.mata","sem.mata"))
> dissimilaridade=vegdist(cafe, "bray")
> HDM=betadisper(dissimilaridade, tipo.matriz)
> valor.P=permutest(HDM, pairwise = F)
> plot(HDM)
Praticando:
Exerccio 1: Baseado na teoria de que os organismos selecionam sua planta hospedeira
considerando caractersticas fisiolgicas e estruturais, um bilogo pretende testar se trs clones
(clones x1, x2, e x3) de uma planta X possuem composio de espcies de caros diferente. Ele
coletou caros em 60 plantas (20 plantas de cada clone) em uma estao experimental que
cultiva a planta X. Em cada planta, o bilogo coletou 10 folhas e identificou e quantificou todos
os caros. Alm disso, o bilogo mensurou o comprimento, largura e rea foliar e a densidade
de tricomas.
Pergunta: O clone afeta a composio de espcies de caros?
Teoria: Teoria do nicho (species sorting)
Unidade amostral: Folha
Varivel dependente: Composio de espcies
Varivel independente: comprimento, largura e rea foliar, e a densidade de tricomas.
Importe a planilha clone.col1.txt e clone.col2.txte verifique se os clones possuem
composio semelhante ou diferente nas duas coletas hipotticas. Aps as anlises, responda a
pergunta do bilogo para cada coleta. Os resultados realmente permitem que a pergunta seja
respondida? O que voc pode interpretar com a coleta 1 e com a coleta 2?

92

Exerccio 2: Uma atividade muito comum em pases com megadiversiadade de aves tais como o
Brasil chamada de birdwatching (BW), que consiste no estudo e observao de aves a olho
nu ou com binculos. Turistas estrangeiros gastam milhes de dlares anualmente para observar
aves em florestas tropicais. Em uma fazenda particular com 10000 ha de floresta amaznica, um
bilogo comparou o impacto do BW na diversidade beta de aves. Ele comparou dez trilhas
utilizadas para BW e dez trilhas bloqueadas para turismo e pesquisa. O bilogo acredita que o
fluxo de turistas nas trilhas interfere no comportamento de forrageio de muitas espcies de aves
e diminui a riqueza e diversidade beta em comparao com reas sem esta atividade.
Pergunta: a diversidade beta maior em reas sem BW?
Teoria: Nicho, teoria do forregaio timo.
Unidade amostral: pontos de amostragem ao longo da trilha.
Varivel dependente: diversidade beta.
Varivel independente: tipo de trilha (indiretamente relacionado ao impacto do turismo).
- Importe a planilha birdwatch.txt e responda se o turismo (BW) afeta a diversidade beta de
aves utilizando o teste de homogeneidade de disperses multivariadas. Faa uma figura
representando a disperso multivariada das observaes em relao ao centride de cada grupo:
trilha com turismo e trilha sem turismo. As dez primeiras linhas do arquivo birdwatch.txt
representam trilhas bloqueadas a turistas e pesquisadores e as dez ltimas linhas so trilhas
utilizadas para BW.

INTRODUO ESTATSTICA MULTIVARIADA

Neste mdulo iremos aprender como implementar no R as anlises multivariadas mais


comumente utilizadas em ecologia de comunidades. Para isso precisaremos dos pacotes vegan,
labdsv e ade4.
Devido restries de tempo, este mdulo do curso ter um componente mais
informativo que formativo. Procuraremos explicar a lgica por trs de cada teste, a sua aplicao
em problemas comumente encontrados em estudos ecolgicos, mas infelizmente no h tempo
hbil para destrinchar detalhadamente como cada mtodo funciona e o seu componente
matemtico.

93

Em geral, anlises multivariadas tm trs principais utilidades: encontrar a principal


direo de variao dos dados, efetuar correlaes entre matrizes, ou ainda encontrar diferenas
entre grupos. Apesar dessas anlises tambm serem utilizadas como anlises exploratrias e
para descrever padres em estudos ecolgicos, a necessidade de se ter hipteses, ou ao menos
expectativas, no pode ser ignorada. Antes de iniciar a parte prtica, gostaria de discutir alguns
aspectos tericos e filosficos, grandemente baseada em James & McCulloch (1990).
A amostragem em campo deve ser adequada para o objetivo da anlise. Se o objetivo do
usurio for estimar parmetros, a amostragem deve ser aleatria ou estratificada. Se o
objetivo for a deteco de padres, a amostragem deve ser sistemtica (veja Hayek, 1994;
Gotelli & Ellison, 2004; Sutherland, 2006; Greenwood & Robinson, 2006). Para estudos
experimentais, deve haver sempre aleatorizao (sorteio), ou seja, cada unidade amostral tem
de ser independente da outra e ter a mesma chance de ser selecionada (veja Hurlbert, 1984).
Este procedimento eliminaria qualquer fonte de confundimento e enviesamento da amostragem,
por dissolver possveis fatores que possam afetar a varivel de interesse e que no foram
medidos/considerados no estudo.
Alm disso, ao desenhar o seu estudo, priorize ou a escala temporal ou a espacial.
Sempre obtenha mais amostras que variveis. Sempre que possvel, evite perder dados (missing
values, NAs), pois eles diminuem o poder do teste (mas veja Legendre & Legendre, 1998 para
saber como lidar com NAs). Para avaliar a suficincia amostral, verifique se o mesmo padro
de classificao emerge com o aumento do nmero das amostras.
Por fim, anlises multivariadas podem ser divididas, grosseiramente, em dois tipos:
agrupamento e ordenao. Anlises de agrupamento em geral tentam agrupar objetos
(observaes) em grupos de maneira que objetos do mesmo grupo sejam mais semelhantes entre
si do que objetos de outros grupos. Mais formalmente, o agrupamento de objetos (ou
descritores) uma operao pela qual um conjunto de objetos (ou descritores) particionado em
dois ou mais subconjuntos, usando regras pr-estabelecidas de aglomerao ou diviso
(Legendre & Legendre, 1998). Por outro lado, a anlise de ordenao uma operao pela qual
os objetos (ou descritores) so posicionados num espao que contm menos dimenses que o
conjunto de dados original; a posio dos objetos ou descritores em relao aos outros tambm
podem ser usadas para agrup-los.

94

Agrupamento
Anlise de agrupamento hirerrquico (cluster)
A anlise de agrupamento hierrquico a mais utilizada em ecologia. No entanto,
existem tambm outras anlises no hierrquicas, como a K-means, que no sero abordadas
neste curso. O objetivo da anlise de agrupamento agrupar objetos admitindo que haja um
grau de similaridade entre eles. Esta anlise pode ser utilizada ainda para classificar uma
populao em grupos homogneos de acordo com uma caracterstica de interesse. A grosso
modo, uma anlise de agrupamento tenta resumir uma grande quantidade de dados e apresentla de maneira fcil de visualizar e entender (em geral, na forma de um dendrograma). No
entanto, os resultados da anlise podem no refletir necessariamente toda a informao
originalmente contida na matriz de dados. Para avaliar o quo bem uma anlise de agrupamento
representa os dados originais existe uma mtrica o coeficiente de correlao cofentico o
qual discutiremos em detalhes mais adiante.
Apesar da sua versatilidade, deve-se ressaltar que nem todos os problemas em ecologia
so problemas de agrupamento. Antes de considerar algum mtodo de agrupamento, pense
porque voc esperaria que houvesse uma descontinuidade nos dados; ou ainda, considere se
existe algum ganho prtico em dividir uma nuvem de objetos contnuos em grupos. Alm disso,
existem algumas crticas que merecem ateno: mesmo para um conjunto de dados aleatrios
possvel encontrar grupos; o padro apresentado pelo dendograma depende do protocolo
utilizado (mtodo de agrupamento e ndice de dissimilaridade); os grupos formados dependem
do nvel de corte escolhido. Normalmente, a anlise de agrupamento tenta arranjar os objetos
em grupos que so mutuamente excludentes, ou seja, o mesmo objeto no pode fazer parte de
mais de um grupo. No entanto, existem algumas tcnicas, chamadas de fuzzy clustering, que
permitem uma gradao na classificao de objetos. Esta tcnica no ser abordada neste
mdulo, mas o leitor interessado remetido duas referncias: Legendre & Legendre (1998) e
Borcard et al. (2011).

Os passos para a anlise de agrupamento so os seguintes:

1) A matriz deve conter os objetos a serem agrupados (p.ex. espcies) nas linhas e as
variveis (p.ex., locais de coleta ou medidas morfolgicas) nas colunas. Primeiramente,
se os dados forem de abundncia, mais correto realizar a transformao de Hellinger
(Legendre & Gallagher, 2001). Se a matriz original contiver muitos valores
95

discrepantes (p.ex., uma espcie muito mais ou muito menos abundante que outras)
necessrio transformar os dados usando Log (x+1)1. Se as variveis forem medidas
tomadas em diferentes escalas (metros, graus celcius etc), necessrio padronizar cada
varivel utilizando a seguinte frmula:

Z=

obs mdia
desvio

Onde obs representa o valor da unidade amostral de interesse e os valores da mdia e do desvio
padro so calculados para cada varivel.
2) Escolha do mtodo de agrupamento
A escolha do mtodo de agrupamento crtico para a escolha de um coeficiente de
associao. importante compreender completamente as propriedades dos mtodos de
agrupamento para interpretar corretamente a estrutura ecolgica que eles evidenciam (Legendre
& Legendre, 1998). De acordo com a classificao de Sneath & Sokal (1973) existem cinco
tipos de mtodos: 1) seqenciais ou simultneos; 2) aglomerativo ou divisivo; 3) monotticos ou
politticos; 4) hierrquico ou no hierrquicos e 5) probabilstico. Por motivos de espao e
tempo discutiremos somente os mtodos hierrquicos, que so os mais comumente encontrados
na literatura ecolgica.
Mtodos hierrquicos podem ser divididos naqueles que consideram o centride ou a
mdia aritmtica entre os grupos. O principal mtodo hierrquico que utiliza a mdia aritmtica
o UPGMA (Agrupamento pelas mdias aritmticas no ponderadas), e o principal mtodo que
utiliza centrides a Distncia mnima de Ward.
O UPGMA funciona da seguinte forma: a maior similaridade (ou menor distncia)
identifica os prximos agrupamentos a serem formados. Aps esse evento, o mtodo calcula a
mdia aritmtica das similaridades ou distncias entre um objeto e cada um dos membros do
grupo ou, no caso de um grupo previamente formado, entre todos os membros dos dois grupos.
Todos os objetos recebem pesos iguais no clculo. A matriz de similaridade ou distncia
atualizada e reduzida de tamanho em cada etapa do agrupamento, por isso no exige tanto do
computador (Legendre & Legendre, 1998).

1Ousodo1obrigatriopoisLogdezeronabase10noexiste.

96

O mtodo de Ward baseado no critrio de quadrados mnimos dos modelos lineares. O


objetivo definir os grupos de maneira que a soma de quadrados (i.e. similar ao erro quadrado
da ANOVA) dentro dos grupos seja minimizada (Borcard et al. 2011).

3) Escolha dos ndices de similaridade (coeficientes de distncia ou de associao, ou ndices


de dissimilaridade).
Os ndices de similaridade medem a distncia entre dois objetos ou quantificam o
quanto eles so parecidos. Lembre-se: as questes e hipteses iniciais do estudo devem ser
levadas em conta na escolha do ndice (veja Anderson et al. 2011).

ndices binrios assimtricos


Se os dados disponveis foram de presena-ausncia (binrios), os ndices
recomendados so os de Jaccard e Srensen. Os ndices tradicionais de Jaccard e Srensen so
chamados de ndices assimtricos, pois ao fazerem a comparao entre amostras no levam em
conta duplas ausncias. Essa caracterstica desejvel ao analisar dados ecolgicos porque o
no encontro de duas espcies em duas localidades no um indicativo de que duas localidades
sejam similares, j que isto pode ter surgido por variao estocstica na amostragem, padres de
disperso, etc. Alm disso, as duplas-ausncias no refletem necessariamente diferenas nas
localidades (Legendre & Legendre, 1998; Anderson et al., 2011). Desta forma, somente sero
considerados similares localidades que de fato compartilhem espcies.
Compare as frmulas dos coeficientes de Jaccard e Srensen (Pag. 89):
Como possvel perceber pelas frmulas, o coeficiente de Srensen d um peso maior
para as duplas presenas, pois elas so um indicativo mais forte de semelhana. No entanto, o
ndice de Srensen sensvel variaes na riqueza entre as localidades.
Como uma alternativa, o ndice de Simpson para similaridade mltipla entre
comunidades foi proposto recentemente por Baselga et al. (2007) como uma modificao do
ndice de diversidade de Simpson. Este ndice tem a vantagem de ser independente da riqueza e
assim, consegue distinguir entre a substituio verdadeira e a simples perda de espcies. Isto
importante porque, como visto anteriormente, a diversidade beta pode ser causada por dois
distintos fenmenos: aninhamento e substituio de espcies (turnover) que, por sua vez, so
causados por processos ecolgicos diferentes. Alm disso, este ndice leva em considerao a
similaridade em toda comunidade e no par-a-par, como outros ndices tradicionais (Baselga et
97

al. 2007). Se o leitor estiver interessado nesse assunto, existe outro ndice de mltiplas
comunidades proposto por Anne Chao (Chato et al. 2005, 2006; veja acima) que
implementado na funo no programa SPADE da autora que usa tanto dados de incidncia
quanto de presena-ausncia. Esta autora tambm props modificaes nos ndices clssicos de
Jaccard e Srensen para possibilitar a incluso de dados de abundncia. A implementao destes
ndices de Chao-Jaccard e Chao-Srensen est disponvel na funo chao.sorenson() do
pacote fossil.

ndices quantitativos assimtricos


Esses ndices permitem a incorporao de dados de abundncia nas anlises. Os
ndices recomendados e os mais usados so os de Bray-Curtis, Gower2 (elimina duplas
ausncias, pode ser usado tanto para abundncia quanto variveis dummy) e Morisita-Horn. A
grande vantagem deste ltimo a sua independncia do tamanho amostral (Krebs, 1999).

Coeficientes de distncia mtricos


O principal coeficiente de distncia usado em cologia a distncia euclidiana e suas
demais variantes: distncia euclidiana mdia, ponderada e padronizada. A distncia euclidiana
recomendada nos casos em que as variveis de estudo forem contnuas, morfomtricas ou
descritores ambientais.

Como avaliar a representatividade do dendrograma?


E como avaliamos se o dendrograma representa adequadamente a matriz de dados
original? Existem basicamente duas formas: avaliar o coeficiente de correlao cofentica ou
utilizar a distncia de Gower (Borcard et al., 2011). A correlao cofentica obtida
simplesmente pela correlao de Pearson entre a matriz original de similaridade e a matriz
cofentica. Esta dada pela distncia cofentica (distncia onde dois objetos tornam-se
membros de um mesmo grupo) entre todos os pares de objetos. Quanto maior a correlao,
melhor a representatividade da anlise. Normalmente, uma regra de polegar usada somente
admitir anlises que produzam uma correlao maior que 0.8. Se o usurio no tem certeza de
qual mtodo de agrupamento ou coeficiente de distncia usar, possvel (mas talvez no muito
recomendado) realizar a anlise com vrios mtodos e depois escolher o que produzir a maior

98

correlao utilizando um diagrama de Shepard (Borcard et al., 2011). Ainda, possvel utilizar a
correlao de Kendall ou Spearman como alternativa para a de Pearson.
A distncia de Gower calculada como a soma dos quadrados da diferena entre as
matrizes de distncias cofenticas e a original. O mtodo de agrupamento que produzir a menor
distncia de Gower aquele que fornece o melhor modelo de agrupamento para a matriz de
distncia. Mas observe que o mtodo da correlao cofentica e a distncia de Gower nem
sempre concordam (Borcard et al., 2011).

Interpretao dos grupos: qual o nvel de corte?


A anlise de agrupamento um procedimento heurstico e no um teste estatstico
(Borcard et al., 2011). Portanto necessrio que o usurio interprete o resultado (dendrograma)
luz dos dados originais. Isto tambm enfatiza a necessidade de se escolher o mtodo mais
apropriado para o estudo, j que o resultado depende fortemente dos mtodos. Existem vrias
formas propostas para escolher o nvel de corte do dendrograma. possvel realizar uma
inspeo visual e determinar quais agrupamentos fazem sentido, em relao ao conjunto de
dados. Ainda, possvel utilizar matrizes modelos contrudas e depois compar-las com a
original, posteriormente faz-se uma correlao entre essas matrizes para encontrar o nvel de
corte mais apropriado (Bini & Diniz-Filho, 1995). Outra regra de polegar normalmente usada
escolher o nvel de corte como 50% de similaridade. Outra opo adicionar valores de
bootstrap aos ns do dendrograma e interpreter somente os ns co um valor alto, algo como
70%, de bootstrap. O livro Borcard et al. (2011, p. 65) traz mais alguns mtodos para a escolha
do nvel de corte. Recomendamos ao leitor avali-los para determinar se algum se encaixa na
proposta do seu estudo.
Outra alternativa para encontrar grupos em um dendrograma oferecida pelo pacote
pvclust (Suzuki & Shimodaira, 2005). Este pacote calcula automaticamente o valor de P para
cada agrupamenteo formado. O pacote ainda emprega uma reamostragem em multiescala
usando bootstrap que, por sua vez, utiliza tamanhos amostrais maiores e menores que a matriz
original de dados, ao contrrio da anlise comum de bootstrap, na qual o tamanho amostral
permanece constante e igual ao tamanho da matriz de dados (Shimodaira 2004). Assim, o valor
de P estimado pelo ajuste a uma curva terica obtida de todos os tamanhos de amostragem,
corrigindo assim para o enviesamento do tamanho amostral constante do bootstrap comum.
A seguir, faremos alguns exerccios que utilizaro o pvclust para selecionar os grupos
do dendrograma.

99

Exerccios
1) No R existem dois pacotes que realizam a anlise de agrupamento: a funo hclust() do
pacote vegan e o pacote cluster. Para comearmos a trabalhar, baixe e carregue o pacote vegan,
depois carregue o arquivo de dados mite para o R da seguinte forma:
>library(vegan)
>data(mite)
a) Efetue a anlise de agrupamento pela funo hclust() utilizando o mtodo UPGMA e o
ndice de Bray-Curtis. Lembre-se de dar nome ao objeto para poder plotar o dendrograma
depois. Utilize a ajuda para encontrar como entrar com os argumentos da funo.
b) Faa agora o dendrograma com outro ndice de dissimilaridade e compare os resultados. So
diferentes? No que eles influenciaram a interpretao do resultado?
2) Agora vamos usar a abordagem proposta pelo pvclust. Primeiro instale o pacote e depois
carregue-o. Em seguida, digite esta funo no script do R:
dist <- function(x, ...){
vegdist(x, ...)
}
O pvclust limitado porque s permite que usemos os indices de dissimilaridade da
funo dist(). Essa funo faz com que possamos utilizar os ndices da funo vegdist()
do pacote vegan. Se preferir, possvel usar os ndices disponveis na funo dsvdis() do
pacote labdsv substituindo-a na funo acima. Importe o conjunto de dados bocaina.txt para o
R e faa a anlise utilizando o mtodo UPGMA e o ndice de Morisita-Horn. O pvclust agrupa
os objetos que esto na coluna. Dese modo, se quisermos agrupar as espcies da comunidade
devemos primeiro transpr a matriz. Lembre-se de dar nome ao objeto para podermos plotar o
dendrograma depois.
3) Calcule novamente o dendrograma usando o pvclust e o conjunto de dados dunedata$veg do
pacote ade4 utilizando o mtodo UPGMA e a distncia de Bray-Curtis.

IndVal
O objetivo desta anlise identificar especies indicadoras de grupos pr-estabelecidos.
Uma alta fidelidade significa que espcies ocorrem em todos os locais do grupo e uma alta
100

especificidade significa que as espcies ocorrem somente naquele grupo. Uma boa espcie
indicadora aquela na qual todos os indivduos ocorrem em todas a amostras referentes a um
grupo especfico.
A Especificidade dada pela diviso da abundancia mdia da espcie no grupo pela
somatria das abundancias mdias dos grupos. Fidelidade igual ao nmero de lugares no
grupo onde a espcie est presente dividido pelo nmero total de lugares do grupo (Dufrne &
Legendre, 1997). As vantagens desta anlise que ela baseada na abundncia das espcies
dentro do grupo e mede a associao entre as espcies e os grupos. A anlise originalmente
proposta por Dufrne & Legendre (1997) parecia um pouco circular, j que a classificao das
localidades para a formao dos grupos feita a partir de dados das espcies, ento as espcies
indicadoras j seriam aquelas que foram usadas pra formao dos grupos. Uma forma de
contornar essa circularidade seria utilizar alguma informao independente para a formao dos
grupos como, por exemplo, algum descritor ambiental. Algumas melhorias foram realizadas na
anlise original e esto disponveis em De Cceres & Legendre (2009), incluindo um novo
pacote

chamado

indicspecies

disponvel

na

pgina

pessoal

do

autor

(http://sites.google.com/site/miqueldecaceres/software).
Espcies raras podem receber o mesmo valor de IndVal das espcies indicadoras e so
chamadas de indicadoras assimtricas, i.e., contribuem com a especificidade do habitat mas no
servem para predizer grupos. Ao contrrio, as espcies indicadoras so verdadeiros indicadores
simtricos e podem ser usadas para predizer grupos.
Espcies indicadoras podem mostrar caractersticas particulares de um determinado
grupo, podendo inferir, por exemplo, situaes de eutrofizao de ambiente aqutico. Por
exemplo, algumas espcies quando muito abundantes em determinado local podem indicar que
o ambiente est poludo. A espcie indicadora definida como a mais caracterstica de um
determinado grupo.
A anlise procede da seguinte forma:
1 Uma matriz de distncia construda e as unidades amostrais so classificadas com alguma
anlise de agrupamento, hierrquico ou no;
2 A varivel ambiental para a qual se deseja classificar os grupos inserida;
3 As espcies indicadoreas de cada grupo so formadas atravs do clculo da especificidade e
fidelidade, obtendo-se o valor de IndVal para cada espcie;
4 Por fim, o conjunto de dados originais comparado para ver se anlise faz sentido.

101

O ndice calculado seguindo a frmula abaixo para cada espcie:


IndValij = Aij * Bij * 100,
onde Aij a especificidade da espcie i, que dada pela abundncia mdia dessa espcie no
grupo j dividiva pela soma das abundncias mdias da espcie i em todos os grupos. Bij a
fidelidade da espcie, que dada pelo nmero de locais do grupo j onde a espcie i ocorre
dividido pelo nmero de locais do grupo j.
O clculo da significncia do ndice de IndVal feito por aleatorizao de Monte
Carlo. Assim, o valor do ndice aleatorizado 999 vezes (ou o nmero de vezes que voc optar)
dentro dos tratamentos e o valor de P dado pelo nmero de vezes em que o ndice observado
foi igual ou maior que os valores aleatorizados.
Na interpretao do resultado, uma espcie pode ser indicadora perfeita, quando
ocorre em somente um grupo restrito de locais que tm uma dada caracterstica e tambm ocorre
em todos locais daquele grupo, ou seja, ela tem uma alta fidelidade e especificidade. Uma
espcie pode ser ainda indicadora assimtrica quando a mesma no tem alta fidelidade, mas
alta especificidade. Ao contrrio, uma espcie indicadora simtrica tem alta fidelidade, mas
baixa especificidade.

Exemplo
>install.packages(labdsv)
>library(labdsv)
>mam.cerrado=read.table(file.choose(), h=T)
>?indval
>fitofis=c(rep(1,4), rep(2,4), rep(3,4), rep(4,4), rep(5,4))
>resultado=indval(mam.cerrado, fitofis)
>summary(resultado)#para apresentar uma tabela dos resultados
>resultado$maxcls
>resultado$indcls
>resultado$pval
>tab.resultado=cbind(resultado$maxcls,resultado$indcls,resultado
$pval)
>colnames(tab.resultado)<-c("maxgrp", "ind. value","P")
>tab.resultado

102

Exerccios
1) Importe o conjunto de dados indvalR.txt. Nestes dados, as espcies de cladceros esto nas
colunas e as unidades amostrais (lagoas) nas linhas, existe tambm informao sobre a turbidez
(varivel contnua) da gua, para o qual iremos tentar encontrar espcies indicadoras de cada
faixa. Esta coluna deve ser selecionada para compor os grupos.
2) Importe conjunto de dados exemploIndval.txt. Neste conjunto, as espcies de anfbios
anuros esto nas colunas e os locais de reproduo esto nas linhas. O arquivo
gruposIndval.txt classifica os locais de acordo com o nvel de poluio. Calcule o IndVal para
cada espcie e descubra se existe alguma espcie que pode ser indicativa de locais poludos.

Comparao de mdias entre grupos


Anlise de Similaridade (ANOSIM)
A anlise de similaridade (ANOSIM, ANalysis Of SIMilarity) um tipo particular de
anlise de varincia multivariada (MANOVA, Multivariate ANalysis Of VAriance) para
comparao de mdias, mas que no requer que os dados tenham distribuio normal
multivariada e homogeneidade de varincia. Esta anlise testa se a similaridade menor dentro
do que entre grupos definidos numa matriz. Por exemplo, quando temos dois ambientes muito
distintos (p.ex., um conjunto de riachos poludos e outro saudvel) e queremos avaliar se
abundncia de espcies diferente entre estes dois tipos de ambientes. O teste ranqueia as
similaridades dando o ranque de 1 para a maior similaridade entre um par de objetos (McCune
& Grace, 2002). A estatstica do teste, R, varia de -1 a 1, quanto mais positivo for o valor, maior
a diferena entre os grupos. A estatstica R dada por:
=

(! ! )
( 2)

onde rb a similaridade ranqueada entre grupos; rw a similaridade ranqueada dentro do grupo;


M=n(n-1)/2; n=nmero de total de unidades amostrais. O ANOSIM tambm pode ser utilizado
com dados de incidncia para avaliar se a composio de espcies difere entre locais.
A MANOVA raramente utilizada para analisar dados ecolgicos de campo, devido s
restries mencionadas acima (McCune & Grace, 2002). Logo, no a inclumos neste curso. Por
outro lado, a MANOVA, ou a sua variao PERMANOVA, comumente utilizada para
analisar dados de experimentos cujo desenho se encaixa nas premissas do teste (McCune &
Grace, 2002). O ANOSIM muito robusto quando temos somente dois grupos para os quais
103

queremos comparar a diferena. Quando temos mais de dois grupos, o procedimento mais
recomendado o MRPP, que veremos a seguir.

Procedimento de permutaao multi-resposta (MRPP)


O MRPP um procedimento no-paramtrico muito similar ao ANOSIM, diferindo
somente na estatstica do teste. Alm disso, o MRPP usualmente utilizado quando h mais de
dois grupos para os quais se deseja testar se h diferena (McCune & Grace, 2002; p.188),
enquanto o ANOSIM mais recomendado quando se tem dois grupos.
Os procedimentos do teste incluem o clculo de uma estatstica , que dada por:
!

! !
!!!

onde g o nmero de grupos, e C um peso que depende do nmero de tens nos grupos.
Existem vrios mtodos para atribuir peso, o mais usado e recomendado Ci=ni/N; onde n o
nmero de itens no grupo i e N o nmero total de itens. So calculados dois valores de , um
observado e outro simulado, que re-ordena as unidades amostrais dentro dos grupos.
Posteriormenre, o valor de entra no clculo da estatstica do teste, R, que dada por:
=1(

observado
)
esperado

O valor de R mede o tamanho do efeito e ento independente do tamanho amostral. O


R do MRPP funciona de maneira oposta ao R do ANOSIM: quanto maior o seu valor, menor a
diferena entre os grupos (McCune & Grace, 2002; p.191).

Exemplo
>library(vegan)
>bocaina
>?anosim
>vec.bocaina=factor(c(rep(1, 7), rep(2,7)),
labels=c(Temporrias, Permanentes))
>bocaina.pad=decostand(bocaina, pa)
>anosim(bocaina.pad, vec.bocaina)
>plot(anosim)
104

Teoria: Teoria de histria de vida


Hiptese: As poas temporrias e permanentes tero similaridades diferentes
Unidade amostral: espcies
Amostras: Poas
Exerccio
1) Na perspectiva de metacomunidades (Leibold et al., 2004), a disperso dos organismos tem
um papel proeminente para entender como as espcies esto distribudas na natureza. Com o
objetivo de testar se a disperso influencia a composio de espcies de cladceros e coppodos,
e portanto a estrutura da metacomunidade, um pesquisador selecionou dois conjuntos de lagos:
em um deles todos os lagos so isolados e no outro os lagos so conectados. Importe para o R o
conjunto de dados lagos.txt e responda a pergunta se o fato de os lagos estarem conectados ou
no influencia a composio de espcies desses microcrustceos.
2) Refaa o mesmo teste para encontrar se a abundncia relativa diferente entre os lagos.
Explore os resultados com as funes summary(), plot(), names().
3) Importe o conjunto de dados anosim.txt para o R. Este conjunto consiste de um
levantamento de artrpodos de serrapilheira coletados em uma regio de mata ombrfila densa
(cinco primeiras unidades amostrais) e uma regio de mata ombrfila mista (demais unidades
amostrais). Faa um teste para calcular se a abundncia dos artrpodes diferente entre esses
dois grupos de unidades amostrais.
4) Importe o conjunto de dados mrpp.txt para o R e responda se a composio de espcies
vegetais diferente entre as fitofisionomias de cerrado.

Ordenao irrestrita

Anlise de Componentes Principais (PCA)


Ao contrrio de anlises de agrupamento (ou classificao), anlises de ordenao no
buscam por uma descontinuidade nos dados, mas sim analisar como os objetos se distribuem ao
longo de gradientes. A ordenao representa uma situao mais prxima da prtica em estudos
ecolgicos. A anlise de componentes principais (PCA) principalmente usada para reduzir a
dimensionalidade dos dados, e tambm verificar como as amostras se relacionam, ou seja, o

105

quo semelhantes so segundo as variveis utilizadas. O resultado prtico produzir um


diagrama de ordenao que sintetize os dados, no qual os objetos mais prximos so mais
semelhantes. Alm disso, o mtodo matemtico procura maximizar a varincia entre os objetos.
Diferentemente de outras anlises de ordenao, s possvel utilizar a distncia euclidiana
como coeficiente de similaridade na PCA. Logo, mais recomendado us-la para analisar
variveis ambientais ou medidas morfolgicas.
A PCA tem como principais vantagens: retirar a multicolinearidade das variveis, pois
permite transformar um conjunto de variveis originais intercorrelacionadas em um novo
conjunto de variveis no correlacionadas (componentes principais). Para visualizar o
correlograma dos dados, utilize a funo cor() e digite a matriz de dados como argumento.
Alm disso, reduz muitas variveis a eixos que representam algumas variveis, sendo estes
eixos perpendiculares (ortogonais) explicando a variao dos dados de forma decrescente e
independente.
As desvantagens so: a sensibilidade a outliers, no recomendada quando se tem duplas
ausncias (muitos zeros na matriz) e dados ausentes. A PCA tambm no recomendada
quando se tem mais variveis do que unidades amostrais.

Conceitos importantes
Combinaes lineares: equao que agrupa as diferentes variveis, como em uma regresso
mltipla.
Componentes principais: so as combinaes lineares das variveis, eixos ortogonais
(independentes) que resumem (explicam) a variao dos objetos, e como tal podem ser
consideradas como novas variveis e usadas em anlises posteriores. O nmero de
componentes principais igual ao nmero de variveis. O primeiro componente principal
resume a maior variao dos dados, o segundo, a segunda direo de maior variao dos dados e
asim por diante.
Autovalores (eigenvalues): esses valores representam a varincia dos componentes principais e
traz a porcentagem de explicao de cada eixo. O nmero de autovalores o mesmo do nmero
de variveis. Os autovalores sero maiores para aquelas variveis que forem mais importantes
na formao do eixo.
Autovetores (eigenvectors): o mesmo que Loading, ou seja, coeficientes de combinao linear.
Os autovetores so os eixos principais de disperso da matriz e medem a importncia de uma

106

varivel em cada eixo. Desse modo, representam o peso de uma varivel para a construo de
um eixo e variam de -1 a 1 (correlao de Pearson);
Centride: mdia ponderada de um conjunto multivariado, a menor distncia mdia de todos os
objetos num espao multivariado;
Escores (Z1, Z2, Zn): posio das unidades amostrais ao longo de um eixo de ordenao, pode
se referir tanto unidades mostrais quanto variveis. Escores so fornecidos pela substituio
dos valores assumidos pelas variveis originais nas combinaes lineares. So utilizados para
ordenar as unidades amostrais em um diagrama uni, bi ou tridimensional.
Inrcia: a soma de todas as correlaes das variveis com elas mesmas, mede a quantidade de
varincia total que explicada por um eixo.
Loadings (coeficiente de estrutura): correlao de Pearson entre os escores e as variveis.

O procedimento da anlise o seguinte: uma matriz de similaridade extrada de uma


matriz de dados quantitativos utilizando a distncia euclidiana. Se os dados estiverem em
escalas diferentes, lembre-se de padroniz-los primeiro, ou usar a matriz de correlao ao invs
da matriz de covarincia. Os autovalores so ento extrados da matriz de similaridade para o
clculo dos autovetores, e ento os componentes principais so calculados. A matriz de escores
extrada a partir da matriz de autovetores.
Um passo importante selecionar quais so os eixos que foram os mais importantes, ou
seja, aqueles que resumem a maior quantidade de variao dos dados. Para isso existem vrios
mtodos (veja Jackson, 1993 e Peres-Neto et al. 2005): O critrio de Kaiser-Guttman sugere
calcular a mdia de todos os autovalores e interpretar somente aqueles cujo os autovalores sejam
maiores que a mdia. Uma regra de polegar sugere escolher todos os componentes principais
at atingir 75% de explicao. Outra opo realizar um screen-plot que plota os componentes
principais no eixo x e os autovalores no eixo y, os componentes com menor explicao tendem
a estar numa linha reta; logo deve-se interpretar somente os componentes principais que no
esto nesta reta. O critrio da esferidade de Bartlett sugere que os componentes principais sejam
selecionados at que as duas ltimas medidas de explicao formem uma esfera. Finalmente, o
mtodo de Broken Stick sugere considerar somente os eixos maiores que o valor predito pelo
modelo de Broken Stick. Este o critrio mais utilizado por ser um mtodo estatsico e no
heurstico, por isso vamos utiliz-lo no exemplo desta seo.
A PCA produz melhores resultados quando as variveis possuem uma forte estrutura de
correlao entre si (ou seja, qundo as variveis so redundantes) e ao fazer esta anlise, deseja107

se justamente eliminar a correlao entre as variveis, produzindo assim novas variveis que
no correlacionadas. Alm disso, a PCA tambm muito sensvel a valores discrepantes e
outliers. Se a porcentagem de explicao dos eixos for muito similar entre si indica que no h
uma associao entre as variveis, i.e., no h uma estrutura clara nos dados.
Como perceber se a PCA foi a anlise adequada? Aqui no existe um nmero mgico
como o coeficiente de correlao cofentico. Ento, um critrio que se utiliza nestes casos
(dependendo do conjunto de dados analisado) utilizar a anlise somente se os dois, ou no
mximo, os trs primeiros eixos explicarem em torno de 70% da variao dos dados. Se isso
no acontecer, deve-se considerar outras anlises, como veremos a seguir. Caso contrrio, se
considerarmos quatro ou cinco eixos, a interpretao pode ficar complicada. Um exemplo de
interpretao de um biplot de PCA pode ser encontrado nas pginas 125-126 de Borcard et al.
(2011).

Exerccios
1) Carregue o pacote MASS que j instalado no R. Ative o pacote de dados Crabs,
data(crabs). Este conjunto traz medidas morfolgicas de dois morfo-tipos da espcie de
carangueijo Leptograpsus variegatus coletada em Fremantle, Austrlia. Calcule uma PCA e
veja se existe uma semelhana morfolgica entre os dois morfo-tipos. Lembre-se de dar nome
ao objeto e use a funo biplot.rda() para plotar o resultado do teste, utilize o argumento
scaling=1 e scaling=2. Dica: a projeo de um objeto perpendicular seta do descritor
fornece a posio aproximada do objeto ao longo desse descritor. A distncia dos objetos no
espao cartesiano reflete a distncia euclidiana entre eles.
2) Importe o arquivo DoubsEnv.csv para o R. Este conjunto fornece os descriores ambientais
em 30 locais do rio Doubs, prximo fronteira FranaSuia e consiste de 11 variveis
ambientais relacionada hidrologia, geomorfologia e qumica do rio. Calcule uma PCA com a
funo rda() do pacote vegan. Para ver como entrar com os argumentos na funo, digite
?rda, utilize o argumento scale=T para padronizar as variveis. Para ver quais eixos reter
para plotar e interpretar, carregue e utilize a funo evplot() escrita por Bocard et al. (2011)
disponvel no arquivo evplot.R. O argumento da funo deve ser os autovalores, portanto
extraia-os utilizando objeto1=objeto$CA$eig.

108

Anlise de Coordenadas Principais (PCoA)


A Anlise de Coordenadas Principais muito semelhante PCA, diferindo somente
pelo fato de que com ela possvel usar qualquer coeficiente de similaridade, e no s a
distncia euclidiana, como na PCA. Da advm uma de suas grandes vantagens: possvel
realizar a anlise se s a matriz de similaridade estiver disponvel. Alm disso, a PCoA
adequada quando o nmero variveis maior que o nmero de amostras, ao contrrio da PCA e
tambm robusta para valores ausentes, duplas ausncias ou mesmo dados de incidncia
(variveis dummy). bastante til para se analisar variaes sazonais e gradientes de
diversidade ou mesmo quando existem poucas unidades amostrais. No entanto, no informa
quais variveis influenciam a distribuio dados objetos e tambm no fornece a relao entre as
variveis e os eixos principais, somente as unidades amostrais. Outra desvantagem do mtodo
a impossibilidade de interpretar os eixos com base na projeo dos descritores num
continuum, ou em subconjuntos.
Os procedimentos para a anlise so muito semelhantes PCA, a nica diferena que
a matriz de similaridade original passa por uma transformao denominada centralizao dupla.
Este procedimento usado para manter a relao euclidiana entre as unidades amostrais. A
PCoA produz n-1 eixos, quando o nmero de unidades amostrais igual ou maior que o nmero
de variveis.
Uma maneira de perceber se a anlise foi adequada verificar se foram produzidos
autovalores negativos e altos, se sim, a matriz de distncia que est sendo usada pode no ser
adequada para a ordenao, pois a representao cartesiana pode estar distorcida. Para corrigir
isso existem alguns mtodos implementados na funo pcoa(), do pacote ape. Na PCoA
tambm os prprios autovetores so os escores, que podem ento ser utilizados para ordenar as
unidades amostrais.

Exerccio
1) Importe o conjunto de dados bocaina_temporal.txt para o R. Este conjunto de dados
consiste da abundncias das espcies (nas linhas) de girinos que ocorreram em 13 poas durante
11 meses (colunas) no PARNA Serra da Bocaina. Faa uma PCoA utilizando o coeficiente de
Bray-Curtis com a funo pcoa() do pacote ape para descobrir se as espcies podem ser
agrupadas de acordo com um padro de ocorrncia temporal. Construa o biplot com a funo
biplot.pcoa().

109

Escalonamento multidimensional no-mtrico (nMDS)


Este mtodo muito parecido com o anterior. Assim como a PCoA, o nMDS tambm
permite utilizar qualquer coeficiente de distncia para construir a matriz de similaridade e
tambm aceita valores ausentes e duplas ausncias. Mas, diferentemente da PCoA, o nMDS
uma tcnica iterativa que visa minimizar o STRESS (STandard REsiduals Sum of Squares),
uma medida do quanto as posies de objetos em uma configurao tridimensional desviam-se
das distancias originais ou similaridades aps o escalonamento. A anlise procede pela
atribuio de escores aleatrios aos eixos de ordenao escolhidos pelo usurio. Posteriormente,
uma matriz de distncia calculada entre as unidades amostrais. Essa matriz ento
correlacionada com a matriz de distncia construda a partir dos dados originais. Os escores dos
eixos de ordenao so aleatorizados at que a correlao entre a matriz de distncia obtida com
a aleatorizao dos escores e a matriz de distncia dos dados originais seja a maior possvel e o
valor de STRESS ento calculado. Este valor varia de 0 at 1, um bom ajuste produzido
quando o STRESS se aproxima de 0. Logo, o STRESS pode ser utilizado como uma medida do
quo adequada a anlise . Uma regra de polegar (Clarke, 1993) sugere que:
-

Stress <0.05 representao excelente;

Stress <0.1 boa ordenao. Improvvel de produzir algo melhor

aumentando-se as

dimenses do diagrama de Shepard;


-

Stress <0.2 ordenao razovel. No possvel discutir detalhes minusciosos, mas o


aumento das dimenses do diagrama Shepar pode melhorar a representao;

Stress >0.2 ordenao invivel e a interpretao pode ficar comprometida. Com valores de
stress entre 0.35 e 0.4 as amostras esto posicionadas aleatoriamente, mantendo pouca ou
nenhuma relao com a similariadde original.

Ao contrrio da PCA e da PCoA, o nMDS permite escolher o nmero de eixos que se


deseja produzir previamente anlise. Outras variantes do nMDS foram propostas, como o
Hybrid MDS, que permite combinar coeficientes mtricos e no mtricos, mas no foram muito
populares e no est disponvel no R. A anlise leva em conta o ranque das distncias, e
portanto no assume a linearidade entre as amostras, uma caracterstica desejvel quando se
analisa dados de comunidades de espcies. No entando, essa caracterstica no exclui a
necessidade de se transformar os dados, se for preciso. As principais desvantagens do nMDS
so: a anlise no fornece a porcentagem de explicao de cada eixo, j que o nmero de eixos
escolhido previamente pelo usurio. Lembre-se de que na PCoA e PCA os eixos escolhidos so
aqueles que produzem os maiores autovalores. O usurio deve fornecer o valor de STRESS, o
coeficiente de distncia utilizado e finalmente, se foi feita alguma transformao nos dados
110

previamente. Como o nMDS uma tcnica iterativa, possvel realizar a anlise vrias vezes
como um procedimento para diminuir o valor de STRESS.

Exerccio
1) Utilize a funo metaMDS() do pacote vegan para ordenar os dados do arquivo
DoubsSpe.csv. Este conjunto de dados consiste da abundncia de peixes coletados em vrios
trechos do rio Doubs, prximo fronteira Frana-Suia, utilize a distncia de Bray-Curtis
primeiramente e depois escolha um outro ndice que tambm incorpore abundncia e plote o
resultado. Os resultados forram muito diferentes?

Ordenao restrita
Anlise de Correspondncia Cannica (CCA) e Anlise de Redundncia (RDA)
As duas principais anlises de ordenao restritas (constrained ordination) utilizadas
em ecologia so a Anlise de Correspondncia Cannica (CCA) e a Anlise de Redundncia
(RDA). Estas duas anlises so os equivalentes restritos da Anlise de Correspondncia (CA)
(no abordada no curso) e da PCA, respectivamente. O principal objetivo destas anlises
identificar a influncia de variveis ambientais sobre os padres de composio e abundncia
das espcies numa comunidade. Estas anlises so particularmente teis para analisar a
distribuio de espcies ao longo de gradientes ambientais, por isso so chamadas de anlises
direta de gradientes (direct gradient analysis).
A CCA avalia a estrutura de correlao dentro de um conjunto de dados (e.g., matriz de
abundncia de espcies) e entre a matriz de espcies e a matriz ambiental. Estas anlises so
chamadas de restritas por que restrigem a ordenao dos objetos de uma matriz por uma
regresso linear mltipla de uma segunda matriz. Em termos prticos, se o usurio est
interessado em saber o quanto da estrutura da comunidade pode estar relacionada a descritores
ambientais e se se espera que as espcies respondam de forma unimodal a estes gradientes,
ento a anlise de escolha a CCA. Similarmente, a RDA tambm busca encontrar o quanto da
composio e abundncia das espcies na comunidade esto relacionadas com descritores
ambientais, mas assume que existe uma resposta linear das espcies aos gradientes ambientais.
Enquanto o presuposto da CCA parece ser mais ecologicamente plausvel, os dados do usurio
podem ser apropriados para uma RDA se a amostragem no compreender todo o gradiente
ambiental. Por outro lado, a CA pode ser mais apropriada se o gradiente que influencia a

111

distribuio de espcies no tiver sido medido. Uma anlise recentemente proposta permite
analisar dados nos quais as espcies apresentem respostas mistas aos gradientes. O OMI (sigla
para Outlying Mean Index, Doldec et al., 2000) est disponvel na funo niche()do pacote
ade4.
A CCA maximiza a separao dos nichos das espcies. Assim, as respostas das espcies
diante do gradiente ambiental assumiriam a forma de curvas unimodais. Muitas variveis
ambientais podem ser utilizadas com o objetivo de explicar a distribuio das espcies,
resultando em nichos p-dimensionais, no entanto a anlise perde poder medida que a matriz
ambiental contiver mais e mais descritores do que unidades amostrais. A matriz de espcies
pode conter somente dados de incidncia. A RDA conceitualmente equivalente a uma
regresso linear mltipla multivariada, seguida de uma PCA baseada nos valores ajustados.
Diferentemente de outras anlises, como PCA, PCoA e nMDS, todas as anlises de
correspondncia, incluido a CCA, no calculam uma matriz de distncia. Ao contrrio, so
baseadas nas distncias de 2 onde as amostras so ponderadas de acordo com o total, fazendo
com que haja uma distino exagerada em amostras com muitas espcies raras. Por esse motivo,
o uso da CCA deve ser restrito situaes onde as espcies raras foram adequadamente
amostradas e so consideradas indicadores de caractersticas do ecosistema, do contrrio,
considere retirar espcies raras previamente anlise (Bocard et al., 2011, p.198-9).
O resultado prtico destas duas anlises, CCA e RDA, um biplot no qual as variveis
ambientais so plotadas como setas e as espcies como pontos. Quanto menor o ngulo da seta
em relao a um eixo, maior ser a correlao daquela varivel com o eixo. Geralmente em uma
anlise de ordenao, os nmeros que esto plotados nos eixos so os autovalores. Tambm
pouco comum plotar a correlao nos outros eixos. Se essa informao estiver disponvel, o
usurio pode projetar a ponta da seta representando a varivel no eixo da correlao para
encontrar a correlao da varivel com o eixo. O usurio pode saber a posio de uma amostra
no eixo simplesmente projetando perpencidularmente a amostra no eixo. De forma similar, uma
amostra pode ser projetada numa seta para saber em qual posio da varivel uma amostra se
encontra. No caso da CCA, ao projetar a espcie na seta da varivel o usurio encontra o timo
da espcie ao longo daquele gradiente. Quanto maior a seta, mais importante a varivel para
explicar a distribuio das espcies. As espcies que estiverem no quadrante para o qual a seta
aponta esto positivamente correlacionadas com varivel. Ao contrrio, as espcies que
estiverem no quadrante oposto, esto negativamente correlacionadas com a varivel. Mais
detalhes de interpretao do grfico produzido pela anlise podem ser encontradas em Legendre
& Legendre (1998; p. 586587), Zurr et al. (2007; p. 240-2) e Bocard et al. (2011; p.166-7).

112

Se no temos uma hiptese a ser testada ou estamos particularmente interessados em


descrever um padro, um problema que pode surgir que a grande quantidade de variveis
plotadas pode dificultar ou at mesmo confundir a interpretao dos dados. Para contornar essa
questo, vrias tcnicas foram desenvolvidas, uma delas a seleo forward de variveis.
Neste procedimento, somente as variveis que forem significativas aps uma aleatorizao dos
dados entram no modelo. No entando, um estudo recente (Blanchet et al., 2008) demonstrou que
este procedimento pode levar consluses equivocadas. Portanto, as opes que temos so:
avaliar a estrutura de correlao entre as variveis e plotar somente as que no forem
correlacionadas, ou delinear o estudo previamente coleta das variveis para diminuir a
quantidade de informao a ser adicionada ao modelo.

Como decidimos qual anlise usar: respostas lineares ou unimodais?


Muitos pacotes estatsticos disponveis comercialmente, e.g., CANOCO, implementam
um teste de aleatorizao de Monte Carlo para avaliar a significncia dos autovalores dos eixos
cannicos baseado na estatstica F (veja frmula 6.2 em Bocard et al., 2011). Este teste avalia se
as espcies exibem uma resposta linear ou unimodal aos gradientes ambientais, e portanto
crtico para a escolha correta do teste. No R este procedimento implementado pela funo
genrica anova(), com os argumentos by=axis, que indica que todos os eixos sero
testados e step=999 que indica o nmero de repeties do procedimento de aleatorizao.
Este analisa testa a significncias dos eixos.

Exerccios
1) Calcule uma RDA com os dados DoubsEnv.csv e DoubsSpe.csv, verifique se a anlise
foi aproprida e interprete o biplot.
2) Carregue os dados mite.env e mite e calcule uma CCA com esses dados, verifique se a
anlise foi aproprida e interprete o biplot.

RDA e CCA parcial


Como mostrado acima, RDA e CCA compem um conjunto de anlises chamadas
anlises cannicas assimtricas, que permitem a comparao de duas ou mais tabelas de dados.
So chamadas anlises assimtricas por que o conjunto de dados no tm a mesma funo. O
113

exemplo mais famoso a comparao de uma tabela de composio de espcies com uma
segunda tabela de descritores ambientais (i.e., anlise direta de gradientes). A ideia bsica da
RDA limitar a matriz Y de composio de espcies a uma combinao linear com as
variveis ambientais. Em resumo, a RDA pode ser considerada uma regresso mltipla com
todas as espcies sendo testadas simultaneamente (ter Braak & Smilauer 2002). Tanto a RDA
parcial quanto a CCA parcial (daqui em diante RDAp e CCAp) tm a mesma lgica da RDA e
CCA, porm as parciais utilizam uma terceira matriz no clculo. A RDAp e CCAp possuem
dois grupos de variveis explanatrias: uma matriz X com as variveis explanatrias que sero
utilizadas no modelo, e uma matriz W com as covariveis (e.g., variao espacial ou temporal);
o efeito das covariveis em Y (geralmente matriz de composio de espcies) controlado na
anlise. Em geral, a matriz W contm variveis cujos efeitos sobre a matriz Y so conhecidos.
Por exemplo, coletas realizadas em tempos diferentes (e.g., dia, semana, ms) podem ser
consideradas como covariveis e, dessse modo, devem ser controladas com RDAp ou CCAp.
Para analisar a relao da matriz Y com a matriz X na presena da covarivel W necessrio:
(i) calcular os resduos de Y sobre W (chamados de Yres|w) e os resduos de X sobre W
(chamados Xres|w); (ii) calcular a RDA (ou CCA) entre Yres|w e Xres|w ou entre Y e Xres|w. Para
testar a significncia das anlises RDAp ou CCAp so utilizados mtodos de permutao.
importante notar que uma hiptese nula pode ser formulada sobre a relao entre X e Y. A partir
dessa hiptese nula e dos testes de permutao, valores de probabilidade so acessados por meio
de aleatorizaes (veja detalhes metodolgicos em Legendre & Legendre 1998; Bocard et al.
2011). Para calcular a fora da relao entre Y e Xres|w (R2 cannico) usa-se a seguinte frmula:
! !|!!"#|! =

SS(Y!"# )
SS(Y)

Onde SS (Yfit) representa a soma dos quadrados dos valores ajustados de Y, e SS(Y) a
soma dos quadrados dos valores observados de Y. Para calcular a soma dos quadrados, o
clculo mais apropriado : SS (Yfit) = SS (Yfit|(X+W)) SS(Yfit|W), e SS (Yres) = SS (Y) SS
(Yfit|(X+W)). A soma de (X + W) representa a concatenao de X e W na mesma matriz. Yfit
representado como uma regresso mltipla de Y contra X, ou seja, os valores ajustados de Y
conforme frmula da regresso, Yfit=X[XX]-1XY.
Cuidado! No caso de interao entre a varivel temporal e as variveis ambientais ou
espaciais, abordagens adicionais so necessrias para validar o modelo (mais detalhes em
Legendre & Legendre 1998).

114

Na funo rda() do vegan, a variao em Y explicada pelas variveis ambientais


denominada constrained variance e a variao no-explicada (residual) chamada
unconstrained variance.

Praticando:
Exemplo 1: Uma pesquisadora pretende testar como a composio de espcies de caros
(matriz Y) varia na espcie de planta Tibouchina granulosa (Melastomataceae) na Serra do Mar.
Para cada planta, ela anotou as seguintes variveis: espessura da folha (esfl), rea foliar (arfl) e
densidade de tricomas (dtri). A pesquisadora tinha conhecimento de que a quantidade de gua
no substrato (quag), o tipo de solo (tiso) e a densidade da planta competidora Tibouchina
clavatium (dens.tc) afetavam caractersticas estruturais da planta T. granulosa. Por isso, ela
coletou esses dados para utilizar como covariveis na anlise.
- Principal teoria: Teoria do nicho
- Pergunta: a estrutura foliar de T. granulosa determina a composio de espcies de caros?
- Unidade amostral: planta.
- Varivel dependente: composio de espcies.
- Varivel independente: planta, variveis ambientais (i.e., comprimento, largura, espessura e
rea foliar, densidade de tricomas).
- Covariveis: quantidade de gua no substrato e tipo de solo.
Exemplo 2: Um pesquisador pretende comparar a comunidade de caros associados
seringueiras em diversas regies do Brasil. A principal questo investigar se a composio de
espcies de caros influenciada por caractersticas ambientais (estrutura da planta hospedeira)
e espaciais (oito localidades nos seguintes estados: AM, BA, ES, MS, MT, PA, SP). O
pesquisador dividiu as caractersticas ambientais em duas escalas: uma ao nvel da planta
(densidade de tricomas, espessura foliar) e outra ao nvel bioqumico (teor de nitrognio,
enxofre, protenas e acares solveis) e anotou as coordenadas geogrficas dos pontos de
coleta de cada planta.
- Principais teorias: Teoria do nicho e teoria neutra
- Pergunta: qual a importncia relativa das caractersticas ambientais e espaciais na
determinao da composio de espcies de caros associados seringueira?
115

- Unidade amostral: planta.


- Varivel dependente: composio de espcies.
- Varivel independente: planta, variveis ambientais e espaciais.

Anlise de Procrustes
A anlise de Procrustes um mtodo que compara dois grupos de dados. Esta anlise
mede o grau de concordncia entre duas matrizes. Em outras palavras, o mtodo combina
pontos correspondentes (chamados marcos) que so representados pela ordenao de espcies
e caractersticas ambientais (quando aplicados ecologia de comunidades) amostrados nas
mesmas unidades amostrais. O objetivo da anlise de minimizar os desvios da soma de
quadrados, o que define a estatstica do teste (m2) por meio da traduo (combina os dados de
maneira que possuam o mesmo centride), rotao e dilatao (dimensionamento dos dados) de
um conjunto de dados para que seja combinvel com a configurao alvo (target matrix
ABC; veja esquema abaixo). Desse modo, quanto menor o valor dos resduos, maior a
concordncia entre o conjunto de dados. Para testar a significncia do valor de m2 observado,
so realizadas vrias aleatorizaes (definidas pelo usurio) com os dados originais para gerar n
valores de m2. Esta aleatorizao conhecida como PROtest na literatura. Os valores de m2 e de
P so definidos por:
m2 = 1 (TraceW)2
P = 1 + m2small / 1 + n
Para obter a matriz W necessrio decompor a matriz Y(nxp) em duas matrizes ortogonais V(nxp)
e U(pxp), e na matriz diagonal W. Para o clculo do m2, TraceW representa a soma dos
elementos da diagonal principal (ou trao) da matriz W. A demonstrao matemtica dessa
funo no est no escopo dessa apostila. Para mais detalhes consulte Legendre & Legendre
(1998). Para testar a significncia do valor observado (m2obs), m2small indica o nmero de valores
de m2 simulados que so menores ou iguais ao m2obs, e n representa o nmero de aleatorizaes.
Por exemplo, se 12 valores encontrados na aleatorizao (n = 9999 aleatorizaes) so menores
ou iguais ao m2obs observado, a probabilidade de que a hiptese nula seja verdadeira (ou seja, os
dados no so concordantes) P = (1 + 12) / (1 + 9999) = 0,0013.

116

Dados originais

Dados originais

Traduo
(centride comum)

Rotao e
dimensionamento

Praticando:
Exemplo 1: Um pesquisador pretende testar se peixes e macro-invetebrados aquticos tm
respostas concordantes em relao aos lagos que ocorrem na regio de Linhares, ES. Um dos
objetivos desse pesquisador foi usar espcies-chave para reduzir o custo de se coletar vrios
txons em uma mesma regio. Em teoria, se espcies de txons distintos respondem da mesma
maneira em relao diversas localidades (i.e., respostas concordantes), a resposta de um grupo
taxonmico pode ser extrapolada para grupos concordantes. Cada lago (n = 25) foi dividido
previamente em 30 parcelas imaginrias (selecionadas com imagens areas dos lagos). Foram
sorteadas 5 parcelas/lago para fazer a coleta de peixes e macro-invertebrados com os mtodos
apropriados.
- Principal teoria: Teoria do nicho (baseando-se nas idias de concordncia de comunidades;
Community concordance em ingls). Em um contexto de metacomunidades importante
conhecer a perspectiva de species sorting.
- Pergunta: peixes e macro-invertebrados possuem distribuio concordante em lagos da regio
de Linhares?
117

- Unidade amostral: parcela.


- Varivel dependente: composio de espcies.
- Varivel independente: lago.
Exerccio 1:
O bilogo responsvel pela gesto de uma RPPN (Reserva Particular do Patrimnio
Natural) deseja utilizar um grupo indicador de qualidade ambiental. O proprietrio da RPPN
precisa reduzir os custos necessrios para amostrar artrpodes e vertebrados e requisitou ao
bilogo que optasse por um dos grupos. O bilogo tem dois problemas para resolver: o primeiro
que artrpodes e vertebrados podem responder de maneira diferente qualidade ambiental, o
segundo qual dos grupos deveria escolher para trabalhar. Para resolver o primeiro problema,
faa uma anlise Procrustes e indique para o bilogo se as comunidades so concordantes ou
no. O bilogo recuperou dados de coleta de artrpodes (artropodes.txt) e vertebrados
(vertebrados.txt) em 50 pontos localizados em ambientes da RPPN. Os pontos foram definidos
de acordo com diferentes tipos de solo e vegetao.

LEITURA RECOMENDADA

As maioria das referncias (artigos e livros) citadas nesta apostila se encontram no CD


entregue na primeira aula. Abaixo seguem uma lista de referncias, algumas com comentrios,
cuja leitura recomendamos.
Anderson, M.J. 2001. A new method for non-

Bini, L. M. & Diniz-Filho, J.A.F. 1995. Spectral

parametric multivariate analysis of variance. Austral

decompositions in cluster analysis with applications

Ecology, 26: 3246.

to limnological data. Acta Limnologica Brasiliensia


7: 35-40.

*Artigo da PERMANOVA
Blanchet, F. G., Legendre, P. & Borcard, D. 2008.
Anderson, M.J. et al. 2011. Navigating the multiple
meanings of beta diversity: a roadmap for the

Forward selection of explanatory variables. Ecology


89:26232632.

practicing ecologist. Ecology Letters 14: 19-28.


*Artigo mostrando que o mtodo forward selection
Baselga, A., Jimenez-Valverde, A. & Niccolini, G.
2007. A multiple-site similarity measure independent

para selecionar variveis numa CCA no a melhor


opo.

of richness. Biology letters 3:642-645.


Burnham, K.P. & Anderson, D.R. 2010. Model
*Descreve e implementa o ndice de similaridade de
Simpson

selection and multimodel inference: A pratical


information-theoretic approach. Berlin, Springer.

118

Bocard, D. et al. 2011. Numerical ecology with R.

De Cceres, M. & Legendre, P. 2009. Associations

Berlin: Springer.

between species and groups of sites: indices and


statistical inference. Ecology 90(12): 3566-3574.

**Escrito por autores de ponta em anlises


multivariadas, traz a implementao de testes

*Artigo que expande o IndVal propondo variantes do

abordados no livro de 1998 em R.

ndice.

Chao A, Chazdon RL, Colwell RK, Shen T-J. 2005.

Doldec, S.; Chessel, D. & Gimaret-Carpentier, C.

A new statistical approach for assessing similarity of

2000. Niche separation in community analysis: a new

species composition with incidence and abundance

method. Ecology 81(10): 29142927.

data. Ecology Letters 8:148 159.


Dufrene, M. & Legendre, P. 1997. Species
Chao A, Chazdon RL, Colwell RK, Shen T-J. 2006.

assemblages and indicator species: the need for a

Abundance-based similarity indices and their

flexible asymmetrical approach. Ecol. Monogr.

estimation when there are unseen species in samples.

67(3):345-366

Biometrics 62:361371.
*Artigo que prope o IndVal
Clarke, K. R. (1993). Non-parametric multivariate
analysis of changes in community structure.
Australian Journal of Ecology 18, 117-143.
**Artigo que descreve o ANOSIM e uma tima
referncia para o nMDS tambm.

Ford ED. 2000. Scientific method for ecological


research: Cambridge Univ Press.
Godfrey-Smith P. 2003. Theory and reality: An
introduction to the philosophy of science: University
of Chicago Press.

Clarke, K.R. & Warwick, R.M. 2000. Change in


Marine Communities: An Approach to Statistical
Analysis and Interpretation. 2nd eds. Plymouth
Marine Laboratory & PRIMER-E: Plymouth.
*Manual do software Primer que traz tambm um
pouco de teoria dos testes.
Cook, D. & Swayne, D.F. 2007. Graphics for data
analysis interactive and dynamics with R and GGobi.
Berlin: Springer.
*Este livro traz a implementao das funcionalidades
do pacote ggobi, mais informaes em:
http://www.ggobi.org/.
Crawley, M.J. 2007. The R book. Nova York: Wiley.
*Livro que vai do bsico ao avanado, tem
informaes sobre linguagem R, estatstica
univariada, multivariada e modelagem.
Relativamente fcil de compreender. Cap. 5 e 27 traz
funes para criao e manipulo de grficos passo-

Gotelli N.J. & Ellison A.M. 2004. A primer of


ecological statistics. Sunderland: Sinauer.
* O cap. 7 deste livro trs um apanhado geral sobre
desenhos amostrais voltados
para experimentao e os dois ltimos captulos so
uma introduo estatstica multivariada.
Greenwood, J. J. D. & Robinson, R. A. 2006.
Principles of sampling. In: Sutherland, W. J. (ed.)
Ecological Census Techniques, a handbook. 2 Ed.
Cambridge: Cambridge University Press.
* Excelente abordagem sobre mtodos de
amostragem para pesquisas de campo.
Hayek, L-A. C. 1994. Research design for
quantitative amphibian studies. In: Heyer, W.R. et al.
(eds.) Measuring and monitoring biological diversity,
standard methods for amphibians. Washington:
Smithsonian Books.

a-passo

Hurlbert SH. 1984. Pseudoreplication and the Design

*Este o manual que acompanha o programa PC-

of Ecological Field Experiments. Ecological

ORD, mas tambm traz um contedo terio bastante

Monographs 54:187-211.

til.

* Artigo clssico sobre amostragem e desenho

McGill BJ, et al. 2007. Species abundance

experimental, alm de uma leitura agradvel.

distributions: moving beyond single prediction


theories to integration within an ecological

Hurlbert, S.H. 1971. The Nonconcept of Species

framework. Ecology Letters 10:9951015.

Diversity: A Critique and Alternative Parameters.


Ecology 52(4):577-586.

Murrell, P. 2006. R graphics. Boca Raton: Chapman


& Hall/CRC.

Husson, F.; L, S. & Pags, J. 2011. Exploratory


Multivariate Analysis by Example Using R. CRC

Oksanen, J. 2011. Constrained Ordination: Tutorial

Press.

with R and vegan. Disponvel em:


http://cc.oulu.fi/~jarioksa/opetus/metodi/sessio2.pdf

*Traz alguns exemplos de ecologia.


The Ordination web page
Jackson D.A. 1993. Stopping rules in principal

http://ordination.okstate.edu/

components analysis: a comparison of heuristical and


statistical approaches. Ecology 74:2204-2214.

*pgina com vrios recursos para auxiliar na


execuo de anlises de ordenao, exemplos de

James, F.C. & McCulloch, C. E. 1990. Multivariate


analysis in ecology and systematics: Panacea or
pandoras box? Annual Review of Ecology and

planlha para entrada de dados em programas e um


glossrio termos em anlise de ordenao podem
parecer complicados no incio e de fcil confuso.

Systematics21:129-66.
Owen, W. J. The R Guide disponvel em
*texto crtico que deve de ser lido por todo usurio de
anlises multivariadas. Bom tambm para escolher a

http://www.mathcs.richmond.edu/~wowen/TheRGuid
e.pdf.

anlise correta.
* Este um manual pequeno (49 pginas) fcil de
Krebs, C. J. 1999. Ecological Methodology. 2 ed.
Menlo-Park: Benjamin-Cummings.
*Texto bom para descries e exemplos de
coeficientes de similaridade e ndices de diversidade,
mas desatualizado infelizmente.
Legendre, P. & Legendre, L. 1998. Numerical

entender para iniciantes no s no R mas tambm em


computao. Uma boa pedida como texto inicial.
Palmer, M. W. 1993. Putting things in even better
order: The advantages of canonical correspondence
analysis. Ecology 74,2215-2230.
*Reviso sobre CCA

ecology. 2 ed. inglesa. Elsevier.


Paradis, E. 2005. R for beginners. Disponvel em
**Este o manual terico essencial e leitura
obrigatria para qualquer anlise multivariada.
Magurran A.E. 2004. Measuring biological diversity.
Oxford: Blackwell publishing.
McCune, B. & Grace, J. B. 2002. Analysis of
Ecological Communities. MjM Software Design,

http://cran.r-project.org/doc/contrib/Paradisrdebuts_en.pdf
* Este manual d algumas noes iniciais de como
lidar com objetos e grficos no R, alm de
rudimentos de programao e anlises estatsticas
elementares.

Oregon: Gleneden Beach.

Peres-Neto PR, Jackson DA, Somers KM. 2005. How

Venables, W. N. & Ripley, B.D. 2000. S

many principal components? Stopping rules for

programming. Springer.

determining the number of non-trivial axes revisited.


Computational Statistics &Data Analysis 49:974-997.

*Leitura avanada sobre programao em linguagem


S, similar R. O Cap. 12 deste manual contm mais

Pillar VDP. 1999. How sharp are classifications?

detalhes de como criar e manipular grficos

Ecology 80:2508-2516.
Venables, W. N. & Ripley, B.D. 2002. Modern
R Labs for Vegetation

applied statistics with S. 4.ed. Springer.

Ecologists<http://ecology.msu.montana.edu/labdsv/R
/labs/>

*Um livro para usurios avanados mas que traz


muita informao sobre testes e um pouco de

*Esta pgina traz uma introduo anlise de dados

programao. Boa leitura para quem desejar se

em R para eclogos de comunidade.

aventurar no R.

Santos, A.J. 2003. Estimativas de riqueza em

Venables, W. N. & Smith, D. M. 2010. An

espcies. In: Cullen Jr., L. et al. (Org.). Mtodos de

introduction to R. Disponvel em

estudo em biologia da conservao e manejo da vida

http://brieger.esalq.usp.br/CRAN/doc/manuals/R-

silvestre. Curitiba: Ed. UFPR e Fundao O Boticrio

intro.pdf

de Proteo Natureza, p. 19-41.


* Este o manual oficial do R development core
Sarkar, D. 2008. Lattice, multivariate data

team atualizado a cada verso lanada do R. Contm

visualization with R. Berlin: Springer.

mais detalhes de como criar e manipular objetos no


R, assim como as classes de objetos, grficos,

Statistica electronic textbook


<http://www.statsoft.com/textbook/>
*Esta uma pgina que contm um livro-texto
preparado pelos criadores do Statistica
Sutherland, W. J. 2006. Planning a research
programme. In: Sutherland, W. J. (ed.)Ecological
Census Techniques, a handbook. 2 Ed. Cambridge:
Cambridge University Press.
*Boa leitura para treinar o raciocnio e planejar o
trabalho de campo.
Ter Braak, C. J. F. (1986) Canonical Correspondence

importao e exportao de dados, alm de


rudimentos de programao e anlises estatsticas
bsicas, mas de difcil leitura.
Verzani, J. Simple R. Disponvel em
http://www.math.csi.cuny.edu/Statistics/R/simpleR/pr
intable/simpleR.pdf
* Outro manual simples e de fcil consulta, bom
como texto introdutrio.
Wickham, H. 2009. ggplot2, Elegant graphics for
data analysis. Berlin: Springer.
WolframathWorld<http://mathworld.wolfram.com/>

Analysis: a new eigenvector technique for


multivariate direct gradient analysis. Ecology 67,

Zuur, A. F.; Ieno, E.N. & Meesters, E. H.W.G. 2009.

1167-1179.

A Beginners Guide to R. Berlim: Springer.

*Artigo que props a CCA

* Este um livro da srie use R! da Springer de


grande valia para os iniciantes, pois consegue atingir

ter-Braak CJE, M.Verdonschot PE. 1995. Canonical


correspondence analysis and related multivariate

o equilbrio entre detalhamento e volume de


informao.

methods in aquatic ecology Aquatic Sciences


57(3):254-289.

Zuur, A. et al. 2007. Analysing ecological data.


Berlin: Springer.
*Captulos 11-15 trazem implementao de anlises
multivariadas em R com exemplos de ecologia.