Sie sind auf Seite 1von 11

INTRODUO

1









I NTRODUO ANLI SE ESTAT STI CA DE I NTRODUO ANLI SE ESTAT STI CA DE
DADOS GEOLGICOS MULTIVARIADOS DADOS GEOLGICOS MULTIVARIADOS









Paulo M. Barbosa Landim
Departamento de Geologia Aplicada
Instituto de Geocincias e Cincias Exatas
UNESP / Campus de Rio Claro













2004



INTRODUO
2

1. INTRODUO

As primeiras aplicaes de mtodos quantitativos em Geologia coincidem com o seu
estabelecimento como cincia moderna, pois a subdiviso do Tercirio, por Charles Lyell em 1830, foi
baseada na classificao quantitativa de espcies recentes de moluscos presentes nos diversos estratos
da Bacia de Paris. A partir desse incio, porm, a Geologia permanece qualitativa e puramente descritiva e
apenas nos anos 20 que o enfoque quantitativo se estabelece. Assim, por exemplo, William C. Krumbein,
pioneiro no uso de computao em Geologia mais tarde em 1958, prope a amostragem geolgica em
bases probabilsticas e introduz os modelos processo-resposta. O entendimento das relaes de causa-
e-efeito para a explicao dos processos geolgicos leva Andrei Vistelius, no incio dos anos 40, a iniciar a
formulao da chamada Geologia Matemtica. Nas ltimas dcadas, graas a avanos tecnolgicos tanto
em termos computacionais como em equipamentos de laboratrio e de campo mais refinados, tem sido
intensa a obteno de dados geolgicos quantitativos. A sua anlise, porem, esta muito aqum dessa
imensa quantidade de informaes coletadas. Basta ver os relatrios de pesquisa e mesmo os bancos de
dados com um grande nmero de matrizes de informaes no trabalhadas. H verbas e tempo gastos
com essa coleta que precisam ser acompanhados do devido manuseio. Para essa anlise dos dados o
emprego de tcnicas estatsticas multidimensionais torna-se, ento, uma ferramenta fundamental. Constitui
uma fase intermediaria, as vezes at introdutria, porem necessria, para o entendimento dos fenmenos
geolgicos. A pura utilizao de tcnicas estatsticas, e hoje em dia bastante facilitada graas vasta
disposio de programas computacionais, no condio suficiente se o estudo no for embasado num
slido conhecimento geolgico. A sua aplicao, porem, de extrema valia metodolgica para auxiliar a
interpretao geolgica, segundo o enfoque da Geologia Quantitativa ou Numrica.
No caso de uma nica varivel ter sido medida em espcimes de uma amostra, no sentido
estatstico, a anlise de tais dados feita por intermdio da estatstica univariada. Se porm valores de
diversas variveis forem obtidos em cada um dos espcimes dessa mesma amostra, as tcnicas para a
anlise desses dados so fornecidas pela estatstica multivariada ou multidimensional. Tal anlise
estatstica de mensuraes mltiplas efetuadas sobre uma amostra fornece um melhor entendimento na
razo direta do nmero de variveis utilizadas e permite considerar simultaneamente a variabilidade
existente nas diversas propriedades medidas.
Pode-se afirmar que a anlise multivariada a rea da anlise estatstica que se preocupa com as
relaes entre variveis e como tal apresenta duas caractersticas principais: os valores das diferentes
variveis devem ser obtidos sobre os mesmos indivduos e as mesmas devem ser interdependentes e
consideradas simultaneamente (Kendal, 1963). Entre os mtodos mais utilizados em Geocincias
destacam-se a anlise de agrupamentos , a anlise fatorial e a anlise discriminante.
A anlise de agrupamentos utilizada quando se deseja explorar as similaridades entre indivduos
(modo Q) ou entre variveis (modo R) definindo-os em grupos, considerando simultaneamente, no primeiro
caso, todas as variveis observadas em cada indivduo e, no segundo, todos os indivduos nos quais foram
feitas as mesmas medidas. Segundo esse mtodo, procura-se por agrupamentos homogneos de itens
INTRODUO
3
representados por pontos num espao n-dimensional em um nmero conveniente de grupos relacionando-
os atravs de coeficientes de similaridade ou de distncia.
A anlise fatorial procura interpretar a estrutura de um conjunto de dados multivariados, tanto em
modo Q como em modo R, a partir da respectiva matriz de varincias-covarincias ou de

correlaes, com a obteno de autovalores e autovetores. Utiliza-se de dois procedimentos bsicos: a
"anlise das componentes principais" e a "anlise dos fatores". O primeiro caso consiste numa
transformao linear das "m" variveis originais em "m" novas variveis. No segundo, supe-se que as
relaes existentes dentro de um conjunto de "m" variveis seja o reflexo das correlaes de cada uma
dessas variveis com "p" fatores, mutuamente no correlacionveis entre si, sendo "p" menor que "m".
A anlise discriminante aplicada quando em relao a um indivduo, sobre o qual tenham sido
feitas diversas medidas, necessrio decidir qual de dois ou mais possveis grupos, o mesmo pertence.
A idia bsica substituir o conjunto original das diversas mensuraes por um nico valor D
i
, definido
como uma combinao linear delas. Para fornecer um nico valor os termos so adicionados nessa funo
linear e esta transformao realizada de tal modo a fornecer a razo mnima entre a diferena entre pares
de mdias multivariadas e a varincia multivariada dentro dos dois grupos. Conhecido os D
i
's, estes sero
comparados com um certo D
o
, ou seja, o valor situado, ao longo da linha expressa pela funo
discriminante, a meio caminho entre os centros dos grupos, com a finalidade de verificar a qual deles os
indivduos pertencem.
Como salientado por Davis (1986), os mtodos multivariados so poderosos, permitindo o
pesquisador manipular diversas variveis simultaneamente. So, porm, bastante complexos, tanto na sua
estrutura terica como na metodologia operacional. Em alguns casos os testes estatsticos a serem
utilizados exigem requisitos muito rgidos e em outros, muitas vezes quando quer relacion-los com
problemas reais, no apresentam base estatstica terica e desse modo impossibilidade de testes de
significncia. De qualquer modo, so mtodos extremamente promissores para a anlise de dados
geolgicos tendo em vista que normalmente a maioria das situaes geolgica envolve um conjunto
complexo de fatores atuando no sistema, sendo impossvel isol-los e estud-los isoladamente.
Exemplos de situaes que apresentam dados multivariados so comuns em Geologia, como:
anlises geoqumicas de elementos maiores e/ou elementos traos; caracteres morfolgicos medidos em
fsseis; caractersticas fsicas de rochas sedimentares, como distribuio granulomtrica, porosidade,
permeabilidade; contedo mineralgico em rochas; variveis fluviais, como descarga, material em
suspenso, profundidade, slidos dissolvidos, pH e contedo em oxignio, etc.. Em alguns casos trata-se
de simples extenso de problemas ligados estatstica univariada e outros pertencem, todavia, a uma nova
classe de problemas. As principais questes a serem enfrentadas por esse tipo de anlise so as
seguintes, segundo Pisani (1969):
1. dependncia: quando so utilizados, por exemplo, anlise de regresso mltipla e correlao cannica;
2. inferncia: quando so utilizados extenses multivariadas de mtodos estatsticos univariados, como o
teste T de Hotelling ou a anlise generalizada de varincia;
INTRODUO
4
3. reduo e escala: quando so utilizadas anlise das componentes principais, anlise dos fatores,
distncia generalizada D de Mahalanobis, etc.;
4. discriminao e classificao: quando so utilizadas funes discriminantes e as diversas tcnicas de
anlise de agrupamentos.

A utilidade dos mtodos multivariados pode ser apresentada em termos geomtricos. Assim,
observaes univariadas podem ser assinaladas sobre uma linha reta e se essa linha for dividida em
intervalos de classes e contando o nmero de observaes em cada intervalo, um histograma poder ser
construdo. Esse histograma ir requerer duas dimenses para a sua representao. Observaes
bivariadas podem ser assinaladas em um sistema de disperso a duas dimenses. Se o diagrama for
dividido em celas, o nmero de observaes em cada cela pode ser contado e o respectivo histograma
construdo. Esse histograma requer trs dimenses e pode ser representado por um mapa de isovalores.
Observaes trivariadas podem ser assinaladas em um grfico de disperso a trs dimenses e a
configurao nos pontos no espao definir uma elipside. Se o espao tri-dimensional for dividido em
cubos os nmeros de observaes dentro de cada figura geomtrica podero ser contados e obtida a
distribuio de freqncias. Para a construo do respectivo histograma quatro dimenses sero
necessrias. Em observaes com quatro ou mais variveis no possvel a representao grfica segundo
os mtodos comuns, embora Mertie (1949) tenha proposto para tanto complicados hipertetraedros.
Utilizando, assim, a interpretao geomtrica em trs dimenses para observaes trivariadas, os
seguintes exemplos de procedimentos em estatstica multidimensional podem ser apresentados:
a) na regresso mltipla calcula-se um plano para uma regresso linear, ou superfcies curvas para
regresses de ordem maior, que so ajustados s observaes a fim de minimizar a soma das
distncias ao quadrado dos pontos no espao medidos perpendicularmente em relao a essas
superfcies;
b) na anlise de varincia generalizada verificado se dois ou mais elipsides tem o mesmo centro;
c) na anlise discriminante localizam-se os centros dos elipsides e calcula-se a distncia entre pares de
centros de elipsides;
d) na anlise fatorial verificado se as observaes multivariadas ocupam um nmero de dimenses igual
ao nmero de variveis medidas inicialmente ou se podem estar contidas em um nmero menor de
dimenses; para tanto os eixos do elipside podem ser rotacionados de tal modo a colocar o centro do
elipside coincidente com o centro do sistema de coordenadas.

A pretenso deste texto, escrito por um Professor de Geologia, apresentar uma introduo aos
mtodos estatsticos multidimensionais que podem ser aplicados na anlise de dados geolgicos, sem
uma abordagem matemtica complexa. Existe disposio uma variedade muito grande de livros e pacotes
computacionais que tratam deste assunto e torna-se necessrio um texto simples que permita ao usurio
iniciar-se na Geologia Quantitativa. Entre os principais livros textos que tratam de mtodos quantitativos em
INTRODUO
5
Geologia podem ser citados: Miller & Kahn (1962), Sokal & Sneath (1963) Krumbein & Graybill (1965),
Koch & Link (1971), Davis (1973 e 1986), Joreskog, Klovan & Reyment (1976) , Le Maitre (1982),
Howarth & Siding-Larsen (1985), Griffith & Amrhein (1997) e Reyment & Savazzi (1999).
Existem tambem diversos pacotes estatsticos de aplicao geral, bem elaborados e completos
como SAS, S-Plus, Statistica, Systat, todos em constante atualizao. Dois outros, no to conhecidos,
mas bastante fceis de serem utilizados e com boa saida grfica, so o MVSP e o Xlstat, este baseado
no aplicativo Excel. Um pacote dedicado anlise de dados paleontolgicos o PASTe outro nacional,
voltado a aplicaes em Cincias Biolgicas e Mdicas, o Bioestat, ambos obtidos gratuitamente.
Alem disso na revista Computers & Geosciences, editada pela International Association for
Mathematical Geology, freqentemente so apresentados programas listados e/ou executveis obtidos por
ftp (www.iamg.org/CGEditor/index.htm) .

INTRODUO
6

2. EXTENSES MULTIVARIADAS DE TESTES UNIVARIADOS
Entre os mtodos da estatstica descritiva univariada dois testes se destacam: o teste t e a
anlise de varincia. O primeiro procura verificar hipteses referentes mdia populacional e o segundo, de
aplicao bem mais ampla, procura dividir a variao total existente num conjunto de dados de acordo com
as diversas fontes de variao presentes. Tais mtodos so casos particulares daqueles pertencentes
estatstica multidimensional. Entre eles podem ser exemplificados o teste T
2
de Hotteling e a anlise
generalizada de varincias. Tem aplicao restrita em problemas geolgicos, existindo outros mtodos
mais eficientes, mas so aqui apresentados apenas com o intuto de demonstrar as relaes entre testes
univariados, comumente usados, e testes multivariados.

2.1. Teste T de Hotteling
2.1.1.Para verificar se uma amostra multidimensional pertence a uma determinada populao
multidimensional.
Seja, por exemplo, um conjunto de observaes nas quais foram obtidas independentemente as
medidas X e Y e se deseja saber se x e y so significativamente diferentes de um par de valores
populacionais hipotticos
x
e
y
. Se apenas a varivel X for enfocada o teste recomendado o "t" de
Student, que verifica a probabilidade de uma amostra casual com n observaes ser retirada de uma
populao normal com mdia especificada
x
e varincia desconhecida
2
, porem estimada (s
2
x
):
t
x n
s
x
x

( )
2

a amostra tem tamanho n de onde x foi obtida; se t t
(n - 1,)
, x ser considerado diferente de
x
ao nvel
de significncia .
Escolhido, por exemplo, = 0,05 isso significa que se a verdadeira mdia da populao de X's for
igual a
x
a chance de ocorrer t t
(n - 1,)
, uma em 20. Aplicando o mesmo teste para a varivel Y, com o
mesmo risco de estar recusando a hiptese nula quando ela verdadeira, a probabilidade de ambas X e Y
no serem significantemente diferentes de
x
e
y
(0,95) = 0,9025. A probabilidade de ambas as mdias
serem significantemente diferentes de
x
e
y
(0,05) = 0,0025. A probabilidade de apenas uma das
mdias ser significantemente diferente (2).(0,95).(0,05) = 0,0950. Assim a probabilidade de que pelo
menos uma mdia ser considerada como significativamente diferente, quando na realidade no existe
diferena, de 0,0975. No caso de um problema a trs variveis, esta ltima probabilidade passa a ser 1-
(0,95) = 0,1426.
Esta situao, apresentada por Jackson (1959), mostra que o uso de testes univariados para
situaes multivariadas pode fornecer pelo menos uma diferena significante, apenas por chance, em 50%
ou mais de casos. H necessidade, portanto, de um teste generalizado que verifique simultaneamente se
dadas diversas amostras, qual a possibilidade delas serem significantemente diferentes de mdias
hipotticas correspondentes fornecidas.

INTRODUO
7
Para a generalizao multivariada do teste "t", na situao apresentada, substitui-se X por um
menor vetor de mdias amostrais,
x
por um vetor de mdias populacionais e s por uma matriz de
varincias-covarincias.


[ ] [ ]
[ ]
[ ]
[ ]
t
x n
s
x n
s
x x


2 2

A soluo desta equao no fornece uma nica resposta e para tanto haver necessidade de
transformar inicialmente a coluna vetor
[ ]
x
x
e a matriz
[ ]
s
2
em valores singulares.
Isso pode ser conseguido se definido um vetor coluna arbitrrio
[ ]
A cujo transposto o vetor linha
[ ]
A
l
. Multiplicando o vetor coluna de diferenas pelo vetor linha
[ ]
A
l
o resultado ser um valor singular. A
multiplicao de
[ ]
s
2
por
[ ]
A e em seguida o resultado por [ ] A
l
tambm fornece um nico resultado.
Desse modo o teste torna-se


[ ]
[ ]
[ ] [ ][ ]
t
A x n
A s A
x

'
'

2



[ ]
[ ] ( )
[ ]
[ ]
[ ]
t
A x n
A s A
X
2
2
2

'
'



Todavia, com essa transformao, o que estava sendo testado foi modificado. A hiptese nula que
era

[ ] [ ]
H
o x o
, passa a ser [ ] [ ] [ ] [ ]
H A A
o x o
'
,
A hiptese original H
o
ser verdadeira somente se a nova hiptese H
o
'
se mantiver para todos os
possveis valores de
[ ]
A . suficiente, porm, testar apenas o valor mximo possvel do teste, porque se
H
o
'
for rejeitado para qualquer valor de
[ ]
A , a hiptese H
o
ser tambm rejeitada.
Para determinar esse valor mximo deve-se essencialmente notar que t no tem dimenso e no
afetado por mudanas de escala dos elementos de
[ ]
A . Segundo Morrison (1967), essa determinao
pode ser removida pela imposio de restrio:

[ ]
[ ]
[ ]
A s A
i
2
1
A introduo da restrio pelo multiplicador de Lagrange e subseqente diferenciao com
respeito
[ ]
A fornece o sistema de equaes:
INTRODUO
8


[ ][ ] [ ]
[ ]
x x n s A
x x
l

_
,

2
0
multiplicando por A ':

[ ]
[ ][ ]
[ ]
[ ]
[ ]
[ ]
[ ] [ ] ( )
[ ]
[ ]
[ ]

A x x A n
A s A
A x n
A s A
x x x
' '
'
'
'
2
2
2

o que resulta: t
2

Para a determinao de t, ou seja o mximo valor possvel, deve-se encontrar o determinante

[ ]
[ ][ ] [ ]
s x x n I
2
1
0

1
]
1
'

[ ] [ ] [ ]

tr s x x n
o o
2
1
'
onde tr = trao de matriz que igual a soma das razes caractersticas

[ ]
[ ]
[ ]
T n x s x
x x
2 2
1

'
Essa expresso conhecida como teste T de Hotteling, em homenagem ao estatstico que a
formulou.
Quando a hiptese nula verdadeira, a quantidade
2
) 1 (
* T
n m
m n
F

, apresenta uma distribuio F com graus de liberdade m e n - m, onde n o


nmero de amostras e m o nmero de variveis.
Aceita-se H
o o
: , , quando

) , , (
. *
m n m
F F

<




2.1.2. Para comparar dois vetores de mdias amostrais.
Tendo sido visto o caso de uma nica amostra multidimensional comparada com um especfico
vetor de mdias populacionais, uma outra situao seria a comparao entre duas mdias populacionais
multidimensionais. Presume-se que as duas amostras tenham sido retiradas de populaes multi-normais,
possuindo ambas a mesma matriz desconhecida de varincias-covarincias [
2
].
Deseja-se, portanto, testar a hiptese nula

[ ] [ ]
H
o
:
1 2

Contra a alternativa

[ ] [ ]
H
1 1 2
:
INTRODUO
9
Para o caso unidimensional usa-se o teste "t" para duas amostras:
t
x x
sp n n


+
1 2
1 1
1 2
/ ) ( / )

onde sp a estimativa dos desvios padres combinados de duas populaes, baseada em ambas as
amostras
Sp
n s n s
n n
2 1 1
2
2 2
2
1 2
1 1
2

+
+
( ) ( )

No caso multidimensional, inicialmente computa-se para o clculo da estimativa combinada
[ ]
S
p
2
,
a matriz de varincias e covarincias de duas amostras multidimensionais, utilizando a soma de quadrados
e produtos cruzados das m variveis de ambas as amostras.

[ ] [ ] [ ] ( )
Sp
n n
S S
2
1 2
1 2
1
2

+
+
S
SQX SPX X SPX X
SPX X SQX SPX X
SPX X SPX X SQX
m
m
m m m
1
1 1 1 1
1 2 2
2
1
1 2
2

1
]
1
1
1
1
L
L
M
L


onde
SQX
x
x
n
n
i
n
i
i
n
i
a
a
1
2
1
1
2
1
1
1
2
1

_
,

_
,


SPX X
x x
x x
n
n
i
n
i i
i
n
i
i
n
i
a
a a
1 2
1
1 2
1
1
1
2
1
1

_
,

_
,


( . )


Em seguida encontra-se a diferena entre os dois vetores de mdias
[ ] [ ] [ ] x x x x
1 2 1 2
.
O teste T para o presente caso ter a forma
[ ] [ ] [ ]
2 1
1
2
2 1
2 1
2 1 2
. '
.
x x Sp x x
n n
n n
T
+



A significncia de T ser determinada por
INTRODUO
10
F
n n m
n n m
T
+
+
1 2
1 2
2
1
2 ( )
, com m e ( ) n n m
1 2
1 + graus de liberdade.
Aceita-se H
o
:
1 2
se


1) m n n ; m ; (
2
2 1
+


F T


2.2. Anlise generalizada de varincias
utilizada para a comparao entre matrizes de varincias-covarincias. A igualdade entre
matrizes de covarincias, pode ser verificada pelo teste generalizado de varincias, que o equivalente
multivariado do teste F. Tendo "k" grupos de observaes e sendo medidas "m" variveis em cada
espcime, matrizes de varincias-covarincias
[ ]
s
i
2
podem ser obtidas.
Sendo as respectivas matrizes de varincias-covarincias populacional
i
2
deseja-se testar a
hiptese nula

[ ] [ ] [ ]
H
o i k
:
2
2
2 2
L
Contra a hiptese alternativa

[ ] [ ]
H
i k 1
2 2
:
A hiptese nula estabelece que as "k" matrizes de covarincias populacionais so as mesmas,
contra a alternativa de que pelo menos duas so diferentes. Cada matriz amostral
[ ]
s
i
2
uma estimativa da
matriz populacional
i
2
. Se as populaes a que pertencem os "k" grupos so idnticas, as estimativas
amostrais podem ser combinadas para formar uma estimativa combinada da matriz de covarincia
populacional.

[ ]
[ ]
sp
n s
n k
i
k
i i
i
k
i
2
1
2
1
1


( )
( )

onde n
i
o nmero de espcimes no i'simo grupo e n
i
o nmero total geral de todos os espcimes
em todos os grupos.
Para a estimao combinada da matriz populacional de covarincias, o teste estatstico M o
computado
( ) [ ] [ ]
( )
[ ] [ ]
M sp n s
n
k
i n i

_
,
n - k
i
l l
2 2
1
Este teste baseia-se na diferena entre o logaritmo do determinante da matriz combinada de
covarincias e a mdia dos logaritmos dos determinantes das matrizes amostrais de covarincias. Se
INTRODUO
11
todas as matrizes amostrais forem a mesma, essa diferena ser bem pequena. Caso as varincias e
covarincias dos grupos forem muito diferentes entre si o valor de M aumentar. Como tabelas de valores
crticos de M no so facilmente encontradas, utiliza-se a transformao:
C
m m
m k n
n k
i
i
i
k
i


+
+

_
,

_
,

1
2
1
1
1
2 3 1
6 1 1
1
1
1
( )( )

que converte M numa distribuio prxima a do

2 1


MC
Este valor aproximado de tem graus de liberdade = ( 1 / 2 )( k - 1 )m( m + 1 ).

Se todos os grupos possuem o mesmo nmero de observaes n, a transformao simplificada
para

( ) ( )
( ) ( )
C
m m k
m k n


+ +
+
1
2
1
2 3 1 1
6 1 1

O valor deve ser usado apenas quando k e m no excedem 5 e cada matriz estimada de
covarincias baseada em pelo menos 20 observaes.

Das könnte Ihnen auch gefallen