Modelos de Análise Multivariada

9.
Modelos de análise multivariada, análise de componentes principais, análise

exploratória, análise fatorial, análise discriminante, análise envoltória de dados.
9.1. Modelos de análise multivariada
Duas ou mais variáveis podem se relacionar de diversas formas. Enquanto um

pesquisador pode ter interesse, por exemplo, no estudo da inter-relação de variáveis
categóricas (ou não métricas), a fim de avaliar a existência de eventuais associações entre suas
categorias, outro pesquisador pode desejar criar indicadores de desempenho (novas variáveis)
a partir da existência de correlações entre as variáveis originais métricas. Um terceiro ainda
pode ter interesse na identificação de grupos homogêneos eventualmente formados a partir da
existência de similaridades das variáveis entre observações de determinado banco de dados.
Em todas essas situações, o pesquisador poderá fazer uso de técnicas multivariadas. Análise
multivariada se refere a todas as técnicas estatísticas que simultaneamente analisam múltiplas
medidas sobre indivíduos ou objetos sob investigação. Assim, qualquer análise simultânea de
mais do que duas variáveis pode ser considerada, a princípio, como multivariada.
Muitas técnicas multivariadas são extensões da análise univariada (análises de
distribuições de uma única variável) e da análise bivariada (classificação cruzada, correlação,
análise de variância, e regressão simples usadas para analisar duas variáveis). Por exemplo,
regressão simples (com uma variável preditora) é estendida no caso multivariado para incluir
diversas variáveis preditoras. Analogamente, a variável dependente única encontrada na
análise de variância é estendida para incluir múltiplas variáveis dependentes em análise
multivariada de variância. Algumas técnicas multivariadas (por exemplo, regressão múltipla
ou análise multivariada de variância) fornecem um meio de executar em uma única análise
aquilo que antes exigia múltiplas análises univariadas para ser realizado. Outras técnicas
multivariadas, não obstante, são exclusivamente planejadas para lidar com aspectos
multivariados, como a análise fatorial, que identifica a estrutura inerente a um conjunto de
variáveis, ou a análise discriminante, que distingue entre grupos baseada em um conjunto de
variáveis.
Às vezes ocorrem confusões sobre o que é análise multivariada porque o termo não é
empregado consistentemente na literatura. Alguns pesquisadores usam multivariada
simplesmente para se referirem ao exame de relações entre mais de duas variáveis. Outros
utilizam o termo para problemas nos quais todas as múltiplas variáveis são assumidas como
tendo uma distribuição normal multivariada. Porém, para ser considerada verdadeiramente
multivariada, todas as variáveis devem ser aleatórias e inter-relacionadas de tal maneira que
seus diferentes efeitos não podem ser significativamente interpretados em separado. Alguns
autores estabelecem que o objetivo da análise multivariada é medir, explicar e prever o grau
de relação entre variáveis estatísticas (combinações ponderadas de variáveis). Assim, o caráter
multivariado reside nas múltiplas variáveis estatísticas (combinações múltiplas de variáveis),
e não somente no número de variáveis ou observações.
Quando se considera a aplicação de técnicas estatísticas multivariadas, pode-se
escolher uma técnica de dependência ou interdependência para ser utilizada. Uma técnica de
dependência pode ser definida como uma na qual uma variável ou conjunto de variáveis é
identificada como a variável dependente a ser prevista ou explicada por outras variáveis
conhecidas como variáveis independentes. Um exemplo de técnica de dependência é a análise
de regressão múltipla. Em contrapartida, uma técnica de interdependência é aquela em que
nenhuma variável ou grupo de variáveis é definida como sendo independente ou dependente.
Ao invés disso, o procedimento envolve a análise simultânea de todas as variáveis no
conjunto. Análise fatorial é um exemplo de técnica de interdependência.
9.2. Análise de componentes principais
O termo análise fatorial, em sentido amplo, inclui a análise de componentes principais

e análise dos fatores comuns, os quais consistem em uma abordagem estatística que pode ser
usada para analisar inter-relações entre um grande número de variáveis e explicar essas
variáveis em termos de suas dimensões inerentes comuns (HAIR, 20XX). A Análise de
Componentes Principais (ACP) e a Análise Fatorial (AF) são técnicas multivariadas de
modelagem da covariância por meio da transformação linear das variáveis originais em um
conjunto significativamente menor de componentes não correlacionados que explicam a
maior parte da variabilidade dos dados. Portanto, ambas as técnicas estão relacionadas à
redução de massa de dados através da combinação de variáveis de variabilidades afins. Apesar
de as técnicas multivariadas terem sido desenvolvidas para soluções de problemas muito
específicos, a possibilidade da redução de massa de dados tornou tais técnicas populares em
várias áreas do conhecimento (NEISSE; HONGYU, 2016).
A ACP possui várias aplicações nas mais variadas áreas científicas, o seu uso tem se
popularizado após os avanços computacionais e o desenvolvimento de programações que
possibilitem cálculos matriciais que diagonalizem matrizes simétricas positivas semi-
definidas. Tem sido muito utilizada por pesquisadores por remover a multicolinearidade entre
variáveis transformando-as em um conjunto de variáveis não correlacionadas, chamadas de
componentes principais. Também reduz a massa de dados em poucos componentes ortogonais
que explicam a variação dos dados em proporções de ordem decrescente. Entretanto, a ACP
não é recomendada quando se têm muitos zeros na matriz de dados, ou muitos dados ausentes,
pois é muito sensível a outliers Também é recomendável sempre trabalhar com amostras
maiores do que o número de variáveis para que não haja perda de informação da variabilidade
original. Em casos de variáveis com baixa correlação o resultado da redução de variáveis é
praticamente igual aos dados originais, ou seja, não há efeito (NEISSE; HONGYU, 2016).
Suponhamos uma matriz 𝐗�×� de p variáveis com médias 𝝁� e 𝝈�𝟐 variâncias com
n observações não independentes entre si, ou seja, as variáveis possuem covariância, sendo
que os pares de variáveis são representadas em uma matriz de covariância 𝚺�×�. Com base na
matriz de covariância são encontrados os pares de autovalores e autovetores, de modo que os
componentes principais são obtidos através da combinação linear do i-ésimo autovetor com as
p variáveis. Os componentes são, desta forma, variáveis não mensuradas a partir das
informações levantadas no estudo (variáveis latentes). A variação contida nos componentes
principais é igual à variação das variáveis originais, desta forma a contribuição de cada
componente para a variação é expressa em porcentagem através da proporção da variação
total que pertence a cada componente. É com base na porcentagem de contribuição da
variabilidade total de cada componente que é realizada a escolha do modelo de k
componentes, geralmente escolhendo de forma a obter 80% ou mais da variabilidade total
(NEISSE; HONGYU, 2016).
9.3. Análise fatorial
A Análise Fatorial engloba técnicas multivariadas que buscam evidenciar variáveis

latentes (fatores) que influenciam na variabilidade de um grupo ou de todas as variáveis
originais sendo que as variáveis que partilham de variâncias comuns (são influenciadas pelas
mesmas subjacências) são atribuídas a um mesmo fator. O fator é uma variável não
mensurada no estudo original que tem influência em mais de uma das variáveis originais.
Então a AF tem o objetivo de agrupar as variáveis de variabilidades afins em fatores de forma
a reduzir a massa de dados com a mínima perda de informação possível. Tanto a ACP quanto
a AF assumem que a variabilidade dos dados é composta por três características: a variância
específica, que diz respeito à variação que não é compartilhada com as demais variáveis;
variância comum é a variância que é compartilhada entre variáveis e a variância do erro, que
trata da variação não explicada pelo componente ou fator (NEISSE; HONGYU, 2016).
Quando você acrescenta os três tipos de variância, consegue assim a variância total.
Cada um dos dois métodos de desenvolvimento de uma solução fatorial utiliza diferentes tipos
de variância. A ACP, considera a variância total e deriva fatores que contêm pequenas porções
de variância única e, em alguns casos, variância de erro. A análise de componentes é preferida
quando a meta principal é a redução de dados. Análise de fatores comuns se sustenta somente
na variância comum (compartilhada) e assume que tanto a variância única quanto a de erro
não são de interesse na definição da estrutura das variáveis. Ela é mais útil na identificação de
construtos latentes e quando o pesquisador tem pouco conhecimento sobre a variância única e
a de erro. Os dois métodos atingem essencialmente os mesmos resultados em muitas situações
de pesquisa (HAIR, 20XX).
Uma decisão crítica em análise fatorial é o número de fatores a serem mantidos para
interpretação e uso posterior. Ao se decidir quando parar a fatoração (i.e., quanto fatores
devem ser extraídos), o pesquisador deve combinar uma fundamentação conceitual (quantos
fatores devem estar na estrutura?) com alguma evidência empírica (quantos fatores podem ser
razoavelmente suportados?). O pesquisador geralmente começa com alguns critérios pré-
determinados, como o número geral de fatores, somados a alguns valores gerais de referência
com relevância prática (p.ex., percentual exigido de variância explicada). Esses critérios são
combinados com medidas empíricas da estrutura fatorial (HAIR, 20XX).
Talvez a ferramenta mais importante na interpretação de fatores seja a rotação fatorial.
O termo rotação significa que os eixos de referência dos fatores giram em torno da origem até
que outra posição tenha sido alcançada. Soluções fatoriais não-rotacionadas extraem fatores
na ordem de sua importância, com o primeiro fator sendo de caráter geral, com quase todas as
variáveis carregando significativamente e explicando a maior quantia de variância. O segundo
fator e os subseqüentes são baseados na quantia residual de variância, com cada um
explicando sucessivamente porções cada vez menores de variância. O efeito final da rotação
da matriz fatorial é redistribuir a variância dos primeiros fatores para os últimos, para
conseguir um padrão mais simples e teoricamente mais significativo. Rotação fatorial ajuda
na interpretação dos fatores simplificando a estrutura por meio da maximização das cargas
significantes de uma variável sobre um único fator. Dessa maneira, as variáveis mais úteis na
definição do caráter de cada fator podem ser facilmente identificadas (HAIR, 20XX).
Fatores representam uma composição de muitas variáveis. Quando foi obtida uma
solução fatorial aceitável na qual todas as variáveis têm uma carga significante sobre um fator,
o pesquisador tenta designar algum significado para o padrão de cargas fatoriais. Variáveis
com cargas mais elevadas são consideradas mais importantes e têm maior influência sobre o
nome ou rótulo selecionado para representar um fator. As variáveis significantes para um fator
em particular são examinadas, e, colocando maior ênfase sobre aquelas variáveis com cargas
mais altas, um nome ou rótulo é designado a um fator que reflita precisamente as variáveis
que carregam no mesmo. O pesquisador identifica as variáveis com a maior contribuição a um
fator e designa um “nome” para representar o seu significado conceitual dele (HAIR, 20XX).
9.4. Análise discriminante
A análise discriminante envolve determinar uma variável estatística. Uma variável

estatística discriminante é a combinação linear das duas (ou mais) variáveis independentes
que melhor discriminarão entre os objetos (pessoas, empresas etc.) nos grupos definidos a
priori. A discriminação é conseguida estabelecendo-se os pesos da variável estatística para
cada variável independente para maximizar as diferenças entre os grupos (i.e., a variância
entre grupos relativa à variância interna no grupo). A variável estatística para uma análise
discriminante, também conhecida como a função discriminante, é determinada a partir de uma
equação que se parece bastante com aquela vista em regressão múltipla (HAIR, 20XX). Ela
assume a seguinte forma:
Como acontece com a variável estatística em regressão ou qualquer outra técnica

multivariada, percebemos o escore discriminante para cada objeto na análise (pessoa, firma,
etc.) como sendo uma soma dos valores obtidos pela multiplicação de cada variável
independente por seu peso discriminante. O que torna a análise discriminante única é que
mais de uma função discriminante pode estar presente, resultando na possibilidade de que
cada objeto possa ter mais de um escore discriminante. Discutiremos o que determina o
número de funções discriminantes depois, mas aqui vemos que a análise discriminante tem
semelhanças e diferenças quando comparada com outras técnicas multivariadas (HAIR,
20XX).
A análise discriminante é a técnica estatística apropriada para testar a hipótese de que
as médias de grupo de um conjunto de variáveis independentes para dois ou mais grupos são
iguais. Calculando a média dos escores discriminantes para todos os indivíduos em um grupo
particular, conseguimos a média do grupo. Essa média de grupo é chamada de centróide.
Quando a análise envolve dois grupos, há dois centróides; com três grupos, há três centróides,
e assim por diante. Os centróides indicam o local mais típico de qualquer indivíduo de um
grupo particular, e uma comparação dos centróides de grupos mostra o quão afastados estão
os grupos em termos da função discriminante. O teste para a significância estatística da função
discriminante é uma medida generalizada da distância entre os centróides de grupos. Ela é
computada comparando-se as distribuições dos escores discriminantes para os grupos. Se a
sobreposição nas distribuições é pequena, a função discriminante separa bem os grupos. Se a
sobreposição é grande, a função é um discriminador pobre entre os grupos. (HAIR, 20XX).
A análise discriminante múltipla é única em uma característica entre as relações de
dependência. Se a variável dependente consiste de mais do que dois grupos, a análise
discriminante calcula mais de uma função discriminante. Na verdade, calcula NG – 1 funções,
onde NG é o número de grupos. Cada função discriminante calcula um escore discriminante
Z. No caso de uma variável dependente de três grupos, cada objeto (respondente, empresa
etc.) terá um escore separado para funções discriminantes um e dois, permitindo que os
objetos sejam representados graficamente em duas dimensões, com cada dimensão
representando uma função discriminante. Logo, a análise discriminante não está limitada a
uma única variável estatística, como ocorre na regressão múltipla, mas cria múltiplas
variáveis estatísticas que representam dimensões de discriminação entre os grupos. (HAIR,
20XX).
9.5. Análise Envoltória de Dados
A Análise Envoltória de Dados – DEA é uma técnica não-paramétrica que emprega

programação matemática para construir fronteiras de produção de unidades produtivas –
DMUs que empregam processos tecnológicos semelhantes para transformar múltiplos
insumos em múltiplos produtos. Tais fronteiras são empregadas para avaliar a eficiência
relativa dos planos de operação executados pelas DMUs e servem, também, como referência
para o estabelecimento de metas eficientes para cada unidade produtiva. DEA foi
desenvolvida para avaliar a eficiência de organizações cujas atividades não visam lucros ou
para as quais não existem preços pré-fixados para todos os insumos e/ou todos os produtos
(CASADO; SOUZA, http://w3.ufsm.br/adriano/mon/fc.pdf).
A pressuposição fundamental na técnica DEA é que, se uma dada DMU “A” é capaz
de produzir Y(A) unidades de produto, utilizando X(A) unidades de insumos, então outras
DMU’s poderiam também fazer o mesmo, caso elas estejam operando eficientemente. De
forma similar, se uma DMU “B” é capaz de produzir Y(B) unidades de produto, utilizando
X(B) de insumos, então outras DMU’s poderiam ser capazes de realizar o mesmo esquema de
produção. Caso as DMU’s “A” e “B” sejam eficientes, elas poderiam ser combinadas para
formar uma DMU composta, isto é, que utiliza uma combinação de insumos para produzir
uma combinação de produtos. Desde que esta DMU composta não necessariamente existe, ela
é denominada DMU virtual. A análise DEA consiste em encontrar a melhor DMU virtual para
cada DMU da amostra. Caso a DMU virtual seja melhor do que a DMU original, ou por
produzir mais com a mesma quantidade de insumos, ou produzir a mesma quantidade usando
menos insumos, a DMU original será ineficiente (CASADO; SOUZA,
http://w3.ufsm.br/adriano/mon/fc.pdf).
A Análise por Envoltória de Dados pode ser considerada, portanto, como um corpo de
conceitos e metodologias que está incorporada a uma coleção de modelos, com possibilidades
interpretativas diversas. Entre esses modelos os mais largamente utilizados são: Modelo CCR
(1978) – desenvolvido por Charnes, Cooper e Rhodes, permite uma avaliação objetiva da
eficiência global e identifica as fontes e estimativas de montantes das ineficiências
identificadas; Modelo BCC (1984) – criado por Banker, Charnes e Cooper, distingue entre
ineficiências técnicas e de escala, estimando a eficiência técnica pura, a uma dada escala de
operações, e identificando se estão presentes ganhos de escala crescentes, decrescentes e
constantes, para futura exploração (CASA NOVA; SANTOS, 2008).
As diferenças fundamentais entre os modelos estão relacionadas a: i) superfície de
envelopamento (tipos de combinação e suposições sobre o retorno de escala); e ii) tipo de
projeção do plano ineficiente à fronteira. Os modelos CCR e BCC trabalham com diferentes
tipos de tecnologias e, consequentemente geram fronteiras de eficiência diferentes e medidas
de eficiência diferentes. No que diz respeito à orientação, cada um desses dois modelos pode
ser escrito sob duas formas de projetar os planos ineficientes na fronteira: uma voltada para os
produtos e outra voltada para os insumos. Na primeira orientação, as projeções dos planos
observados sobre a fronteira buscam o máximo aumento equiproporcional de produção dado o
consumo observado e, na segunda orientação, a maior redução equiproporcional do consumo
para a produção observada (CASA NOVA; SANTOS, 2008).
CASA NOVA, S. P. C.; SANTOS, A. dos. Aplicação da Análise por Envoltória de Dados
Utilizando Variáveis Contábeis. Revista de Contabilidade e Organizações, v. 3, n. 2, p. 132-
154, mai./ago. 2008.

Modelos de Análise Multivariada

Hochgeladen von

Dokumentinformationen

Originaltitel

Copyright

Verfügbare Formate

Dieses Dokument teilen

Dokument teilen oder einbetten

Freigabeoptionen

Stufen Sie dieses Dokument als nützlich ein?

Sind diese Inhalte unangemessen?

Copyright:

Verfügbare Formate

Modelos de Análise Multivariada

Hochgeladen von

Copyright:

Verfügbare Formate

9.

Modelos de análise multivariada, análise de componentes principais, análise

9.1. Modelos de análise multivariada

Duas ou mais variáveis podem se relacionar de diversas formas. Enquanto um

9.2. Análise de componentes principais

O termo análise fatorial, em sentido amplo, inclui a análise de componentes principais

9.3. Análise fatorial

A Análise Fatorial engloba técnicas multivariadas que buscam evidenciar variáveis

9.4. Análise discriminante

A análise discriminante envolve determinar uma variável estatística. Uma variável

Como acontece com a variável estatística em regressão ou qualquer outra técnica

9.5. Análise Envoltória de Dados

A Análise Envoltória de Dados – DEA é uma técnica não-paramétrica que emprega

Das könnte Ihnen auch gefallen