Modelos de análise multivariada, análise de componentes principais, análise
exploratória, análise fatorial, análise discriminante, análise envoltória de dados.
9.1. Modelos de análise multivariada
Duas ou mais variáveis podem se relacionar de diversas formas. Enquanto um
pesquisador pode ter interesse, por exemplo, no estudo da inter-relação de variáveis categóricas (ou não métricas), a fim de avaliar a existência de eventuais associações entre suas categorias, outro pesquisador pode desejar criar indicadores de desempenho (novas variáveis) a partir da existência de correlações entre as variáveis originais métricas. Um terceiro ainda pode ter interesse na identificação de grupos homogêneos eventualmente formados a partir da existência de similaridades das variáveis entre observações de determinado banco de dados. Em todas essas situações, o pesquisador poderá fazer uso de técnicas multivariadas. Análise multivariada se refere a todas as técnicas estatísticas que simultaneamente analisam múltiplas medidas sobre indivíduos ou objetos sob investigação. Assim, qualquer análise simultânea de mais do que duas variáveis pode ser considerada, a princípio, como multivariada. Muitas técnicas multivariadas são extensões da análise univariada (análises de distribuições de uma única variável) e da análise bivariada (classificação cruzada, correlação, análise de variância, e regressão simples usadas para analisar duas variáveis). Por exemplo, regressão simples (com uma variável preditora) é estendida no caso multivariado para incluir diversas variáveis preditoras. Analogamente, a variável dependente única encontrada na análise de variância é estendida para incluir múltiplas variáveis dependentes em análise multivariada de variância. Algumas técnicas multivariadas (por exemplo, regressão múltipla ou análise multivariada de variância) fornecem um meio de executar em uma única análise aquilo que antes exigia múltiplas análises univariadas para ser realizado. Outras técnicas multivariadas, não obstante, são exclusivamente planejadas para lidar com aspectos multivariados, como a análise fatorial, que identifica a estrutura inerente a um conjunto de variáveis, ou a análise discriminante, que distingue entre grupos baseada em um conjunto de variáveis. Às vezes ocorrem confusões sobre o que é análise multivariada porque o termo não é empregado consistentemente na literatura. Alguns pesquisadores usam multivariada simplesmente para se referirem ao exame de relações entre mais de duas variáveis. Outros utilizam o termo para problemas nos quais todas as múltiplas variáveis são assumidas como tendo uma distribuição normal multivariada. Porém, para ser considerada verdadeiramente multivariada, todas as variáveis devem ser aleatórias e inter-relacionadas de tal maneira que seus diferentes efeitos não podem ser significativamente interpretados em separado. Alguns autores estabelecem que o objetivo da análise multivariada é medir, explicar e prever o grau de relação entre variáveis estatísticas (combinações ponderadas de variáveis). Assim, o caráter multivariado reside nas múltiplas variáveis estatísticas (combinações múltiplas de variáveis), e não somente no número de variáveis ou observações. Quando se considera a aplicação de técnicas estatísticas multivariadas, pode-se escolher uma técnica de dependência ou interdependência para ser utilizada. Uma técnica de dependência pode ser definida como uma na qual uma variável ou conjunto de variáveis é identificada como a variável dependente a ser prevista ou explicada por outras variáveis conhecidas como variáveis independentes. Um exemplo de técnica de dependência é a análise de regressão múltipla. Em contrapartida, uma técnica de interdependência é aquela em que nenhuma variável ou grupo de variáveis é definida como sendo independente ou dependente. Ao invés disso, o procedimento envolve a análise simultânea de todas as variáveis no conjunto. Análise fatorial é um exemplo de técnica de interdependência.
9.2. Análise de componentes principais
O termo análise fatorial, em sentido amplo, inclui a análise de componentes principais
e análise dos fatores comuns, os quais consistem em uma abordagem estatística que pode ser usada para analisar inter-relações entre um grande número de variáveis e explicar essas variáveis em termos de suas dimensões inerentes comuns (HAIR, 20XX). A Análise de Componentes Principais (ACP) e a Análise Fatorial (AF) são técnicas multivariadas de modelagem da covariância por meio da transformação linear das variáveis originais em um conjunto significativamente menor de componentes não correlacionados que explicam a maior parte da variabilidade dos dados. Portanto, ambas as técnicas estão relacionadas à redução de massa de dados através da combinação de variáveis de variabilidades afins. Apesar de as técnicas multivariadas terem sido desenvolvidas para soluções de problemas muito específicos, a possibilidade da redução de massa de dados tornou tais técnicas populares em várias áreas do conhecimento (NEISSE; HONGYU, 2016). A ACP possui várias aplicações nas mais variadas áreas científicas, o seu uso tem se popularizado após os avanços computacionais e o desenvolvimento de programações que possibilitem cálculos matriciais que diagonalizem matrizes simétricas positivas semi- definidas. Tem sido muito utilizada por pesquisadores por remover a multicolinearidade entre variáveis transformando-as em um conjunto de variáveis não correlacionadas, chamadas de componentes principais. Também reduz a massa de dados em poucos componentes ortogonais que explicam a variação dos dados em proporções de ordem decrescente. Entretanto, a ACP não é recomendada quando se têm muitos zeros na matriz de dados, ou muitos dados ausentes, pois é muito sensível a outliers Também é recomendável sempre trabalhar com amostras maiores do que o número de variáveis para que não haja perda de informação da variabilidade original. Em casos de variáveis com baixa correlação o resultado da redução de variáveis é praticamente igual aos dados originais, ou seja, não há efeito (NEISSE; HONGYU, 2016). Suponhamos uma matriz 𝐗�×� de p variáveis com médias 𝝁� e 𝝈�𝟐 variâncias com n observações não independentes entre si, ou seja, as variáveis possuem covariância, sendo que os pares de variáveis são representadas em uma matriz de covariância 𝚺�×�. Com base na matriz de covariância são encontrados os pares de autovalores e autovetores, de modo que os componentes principais são obtidos através da combinação linear do i-ésimo autovetor com as p variáveis. Os componentes são, desta forma, variáveis não mensuradas a partir das informações levantadas no estudo (variáveis latentes). A variação contida nos componentes principais é igual à variação das variáveis originais, desta forma a contribuição de cada componente para a variação é expressa em porcentagem através da proporção da variação total que pertence a cada componente. É com base na porcentagem de contribuição da variabilidade total de cada componente que é realizada a escolha do modelo de k componentes, geralmente escolhendo de forma a obter 80% ou mais da variabilidade total (NEISSE; HONGYU, 2016).
9.3. Análise fatorial
A Análise Fatorial engloba técnicas multivariadas que buscam evidenciar variáveis
latentes (fatores) que influenciam na variabilidade de um grupo ou de todas as variáveis originais sendo que as variáveis que partilham de variâncias comuns (são influenciadas pelas mesmas subjacências) são atribuídas a um mesmo fator. O fator é uma variável não mensurada no estudo original que tem influência em mais de uma das variáveis originais. Então a AF tem o objetivo de agrupar as variáveis de variabilidades afins em fatores de forma a reduzir a massa de dados com a mínima perda de informação possível. Tanto a ACP quanto a AF assumem que a variabilidade dos dados é composta por três características: a variância específica, que diz respeito à variação que não é compartilhada com as demais variáveis; variância comum é a variância que é compartilhada entre variáveis e a variância do erro, que trata da variação não explicada pelo componente ou fator (NEISSE; HONGYU, 2016). Quando você acrescenta os três tipos de variância, consegue assim a variância total. Cada um dos dois métodos de desenvolvimento de uma solução fatorial utiliza diferentes tipos de variância. A ACP, considera a variância total e deriva fatores que contêm pequenas porções de variância única e, em alguns casos, variância de erro. A análise de componentes é preferida quando a meta principal é a redução de dados. Análise de fatores comuns se sustenta somente na variância comum (compartilhada) e assume que tanto a variância única quanto a de erro não são de interesse na definição da estrutura das variáveis. Ela é mais útil na identificação de construtos latentes e quando o pesquisador tem pouco conhecimento sobre a variância única e a de erro. Os dois métodos atingem essencialmente os mesmos resultados em muitas situações de pesquisa (HAIR, 20XX). Uma decisão crítica em análise fatorial é o número de fatores a serem mantidos para interpretação e uso posterior. Ao se decidir quando parar a fatoração (i.e., quanto fatores devem ser extraídos), o pesquisador deve combinar uma fundamentação conceitual (quantos fatores devem estar na estrutura?) com alguma evidência empírica (quantos fatores podem ser razoavelmente suportados?). O pesquisador geralmente começa com alguns critérios pré- determinados, como o número geral de fatores, somados a alguns valores gerais de referência com relevância prática (p.ex., percentual exigido de variância explicada). Esses critérios são combinados com medidas empíricas da estrutura fatorial (HAIR, 20XX). Talvez a ferramenta mais importante na interpretação de fatores seja a rotação fatorial. O termo rotação significa que os eixos de referência dos fatores giram em torno da origem até que outra posição tenha sido alcançada. Soluções fatoriais não-rotacionadas extraem fatores na ordem de sua importância, com o primeiro fator sendo de caráter geral, com quase todas as variáveis carregando significativamente e explicando a maior quantia de variância. O segundo fator e os subseqüentes são baseados na quantia residual de variância, com cada um explicando sucessivamente porções cada vez menores de variância. O efeito final da rotação da matriz fatorial é redistribuir a variância dos primeiros fatores para os últimos, para conseguir um padrão mais simples e teoricamente mais significativo. Rotação fatorial ajuda na interpretação dos fatores simplificando a estrutura por meio da maximização das cargas significantes de uma variável sobre um único fator. Dessa maneira, as variáveis mais úteis na definição do caráter de cada fator podem ser facilmente identificadas (HAIR, 20XX). Fatores representam uma composição de muitas variáveis. Quando foi obtida uma solução fatorial aceitável na qual todas as variáveis têm uma carga significante sobre um fator, o pesquisador tenta designar algum significado para o padrão de cargas fatoriais. Variáveis com cargas mais elevadas são consideradas mais importantes e têm maior influência sobre o nome ou rótulo selecionado para representar um fator. As variáveis significantes para um fator em particular são examinadas, e, colocando maior ênfase sobre aquelas variáveis com cargas mais altas, um nome ou rótulo é designado a um fator que reflita precisamente as variáveis que carregam no mesmo. O pesquisador identifica as variáveis com a maior contribuição a um fator e designa um “nome” para representar o seu significado conceitual dele (HAIR, 20XX).
9.4. Análise discriminante
A análise discriminante envolve determinar uma variável estatística. Uma variável
estatística discriminante é a combinação linear das duas (ou mais) variáveis independentes que melhor discriminarão entre os objetos (pessoas, empresas etc.) nos grupos definidos a priori. A discriminação é conseguida estabelecendo-se os pesos da variável estatística para cada variável independente para maximizar as diferenças entre os grupos (i.e., a variância entre grupos relativa à variância interna no grupo). A variável estatística para uma análise discriminante, também conhecida como a função discriminante, é determinada a partir de uma equação que se parece bastante com aquela vista em regressão múltipla (HAIR, 20XX). Ela assume a seguinte forma:
Como acontece com a variável estatística em regressão ou qualquer outra técnica
multivariada, percebemos o escore discriminante para cada objeto na análise (pessoa, firma, etc.) como sendo uma soma dos valores obtidos pela multiplicação de cada variável independente por seu peso discriminante. O que torna a análise discriminante única é que mais de uma função discriminante pode estar presente, resultando na possibilidade de que cada objeto possa ter mais de um escore discriminante. Discutiremos o que determina o número de funções discriminantes depois, mas aqui vemos que a análise discriminante tem semelhanças e diferenças quando comparada com outras técnicas multivariadas (HAIR, 20XX). A análise discriminante é a técnica estatística apropriada para testar a hipótese de que as médias de grupo de um conjunto de variáveis independentes para dois ou mais grupos são iguais. Calculando a média dos escores discriminantes para todos os indivíduos em um grupo particular, conseguimos a média do grupo. Essa média de grupo é chamada de centróide. Quando a análise envolve dois grupos, há dois centróides; com três grupos, há três centróides, e assim por diante. Os centróides indicam o local mais típico de qualquer indivíduo de um grupo particular, e uma comparação dos centróides de grupos mostra o quão afastados estão os grupos em termos da função discriminante. O teste para a significância estatística da função discriminante é uma medida generalizada da distância entre os centróides de grupos. Ela é computada comparando-se as distribuições dos escores discriminantes para os grupos. Se a sobreposição nas distribuições é pequena, a função discriminante separa bem os grupos. Se a sobreposição é grande, a função é um discriminador pobre entre os grupos. (HAIR, 20XX). A análise discriminante múltipla é única em uma característica entre as relações de dependência. Se a variável dependente consiste de mais do que dois grupos, a análise discriminante calcula mais de uma função discriminante. Na verdade, calcula NG – 1 funções, onde NG é o número de grupos. Cada função discriminante calcula um escore discriminante Z. No caso de uma variável dependente de três grupos, cada objeto (respondente, empresa etc.) terá um escore separado para funções discriminantes um e dois, permitindo que os objetos sejam representados graficamente em duas dimensões, com cada dimensão representando uma função discriminante. Logo, a análise discriminante não está limitada a uma única variável estatística, como ocorre na regressão múltipla, mas cria múltiplas variáveis estatísticas que representam dimensões de discriminação entre os grupos. (HAIR, 20XX).
9.5. Análise Envoltória de Dados
A Análise Envoltória de Dados – DEA é uma técnica não-paramétrica que emprega
programação matemática para construir fronteiras de produção de unidades produtivas – DMUs que empregam processos tecnológicos semelhantes para transformar múltiplos insumos em múltiplos produtos. Tais fronteiras são empregadas para avaliar a eficiência relativa dos planos de operação executados pelas DMUs e servem, também, como referência para o estabelecimento de metas eficientes para cada unidade produtiva. DEA foi desenvolvida para avaliar a eficiência de organizações cujas atividades não visam lucros ou para as quais não existem preços pré-fixados para todos os insumos e/ou todos os produtos (CASADO; SOUZA, http://w3.ufsm.br/adriano/mon/fc.pdf). A pressuposição fundamental na técnica DEA é que, se uma dada DMU “A” é capaz de produzir Y(A) unidades de produto, utilizando X(A) unidades de insumos, então outras DMU’s poderiam também fazer o mesmo, caso elas estejam operando eficientemente. De forma similar, se uma DMU “B” é capaz de produzir Y(B) unidades de produto, utilizando X(B) de insumos, então outras DMU’s poderiam ser capazes de realizar o mesmo esquema de produção. Caso as DMU’s “A” e “B” sejam eficientes, elas poderiam ser combinadas para formar uma DMU composta, isto é, que utiliza uma combinação de insumos para produzir uma combinação de produtos. Desde que esta DMU composta não necessariamente existe, ela é denominada DMU virtual. A análise DEA consiste em encontrar a melhor DMU virtual para cada DMU da amostra. Caso a DMU virtual seja melhor do que a DMU original, ou por produzir mais com a mesma quantidade de insumos, ou produzir a mesma quantidade usando menos insumos, a DMU original será ineficiente (CASADO; SOUZA, http://w3.ufsm.br/adriano/mon/fc.pdf). A Análise por Envoltória de Dados pode ser considerada, portanto, como um corpo de conceitos e metodologias que está incorporada a uma coleção de modelos, com possibilidades interpretativas diversas. Entre esses modelos os mais largamente utilizados são: Modelo CCR (1978) – desenvolvido por Charnes, Cooper e Rhodes, permite uma avaliação objetiva da eficiência global e identifica as fontes e estimativas de montantes das ineficiências identificadas; Modelo BCC (1984) – criado por Banker, Charnes e Cooper, distingue entre ineficiências técnicas e de escala, estimando a eficiência técnica pura, a uma dada escala de operações, e identificando se estão presentes ganhos de escala crescentes, decrescentes e constantes, para futura exploração (CASA NOVA; SANTOS, 2008). As diferenças fundamentais entre os modelos estão relacionadas a: i) superfície de envelopamento (tipos de combinação e suposições sobre o retorno de escala); e ii) tipo de projeção do plano ineficiente à fronteira. Os modelos CCR e BCC trabalham com diferentes tipos de tecnologias e, consequentemente geram fronteiras de eficiência diferentes e medidas de eficiência diferentes. No que diz respeito à orientação, cada um desses dois modelos pode ser escrito sob duas formas de projetar os planos ineficientes na fronteira: uma voltada para os produtos e outra voltada para os insumos. Na primeira orientação, as projeções dos planos observados sobre a fronteira buscam o máximo aumento equiproporcional de produção dado o consumo observado e, na segunda orientação, a maior redução equiproporcional do consumo para a produção observada (CASA NOVA; SANTOS, 2008).
CASA NOVA, S. P. C.; SANTOS, A. dos. Aplicação da Análise por Envoltória de Dados Utilizando Variáveis Contábeis. Revista de Contabilidade e Organizações, v. 3, n. 2, p. 132- 154, mai./ago. 2008.