Sie sind auf Seite 1von 16

ANALISIS

MULTIVARIADOS
(Definiciones
Dr. Roberto Mercado Hernndez,
Laboratorio de Estadstica,
Mxico
ANALISIS MULTIVARIADOS
(Definiciones)
Regresin y
Correlacin
Es la relacin (funcin) entre ms de dos variables, donde una de ellas se asume
como dependiente de las dems. Es el grado de asociacin entre ms de dos
variables, donde no hay una variable dependiente de las otras.
Correspondencia
(A F C)
Consiste en la extraccin de relaciones entre categoras y define similaridades o
disimilaridades entre ellas, lo que permitir su agrupamiento si se detecta que se
corresponden.
Componentes
principales
Es una tcnica estadstica de sntesis de la informacin, o reduccin de la
dimensin (nmero de variables). Es decir, ante un banco de datos con muchas
variables, el objetivo ser reducirlas a un menor nmero, perdiendo la menor
cantidad de informacin posible. Los nuevos componentes principales o factores
sern una combinacin lineal de las variables originales, y adems sern
independientes entre s.
Anlisis Cluster
Es un conjunto de tcnicas que se utilizan para clasificar los objetos o casos en
grupos relativamente homogneos llamados conglomerados (clusters). Los objetos
en cada grupo (conglomerado) tienden a ser similares entre s (alta homogeneidad
interna, dentro del cluster) y diferentes a los objetos de los otros grupos (alta
heterogeneidad externa, ente clusters)
Anlisis
Discriminante
Es una tcnica multivariante de clasificacin de individuos, en la que se
presupone la existencia de dos o ms grupos bien definidos a priori (por ejemplo,
ejemplares de la misma especie en dos localidades diferentes, clientes solventes
y no solventes; votantes de uno u otro partido; compradores y no compradores de
un producto; etc)
Correlacin
cannica
Es una tcnica para estudiar las asociaciones entre dos conjuntos de variables.
Ccorrelacionar simultaneamente varias variables dependientes y varias var. independientes
R M H
Regresin
En la relacin de las variables independientes (todas con distribucin normal), con
la variable dependiente (tambin normal), se establece un error.
Correspondencias
(A F C)
En este anlisis se ordenan los datos en una tabla disyuntiva completa (Z) que
consta de un conjunto de individuos I=1,2,n (filas), unconjunto de variables o
caracteres cualitativos J
I
, , J
K
,, J
Q
(columnas) y un conjunto de modalidades
excluyentes 1, , m
k
para cada carcter cualitativo.

Componentes
principales
(ACP)
Anlisis Cluster
(AC)
Anlisis
Discriminante
Es una tcnica estadstica de la rama del anlisis multivariante, en la cual la
variable dependiente es indicadora y no numrica como en el anlisis de
regresin. El modelo se construye basado en un set de observaciones para las
cuales se conocen las clases. Este set de observaciones es algunas veces
conocido como el training set.
Los nicos requerimientos previos para la aplicacin del ACP son:
a) Continuidad en las variables.
b) El nmero n de individuos o elementos observados debe ser mayor que el
nmero p de variables originales.
Por otra parte, el ACP tiene la ventaja de no exigir supuestos tales como la
normalidad u homoscedasticidad.
El AC es un objetivo metodolgico para cuantificar las caractersticas de un conjunto de
observaciones. Por ello, tiene fuertes propiedades matemticas, pero no fundamentos
estadsticos. Los requisitos de normalidad, linealidad y homocedasticidad (tan
relevantes en otras tcnicas), tienen poca consistencia en el AC.
ANALISIS MULTIVARIADOS
(Condiciones)
R M H
Anlisis Cluster
Jerrquicos
Aqullos que configuran grupos con estructura arborescente,
de forma que clusters de niveles ms bajos van siendo
englobados en otros de niveles superiores.
No jerrquicos
Asignan los casos a grupos diferenciados que el propio
anlisis configura, sin que unos dependan de otros.
Anlisis
Discriminante
Explicar
Predecir
La pertenencia de cada caso del archivo patrn a uno u otro
grupo, en funcin de las variables de su perfil, para comprobar
su pertenencia.
A qu grupo ms probable habr de pertenecer un nuevo
individuo del que nicamente se conoce su perfil de variables.
Componentes
Principales
Un aspecto clave en ACP es la interpretacin de los factores, ya que sta no
viene dada a priori, sino que ser deducida tras observar la relacin de los
factores con las variables iniciales (habr, pues, que estudiar tanto el signo
como la magnitud de las correlaciones).
Regresin
Correlacin
Es importante analizar la magnitud, sigo y significancia de los coeficientes.
Su valor indica el grado de asociacin entre las variables.
Correspondencias
(A F C)
Es centrado y el centro de gravedad de las modalidades de una variable coincide
con el del conjunto J, y con el origen, las modalidades de cada variable estn
centradas en torno al origen, no pudiendo tener todas el mismo signo.
ANALISIS MULTIVARIADOS (a considerar)
R M H
Frmula de Lance y Williams Dk(ij) = iDki + jDkj + Dij + Dki - Dkj
Anlisis Cluster
Funcin discriminante de Fisher D1i = u1iX1 + u2iX2 + . + ukiXk
Anlisis Discriminante
Primer componente principal Z1i = u1iX1i + u2iX2i + . + u1pXpi
Componentes principales
Regresin mltiple Y = a
0
+ a1X1 + a2X2 + . + apXp +
Regresin
Correspondencias
(Inercia = variacin explicada)
Inercia debida a la modalidad J Inercia total
|
.
|

\
|
=
n
k.j
1
Q
1
I(j)
Inercia debida a una variable
( ) 1
Q
1
) I(
m J k k
=
1
Q
j
I =
ANALISIS MULTIVARIADOS
(Ecuaciones)
R M H
51.4 .2 17.8 24.6 18.9
72.0 1.9 29.4 20.7 8.0
53.2 .2 17.0 18.5 22.6
83.2 10.7 30.2 10.6 7.1
57.4 6.8 15.3 8.9 27.3
66.5 10.6 17.6 11.1 20.8
98.3 9.6 35.6 10.6 5.6
74.8 6.3 28.2 8.8 13.1
92.2 10.8 34.7 11.9 5.9
97.9 9.6 35.8 10.8 5.5
88.1 10.5 29.6 11.7 7.8
94.8 20.5 26.3 6.7 10.0
62.8 .4 22.3 26.5 14.3
81.6 2.3 37.9 20.0 .5
14 14 14 14 14
1
2
3
4
5
6
7
8
9
10
11
12
13
14
N Total
PESO
L.
PICO
L.
ALA
AREA
ALA
L.
COLA
Statistics
14 14 14 14 14
76.729 7.171 26.98 14.386 11.957
4.428 1.543 2.078 1.699 2.086
16.567 5.774 7.777 6.358 7.807
-.185 .613 -.216 .811 .632
-1.392 .606 -1.385 -.737 -.554
51.4 .2 15.3 6.7 .5
98.3 20.5 37.9 26.5 27.3
N
Mean
Std. Error of Mean
Std. Devi ation
Skewness
Kurtosi s
Mini mum
Maximum
PESO
L.
PICO L. ALA
AREA
ALA
L.
COLA
Model Summary
.988
a
.976 .965
Model
1
R R Square
Adjusted
R Square
a.
-30.137 37.528 -.803 .443
2.070 .456 4.537 .001
2.582 .740 3.490 .007
.636 .460 1.382 .200
1.106 .765 1.446 .182
(Constant)
L. PICO
L. ALA
AREA ALA
L. COLA
Model
1
B Std. Error
Unstandardi zed
Coeffi ci ents
t Si g.
ANOVA
b
3480.994 4 870.249 90.177 .000
a
86.854 9 9.650
3567.849 13
Regressi on
Resi dual
Total
Model
1
Sum of
Squares df Mean Square F Si g.
a.
b.
EJEMPLO DE REGRESION Y CORRELACION MULTIPLE
R M H
Variables no
significativas
1.00 51.4 .2 17.8 24.6 18.9
1.00 72.0 1.9 29.4 20.7 8.0
1.00 53.2 .2 17.0 18.5 22.6
1.00 83.2 10.7 30.2 10.6 7.1
1.00 57.4 6.8 15.3 8.9 27.3
2.00 66.5 10.6 17.6 10.1 20.8
2.00 98.3 9.6 35.6 10.6 5.6
2.00 74.8 6.3 28.2 8.8 13.1
2.00 92.2 10.8 34.7 9.9 5.9
2.00 97.9 9.6 35.8 10.8 5.5
3.00 88.1 10.5 29.6 11.7 7.8
3.00 94.8 20.5 26.3 25.0 10.0
3.00 62.8 .4 22.3 26.5 14.3
3.00 81.6 2.3 37.9 20.0 .5
3.00 80.0 3.5 35.0 24.0 1.3
15 15 15 15 15 15
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
N Total
LOCALIDAD PESO
L.
PICO
L.
ALA
AREA
ALA
L.
COLA
The canonical correlation measures the association between
the discriminant scores and the groups.
EJEMPLO DE CORRELACION CANONICA
Eigenvalues
5.125
a
84.5 84.5 .915
.942
a
15.5 100.0 .697
Functi on
1
2
Ei genval ue % of Vari ance Cumul ati ve %
Canoni cal
Correl ati on
Fi rst 2 canoni cal di scri minant functions were used i n the
anal ysi s.
a.
Variables in the Analysis
1.000 30.725
.974 27.028 .846
1.00 and
3.00
.974 5.191 1.115
2.00 and
3.00
L. ALA
L. ALA
AREA ALA
Step
1
2
Tolerance F to Remove
Min. D
Squared
Between
Groups
R M H
EJEMPLO DE CORRSPONDENCIAS
Cadver
Especie 1 Especie 2
Pupas Larvas Pupas Larvas
Localidad
A
M.
Natural
50 315 24 4012
M. P.
Asesinato
9 40 6 459
Localidad
B
M.
Natural
41 147 14 1594
M. P.
Asesinato
4 11 1 124
Categoras
Coordenada
1
Coordenada
2
Hileras
Loc. 1 M. natural (1)
Loc. 1 M.P. asesinato (2)
Loc. 2 M. natural (3)
Loc. 2 M.P. asesinato (4)
- 0.037
0.043
0.070
0.104
- 0.002
0.052
- 0.008
- 0.032
Columnas
Sp. 1 pupas (5)
Sp. 1 larvas (6)
Sp. 2 pupas (7)
Sp. 2 larvas (8)
0.350
0.060
0.202
- 0.012
- 0.045
- 0.001
0.180
0.000
Frecuencias de pupas y larvas de dos especies
encontradas en cadveres en dos localidades.
Resultados del anlisis de correspondencias
X
2
= 19.11 gl = 9 p < 0.05
R M H
Inercia total = 0.0028
Los primeros dos eigenvalues comprenden el
95.5% de la inercia
-0.01 0.0
0.2 0.3 0.4 0.1
-0.002
1
0.0
-0.001
0.01
0.05
0.2
8
2
3
4
5
6
7
Coordenada 1
C
o
o
r
d
e
n
a
d
a

2

R M H
EJEMPLO DE COMPONENTES PRINCIPALES
Communalities
255.560 248.866
31.854 12.302
91.089 53.030
46.546 3.810
64.164 42.513
PESO
L. PICO
L. ALA
AREA ALA
L. COLA
Initi al Extracti on
Raw
Extracti on Method: Principal Component Anal ysi s.
Total Variance Explained
360.520 73.694 73.694
59.237 12.109 85.803
47.924 9.796 95.599
18.715 3.825 99.424
2.816 .576 100.000
Component
1
2
3
4
5
Raw
Total % of Vari ance Cumul ati ve %
Initi al Ei genval ues
a
Extracti on Method: Principal Component Anal ysi s.
When anal yzi ng a covari ance matri x, the i ni ti al ei genval ues are
the same across the raw and rescaled sol uti on.
a.
Component Number
5 4 3 2 1
E
i
g
e
n
v
a
l
u
e
400
350
300
250
200
150
100
50
0
1.00 51.4 .2 17.8 24.6 18.9
1.00 72.0 1.9 29.4 20.7 8.0
1.00 53.2 .2 17.0 18.5 22.6
1.00 83.2 10.7 30.2 10.6 7.1
1.00 57.4 6.8 15.3 8.9 27.3
2.00 66.5 10.6 17.6 10.1 20.8
2.00 98.3 9.6 35.6 10.6 5.6
2.00 74.8 6.3 28.2 8.8 13.1
2.00 92.2 10.8 34.7 9.9 5.9
2.00 97.9 9.6 35.8 10.8 5.5
3.00 88.1 10.5 29.6 11.7 7.8
3.00 94.8 20.5 26.3 25.0 10.0
3.00 62.8 .4 22.3 26.5 14.3
3.00 81.6 2.3 37.9 20.0 .5
3.00 80.0 3.5 35.0 24.0 1.3
15 15 15 15 15 15
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
N Total
LOCALIDAD PESO
L.
PICO
L.
ALA
AREA
ALA
L.
COLA
Component Matrix
a
15.775 .987
3.507 .621
7.282 .763
-1.952 -.286
-6.520 -.814
PESO
L. PICO
L. ALA
AREA ALA
L. COLA
1
Component
1
Component
Raw Rescal ed
Extracti on Method: Principal Component Anal ysi s.
1 components extracted.
a.
R M H
EJEMPLO DE COMPONENTES PRINCIPALES (Localidad 1)
Communalities
a
187.508 187.364
21.503 20.122
.668 .119
44.923 44.779
79.957 79.870
PESO
L. PICO
L. ALA
AREA ALA
L. COLA
Initi al Extracti on
Raw
Extracti on Method: Principal Component Anal ysi s.
Onl y cases for whi ch LOCALIDAD = 1 are
used i n the anal ysi s phase.
a.
Total Variance Explained
b
264.433 79.039 79.039
67.821 20.272 99.311
1.898 .567 99.878
.407 .122 100.000
-1.85E-14 -5.519E-15 100.000
Component
1
2
3
4
5
Raw
Total % of Vari ance Cumul ati ve %
Initi al Ei genval ues
a
Extracti on Method: Principal Component Anal ysi s.
When anal yzi ng a covari ance matri x, the i ni ti al ei genval ues are
the same across the raw and rescaled sol uti on.
a.
Onl y cases for whi ch LOCALIDAD = 1 are used i n the anal ysis
phase.
b.
Component Number
5 4 3 2 1
E
i
g
e
n
v
a
l
u
e
300
250
200
150
100
50
0
-50
-100
Component Matrix
a,b
13.674 -.617 .999 -.045
3.222 -3.122 .695 -.673
-.237 .251 -.290 .307
-2.503 6.206 -.373 .926
-7.794 -4.372 -.872 -.489
PESO
L. PICO
L. ALA
AREA ALA
L. COLA
1 2
Component
1 2
Component
Raw Rescal ed
Extracti on Method: Pri nci pal Component Analysi s.
2 components extracted.
a.
Onl y cases for which LOCALIDAD = 1 are used i n the
anal ysi s phase.
b.
Rotated Component Matrix
a,b
6.800 11.880 .497 .868
4.249 1.438 .916 .310
-.332 -.096 -.406 -.118
-6.664 .611 -.994 .091
.326 -8.931 .036 -.999
PESO
L. PICO
L. ALA
AREA ALA
L. COLA
1 2
Component
1 2
Component
Raw Rescal ed
Extracti on Method: Pri nci pal Component Analysi s.
Rotati on Method: Vari max wi th Kai ser Normal i zation.
Rotati on converged i n 3 i terati ons.
a.
Onl y cases for which LOCALIDAD = 1 are used i n the
anal ysi s phase.
b.
R M H
Component Plot in Rotated Space
Component 1
1.0 .8 .5 .3 0.0 -.3 -.5 -.8 -1.0
C
o
m
p
o
n
e
n
t

2
1.0
.8
.5
.3
0.0
-.3
-.5
-.8
-1.0
l. cola
area ala
l. ala
l. pico
peso
Rotated Component Matrix
a,b
6.800 11.880 .497 .868
4.249 1.438 .916 .310
-.332 -.096 -.406 -.118
-6.664 .611 -.994 .091
.326 -8.931 .036 -.999
PESO
L. PICO
L. ALA
AREA ALA
L. COLA
1 2
Component
1 2
Component
Raw Rescal ed
Extracti on Method: Pri nci pal Component Analysi s.
Rotati on Method: Vari max wi th Kai ser Normal i zation.
Rotati on converged i n 3 i terati ons.
a.
Onl y cases for which LOCALIDAD = 1 are used i n the
anal ysi s phase.
b.
Component Number
5 4 3 2 1
E
i
g
e
n
v
a
l
u
e
300
250
200
150
100
50
0
Component Plot in Rotated Space
Component 1
1.0 .8 .5 .3 0.0 -.3 -.5 -.8 -1.0
C
o
m
p
o
n
e
n
t

2
1.0
.8
.5
.3
0.0
-.3
-.5
-.8
-1.0
l. cola
area ala
l. ala
peso
Localidad 2
Localidad 3
% of Variance = 94.84 in Component 1
l. pico
R M H
EJEMPLO DE ANALISIS CLUSTER
Proximity Matrix
.476 .261 .677 .296 -.528
.476 .681 .656 -.282 -.781
.261 .681 .266 -.361 -.177
.677 .656 .266 -.242 -.607
.296 -.282 -.361 -.242 -.100
-.528 -.781 -.177 -.607 -.100
Case
LOCALIDAD
PESO
L. PICO
L. ALA
AREA ALA
L. COLA
LOCALIDAD PESO L. PICO L. ALA AREA ALA L. COLA
Matri x Fi le Input
Agglomeration Schedule
2 3 .681 0 0
1 4 .677 0 0
1 2 .415 2 1
5 6 -.100 0 0
1 5 -.335 3 4
Stage
1
2
3
4
5
Cl uster 1 Cl uster 2
Cl uster Combined
Coeffi ci ents Cl uster 1 Cl uster 2
Stage Cluster Fi rst
Appears
1.00 51.4 .2 17.8 24.6 18.9
1.00 72.0 1.9 29.4 20.7 8.0
1.00 53.2 .2 17.0 18.5 22.6
1.00 83.2 10.7 30.2 10.6 7.1
1.00 57.4 6.8 15.3 8.9 27.3
2.00 66.5 10.6 17.6 10.1 20.8
2.00 98.3 9.6 35.6 10.6 5.6
2.00 74.8 6.3 28.2 8.8 13.1
2.00 92.2 10.8 34.7 9.9 5.9
2.00 97.9 9.6 35.8 10.8 5.5
3.00 88.1 10.5 29.6 11.7 7.8
3.00 94.8 20.5 26.3 25.0 10.0
3.00 62.8 .4 22.3 26.5 14.3
3.00 81.6 2.3 37.9 20.0 .5
3.00 80.0 3.5 35.0 24.0 1.3
15 15 15 15 15 15
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
N Total
LOCALIDAD PESO
L.
PICO
L.
ALA
AREA
ALA
L.
COLA

C A S E 0 5 10 15 20 25
Label Num +---------+---------+---------+---------+---------+

Peso 2
L. Pico 3
Loc. 1
L. Ala 4
A. Ala 5
L. Cola 6

R M H
1.00 51.4 .2 17.8 24.6 18.9
1.00 72.0 1.9 29.4 20.7 8.0
1.00 53.2 .2 17.0 18.5 22.6
1.00 83.2 10.7 30.2 10.6 7.1
1.00 57.4 6.8 15.3 8.9 27.3
2.00 66.5 10.6 17.6 10.1 20.8
2.00 98.3 9.6 35.6 10.6 5.6
2.00 74.8 6.3 28.2 8.8 13.1
2.00 92.2 10.8 34.7 9.9 5.9
2.00 97.9 9.6 35.8 10.8 5.5
3.00 88.1 10.5 29.6 11.7 7.8
3.00 94.8 20.5 26.3 25.0 10.0
3.00 62.8 .4 22.3 26.5 14.3
3.00 81.6 2.3 37.9 20.0 .5
3.00 80.0 3.5 35.0 24.0 1.3
15 15 15 15 15 15
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
N Total
LOCALIDAD PESO
L.
PICO
L.
ALA
AREA
ALA
L.
COLA
L. ALA 1.115
2.00 and
3.00
2.788 1 12.000 .121
AREA ALA 5.323
2.00 and
3.00
6.100 2 11.000 1.650E-02
Step
1
2
Entered Stati sti c
Between
Groups Stati sti c df1 df2 Si g.
Exact F
Min. D Squared
At each step, the vari abl e that maxi mi zes the Mahal anobi s di stance between the two cl osest
groups i s entered.
Eigenvalues
5.125
a
84.5 84.5 .915
.942
a
15.5 100.0 .697
Functi on
1
2
Ei genval ue % of Vari ance Cumul ati ve %
Canoni cal
Correl ati on
Fi rst 2 canoni cal di scri minant functions were used i n the
anal ysi s.
a.
Standardized Canonical Discriminant Function Coefficients
1.005 .130
.032 1.013
L. ALA
AREA ALA
1 2
Functi on
Structure Matrix
.999* -.032
-.561* -.083
-.129 .992*
-.301 -.405*
.247 -.258*
L. ALA
L. COLA
a
AREA ALA
L. PICO
a
PESO
a
1 2
Functi on
Pool ed wi thin-groups correl ati ons between di scri minating
vari abl es and standardized canoni cal di scrimi nant functi ons
Vari ables ordered by absol ute si ze of correlati on wi thi n functi on.
Largest absol ute correl ati on between each vari abl e and
any di scri mi nant functi on
*.
This vari able not used i n the anal ysis.
a.
EJEMPLO DE ANALISIS DISCRIMINANTE
R M H
Casewise Statistics
1 1 .300 2 .996 2.405 -2.742 1.304
1 1 .687 2 .997 .752 -2.525 .576
1 1 .939 2 1.000 .126 -2.876 .103
1 1 .454 2 1.000 1.578 -3.119 -1.462
1 1 .324 2 1.000 2.255 -2.768 -1.746
2 2 .394 2 .836 1.862 .543 -1.084
2 2 .962 2 .931 .077 2.138 -.780
2 2 .715 2 .977 .670 2.705 -1.055
2 2 1.000 2 .939 .001 1.916 -.944
2 2 .943 2 .928 .118 2.187 -.735
3 2** .480 2 .753 1.468 .698 -.753
3 3 .555 2 .987 1.178 -.015 1.736
3 3 .131 2 .874 4.072 -.970 1.903
3 3 .183 2 .680 3.397 2.751 1.124
3 3 .409 2 .946 1.786 2.077 1.813
Case Number
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
Ori ginal
Actual Group
Predi cted
Group p df
P(D>d | G=g)
P(G=g | D=d)
Squared
Mahalanobi s
Di stance to
Centroid
Hi ghest Group
Functi on 1 Functi on 2
Di scri mi nant Scores
Miscl assifi ed case
**.
Canonical Discriminant Functions
Function 1
3 2 1 0 -1 -2 -3 -4
F
u
n
c
t
i
o
n

2
2
1
0
-1
-2
LOCALIDAD
Group Centroids
3
2
1
3
2
1
Classification Results
a
5 0 0 5
0 5 0 5
0 1 4 5
100.0 .0 .0 100.0
.0 100.0 .0 100.0
.0 20.0 80.0 100.0
LOCALIDAD
1.00
2.00
3.00
1.00
2.00
3.00
Count
%
Ori ginal
1.00 2.00 3.00
Predi cted Group Membershi p
Total
93.3% of ori gi nal grouped cases correctl y cl assi fi ed.
a.
R M H
LITERATURA
Everitt, B. S. and Graham Dunn, 2001. Applied Multivariate data Analysis, Edt.
ARNOLD

Gnanadesikan, R., 1997. Methods for Statistical Data Analysis of Multivariate
Observations, JOHN WILEY & SONS, INC.

Johnson R. A. and Dean W. Wichern, 2002. Applied Multivariate Statistical
Analysis, PRENTICE HALL.

Kachigan, S. K., 1991. Multivariate Statistical Analysis, RADIUS PRESS, NY.

Hair J. F., R. E. Anderson, R. L. Tatham y W. C. Black, 1999. PRENTICE HALL.

Kleinbaum, D. G., L. L. Kupper, K. E. Muller and A. Nizam, 1998. Applied
Regression Analysis and Other Multivariate Methods, DUXBURY PRESS.

Das könnte Ihnen auch gefallen