Sie sind auf Seite 1von 12

Facultad de Ciencias

de la Ingeniería

INFORME ESTADÍSTICO DEL PORCENTAJE


DE EMPLEO DE PAÍSES EUROPEOS SEGÚN
SECTOR ECONÓMICO

Profesor: Carlos González R.

Alumnos: Rodolfo Aravena

Gabriela Beltrán

Marcelo Salas

Fecha: Enero de 2019


Análisis Gráficos y de Puntos Atípicos
Como se establece en el capítulo 4 de la bibliografía “Análisis de Datos Multivariante” del autor
Daniel Peña, el primer paso para un análisis multivariante es representar gráficamente las
variables individualmente, mediante un histograma o un diagrama de caja, con el objetivo de
detectar asimetrías, heterogeneidad, datos atípicos, etc.

Histogramas de variables individualmente:

Analizando los histogramas de cada variable se puede observar que, la variable “Agricultura” e
“Industria” presentan valores atípicos que son los que están alejados de los otros valores
(círculo naranjo). De los datos y de los histogramas podemos rescatar lo siguiente:

1.- Agricultura: Los datos de esta variable tienen una media de 19,13%, una moda de 7.7% y una
mediana de 14.15%. Analizando el histograma se observa que los datos presentan una distribución
con sesgo a la derecha (sesgo positivo) y se verifica al cumplirse que media > mediana > Moda.

2.- Minería: Los datos de esta variable tienen una media de 1.25%, una moda de 0,1% y una
mediana de 0,95%
3.- Industria: Los datos de esta variable tienen una media de 27%, una moda de 27,6% y una
mediana de 27,55%

4.- Energía: Los datos de esta variable tienen una media de 0,9%, una moda de 0,6% y una
mediana de 0,85%

5.- Construcción: Los datos de esta variable tienen una media de 8,16%, una moda de 8,2% y una
mediana de 8,35%

6.- Servicios industriales: Los datos de esta variable tienen una media de 12,95%, una moda de
16,8% y una mediana de 14,4%

7.- Finanzas: Los datos de esta variable tienen una media de 4%, una moda de 0,9% y una mediana
de 4,65%

8.- Servicios: Los datos de esta variable tienen una media de 20,02%, una mediana de 19,65% y no
existe moda

9.- Transporte y comunicación: Los datos de esta variable tienen una media de 6,54%, una moda
de 5,7% y una mediana de 6,7%

Diagrama de caja
Resumen Análisis Factorial
El análisis factorial tiene por objeto explicar un conjunto de variables observadas por un pequeño
número de variables latentes, o no observadas, que llamaremos factores.

El análisis factorial está relacionado con los componentes principales, pero existen ciertas
diferencias. En primer lugar, los componentes principales se construyen para explicar las varianzas,
mientras que los factores se construyen para explicar las covarianzas o correlaciones entre las
variables. En segundo lugar, componentes principales es un herramienta descriptiva, mientras que
el análisis factorial presupone un modelo estadístico formal de generación de la muestra dada.

El Modelo

Hipótesis Básica

Supondremos que observamos un vector de variables x, de dimensiones (p × 1), en elementos de


una población. El modelo de análisis factorial establece que este vector de datos observados se
genera mediante la relación:

donde:

1. f es un vector (m X 1) de variables latentes o factores no observados.


2. Λ es una matriz (p × m) de constantes desconocidas (m<p).
3. u es un vector (p × 1) de perturbaciones no observadas.

Con estas tres hipótesis deducimos que:

(a) µ es la media de las variables x, ya que tanto los factores como las perturbaciones tienen media
cero;

(b) x tiene distribución normal, al ser suma de variables normales, y llamando V a su matriz de
covarianzas

x ∼Np(µ, V).
Propiedades

Propiedad fundamental:

Establece que la matriz de covarianzas de los datos observados admite una descomposición como
suma de dos matrices:

1. La primera, ΛΛ´ , es una matriz simÈtrica de rango m < p. Esta matriz contiene la parte
com˙n al conjunto de las variables y depende de las covarianzas entre las variables y los
factores.
2. La segunda, ψ, es diagonal, y contiene la parte específica de cada variable, que es
independiente del resto.

Esta descomposición implica que las varianzas de las variables observadas pueden descomponerse
como:

donde el primer término es la suma de los efectos de los factores y el segundo el efecto de la
perturbación. Llamando a la suma de los efectos de los factores que llamaremos comunalidad,
tenemos que:

Esta igualdad puede interpretarse como una descomposición de la varianza en:

Unicidad del modelo

En el modelo factorial ni la matriz de carga, Λ, ni los factores, f, son observables. Esto plantea un
problema de indeterminación: dos representaciones (Λ,f) y (Λ∗,f ∗ ) serán equivalentes si:

Esta situación conduce a dos tipos de indeterminación.

1. Un conjunto de datos puede explicarse con la misma precisión con factores incorrelados o
correlados.
2. Los factores no quedan determinados de manera única.

Normalización del modelo factorial

Como el modelo factorial está indeterminado ante rotaciones la matriz Λ no está identificada. Esto
implica que aunque observemos toda la población, y µ, y V sean conocidos, no podemos
determinar Λ de manera única. La solución para poder estimar esta matriz es imponer
restricciones sobre sus términos. Los dos métodos principales de estimación que vamos a estudiar
utilizan alguna de las dos siguientes normalizaciones:

Criterio 1

Exigir:
Con esta normalización los vectores que definen el efecto de cada factor sobre las p variables
observadas son ortogonales.

Criterio 2:

Exigir:

En esta normalización los efectos de los factores sobre las variables, ponderados por las varianzas
de las perturbaciones de cada ecuaciÛn, se hacen incorrelados.

Número Máximo de Factores

Para que el sistema esté determinado debe haber un número de ecuaciones igual o mayor que el
de incógnitas. En efecto, si existen menos ecuaciones que incógnitas no es posible encontrar una
solución única y el modelo no está identificado. Si el número de ecuaciones es exactamente igual
al de incógnitas existirá una solución única. Si existen más ecuaciones que incógnitas, podremos
resolver el sistema en el sentido de los mínimos cuadrados y encontrar unos valores de los
parámetros que minimicen los errores de estimación. Por lo tanto:

que supone:

es decir:

El lector puede comprobar que esta ecuación implica que, cuando p no es muy grande (menor de
10) aproximadamente el número máximo de factores debe ser menor que la mitad del número de
variables menos uno. Por ejemplo, el número máximo de factores con 7 variables es 3. Esta es la
regla que se obtiene si escribimos la desigualdad anterior despreciando el término de las
restricciones sobre los elementos de Λ.

El Método
El mÈtodo del factor principal es un mÈtodo para estimar la matriz de carga basado en
componentes principales. Evita tener que resolver las ecuaciones de m·xima verosimilitud, que son
m·s complejas.

En la práctica la estimación se lleva a cabo de forma iterativa como sigue:

Estimación de las comunalidades


Estimar los términos ψ2 i equivale a definir valores para los términos diagonales, h2 i , de ΛΛ0 , ya
que h2 i = s2 i − ψb2 i . Existen las siguientes alternativas: .

1. tomar ψbi = 0. Esto equivale a extraer los componentes principales de S. Supone tomar b h2 i =
s2 i (en el caso de correlaciones b h2 i = 1 ), que es claramente su valor máximo, por lo que
podemos comenzar con un sesgo importante.

2. tomar ψb2 j = 1/s∗ jj, donde s∗ jj es el elemento diagonal j-Èsimo de la matriz de precisiÛn S−1.
Seg˙n el apÈndice 3.2 esto equivale a tomar h2 j como:

Determinación de Factores
Contraste de Verosimilitud

Supongamos que se ha estimado un modelo con m factores. El contraste de que la


descomposiciÛn es adecuada puede plantearse como un contraste de razÛn de verosimilitudes:

Este contraste recuerda al de esfericidad parcial que se encuentra en el capÌtulo 10 de la


bibliografía sugerida, aunque existen diferencias porque no exigimos que los componentes
especÌficos tienen igual varianza. El contraste se deduce con los mismos principios que se dan a
conocer en el capÌtulo 10 de la bibliografía sugerida para desarrollar este informe. Sea V0 el valor
de la matriz de varianzas y covarianzas de los datos estimados bajo H0.

Criterios de Selección

Existen dos criterios de selección:

Criterio 1:

estimaremos el modelo factorial para distinto número de factores, calcularemos la funciÛn


soporte en el m·ximo para cada modelo y, aplicando el criterio de Akaike, elegiremos aquel
modelo donde:

Este mismo criterio de selecciÛn puede escribirse como minimizar las diferencias AIC(m) − AIC(H1),
donde en todos los modelos restamos la misma cantidad, AIC(H1), que es el valor del AIC para el
modelo que supone que no existe estructura factorial y que estima la matriz de covarianzas sin
restricciones. Entonces la funciÛn a minimizar es:

Criterio 2:

Con este criterio en lugar de penalizar el n˙mero de par·metros con 2 lo hacemos con logn. Este
criterio aplicado a la selección del modelo factorial mediante las diferencias de soporte es:

Análisis Factorial
Nuestra función:

factanal(x = ~Agricultura + Construcción + Energía + Finanzas + Industria + Minería +


Serv..Industriales + Servicios + Transp..Y.Comunicación, factors = 5, data = pais, scores = "none",
rotation = "varimax")

Resultados y datos arrojados por R - Project:

El Factor 1, explica en un 22,9% la variabilidad de todas las variables de la base de datos. Mientras
que, en conjunto, los 5 factores explican en un 83,4% la variabilidad de todas las variables de la
base de datos. Por lo tanto, con 5 factores no se explica en su totalidad la variabilidad de las
variables, sin embargo, alcanza un valor aceptable y se acepta que la cantidad de factores es
suficiente para el ejercicio. Es decir, el factor 1 explica el 22,9% de los empleos de los países
relacionados, y entre los 5 factores explican un 83,4% el origen de los empleos, lo cual es
suficiente para valorar el ejercicio como un estudio válido de un análisis factorial de 5 factores.

El Factor 1 se explica que un 96,6% de los empleos se dan por los Servicios; en el Factor 2, un
79,5% de los empleos se dan por los Servicios Industriales; en el Factor 3, un 90,0% de los empleos
se da por la Industria; el Factor 4, un 84,5% de los empleos está relacionado con el sector de la
Energía; y el Factor 5, en un 95,1% de los empleos está en la Construcción.

Conclusión

En el momento de realizar análisis estadísticos, es importante utilizar distintas formas de


validación de métodos, teniendo en cuenta distintas variables y opciones para realizar el estudio.
Realizar un estudio en base a Histogramas, permite encontrar las tendencias más generales,
encontrando además valores atípicos, esto nos permite considerarlo en futuras evaluaciones del
estudio, y evitar contradicciones en los resultados. Con el mismo fin, podemos utilizar un diagrama
de cajas para encontrar las mismas características en los datos.

Para complementar el estudio de forma más específica, se puede utilizar un análisis factorial, lo
que nos permite encontrar datos estadísticos más certeros, y poder utilizar la estadística con aún
más precisión en los estudios que se necesiten realizar, como en el último caso.
Anexos:
Gráficas:

Dataset <- readXL("C:/Users/Gabri/Desktop/EUROSEC.xlsx", rownames=FALSE, header=TRUE,


na="", sheet="Hoja1",

stringsAsFactors=TRUE)

scatterplotMatrix(~Agricultura+Construcción+Energía+Finanzas+Industria+Minería+Serv..Industrial
es+Servicios+Transp..Y.Comunicación,

regLine=FALSE, smooth=FALSE, diagonal=list(method="density"), data=Dataset)

with(Dataset, Hist(Agricultura, scale="frequency", breaks="Sturges", col="darkgray"))

with(Dataset, Hist(Construcción, scale="frequency", breaks="Sturges", col="darkgray"))

with(Dataset, Hist(Energía, scale="frequency", breaks="Sturges", col="darkgray"))

with(Dataset, Hist(Finanzas, scale="frequency", breaks="Sturges", col="darkgray"))

with(Dataset, Hist(Industria, scale="frequency", breaks="Sturges", col="darkgray"))

with(Dataset, Hist(Minería, scale="frequency", breaks="Sturges", col="darkgray"))

with(Dataset, Hist(Serv..Industriales, scale="frequency", breaks="Sturges", col="darkgray"))

with(Dataset, Hist(Servicios, scale="frequency", breaks="Sturges", col="darkgray"))

with(Dataset, Hist(Transp..Y.Comunicación, scale="frequency", breaks="Sturges",

col="darkgray"))

Boxplot( ~ Agricultura, data=Dataset, id=list(method="y"))

Boxplot( ~ Minería, data=Dataset, id=list(method="y"))

Boxplot( ~ Industria, data=Dataset, id=list(method="y"))

Boxplot( ~ Energía, data=Dataset, id=list(method="y"))

Boxplot( ~ Construcción, data=Dataset, id=list(method="y"))

Boxplot( ~ Serv..Industriales, data=Dataset, id=list(method="y"))

Boxplot( ~ Finanzas, data=Dataset, id=list(method="y"))

Boxplot( ~ Servicios, data=Dataset, id=list(method="y"))

Boxplot( ~ Transp..Y.Comunicación, data=Dataset, id=list(method="y"))

Análisis Factorial:

> local({
+ .FA <-
+
factanal(~Agricultura+Construcción+Energía+Finanzas+Industria+Minería+Serv..Industriales+Servic
ios+Transp..Y.Comunicación,
+ factors=5, rotation="varimax", scores="none", data=pais)
+ print(.FA)
+ })

Call:
factanal(x = ~Agricultura + Construcción + Energía + Finanzas + Industria + Minería +
Serv..Industriales + Servicios + Transp..Y.Comunicación, factors = 5, data = pais, scores = "none",
rotation = "varimax")

Uniquenesses:
Agricultura Construcción Energía
0.005 0.005 0.217
Finanzas Industria Minería
0.455 0.005 0.352
Serv..Industriales Servicios Transp..Y.Comunicación
0.137 0.005 0.313

Loadings:
Factor1 Factor2 Factor3 Factor4 Factor5
Agricultura -0.664 -0.388 -0.532 -0.186 -0.293
Construcción 0.143 0.247 0.951
Energía 0.158 0.133 0.159 0.845
Finanzas 0.730
Industria 0.146 0.900 0.274 0.279
Minería -0.156 -0.495 0.313 0.529
Serv..Industriales 0.400 0.795 0.189 0.188
Servicios 0.966 0.228
Transp..Y.Comunicación 0.659 -0.171 0.346 0.317

Factor1 Factor2 Factor3 Factor4 Factor5


SS loadings 2.060 1.679 1.330 1.232 1.206
Proportion Var 0.229 0.187 0.148 0.137 0.134
Cumulative Var 0.229 0.415 0.563 0.700 0.834

Test of the hypothesis that 5 factors are sufficient.


The chi square statistic is 97.79 on 1 degree of freedom.
The p-value is 4.66e-23

Das könnte Ihnen auch gefallen