Analisi Exploratorio de Datos

DEPARTAMENTO DE ECONOMÍA GENERAL Y ESTADÍSTICA
Estadística e Introducción a la Econometría
PRÁCTICA 8
ANÁLISIS EXPLORATORIO DE DATOS
CURSO 2008-2009
FACULTAD DE CIENCIAS EMPRESARIALES

UNIVERSIDAD DE HUELVA
Profesorado:
Prof. Dra. Mª Dolores González Galán

Prof. Ana González Galán
Prof. Mª Mar Romero Miranda
Prof. Antonio Hernández Moreno
Prof. Miguel Ángel Rivas Carrasco
Prof. Mª Teresa Álvarez Bravo
Análisis Exploratorio
CONTENIDO
Pág.
4.1. INTRODUCCIÓN
------------------------------------------------------------------------------ 3
4.2. DESCRIPCIÓN DETALLADA DE VARIABLES Y GRUPO

----------------------- 4
4.2.1. Explorar: Estadísticos ---------------------------------------------------------- 5
4.2.2. Explorar: Gráficos -------------------------------------------------------------- 10
4.2.3. Explorar: Opciones ------------------------------------------------------------ 15
4.3. EJERCICIOS ---------------------------------------------------------------------------------- 16
4.4. BIBLIOGRAFÍA ------------------------------------------------------------------------------ 18
2
4.1. INTRODUCCIÓN
El análisis exploratorio de datos (EDA: Exploratory Data Analysis) es un

método que se utiliza para analizar datos que requieren de muy pocas
suposiciones iniciales. Así por ejemplo, la distribución de los datos no tiene que
ser simétrica ni normal.
El procedimiento Explorar genera estadísticos de resumen y

representaciones gráficas, bien para todos los casos o bien de forma separada
para grupos de casos.
Existen numerosas razones para utilizar este procedimiento: para

inspeccionar los datos, identificar valores atípicos, obtener descripciones,
comprobar supuestos y caracterizar diferencias entre subpoblaciones (grupos de
casos).
La exploración de los datos puede:

a) Mostrar que existen valores inusuales, valores extremos, discontinuidades en
los datos u otras peculiaridades.
b) Ayudar a determinar si son adecuadas las técnicas estadísticas que se están

teniendo en consideración para el análisis de los datos.
c) Indicar que se necesitan preparar y transformar los datos que van a ser
analizados.
EJEMPLO: En el archivo TERRENO.SAV observe la distribución del consumo en

recorrido urbano (consurb) de los vehículos todo-terrenos según el número de
cilindros de que disponen (4, 6 y 8). Para cada uno de los tres grupos, se puede
identificar los casos con los cinco valores de mayor consumo urbano y los cinco
menores. Los diagramas de caja y los gráficos de tallo y hojas resumen
gráficamente la distribución del consumo de cada uno de los grupos.
2
4.2. DESCRIPCIÓN DETALLADA DE VARIABLES Y GRUPOS
Para explorar los datos hay que elegir en los menús las opciones:
Analizar  Estadísticos Descriptivos  Explorar...
Figura 1: Opción del menú Analizar
Se seleccionan una o más variables cuantitativas de la lista y se transfieren

a la ventana Dependientes. Si lo desea, además tiene la posibilidad de:
- Seleccionar una o más variables de factor si queremos dividir los datos en

grupos de casos. Una variable de factor debe tener un número razonable de
valores distintivos (categorías). Estos valores pueden ser de cadena corta o
numéricos.
- Seleccionar una variable de identificación para etiquetar los casos con sus
valores. Por defecto los casos se identifican mediante su número secuencial
dentro del archivo de datos. La variable de etiquetas de caso se utiliza para
etiquetar valores atípicos en los diagramas de caja y puede ser de cadena
numérica.
Figura 2: Cuadro de diálogo del procedimiento Explorar
En Mostrar (VISUALIZACIÓN) tenemos tres botones de radio:
3
 Botón Estadísticos
Muestra sólo los estadísticos y elimina los gráficos. Por defecto, se muestran
los estadísticos descriptivos básicos para cada variable.
 Botón Gráficos
Muestra sólo los gráficos y suprime todos los estadísticos. Por defecto, se
muestran los diagramas de caja y los gráficos de tallo y hojas, para cada
variable.
 Botón Ambos
Muestra tanto los gráficos como los estadísticos. Por defecto, se muestran
para cada variable los diagramas de caja, los gráficos de tallo y hojas y los
estadísticos descriptivos básicos.
En el visor se muestra primero una tabla con las frecuencias de cada

variable, después va la tabla de estadísticos descriptivos y por último los gráficos
de tallo y hojas.
Además, podemos:
- Pulsar en el botón Estadísticos para obtener estimadores robustos, valores

atípicos y percentiles.
- Pulsar en el botón Gráficos para obtener histogramas, pruebas y gráficos de

probabilidad normal y diagramas de dispersión por nivel con estadísticos de
Levene.
- Pulsar en el botón Opciones para manipular los valores perdidos.
Estudiemos detalladamente cada una de estas posibilidades:
4.2.1. Explorar: Estadísticos
Pulsar a continuación el botón Estadísticos. Se abre una nueva ventana

con las siguientes opciones:
4
Figura 3: Cuadro de diálogo de la opción Explorar: Estadísticos
1. Descriptivos
Por defecto se muestran los estadísticos descriptivos básicos para cada

variable, es decir, medidas de tendencia central, de dispersión y de forma.
Estadísticos de tendencia central:
- Media,
- Mediana y
- Media recortada al 5%: media aritmética calculada omitiendo el 5%
de las observaciones con frecuencias más bajas y el 5% de las
observaciones con frecuencias más altas.
A la derecha de la media se muestra su error típico (Error típ.).
Estadísticos de dispersión:
- Errores Típicos,
- Varianza,
- Desviación típica,
- Máximo,
- Mínimo,
- Rango y
- Amplitud intercuartil: Es la distancia entre el primer cuartil y el tercer
cuartil. No le afecta la presencia de casos extremos.
Estadísticos de forma:
- Asimetría y
- Curtosis
5
A la derecha de la asimetría y la curtosis se muestran sus correspondientes

errores típicos. La presencia de valores extremos dispara la asimetría y el
apuntamiento (curtosis). Estos coeficientes son pues, indicadores de anomalías
en las distribuciones de datos.
También se muestra un Intervalo de Confianza para la media (un rango de

valores basado en la media muestral) a un nivel del 95% 1, aunque se puede
especificar otro porcentaje, entre 1 y 99. Son valores comunes 90, 95 ó 99.
Figura 4: Estadísticos de la variable consurb
2. Estimadores robustos centrales2
La ventana de resultados nos lo muestra con el nombre Estimadores-M.

Cuando los datos proceden de una distribución simétrica con colas alargadas,
o cuando los datos tienen valores extremos, los estimadores-M proporcionan
una mejor estimación de la posición que la media o la mediana. Se caracterizan
porque los valores extremos reciben menos peso que los valores próximos al
centro.
1
Es la probabilidad de que el intervalo de confianza incluya la media poblacional.
2
Por definición, un estimador es robusto para un determinado parámetro si continúa siendo
razonablemente bueno como estimador cuando el modelo experimenta una pequeña modificación.
6
Los cuatro estimadores robustos calculados para estimar el centro de la

localización, se diferencian unos de otros por las ponderaciones que aplican a
los datos. Se muestran los siguientes:
Figura 5: Estimadores Robustos de la variable consurb
 Estimador-M de Huber
Los casos cuyos valores tipificados sean menores que c reciben un

peso de 1. Los casos que tienen los mayores valores absolutos tienen
pesos tanto más pequeños cuanto mayor es su distancia respecto a
cero.
 Estimador biponderado de Tukey
Asigna pesos de 0 a aquellas observaciones cuyos valores

estandarizados sean mayores que 4,685 y cuyos pesos sean
inversamente proporcionales a la distancia respecto al centro para
todas las restantes observaciones.
 Estimador-M redescendente de Hampel
Está caracterizado por tres constantes (a,b,c). A los valores observados

tipificados cuyo valor absoluto sea mayor que c se les asigna un peso
de 0. A los valores comprendidos entre 0 y a se les asigna un peso de
1; a los valores comprendidos entre a y b, y entre b y c, se les asignan
pesos en función de su distancia respecto a cero.
7
 Estimador en onda de Andrew
No tiene cambios bruscos en los pesos que se asignan a los casos. En

su lugar, se utiliza una suave curva seno para determinar los pesos de
los casos. A los valores tipificados que sean mayores que c en valor
absoluto, se les asigna un peso 0.
3. Valores atípicos
Son los valores extremos de la distribución (muy alejados del resto). Se

muestran los cinco valores mayores y los cinco menores, con las etiquetas de
caso para cada uno de los grupos.
Figura 6: Tabla con valores extremos
4. Percentiles
Se muestran los valores de los percentiles 5, 10, 25, 50, 75, 90 y 95.
Calcula también las bisagras de Tukey, que define los cuartiles de la
distribución según una transformación realizada por Tukey.
8
Figura 7: Tabla con percentiles3

4.2.2. Explorar: Gráficos
Pulsar a continuación el botón Gráficos.
Figura 8: Cuadro de diálogo de la opción Explorar: Gráficos
Con esta opción podemos explorar los datos mediante tres gráficos
exploratorios:
- Histograma,
- Gráfico de tallo y hojas (Stem-and-Leaf), sobre el cual no vamos
a realizar un análisis exhaustivo y
- Diagramas de caja (Box-plot).
3
En la Figura 7se ha cambiado el orden de visualización de los datos. Para ello se editó la tabla y
se seleccionaron las opciones Paneles de Pivotado primero y Transformar filas y columnas
después, en el menú Pivotar de la ventana de resultados.
9
Además solicita gráficos opcionales, incluyendo:

- Diagramas de normalidad,
- Diagramas de dispersión por nivel con el estadístico de Levene y
transformaciones, los cuales no son objeto de estudio en esta
práctica.
 Histograma
El histograma ya se ha visto en una práctica anterior.
 Diagramas de caja
El diagrama de caja es un gráfico de resumen de la distribución basado

en la mediana, los cuartiles y los valores extremos.
Ofrece una gran cantidad de información, incluso los casos muy

alejados del centro son identificados.
Son especialmente útiles para comparar la distribución de los valores

entre diferentes grupos.
Está formada por una caja, patillas que salen de ella y límites. La caja
representa la amplitud intercuartil que contiene el 50% de los valores
centrales. Las “patillas o bigotes” (whiskers) son las líneas que se
extienden desde la caja hasta los valores más altos y más bajos (los
valores extremos), excluyendo los valores atípicos (en inglés se denominan
outliers). Una línea que atraviesa la caja indica la situación de la mediana.
Figura 9: Diagramas de caja de la variable consurb según la variable nº de cilindros
10
Sus características son:
a) La altura de la caja refleja la amplitud intercuartil (abreviado como IQR o

como RI), en ella está representado el 50% de la muestra.
b) El borde superior de la caja es el percentil 75 (Q 3).
c) El borde inferior es el percentil 25 (Q1).
d) La línea central de la caja es la mediana. Cuando el valor de la mediana
coincide con el punto medio de la caja (IQR/2 + Q 1), la variable
representada es simétrica. Diremos que es asimétrica positiva o a la
derecha si está próxima al borde inferior de la caja y, asimétrica negativa o
a la izquierda si está próxima al borde superior
e) Los valores que no son considerados extremos son aquéllos
comprendidos entre el límite inferior y el límite superior.
Límite inferior = Q1 – 1,5*IQR
Límite superior = Q3 + 1,5IQR
Los valores de las patillas corresponden a la primera y última observación
dentro de dichos límites. Para calcular el valor de las patillas procedemos
de la siguiente forma:
1º, Datos / Selección casos / Si satisface la condición /
vble>=límite inferior & vble<=límite superior
2º, Analizar / Estad Descriptivos / Descriptivos / Máximo y
Mínimo
Mínimo : valor de la patilla inferior
Máximo: valor de la patilla superior
f) Se señalan con signos (*,O) los casos muy alejados o extremos.
g) Con una O se marcan los casos situados entre 1,5 y 3 veces la amplitud
intercuartil desde los dos extremos de la caja. Para calcularlos:
- Valores extremos superiores (O):
1º, Calculo 3 veces IQR superior: Q3 + 3IQR
2º, Datos / Selección casos / Si satisface condición / vble>Límite
sup & vble< Q3 + 3IQR
11
- Valores extremos inferiores (O):

1º, Calculo 3 veces IQR inferior: Q1 - 3IQR
2º, Datos / Selección casos / Si satisface condición / vble>Q 1-3IQR &
vble< Límite inferior
h) Con un asterisco * se marcan los casos que están situados más de 3
veces la amplitud intercuartil desde los extremos de la caja. Se calculan:
- Valores extremos superiores (*):
Datos / Selec casos / Si satisface condición / vble>=Q 3 + 3IQR
- Valores extremos inferiores (*):
Datos / Selección casos / si satisface condición / vble<= Q 1-3IQR
En un diagrama de cajas seleccionamos una de las siguientes opciones:
- Niveles de los factores juntos: Para cada variable dependiente, se

muestran juntos los diagramas de caja de cada grupo definido por una
variable de factor. Podremos así comparar fácilmente cómo los valores de
la variable dependiente varían a través de los grupos. Si no se selecciona
ninguna variable de factor, sólo se muestra un diagrama de caja para la
muestra total.
- Dependientes juntas: Para cada grupo (definido por una variable de
factor) muestra juntos los diagramas de caja de cada variable dependiente.
Podremos así comparar fácilmente los valores de las variables
dependientes para un grupo particular. Esta opción es especialmente útil
cuando las diferentes variables representan una característica única
medida en diferentes momentos.
- Ninguno: Suprime los diagramas de caja.
Figura 10: Opciones de los Diagramas de caja
12
Figura 11: Esquema explicativo de un diagrama de caja
 Gráficos con pruebas de normalidad
Este procedimiento trata de averiguar si nuestros datos proceden de

una población normal, y para ello se emplean dos gráficos de probabilidad
y el contraste de Kolmogorov-Smirnov con el nivel de significación de
Lilliefors. Si el tamaño de la muestra no excede de 50 observaciones (50 o
menos), se calcula también el estadístico de Shapiro-Wilk.
Cuanto más pequeño es el estadístico y más grande, por tanto, el nivel

de significación mejor es el ajuste de los datos a una distribución normal, y
al revés, cuanto más grande es el estadístico y más pequeño el nivel de
significación, peor es el ajuste.
Figura 13: Pruebas de Normalidad de la variable consurb
En la figura 13 se muestran los dos gráficos usados para comprobar la

normalidad: El gráfico Q-Q normal y el gráfico Q-Q normal sin tendencia.
13
- Gráfico Q-Q normal: Crea un gráfico con los cuantiles reales y teóricos
de una distribución normal. Si la variable se distribuye normalmente, los
puntos se concentran en torno a una línea recta diagonal. Cuanto más
se aproximen los puntos a la recta mejor será el ajuste y al revés,
cuanto más se alejen éstos de la misma.
- Gráfico Q-Q normal sin tendencia: En este gráfico se recogen las
diferencias (desviaciones) entre los valores observados y los
esperados. Si la muestra procede de una distribución normal, los
puntos deben concentrarse en una banda horizontal alrededor del cero
y sin seguir ningún patrón. En caso contrario deben alejarse de la
normalidad.
-
Figura 14: Gráficos de Normalidad de la variable consurb

Nota: Se creará un gráfico distinto para cada variable numérica.
4.2.3. Explorar: Opciones
Seleccione el botón Opciones para especificar el tratamiento de los valores

perdidos en los datos y controlar si se mostraran las etiquetas de valores atípicos
y extremos o no.
Figura 15: Cuadro de diálogo de la opción Explorar: Opciones
14
 Excluir casos según lista: Los casos con valores perdidos para cualquier
variable de factor o variable dependiente se excluyen de todos los análisis.
Éste es el valor por defecto.
 Excluir casos según pareja: Los casos que no tengan valores perdidos
para las variables de un grupo se incluyen en el análisis de ese grupo. El
caso puede tener valores perdidos para las variables utilizadas en otros
grupos.
 Mostrar los valores: Los valores perdidos para las variables de factor se
tratan como una categoría diferente. Se generan todos los resultados para
esta categoría adicional. Las tablas de frecuencias incluyen categorías
para los valores perdidos. Los valores perdidos para una variable de factor
se incluyen pero se etiquetan como perdidos.
Nota: Pulse con el botón derecho del ratón en cualquier elemento del cuadro de
diálogo para ver su descripción.
4.3. EJERCICIOS
Ejercicio 1 Archivo: TERRENO.SAV
Representa el diagrama de caja para la variable consurb, agrupando los

todo-terrenos en grupos distintos, según el número de cilindros que tienen
y responde a las siguientes preguntas, según la gráfica obtenida:
a) Número de cilindros más frecuentes.

b) Asimetría de la distribución consumo urbano según el número de
cilindros.
c) Valores atípicos y extremos.
Ejercicio 2 Archivo: AEREO.SAV
El archivo aereo.sav recoge el número de viajeros llegados a España en

transporte aéreo desde enero de 1969 a enero de 2002. Representa el diagrama
15
de caja para la variable pasajeros, agrupando en función de los meses, para

detectar la existencia del componente estacional.
EJERCICIO 3
La siguiente tabla muestra los resúmenes descriptivos que proporciona la opción

Explorar del SPSS para los datos sobre la cantidad de lluvia registrada por n
estaciones de medición en Madrid:
16
Indica cuál de estos diagramas de caja (box-plot) puede representar ha este

conjunto de datos y da razones de por qué los otros no pueden representar a los
datos reunidos en la tabla:
4.4. BIBLIOGRAFÍA
CAMACHO ROSALES, J. (2000): Estadística con SPSS para Windows,

Rama, Madrid.
PALMER POL, A.L. (1999): Análisis de Datos. Etapa Exploratoria,
Psicología Pirámide, Madrid.
SPSS INC. (1999): Manual del Usuario de SPSS Base 10.0, SPSS,
Chicago.
VISAUTA VINACUA, B. (1998): Análisis Estadístico con SPSS para
Windows, McGraw-Hill, Madrid.
17

Analisi Exploratorio de Datos

Hochgeladen von

Dokumentinformationen

Copyright

Verfügbare Formate

Dieses Dokument teilen

Dokument teilen oder einbetten

Freigabeoptionen

Stufen Sie dieses Dokument als nützlich ein?

Sind diese Inhalte unangemessen?

Copyright:

Verfügbare Formate

Analisi Exploratorio de Datos

Hochgeladen von

Copyright:

Verfügbare Formate

DEPARTAMENTO DE ECONOMÍA GENERAL Y ESTADÍSTICA

Estadística e Introducción a la Econometría

ANÁLISIS EXPLORATORIO DE DATOS

FACULTAD DE CIENCIAS EMPRESARIALES

Prof. Dra. Mª Dolores González Galán

4.2. DESCRIPCIÓN DETALLADA DE VARIABLES Y GRUPO

4.2.1. Explorar: Estadísticos ---------------------------------------------------------- 5

4.2.2. Explorar: Gráficos -------------------------------------------------------------- 10

4.2.3. Explorar: Opciones ------------------------------------------------------------ 15

4.3. EJERCICIOS ---------------------------------------------------------------------------------- 16

4.4. BIBLIOGRAFÍA ------------------------------------------------------------------------------ 18

El análisis exploratorio de datos (EDA: Exploratory Data Analysis) es un

El procedimiento Explorar genera estadísticos de resumen y

Existen numerosas razones para utilizar este procedimiento: para

La exploración de los datos puede:

b) Ayudar a determinar si son adecuadas las técnicas estadísticas que se están

EJEMPLO: En el archivo TERRENO.SAV observe la distribución del consumo en

4.2. DESCRIPCIÓN DETALLADA DE VARIABLES Y GRUPOS

Analizar  Estadísticos Descriptivos  Explorar...

Figura 1: Opción del menú Analizar

Se seleccionan una o más variables cuantitativas de la lista y se transfieren

- Seleccionar una o más variables de factor si queremos dividir los datos en

Figura 2: Cuadro de diálogo del procedimiento Explorar

En Mostrar (VISUALIZACIÓN) tenemos tres botones de radio:

En el visor se muestra primero una tabla con las frecuencias de cada

- Pulsar en el botón Estadísticos para obtener estimadores robustos, valores

- Pulsar en el botón Gráficos para obtener histogramas, pruebas y gráficos de

- Pulsar en el botón Opciones para manipular los valores perdidos.

Estudiemos detalladamente cada una de estas posibilidades:

4.2.1. Explorar: Estadísticos

Pulsar a continuación el botón Estadísticos. Se abre una nueva ventana

Figura 3: Cuadro de diálogo de la opción Explorar: Estadísticos

Por defecto se muestran los estadísticos descriptivos básicos para cada

Estadísticos de tendencia central:

A la derecha de la media se muestra su error típico (Error típ.).

A la derecha de la asimetría y la curtosis se muestran sus correspondientes

También se muestra un Intervalo de Confianza para la media (un rango de

Figura 4: Estadísticos de la variable consurb

2. Estimadores robustos centrales2

La ventana de resultados nos lo muestra con el nombre Estimadores-M.

Los cuatro estimadores robustos calculados para estimar el centro de la

Figura 5: Estimadores Robustos de la variable consurb

Los casos cuyos valores tipificados sean menores que c reciben un

 Estimador biponderado de Tukey

Asigna pesos de 0 a aquellas observaciones cuyos valores

 Estimador-M redescendente de Hampel

Está caracterizado por tres constantes (a,b,c). A los valores observados

 Estimador en onda de Andrew

No tiene cambios bruscos en los pesos que se asignan a los casos. En

Son los valores extremos de la distribución (muy alejados del resto). Se

Figura 6: Tabla con valores extremos

Figura 7: Tabla con percentiles3

Pulsar a continuación el botón Gráficos.

Figura 8: Cuadro de diálogo de la opción Explorar: Gráficos

Además solicita gráficos opcionales, incluyendo:

El histograma ya se ha visto en una práctica anterior.

El diagrama de caja es un gráfico de resumen de la distribución basado

Ofrece una gran cantidad de información, incluso los casos muy

Son especialmente útiles para comparar la distribución de los valores

Figura 9: Diagramas de caja de la variable consurb según la variable nº de cilindros

Sus características son:

a) La altura de la caja refleja la amplitud intercuartil (abreviado como IQR o

- Valores extremos inferiores (O):

En un diagrama de cajas seleccionamos una de las siguientes opciones: