Sie sind auf Seite 1von 18

DEPARTAMENTO DE ECONOMÍA GENERAL Y ESTADÍSTICA

Estadística e Introducción a la Econometría

PRÁCTICA 8

ANÁLISIS EXPLORATORIO DE DATOS

CURSO 2008-2009

FACULTAD DE CIENCIAS EMPRESARIALES


UNIVERSIDAD DE HUELVA

Profesorado:

Prof. Dra. Mª Dolores González Galán


Prof. Ana González Galán
Prof. Mª Mar Romero Miranda
Prof. Antonio Hernández Moreno
Prof. Miguel Ángel Rivas Carrasco
Prof. Mª Teresa Álvarez Bravo
Análisis Exploratorio

CONTENIDO

Pág.
4.1. INTRODUCCIÓN
------------------------------------------------------------------------------ 3

4.2. DESCRIPCIÓN DETALLADA DE VARIABLES Y GRUPO


----------------------- 4

4.2.1. Explorar: Estadísticos ---------------------------------------------------------- 5

4.2.2. Explorar: Gráficos -------------------------------------------------------------- 10

4.2.3. Explorar: Opciones ------------------------------------------------------------ 15

4.3. EJERCICIOS ---------------------------------------------------------------------------------- 16

4.4. BIBLIOGRAFÍA ------------------------------------------------------------------------------ 18

2
Análisis Exploratorio

4.1. INTRODUCCIÓN

El análisis exploratorio de datos (EDA: Exploratory Data Analysis) es un


método que se utiliza para analizar datos que requieren de muy pocas
suposiciones iniciales. Así por ejemplo, la distribución de los datos no tiene que
ser simétrica ni normal.

El procedimiento Explorar genera estadísticos de resumen y


representaciones gráficas, bien para todos los casos o bien de forma separada
para grupos de casos.

Existen numerosas razones para utilizar este procedimiento: para


inspeccionar los datos, identificar valores atípicos, obtener descripciones,
comprobar supuestos y caracterizar diferencias entre subpoblaciones (grupos de
casos).

La exploración de los datos puede:


a) Mostrar que existen valores inusuales, valores extremos, discontinuidades en
los datos u otras peculiaridades.

b) Ayudar a determinar si son adecuadas las técnicas estadísticas que se están


teniendo en consideración para el análisis de los datos.

c) Indicar que se necesitan preparar y transformar los datos que van a ser
analizados.

EJEMPLO: En el archivo TERRENO.SAV observe la distribución del consumo en


recorrido urbano (consurb) de los vehículos todo-terrenos según el número de
cilindros de que disponen (4, 6 y 8). Para cada uno de los tres grupos, se puede
identificar los casos con los cinco valores de mayor consumo urbano y los cinco
menores. Los diagramas de caja y los gráficos de tallo y hojas resumen
gráficamente la distribución del consumo de cada uno de los grupos.

2
Análisis Exploratorio

4.2. DESCRIPCIÓN DETALLADA DE VARIABLES Y GRUPOS

Para explorar los datos hay que elegir en los menús las opciones:

Analizar  Estadísticos Descriptivos  Explorar...

Figura 1: Opción del menú Analizar

Se seleccionan una o más variables cuantitativas de la lista y se transfieren


a la ventana Dependientes. Si lo desea, además tiene la posibilidad de:

- Seleccionar una o más variables de factor si queremos dividir los datos en


grupos de casos. Una variable de factor debe tener un número razonable de
valores distintivos (categorías). Estos valores pueden ser de cadena corta o
numéricos.

- Seleccionar una variable de identificación para etiquetar los casos con sus
valores. Por defecto los casos se identifican mediante su número secuencial
dentro del archivo de datos. La variable de etiquetas de caso se utiliza para
etiquetar valores atípicos en los diagramas de caja y puede ser de cadena
numérica.

Figura 2: Cuadro de diálogo del procedimiento Explorar

En Mostrar (VISUALIZACIÓN) tenemos tres botones de radio:

3
Análisis Exploratorio

 Botón Estadísticos
Muestra sólo los estadísticos y elimina los gráficos. Por defecto, se muestran
los estadísticos descriptivos básicos para cada variable.

 Botón Gráficos
Muestra sólo los gráficos y suprime todos los estadísticos. Por defecto, se
muestran los diagramas de caja y los gráficos de tallo y hojas, para cada
variable.

 Botón Ambos
Muestra tanto los gráficos como los estadísticos. Por defecto, se muestran
para cada variable los diagramas de caja, los gráficos de tallo y hojas y los
estadísticos descriptivos básicos.

En el visor se muestra primero una tabla con las frecuencias de cada


variable, después va la tabla de estadísticos descriptivos y por último los gráficos
de tallo y hojas.

Además, podemos:

- Pulsar en el botón Estadísticos para obtener estimadores robustos, valores


atípicos y percentiles.

- Pulsar en el botón Gráficos para obtener histogramas, pruebas y gráficos de


probabilidad normal y diagramas de dispersión por nivel con estadísticos de
Levene.

- Pulsar en el botón Opciones para manipular los valores perdidos.

Estudiemos detalladamente cada una de estas posibilidades:

4.2.1. Explorar: Estadísticos

Pulsar a continuación el botón Estadísticos. Se abre una nueva ventana


con las siguientes opciones:

4
Análisis Exploratorio

Figura 3: Cuadro de diálogo de la opción Explorar: Estadísticos

1. Descriptivos

Por defecto se muestran los estadísticos descriptivos básicos para cada


variable, es decir, medidas de tendencia central, de dispersión y de forma.

Estadísticos de tendencia central:

- Media,
- Mediana y
- Media recortada al 5%: media aritmética calculada omitiendo el 5%
de las observaciones con frecuencias más bajas y el 5% de las
observaciones con frecuencias más altas.

A la derecha de la media se muestra su error típico (Error típ.).

Estadísticos de dispersión:

- Errores Típicos,
- Varianza,
- Desviación típica,
- Máximo,
- Mínimo,
- Rango y
- Amplitud intercuartil: Es la distancia entre el primer cuartil y el tercer
cuartil. No le afecta la presencia de casos extremos.
Estadísticos de forma:
- Asimetría y
- Curtosis

5
Análisis Exploratorio

A la derecha de la asimetría y la curtosis se muestran sus correspondientes


errores típicos. La presencia de valores extremos dispara la asimetría y el
apuntamiento (curtosis). Estos coeficientes son pues, indicadores de anomalías
en las distribuciones de datos.

También se muestra un Intervalo de Confianza para la media (un rango de


valores basado en la media muestral) a un nivel del 95% 1, aunque se puede
especificar otro porcentaje, entre 1 y 99. Son valores comunes 90, 95 ó 99.

Figura 4: Estadísticos de la variable consurb

2. Estimadores robustos centrales2

La ventana de resultados nos lo muestra con el nombre Estimadores-M.


Cuando los datos proceden de una distribución simétrica con colas alargadas,
o cuando los datos tienen valores extremos, los estimadores-M proporcionan
una mejor estimación de la posición que la media o la mediana. Se caracterizan
porque los valores extremos reciben menos peso que los valores próximos al
centro.

1
Es la probabilidad de que el intervalo de confianza incluya la media poblacional.
2
Por definición, un estimador es robusto para un determinado parámetro si continúa siendo
razonablemente bueno como estimador cuando el modelo experimenta una pequeña modificación.

6
Análisis Exploratorio

Los cuatro estimadores robustos calculados para estimar el centro de la


localización, se diferencian unos de otros por las ponderaciones que aplican a
los datos. Se muestran los siguientes:

Figura 5: Estimadores Robustos de la variable consurb

 Estimador-M de Huber

Los casos cuyos valores tipificados sean menores que c reciben un


peso de 1. Los casos que tienen los mayores valores absolutos tienen
pesos tanto más pequeños cuanto mayor es su distancia respecto a
cero.

 Estimador biponderado de Tukey

Asigna pesos de 0 a aquellas observaciones cuyos valores


estandarizados sean mayores que 4,685 y cuyos pesos sean
inversamente proporcionales a la distancia respecto al centro para
todas las restantes observaciones.

 Estimador-M redescendente de Hampel

Está caracterizado por tres constantes (a,b,c). A los valores observados


tipificados cuyo valor absoluto sea mayor que c se les asigna un peso
de 0. A los valores comprendidos entre 0 y a se les asigna un peso de
1; a los valores comprendidos entre a y b, y entre b y c, se les asignan
pesos en función de su distancia respecto a cero.

7
Análisis Exploratorio

 Estimador en onda de Andrew

No tiene cambios bruscos en los pesos que se asignan a los casos. En


su lugar, se utiliza una suave curva seno para determinar los pesos de
los casos. A los valores tipificados que sean mayores que c en valor
absoluto, se les asigna un peso 0.

3. Valores atípicos

Son los valores extremos de la distribución (muy alejados del resto). Se


muestran los cinco valores mayores y los cinco menores, con las etiquetas de
caso para cada uno de los grupos.

Figura 6: Tabla con valores extremos

4. Percentiles
Se muestran los valores de los percentiles 5, 10, 25, 50, 75, 90 y 95.
Calcula también las bisagras de Tukey, que define los cuartiles de la
distribución según una transformación realizada por Tukey.

8
Análisis Exploratorio

Figura 7: Tabla con percentiles3


4.2.2. Explorar: Gráficos

Pulsar a continuación el botón Gráficos.

Figura 8: Cuadro de diálogo de la opción Explorar: Gráficos

Con esta opción podemos explorar los datos mediante tres gráficos
exploratorios:

- Histograma,
- Gráfico de tallo y hojas (Stem-and-Leaf), sobre el cual no vamos
a realizar un análisis exhaustivo y
- Diagramas de caja (Box-plot).

3
En la Figura 7se ha cambiado el orden de visualización de los datos. Para ello se editó la tabla y
se seleccionaron las opciones Paneles de Pivotado primero y Transformar filas y columnas
después, en el menú Pivotar de la ventana de resultados.

9
Análisis Exploratorio

Además solicita gráficos opcionales, incluyendo:


- Diagramas de normalidad,
- Diagramas de dispersión por nivel con el estadístico de Levene y
transformaciones, los cuales no son objeto de estudio en esta
práctica.
 Histograma

El histograma ya se ha visto en una práctica anterior.

 Diagramas de caja

El diagrama de caja es un gráfico de resumen de la distribución basado


en la mediana, los cuartiles y los valores extremos.

Ofrece una gran cantidad de información, incluso los casos muy


alejados del centro son identificados.

Son especialmente útiles para comparar la distribución de los valores


entre diferentes grupos.

Está formada por una caja, patillas que salen de ella y límites. La caja
representa la amplitud intercuartil que contiene el 50% de los valores
centrales. Las “patillas o bigotes” (whiskers) son las líneas que se
extienden desde la caja hasta los valores más altos y más bajos (los
valores extremos), excluyendo los valores atípicos (en inglés se denominan
outliers). Una línea que atraviesa la caja indica la situación de la mediana.

Figura 9: Diagramas de caja de la variable consurb según la variable nº de cilindros

10
Análisis Exploratorio

Sus características son:

a) La altura de la caja refleja la amplitud intercuartil (abreviado como IQR o


como RI), en ella está representado el 50% de la muestra.
b) El borde superior de la caja es el percentil 75 (Q 3).
c) El borde inferior es el percentil 25 (Q1).
d) La línea central de la caja es la mediana. Cuando el valor de la mediana
coincide con el punto medio de la caja (IQR/2 + Q 1), la variable
representada es simétrica. Diremos que es asimétrica positiva o a la
derecha si está próxima al borde inferior de la caja y, asimétrica negativa o
a la izquierda si está próxima al borde superior
e) Los valores que no son considerados extremos son aquéllos
comprendidos entre el límite inferior y el límite superior.
Límite inferior = Q1 – 1,5*IQR
Límite superior = Q3 + 1,5IQR
Los valores de las patillas corresponden a la primera y última observación
dentro de dichos límites. Para calcular el valor de las patillas procedemos
de la siguiente forma:
1º, Datos / Selección casos / Si satisface la condición /
vble>=límite inferior & vble<=límite superior
2º, Analizar / Estad Descriptivos / Descriptivos / Máximo y
Mínimo
Mínimo : valor de la patilla inferior
Máximo: valor de la patilla superior
f) Se señalan con signos (*,O) los casos muy alejados o extremos.
g) Con una O se marcan los casos situados entre 1,5 y 3 veces la amplitud
intercuartil desde los dos extremos de la caja. Para calcularlos:
- Valores extremos superiores (O):
1º, Calculo 3 veces IQR superior: Q3 + 3IQR
2º, Datos / Selección casos / Si satisface condición / vble>Límite
sup & vble< Q3 + 3IQR

11
Análisis Exploratorio

- Valores extremos inferiores (O):


1º, Calculo 3 veces IQR inferior: Q1 - 3IQR
2º, Datos / Selección casos / Si satisface condición / vble>Q 1-3IQR &
vble< Límite inferior
h) Con un asterisco * se marcan los casos que están situados más de 3
veces la amplitud intercuartil desde los extremos de la caja. Se calculan:
- Valores extremos superiores (*):
Datos / Selec casos / Si satisface condición / vble>=Q 3 + 3IQR
- Valores extremos inferiores (*):
Datos / Selección casos / si satisface condición / vble<= Q 1-3IQR

En un diagrama de cajas seleccionamos una de las siguientes opciones:

- Niveles de los factores juntos: Para cada variable dependiente, se


muestran juntos los diagramas de caja de cada grupo definido por una
variable de factor. Podremos así comparar fácilmente cómo los valores de
la variable dependiente varían a través de los grupos. Si no se selecciona
ninguna variable de factor, sólo se muestra un diagrama de caja para la
muestra total.
- Dependientes juntas: Para cada grupo (definido por una variable de
factor) muestra juntos los diagramas de caja de cada variable dependiente.
Podremos así comparar fácilmente los valores de las variables
dependientes para un grupo particular. Esta opción es especialmente útil
cuando las diferentes variables representan una característica única
medida en diferentes momentos.
- Ninguno: Suprime los diagramas de caja.

Figura 10: Opciones de los Diagramas de caja

12
Análisis Exploratorio

Figura 11: Esquema explicativo de un diagrama de caja

 Gráficos con pruebas de normalidad

Este procedimiento trata de averiguar si nuestros datos proceden de


una población normal, y para ello se emplean dos gráficos de probabilidad
y el contraste de Kolmogorov-Smirnov con el nivel de significación de
Lilliefors. Si el tamaño de la muestra no excede de 50 observaciones (50 o
menos), se calcula también el estadístico de Shapiro-Wilk.

Cuanto más pequeño es el estadístico y más grande, por tanto, el nivel


de significación mejor es el ajuste de los datos a una distribución normal, y
al revés, cuanto más grande es el estadístico y más pequeño el nivel de
significación, peor es el ajuste.

Figura 13: Pruebas de Normalidad de la variable consurb

En la figura 13 se muestran los dos gráficos usados para comprobar la


normalidad: El gráfico Q-Q normal y el gráfico Q-Q normal sin tendencia.

13
Análisis Exploratorio

- Gráfico Q-Q normal: Crea un gráfico con los cuantiles reales y teóricos
de una distribución normal. Si la variable se distribuye normalmente, los
puntos se concentran en torno a una línea recta diagonal. Cuanto más
se aproximen los puntos a la recta mejor será el ajuste y al revés,
cuanto más se alejen éstos de la misma.
- Gráfico Q-Q normal sin tendencia: En este gráfico se recogen las
diferencias (desviaciones) entre los valores observados y los
esperados. Si la muestra procede de una distribución normal, los
puntos deben concentrarse en una banda horizontal alrededor del cero
y sin seguir ningún patrón. En caso contrario deben alejarse de la
normalidad.
-

Figura 14: Gráficos de Normalidad de la variable consurb


Nota: Se creará un gráfico distinto para cada variable numérica.

4.2.3. Explorar: Opciones

Seleccione el botón Opciones para especificar el tratamiento de los valores


perdidos en los datos y controlar si se mostraran las etiquetas de valores atípicos
y extremos o no.

Figura 15: Cuadro de diálogo de la opción Explorar: Opciones

14
Análisis Exploratorio

 Excluir casos según lista: Los casos con valores perdidos para cualquier
variable de factor o variable dependiente se excluyen de todos los análisis.
Éste es el valor por defecto.

 Excluir casos según pareja: Los casos que no tengan valores perdidos
para las variables de un grupo se incluyen en el análisis de ese grupo. El
caso puede tener valores perdidos para las variables utilizadas en otros
grupos.

 Mostrar los valores: Los valores perdidos para las variables de factor se
tratan como una categoría diferente. Se generan todos los resultados para
esta categoría adicional. Las tablas de frecuencias incluyen categorías
para los valores perdidos. Los valores perdidos para una variable de factor
se incluyen pero se etiquetan como perdidos.

Nota: Pulse con el botón derecho del ratón en cualquier elemento del cuadro de
diálogo para ver su descripción.

4.3. EJERCICIOS

Ejercicio 1 Archivo: TERRENO.SAV

Representa el diagrama de caja para la variable consurb, agrupando los


todo-terrenos en grupos distintos, según el número de cilindros que tienen
y responde a las siguientes preguntas, según la gráfica obtenida:

a) Número de cilindros más frecuentes.


b) Asimetría de la distribución consumo urbano según el número de
cilindros.
c) Valores atípicos y extremos.

Ejercicio 2 Archivo: AEREO.SAV

El archivo aereo.sav recoge el número de viajeros llegados a España en


transporte aéreo desde enero de 1969 a enero de 2002. Representa el diagrama

15
Análisis Exploratorio

de caja para la variable pasajeros, agrupando en función de los meses, para


detectar la existencia del componente estacional.

EJERCICIO 3

La siguiente tabla muestra los resúmenes descriptivos que proporciona la opción


Explorar del SPSS para los datos sobre la cantidad de lluvia registrada por n
estaciones de medición en Madrid:

16
Análisis Exploratorio

Indica cuál de estos diagramas de caja (box-plot) puede representar ha este


conjunto de datos y da razones de por qué los otros no pueden representar a los
datos reunidos en la tabla:

4.4. BIBLIOGRAFÍA

CAMACHO ROSALES, J. (2000): Estadística con SPSS para Windows,


Rama, Madrid.
PALMER POL, A.L. (1999): Análisis de Datos. Etapa Exploratoria,
Psicología Pirámide, Madrid.
SPSS INC. (1999): Manual del Usuario de SPSS Base 10.0, SPSS,
Chicago.
VISAUTA VINACUA, B. (1998): Análisis Estadístico con SPSS para
Windows, McGraw-Hill, Madrid.

17

Das könnte Ihnen auch gefallen