Sie sind auf Seite 1von 40
2011 PROYECTO-PRACTICAS Cristina Taboada Chambó Master en estadística Aplicada
2011
PROYECTO-PRACTICAS
Cristina Taboada Chambó
Master en estadística Aplicada

Los datos que voy a estudiar son sobre dos de las variables económicas más importantes, las cuales son la inflación y el desempleo.

He decidido estudiar estas dos variables porque en la actualidad existe un problemas económico y amabas son las más relevantes.

La inflación, en economía, se refiere al aumento de precios de bienes y servicios en un periodo de tiempo, es decir, es la disminución del valor del dinero respecto a la cantidad de bienes o servicios que se pueden comparar con dicho dinero. Por ejemplo, si tenemos un servicio, como puede ser el autobús de Madrid a Barcelona, y el precio de este servicio aumenta con el tiempo, tenemos inflación.

La inflación es un aspecto muy importante en la economía, ya que algunos de los desastres económicos más importantes que ha habido en el mundo se debieron a una descontrolada inflación.

La inflación se calcula como

Inflación2010 = (IPC2010 – IPC2009/IPC2009)

La tasa de desempleo es el porcentaje de la población activa que no tiene trabajo.

La población activa son aquellas personas que están en edad de trabajar y que, en principio, estarían dispuestos a trabajar si encontraran un trabajo conveniente.

Ambas variables generan muchos problemas, no sólo para la gente, sino también para las empresas, que no tienen un marco estable para prosperar y acaban desapareciendo junto con el incremento del desempleo.

Algunos economistas han observado la relación entre la tasa de inflación y la del desempleo, observando que cuando un país tenía baja inflación, tendía a experimentar tasas de desempleo altas, y viceversa. Por lo que la sociedad debía de elegir entre uno de dos males: inflación o desempleo.

Por lo que el objetivo de este trabajo es ver las diferencias y similitudes entres las diferentes CCAA en España sobre amabas variable en el periodo 2010 y ver si es cierto que existe una relación entre ambas variables observándolo a través de la evolución del estas durante el periodo 1997 a 2010. Además los datos que voy a manejar son porcentajes.

Para llevar a cabo el análisis he decidido utilizar el programa SPSS el cual es un programa con una amplia variedad de análisis estadísticos. El cual contiene los análisis que voy a utilizar para este trabajo de investigación.

Para los datos de la población en desempleo lo obtenemos del siguiente modo

Los datos están recogidos por la EPA (encuesta de población activa).

Esta encuesta 1 va dirigida a la población que reside en viviendas familiares principales, es decir, las utilizadas todas o la mayor parte del año como residencia habitual o permanente.

Se excluyen de estas los llamados hogares colectivos, que son por ejemplo los hospitales, hoteles, cuarteles, conventos, etc.…

Aunque se incluyen las familias que forman un grupo independiente residan en estos establecimientos (directores de centros, conserjes y porteros).

El ámbito geográfico es todo el territorio nacional.

Para definir el marco de la encuesta es necesario empezar con la división administrativa de España, la cual es:

La nación se encuentra dividida en 17 comunidades autónomas y dos ciudades autónomas. Las comunidades autónomas se dividen en 50 provincias de las cuales 47 son peninsulares y 3 insulares. Las provincias se encuentran divididas en municipios y estos en distritos municipales.

A partir de lo anterior se hace una nueva subdivisión de los distritos municipales en secciones censales.

Por lo que la sección censal puede considerarse como un área geográfica con límites perfectamente definidos.

Los datos son recogidos por el EPA, cuyo objetivo es el conocimiento de la actividad económica del país. Su diseño está orientado a proporcionar información de

1 La encuesta introducida por el EPA está incluida en el anexo

las principales categorías poblacionales en relación con el mercado de trabajo así como obtener clasificaciones de estas categorías según distintas variables.

Esta encuesta está diseñada para dar resultados detallados a nivel nacional. Para las comunidades autónomas y las provincias se ofrece información sobre las principales características al nivel de desagregación que permiten los coeficientes de de variación de los estimadores.

La encuesta considera como población económicamente activa la constituida por las personas de 16 y más años que en la semana de referencia satisfacen las condiciones necesarias para su inclusión entres las personas ocupadas o paradas.

Se utiliza un muestreo bietápico con estratificación de las unidades de primera

etapa.

Las unidades de primera etapa están constituidas por las secciones censales. La muestra de secciones permanece fija indefinidamente con las excepciones siguientes:

a) Salen de la muestra aquellas secciones en las que ya se han visitado todas las viviendas encuestables.

b) Cuando en el proceso de actualización del seccionado a algunas secciones les corresponda salir de la muestra, bien por los cálculos probabilísticos, bien por cambios en la afijación por estratos.

En todos los casos las secciones que salen de la muestra son sustituidas por

otras.

Las unidades de segunda etapa están constituidas por las viviendas familiares principales (ocupadas permanentemente) y los alojamientos fijos (chabolas, cuevas, etc.…). No se consideran encuestables las viviendas secundarias ni las disponibles para alquiler o venta, ya que no forma parte del ámbito poblacional definido anteriormente.

Dentro de las unidades de segunda etapa no se realiza submuestreo alguno, recogiéndose información de todas las personas que tengan su residencia habitual en las mismas.

Las unidades de primera etapa se estratifican atendiendo a un doble criterio:

A. Criterio geográfico: Las secciones se agrupan en estratos dentro de cada provincia, de acuerdo con la importancia demográfica del municipio al que pertenecen. B. Criterio socioeconómico: Las secciones censales se agrupan en subestratos dentro de cada uno de los estratos, según las características socioeconómicas de las mismas.

Para llegar a la formación de los estratos se consideran los siguientes tipos de municipios:

1. Municipios autorrepresentados: Son aquellos que dada su categoría dentro de la provincia deben tener siempre secciones en la muestra. (la capital de provincia, municipios que tienen un número de habitantes elevada y municipios que tiene una demográfica destacada)

2. Municipios correpresentados: son aquellos que dentro de la misma provincia forma parte de un grupo de municipios demográficamente similares y que son representados en común.

Para los datos de la inflación

En primer lugar la inflación se obtiene a través del IPC.

El IPC incluye a toda la población que reside en viviendas familiares en España, se excluyen los gastos de las personas que residen en hogares colectivos o instituciones y los gastos de los no residentes.

El campo de consumo es el conjunto de los bienes y servicios que los hogares del estrato de referencia destinan al consumo; por lo que no se consideran los gastos en bienes de inversión, los autoconsumos y los autosuministros, ni los alquileres imputados, ni los gastos subvencionados por las administraciones públicas. Tampoco forman parte del campo de consumo algunos impuestos no considerados consumo.

Cada parcela de consumo está representada por uno o más artículos en el IPC, de forma que la evolución de los precios de estos artículos representa la de todos los elementos que integran dicha parcela.

El IPC se trata de un diseño no probabilístico.

Los artículos están distribuidos en grandes grupos de la siguiente forma.

Grupos

Número de artículos

Alimentos y bebidas no alcohólicas

176

Bebidas alcohólicas y tabaco

12

Vestido y calzado

67

Vivienda

18

Menaje

60

Medicina

13

Transporte

31

Comunicaciones

3

Ocio y cultura

43

Enseñanza

7

Hoteles, cafés y restaurantes

23

Otros bienes y servicios

38

Total

491

23 Otros bienes y servicios 38 Total 491 Podemos ver que las partidas más abundantes son

Podemos ver que las partidas más abundantes son los alimentos y bebidas no alcohólicas y vestido y calzado. Y las partidas menos abundantes son comunicación y enseñanza. Los datos de la evolución del IPC e inflación en España y el cálculo de la inflación son los siguientes:

Inflación2010 = (IPC2010 – IPC2009/IPC2009)

Años

IPC

inflación

2002

88,024

4

2003

90,699

3,04

2004

93,456

3,04

2005

96,604

3,37

2006

100

3,52

2007

102,787

2,79

2008

106,976

4,08

2009

106,668

-0,29

2010

108,588

1,80

Luego analizaremos los datos de la inflación.

Los datos que vamos analizar son los siguientes:

Por comunidades autónomas en el año 2010

CCAA

Inflación

Desempleo

Andalucía

3,2

27,97

Aragón

2,9

14,77

Asturias

3,2

15,97

Balears

2,7

20,37

Canarias

2

28,7

Cantabria

3,1

13,87

Castilla y León

3,2

15,78

Castilla la

   

mancha

3,4

20,99

Cataluña

3

17,75

Valencia

2,9

23,3

Extremadura

3

23,04

Galicia

3,1

15,4

Madrid

3

16,08

Murcia

3

23,35

Navarra

2,8

11,85

País Vasco

2,8

10,55

Rioja

3

14,27

Ceuta

1,9

24,12

Melilla

2,4

23,75

14,27 Ceuta 1,9 24,12 Melilla 2,4 23,75 En este caso podemos ver que por la parte
14,27 Ceuta 1,9 24,12 Melilla 2,4 23,75 En este caso podemos ver que por la parte

En este caso podemos ver que por la parte de la inflación vemos que las Comunidades con más inflación son Castilla la mancha, Andalucía y Castilla y león. Y los que menos son Ceuta y Canarias. Aunque podemos ver que no hay mucha diferencia entre comunidades que va desde el 3.4 (Castilla la mancha) hasta 1.9 (Ceuta).

En el tema del desempleo podemos ver que, en este caso si hay una diferencia considerable entre comunidades desde un 10.55% hasta 28.7%. Siendo las comunidades con más desempleo Andalucía, Canarias y Ceuta. Y las que tiene menos desempleo son País Vasco, Navarra y Cantabria.

Ahora, antes de realizar cualquier técnica multivariantes lo que vamos a llevar a cabo es un análisis previo de los datos que nos indique con qué tipo de datos trabajamos así como las características que estos poseen. El análisis nos permitirá deducir la posibilidad de aplicar o no determinadas técnicas estadísticas multivariantes.

En un primer lugar vamos a dar una descripción numérica de los datos.

Vamos a hacer un resumen univariado para ambas variables en una única tabla y calcular los valores tipificados. Por defecto muestra los estadísticos descriptivos básicos para cada variable, es decir, medidas de tendencia central (media) y de dispersión (desviación típica, varianza, máximo y mínimo). Teniendo como resultado el siguiente.

DESCRIPTIVES VARIABLES=INFLACIÓN PARO /STATISTICS=MEAN STDDEV MIN MAX.

Estadísticos descriptivos

 

N

Mínimo

Máximo

Media

Desv. Típ.

INFLACIÓN PARO N válido (según lista)

19

1,90

3,40

2,8737

,39135

19

10,55

28,70

19,0463

5,34667

19

Vemos que en este la variable inflación dato mínimo es 1.90, el máximo 3.40, como media es de 2.8737 y desviación típica es de 0.39135, por lo que observamos que no hay mucha diferencia. En cuanto al desempleo vemos que el dato mínimo es de 10.55, el máximo es de 28.70, como media tenemos 19.0463 y de desviación típica 28.587 en el que podemos ver que estos datos poseen algo más de diferencias.

Ahora vamos a proporcionar estadísticos y representaciones gráficas que resulten útiles para describir las variables. Para ello vamos a realizar un informe de frecuencias y gráficos de barras

FREQUENCIES VARIABLES=PARO INFLACIÓN /NTILES= 4 /STATISTICS=VARIANCE MAXIMUM MODE /HISTOGRAM NORMAL /ORDER= ANALYSIS .

MAXIMUM MODE /HISTOGRAM NORMAL /ORDER= ANALYSIS . En este cuadro podemos observar en primer lugar el

En este cuadro podemos observar en primer lugar el número de datos validos de la muestra que en ambas variables es la muestra total es 19 por lo que no hay ningún dato perdido. En la moda en el paro vemos que el dato que más se repite es de 10.55 (existen más modas pero cogen el dato con menor valor) y en la inflación es de 3.

La varianza que mide cuanto se separa los datos, en el caso del paro vemos que la varianza es muy alta y la inflación vemos que este dato es más pequeño.

El máximo es el mismo que el anterior.

Los valores que superan el percentil 25 (25%) son de 14.77% en el paro y en inflación es de 2.8%.

Los valores que superan el percentil 50 es de 17.75% en el paro y la inflación son de 3%.

Y los valores que superan el percentil 75 es de 23.35 en el paro y en la inflación es de 3.1%.

En este cuadro podemos ver cuál es la frecuencia, el porcentaje, el porcentaje válido y

En este cuadro podemos ver cuál es la frecuencia, el porcentaje, el porcentaje válido y el porcentaje acumulado del salario actual. La conclusión que obtenemos es que en esta en el paro los datos no se repiten ni una sola vez en ninguna comunidad autónoma.

se repiten ni una sola vez en ninguna comunidad autónoma. En cuanto la inflación vemos que

En cuanto la inflación vemos que en este caso hay datos que se repiten más frecuentemente que en la variable anterior en este caso son el 3.00% con una frecuencia de 5, con un porcentaje de 26.3%. Luego le sigue la inflación del 3.20% con una frecuencia de 3 veces y un porcentaje de 15.8%. Y por último datos como 2.8%, 2.9% y

3.10% que se repiten 2 veces y un porcentaje del 10.5%. Los demás datos que vemos solo se repiten una vez.

3.10% que se repiten 2 veces y un porcentaje del 10.5%. Los demás datos que vemos
3.10% que se repiten 2 veces y un porcentaje del 10.5%. Los demás datos que vemos

En el histograma se divide el rango de los datos en un número adecuado de intervalos. Sobre cada intervalo se dibuja un rectángulo cuya área es proporcional a la frecuencia de datos en el intervalo. El histograma de la inflación representa una distribución asimétrica a la izquierda, ya que en este caso hay más frecuencia de los datos y el histograma del paro tiene de distribución simétrica bimodal debido a que hay menos frecuencia en los datos.

Ahora vamos a realizar una exploración de los datos, a través del procedimiento Explorar

Las razones para realizar este procedimiento seria para inspeccionar los datos, identificar los valores atípicos, obtener descripciones, comprobar supuestos y caracterizar diferencias entre subpoblaciones. La inspección de los datos muestra que pueden existir valores inusuales, valores extremos, discontinuidad en los datos…

Este procedimiento nos puede ayudar para ver si es posible realizar determinadas técnicas estadísticas a los datos o si es necesario transformar los datos.

EXAMINE VARIABLES=INFLACIÓN PARO /ID= CCAA /PLOT BOXPLOT STEMLEAF /COMPARE GROUP /MESTIMATORS HUBER(1.339) ANDREW(1.34) HAMPEL(1.7,3.4,8.5)

TUKEY(4.685)

/PERCENTILES(5,10,25,50,75,90,95) HAVERAGE /STATISTICS DESCRIPTIVES EXTREME /CINTERVAL 95 /MISSING LISTWISE /NOTOTAL.

EXTREME /CINTERVAL 95 /MISSING LISTWISE /NOTOTAL. En este cuadro lo que obtenemos son los casos válidos

En este cuadro lo que obtenemos son los casos válidos y los casos perdidos (donde e ambos casos es 0) y el total.

Aquí se pone en manifiesto los estadísticos descriptivos básicos para cada variable, es decir, medidas

Aquí se pone en manifiesto los estadísticos descriptivos básicos para cada variable, es decir, medidas de tendencia central, de dispersión y de forma, según la categoría laboral.

Estadísticos de tendencia central:

Media

Mediana

Media recortada al 5%: media aritmética calculada omitiendo el 5% de las observaciones con frecuencias más bajas y el 5% de las observaciones con frecuencias más altas.

A la derecha de la media se muestra su error típico.

Estadísticos de dispersión:

Errores típicos

Varianza

Desviación típica

Máximo

Mínimo

Rango

Amplitud intercuartil: es la distancia entre el primer cuartil y el tercer cuartil. No le afecta la presencia de casos extremos.

Estadísticos de forma:

Asimetría

Curtosis

A la derecha de la asimetría y la curtosis se muestran sus correspondientes errores típicos. La presencia de los valores extremos dispara la asimetría y el apuntamiento (curtosis) estos coeficientes son pues, indicadores de anomalías en las distribuciones de datos.

También se muestra un intervalo de confianza para la media (un rango de valores basado en la media muestral) a un nivel del 95%, aunque se puede especificar otro porcentaje.

nivel del 95%, aunque se puede especificar otro porcentaje. Los estimadores-M se caracterizan porque los valores

Los estimadores-M se caracterizan porque los valores extremos reciben menos peso que los valores próximos al centro.

Los

cuatro

estimadores

robustos

calculados

para

estimar

el

centro

de

la

localización, se diferencia uno de otro por las ponderaciones que aplican a los datos:

Estimador-M de Huber: Los casos que tienen los mayores valores absolutos tienen pesos tanto más pequeños cuanto mayor es su distancia respecto a cero. Los casos cuyos valores tipificados sean menores a 1,339 reciben un peso de 0

Estimador biponderado de Tukey: asigna pesos de 0 a aquellas observaciones cuyos valores estandarizados sean motores que 4,685 y cuyos pesos sean inversamente proporcionales a la distancia respecto al centro para todas las restantes observaciones.

Estimador-M redescendente de Hampel: Está caracterizado por tres constantes

(1.7, 3.4 y 8.5). a los valores observados tipificados cuyo valor absoluto sea mayor que

8.5

se le asigna un peso de 0. A los valores comprendidos entre 1.7 y 3.4 y entre 3.4 y

8.5

se le asigna pesos en función de su distancia respecto a cero.

Estimador en onda de Andrew: no tiene cambios bruscos en los pesos que se asignan a los casos. En su lugar, se utiliza una suave curva seno para determinar los pesos de los casos. A los valores tipificados que sean mayores que 1.340 en valor absoluto se les asigna un peso 0.

mayores que 1.340 en valor absoluto se les asigna un peso 0. Se muestran los valores

Se muestran los valores de los percentiles 5, 10, 25, 50, 75, 90 y 95. Calcula también las bisagras de Tukey, que define los cuartiles de la distribución según una transformación realizada por Tukey

Son los valores extremos de la distribución (muy alejados del resto). Se muestran los cinco

Son los valores extremos de la distribución (muy alejados del resto). Se muestran los cinco valores mayores y menores.

Inflación

Grafico de tallos y hojas

INFLACIÓN Stem-and-Leaf Plot

Frequency

Stem &

Leaf

2,00 Extremes

 

(=<2,0)

1,00

2

.

4

5,00

2

.

78899

11,00

3

.

00000112224

Stem width:

1,00

Each leaf:

1 case(s)

Desempleo PARO Stem-and-Leaf Plot Frequency Stem & Leaf 5,00 1 . 01344 5,00 1 .

Desempleo

PARO Stem-and-Leaf Plot

Frequency

Stem &

Leaf

5,00

1

.

01344

5,00

1

.

55567

7,00

2

.

0033334

2,00

2

.

78

Stem width:

10,00

Each leaf:

1 case(s)

. 55567 7,00 2 . 0033334 2,00 2 . 78 Stem width: 10,00 Each leaf: 1

El diagrama de caja es un gráfico de resumen de la distribución basado en la mediana, los cuartiles y los valores extremos.

Ofrece un gran cantidad de información, incluso los casos muy alejados del centro son identificados.

Son especialmente útiles para comparar la distribución de los valores entre diferentes grupos.

Está formada por una caja, patillas que salen de ella y límites. La caja representa la amplitud intercuartil que contiene el 50% de los valores centrales. Las “patillas o bigotes” son las líneas que se extiende desde la caja hasta los valores más altos y más bajos (los valores extremos), excluyendo los valores atípicos. Una línea que atraviesa la caja indica la situación de la mediana.

Con un O se marcan los casos situados entre 1.5 y 3 veces la amplitud intercuartil desde los dos extremos de la caja. El borde superior de la caja es el percentil 75 y el borde inferior es el perfil 25.

En el gráfico de tallo y hojas de la inflación vemos que la mediana asimétrica positiva. En cambio la variable del paro vemos que es asimétrica (sesgada) negativa.

Ahora vamos a realizar un análisis clúster de las variables.

El análisis clúster es un conjunto de técnicas multivariantes cuyo objetivo es agrupar objetos o individuos basándose en las características que estos poseen. Este análisis clasificará a los objetos, según su parecido. Los grupos resultantes deben mostrar mucha homogeneidad entre los elementos del grupo y alto grado de heterogeneidad entre los diferentes grupos.

En primer lugar lo vamos a realizar por el método inter-grupos.

Matriz de distancias

Esta matriz mide las distancias entre cada dos individuos del fichero de datos antes de comenzar la clasificación. Esta señala las distancia entre los individuos según

la distancia euclídea al cuadrado. Podemos ver que esta matriz es simétrica y si observamos bien veremos que el primer clúster estará formado por las Comunidades autónomas más cercanas que son Andalucía y Murcia.

Esta es una matriz de similaridades

Historial de la conglomeración

Nos indica el orden de las uniones y la distancia a la que lo hacen por ejemplo Asturias y Castilla y león se une a un distancia de 0.001 formando el clúster 1. Luego forma otro clúster Extremadura y Murcia con distancia del 0.003.

Un tercer grupo se formado por Navarra y País Vasco con distancia 0.059

En la etapa 4 el clúster 2 se le añade Valencia.

Y en la etapa 5 se forma otro clúster con Cantabria y Rioja.

Así sucesivamente hasta llegar a formar 3 grupos de los que podemos ver cómo están formados en la siguiente etapa.

que podemos ver cómo están formados en la siguiente etapa. Conglomerados de pertenencia Nos indica el

Conglomerados de pertenencia

Nos indica el número de clúster finales.

El

grupo

1

está

formado

por

Andalucía,

Murcia,

Extremadura, Melilla y Castilla la Mancha.

Baleares,

Valencia,

El grupo 2 está formado por Cantabria, La Rioja, Galicia, Aragón, Asturias, Casitilla y león, Cataluña, Galicia Madrid Navarra y País Vasco.

El grupo 3 está formado por Melilla, Canarias y Ceuta.

Diagrama de témpanos

formado por Melilla, Canarias y Ceuta. Diagrama de témpanos Muestra cómo quedaría la clasificación de individuos

Muestra cómo quedaría la clasificación de individuos dependiendo del número de conglomerados que consideremos (cada fila de la tabla). Por filas, se van pintando X’s y se deja un hueco cuando cambiamos de clúster. Como podemos ver en este ejercicio tenemos 3 clúster.

25

Label

C

A S E

Rescaled Distance Cluster Combine

0

5

10

15

20

Num +---------+---------+---------+---------+------+

Asturias

3

òø

Castilla y León

7

òú

Galicia Cataluña

12

9

òôòø

òú ó

Madrid

13

ò÷ ùòòòø

Cantabria

6

17

òø ó

òôò÷

ó

ùòòòòòòòòòòòòòòòòòòòòòòòòòòø

Rioja

Aragón

2

ò÷

ó

ó

Navarra

15

16

òûòòòòò÷

ò÷

ó

ùòòòòòòòòòòòø

País Vasco

Extremadura

11

òø

ó

ó

Murcia

14

10

òôòø

ò÷ ùòòòòòòòø

ó

ó

ó

ó

Valencia

Balears

4

òòò÷

ùòòòòòòòòòòòòòòòòòòòòòò÷

ó

Andalucía

1

8

òòòòòòòûòòò÷

òòòòòòò÷

ó

ó

Castilla – La Ma

Canarias

5

òòòûòòòø

ó

Ceuta

18

òòò÷

ùòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòò÷

Melilla

19

òòòòòòò÷

Por los que tendríamos las comunidades autónomas clasificadas en tres grupos según el paro y la inflación. El objetivo a partir de aquí es utilizar otros métodos para y ver si se forman los mismos grupos.

Podemos observar al realizar de nuevo con el Método vinculación intra-grupos y Ward obtenemos los mismos resultados, por lo que los grupos que los distintos países formarían serian los siguientes:

Ahora vamos a llevar a cabo un análisis de regresión para estudiar la relación entre

Ahora vamos a llevar a cabo un análisis de regresión para estudiar la relación entre las variables donde se expresa la relación en términos de una ecuación que conecta dichas variables.

en términos de una ecuación que conecta dichas variables. Esta tabla identifica a las variables independientes

Esta tabla identifica a las variables independientes (paro) y dependiente (Inflación).

variables independientes (paro) y dependiente (Inflación). La tabla resumen del modelo nos proporciona información

La tabla resumen del modelo nos proporciona información acerca de la bondad de ajuste del modelo. Concretamente: R es la raíz cuadrada positiva de R cuadrado.

R Cuadrado es la bondad de ajuste y viene dada por:

=0.157 El R cuadrado corregida: la R cuadrado sobrestima el valor poblacional. Una estimación más

=0.157

=0.157 El R cuadrado corregida: la R cuadrado sobrestima el valor poblacional. Una estimación más adecuada

El R cuadrado corregida: la R cuadrado sobrestima el valor poblacional. Una estimación más adecuada de bondad de ajuste poblacional es R cuadrado corregida que se obtiene con la expresión.

es R cuadrado corregida que se obtiene con la expresión. El error típico de la estimación

El error típico de la estimación es la raíz cuadrada de la varianza residual.

se obtiene con la expresión. El error típico de la estimación es la raíz cuadrada de

=5.05274

La tabla ANOVA: es un cuadro resumen del análisis de la varianza para la validación

La tabla ANOVA: es un cuadro resumen del análisis de la varianza para la validación del modelo de regresión lineal. La columna Sig. Corresponde al valor de probabilidad de F. es la probabilidad de obtener el valor de F si la hipótesis nula fuera cierta. Como este valor es mayor que 0.05 se acepta la hipótesis nula y se concluye que el modelo de regresión es no válido. Se concluye que el parámetro es igual a 0. Por lo que no existe relación alguna entre ambos parámetros.

Evolución en el tiempo del paro e inflación durante 1997-2010

Los datos de la evolución de ambas variables son los siguientes

datos de la evolución de ambas variables son los siguientes En primer lugar vamos a ver

En primer lugar vamos a ver la evolución de ambas variables.

Vemos que la inflación ha tenido altos y bajos durante el tiempo estudiado y la
Vemos que la inflación ha tenido altos y bajos durante el tiempo estudiado y la

Vemos que la inflación ha tenido altos y bajos durante el tiempo estudiado y la variable desempleo ha sido más constante aunque podemos ver que en la primera etapa y la última ha habido unos considerables aumentos relacionados por las crisis. En cuanto a la relación de ambas variables, podemos ver que en épocas donde el desempleo es mayor la inflación ha disminuido. Y cuando el desempleo ha sido menor la inflación ha aumentado.

Ahora vamos a hacer un estudio estadístico de ambas variables para ver si esta afirmación es cierta.

En primer lugar vamos a llevar a cabo, como anteriormente, un análisis previo de los datos, para indicarnos con que datos trabajamos y ver las características que poseen.

Realizaremos un análisis descriptivo de los datos.

poseen. Realizaremos un análisis descriptivo de los datos. Vemos que en este la variable inflación el

Vemos que en este la variable inflación el dato mínima es -0.29, el máximo 4.08, como media es de 2.725 y desviación típica es de 1.21046, por lo que observamos que no hay mucha diferencia.

En cuanto el desempleo el dato mínimo es de 8.26, el máximo es de 21.30, como media tenemos 13.59 y de desviación típica 4.17088 en el que podemos ver que estos datos son más diferentes entre sí.

Ahora vamos hacer un análisis de frecuencias que servirá para describir nuestras variables.

Los datos obtenidos son:

para describir nuestras variables. Los datos obtenidos son: En este cuadro podemos observar en primer lugar

En este cuadro podemos observar en primer lugar el número de datos validos de la muestra que en ambas variables es la muestra total (14) por lo que no hay ningún dato perdido. En la moda en la inflación vemos que el dato que más se repite es de 3.04 y en el desempleo es de 14.

La varianza que mide cuanto se separan los datos, en el caso de la inflación vemos que la varianza es baja y en el desempleo vemos que es más elevada.

El máximo es el mismo que el anterior.

Los valores que superan el percentil 25 (25%) es de 1.86 en la inflación y en el paro es de 10.5175.

Los valores que superan el percentil 50 es de 2.915 en la inflación y en el paro son de 12.74.

Y los valores que superan el percentil 75 es de 3.64 en la inflación y en el paro son

de 16.5025.

75 es de 3.64 en la inflación y en el paro son de 16.5025. En este

En este cuadro podemos ver cuál es la frecuencia, el porcentaje, el porcentaje válido y el porcentaje acumulado del salario actual. La conclusión que obtenemos es que en esta variable solo se repite un dato que es 3.04 con un porcentaje del 14.3%.

La conclusión que obtenemos es que en esta variable solo se repite un dato que

La conclusión que obtenemos es que en esta variable solo se repite un dato que es 14.00 con un porcentaje del 14.3%.

La conclusión que obtenemos es que en esta variable solo se repite un dato que es
La conclusión que obtenemos es que en esta variable solo se repite un dato que es

En el histograma se divide el rango de los datos en un número adecuado de intervalos. Sobre cada intervalo se dibuja un rectángulo cuya área es proporcional a la frecuencia de datos en el intervalo. Ambos histogramas muestran una distribución bimodal debido a que hay menos frecuencia en los datos.

Ahora toca hacer una exploración de los datos, esto nos va a servir si hay valores inusuales, extremos, discontinuidades u otras peculiaridades.

Obtenemos los siguientes resultados:

u otras peculiaridades. Obtenemos los siguientes resultados: En este cuadro lo que obtenemos son los casos

En este cuadro lo que obtenemos son los casos válidos para cada variable y los casos perdidos (donde e ambos casos es 0) y el total.

lo que obtenemos son los casos válidos para cada variable y los casos perdidos (donde e
Los estimadores-M se caracterizan porque los valores extremos reciben menos peso que los valores próximos

Los estimadores-M se caracterizan porque los valores extremos reciben menos peso que los valores próximos al centro.

Los cuatro estimadores robustos calculados para estimar el centro de la localización, se diferencia uno de otro por las ponderaciones que aplican a los datos:

Estimador-M de Huber: Los casos que tienen los mayores valores absolutos tienen pesos tanto más pequeños cuanto mayor es su distancia respecto a cero. Los casos cuyo valores tipificados sean menores a 1,339 reciben un peso de 0

Estimador biponderado de Tukey: asigna pesos de 0 a aquellas observaciones cuyos valores estandarizados sean motores que 4,685 y cuyos pesos sean inversamente proporcionales a la distancia respecto al centro para todas las restantes observaciones.

Estimador-M redescendente de Hampel: Está caracterizado por tres constantes (1.7, 3.4 y 8.5). a los valores observados tipificados cuyo valor absoluto sea mayor que 8.5 se le asigna un peso de 0. A los valores comprendidos entre 1.7 y 3.4 y entre 3.4 y 8.5 se le asigna pesos en función de su distancia respecto a cero.

Estimador en onda de Andrew: no tiene cambios bruscos en los pesos que se asignan a los casos. En su lugar, se utiliza una suave curva seno para determinar los pesos de los casos. A los valores tipificados que sean mayores que 1.340 en valor absoluto se les asigna un peso 0.

los pesos de los casos. A los valores tipificados que sean mayores que 1.340 en valor

Se muestran los valores de los percentiles 5, 10, 25, 50, 75, 90 y 95. Calcula también las bisagras de Tukey, que define los cuartiles de la distribución según una transformación realizada por Tukey.

según una transformación realizada por Tukey. Son los valores extremos de la distribución (muy alejados

Son los valores extremos de la distribución (muy alejados del resto). Se muestran los cinco valores mayores y menores.

Inflación

Inflación Stem-and-Leaf Plot

Frequency

Stem &

Leaf

1,00

-0 .

2

,00

0

.

3,00

1

.

388

3,00

2

.

777

4,00

3

.

0035

3,00

4

.

000

Stem width:

1,00

Each leaf:

1 case(s)

∑ Desempleo Desempleo Stem-and-Leaf Plot Frequency Stem & Leaf 3,00 0 . 889 6,00 1

Desempleo

Desempleo Stem-and-Leaf Plot

Frequency

Stem &

Leaf

3,00

0

.

889

6,00

1

.

011144

3,00

1

.

568

2,00

2

.

01

Stem width:

10,00

Each leaf:

1 case(s)

1 . 011144 3,00 1 . 568 2,00 2 . 01 Stem width: 10,00 Each leaf:

El diagrama de caja es un gráfico de resumen de la distribución basado en la mediana, los cuartiles y los valores extremos.

Ofrece un gran cantidad de información, incluso los casos muy alejados del centro son identificados.

Son

especialmente

diferentes grupos.

útiles

para

comparar

la

distribución

de

los

valores

entre

Está formada por una caja, patillas que salen de ella y límites. La caja representa la amplitud intercuartil que contiene el 50% de los valores centrales. Las “patillas o bigotes” son las líneas que se extiende desde la caja hasta los valores más altos y más bajos (los valores extremos), excluyendo los valores atípicos. Una línea que atraviesa la caja indica la situación de la mediana.

En el gráfico de tallo y hojas de la inflación vemos que la mediana está más o menos un poquito a la derecha por lo que la distribución es asimétrica positiva. En cambio la variable del desempleo vemos que es asimétrica negativa.

Ahora vamos a llevar a cabo un análisis de regresión para estudiar la relación entre las variables donde se expresa la relación en términos de una ecuación que conecta dichas variables. Obteniendo lo siguiente:

que conecta dichas variables. Obteniendo lo siguiente: Esta tabla identifica a las variables independientes

Esta tabla identifica a las variables independientes (desempleo) y dependiente (inflación).

Obteniendo lo siguiente: Esta tabla identifica a las variables independientes (desempleo) y dependiente (inflación).

La tabla resumen del modelo nos proporciona información acerca de la bondad de ajuste del modelo. Concretamente: R es la raíz cuadrada positiva de R cuadrado.

R Cuadrado es la bondad de ajuste es de 0.327

de R cuadrado. R Cuadrado es la bondad de ajuste es de 0.327 El error típico

El error típico de la estimación es la raíz cuadrada de la varianza residual es 1.03374

es la raíz cuadrada de la varianza residual es 1.03374 La tabla ANOVA: es un cuadro

La tabla ANOVA: es un cuadro resumen del análisis de la varianza para la validación del modelo de regresión lineal. La columna Sig. Corresponde al valor de probabilidad de F. es la probabilidad de obtener el valor de F si la hipótesis nula fuera cierta. Como este valor es menor que 0.05 se rechaza la hipótesis nula y por lo que el modelo de regresión es válido.

La tabla de coeficientes: esta tabla contiene los coeficientes no estandarizados (en directas) y estandarizados

La tabla de coeficientes: esta tabla contiene los coeficientes no estandarizados (en directas) y estandarizados de la recta de regresión estimada. Concretamente, la columna etiquetada como B nos permite escribir la recta de regresión en puntuaciones directas. Así, la recta que relaciona la inflación con el desempleo es:

^y=4.980-0.166x 1

Por otro lado, el valor que aparece en la columna etiquetada como Beta es la pendiente de la recta en típicas que como se sabe, en el modo de regresión simple, es el coeficiente de correlación de Pearson. La recta de regresión en típicas es:

^Z y =-0.572Z 1x

En la columna de coeficientes no estandarizados, además de los coeficientes de la recta en directas, la columna error tip. Hace referencia a los errores típicos de la constante (ordenada en origen) y la pendiente de la recta. Son los denominadores del estadístico de contraste t de student de la penúltima columna. Concretamente, los errores típicos de la pendiente se obtienen de la siguiente expresión:

de la pendiente se obtienen de la siguiente expresión: La columna Sig., corresponde a los valores

La columna Sig., corresponde a los valores de probabilidad de los valores de t. Es la probabilidad de obtener el valor de t si la hipótesis nula fuera cierta. Como no hay valores que son menores que 0.05 rechaza la hipótesis nula y se concluye que el parámetro no es igual a 0. Por lo que existe relación entre ambos variables.

Conclusiones

Podemos que hay una relación entre las distintas comunidades autónomas, según la inflación y el desempleo, formando 3 grupos.

Un primer grupo formado por Andalucía, Murcia, Baleares, Valencia, Extremadura, Melilla y Castilla la mancha. De las cuales podemos decir que sus similitudes están en que presentan una inflación alta con una alta tasa de paro.

Un segundo grupo formado por La Rioja, Galicia, Aragón, Asturias, Castilla y león, Cataluña, Cantabria, Galicia, Madrid, Navarra y País Vasco. En estas comunidades autónomas nos encontramos con la similitud de un elevada inflación y una tasa de empleo bajo.

Y por último, el grupo tercero formado por Melilla, Canarias y Ceuta. Donde se caracteriza por tener una inflación más baja que las demás y con una tasa de empleo elevada.

Por lo que podemos concluir que las comunidades autónomas más afectadas en la crisis por ambas variables son las comunidades del primer grupo.

En cuanto a la relación de ambas variables a través de las comunidades autónomas nos dice que no existe relación entre ella. Esto es debido a que cada Comunidad autónoma se gestiona diferentemente y que cada una tiene diferentes problemas.

Haciendo el estudio a la evolución de ambas variables en España durante 1997 hasta 2010 vemos que ambas variables siguen una relación la cual se puede expresar por la siguiente ecuación: ^y=4.980-0.166x 1

Por lo que sacamos como conclusión de que en cuanto a la evolución de dichas variables si hay una clara relación pero además la relación existente entre el desempleo y la inflación dependerá de otras variables economicas.