Sie sind auf Seite 1von 9

Medicin de los errores en las estimaciones realizadas a partir del

panel del impuesto sobre la renta de las personas fsicas (IRPF) del
Instituto de Estudios Fiscales (IEF)
cesar.perez@ief.minhac.es, Instituto de Estudios Fiscales y Departamento de Estadstica e
Investigacin Operativa III, Universidad Complutense de Madrid

1. Introduccin

El presente trabajo tiene por objeto realizar un anlisis exhaustivo de la


problemtica en la cuantificacin del error de los estimadores obtenidos en paneles de
datos con informacin procedente de registros administrativos a partir de muestras.
Como aplicacin prctica se presenta la cuantificacin de los errores en los estimadores
derivados del panel de datos del Impuesto sobre la Renta de las Personas Fsicas del
Instituto de Estudios Fiscales 1999-2007 (panel de IRPF del IEF). Cuando los
estimadores a utilizar son de estructura matemtica compleja (ndices de Gini,
Reynolds-Smolensky, Kakwani, etc.) se utilizarn mtodos especiales de estimacin de
varianzas como el mtodo de los grupos aleatorios, el mtodo de las submuestras
interpenetrantes y los mtodos Bootstrap o de autogeneracin. Estas estimaciones
permitirn calcular los intervalos de confianza adecuados par cuantificar los efectos de
las medidas de poltica fiscal sobre regiones a nivel de estrato, e incluso ms pequeas.
Palabras clave: Muestreo, Paneles, IRPF

2. Estructura del panel de IRPF 1999/2007 del IEF

El panel de IRPF del IEF contiene informacin de rentas fiscales de personas y


hogares de una poblacin representativa de los sujetos pasivos de IRPF en el Territorio
de Rgimen Fiscal Comn a lo largo del tiempo. Este Panel responde al concepto de
Panel expandido, es decir que anualmente se incluye una representacin de las altas que
se produzcan controlando tambin las bajas. Dado el objetivo perseguido y la
informacin disponible, se considera que la opcin ms adecuada es la utilizacin de los
individuos como unidad muestral al ser esta, y no las declaraciones, una unidad
homognea a lo largo del tiempo. Ello conduce a que, en el caso de las declaraciones
conjuntas, se deban individualizar para cada uno de los cnyuges las rentas declaradas
conjuntamente y as poder realizar la seleccin de la muestra; para ello se utilizar la
informacin de la que la AEAT dispone y que de hecho utiliza en la elaboracin de los
Borradores que enva a los contribuyentes.
Para los individuos que resulten seleccionados segn los criterios establecidos,
se suministrar la informacin sobre las imputaciones individuales realizadas as como
toda la informacin de sus declaraciones presentadas por ellos (sean obligados o no y
realicen declaracin conjunta o declaracin individual). As mismo, para poder llevar a
cabo anlisis referido a hogares, se suministrar el mismo conjunto de informacin

referida a sus cnyuges, siempre que se disponga de la informacin que permita su


identificacin como tales cnyuges. Se considera como ao base del panel 2003 porque
es el primer ao en que la Agencia Tributaria graba los datos hasta tres dgitos incluidos
en los modelos de declaracin que se usan como marco muestral.
Para seleccionar la muestra, del marco de lista que incluye las declaraciones de
todos los individuos del territorio fiscal comn (mbito geogrfico) se realiza la
extraccin en base a un muestreo estratificado aleatorio, siendo las variables de
estratificacin y subestratificacin la Comunidad Autnoma de residencia (15 CCAA
del Territorio de Rgimen Fiscal Comn, adems de Ceuta y Melilla que se
considerarn como una nica comunidad autnoma), los niveles de renta bruta
agrupados en 11 tramos (Negativas y 0, inferiores a 3.000 euros, superiores a 3.000
euros e inferior o igual a 6.000 euros, superiores a 6.000 euros e inferior o igual a
12.000 euros, superiores a 12.000 euros e inferior o igual a 18.000 euros, superiores a
18.000 euros e inferior o igual a 30.000 euros, superiores a 30.000 euros e inferior o
igual a 60.000 euros, superiores a 60.000 euros e inferior o igual a 120.000 euros,
superiores a 120.000 euros e inferior a 240.000 euros y superiores a 240.000 euros) y la
fuente de renta (con dos valores posibles: proporcin de ingresos del trabajo >50 por
ciento y proporcin de ingresos del trabajo menor o igual que el 50 por ciento). En cada
CCAA (16 estratos) los individuos se agruparn segn el nivel de renta bruta que le
corresponda (16*11=176 estratos de segundo nivel) y, a continuacin, en cada uno de
los subestratos definidos segn el tramo de renta, se separaran en dos grupos los
individuos segn el origen de dichas rentas (ms del 50% de los ingresos son del trabajo
y el 50% o menos provienen del trabajo). El resultado sern 176*2 = 352 estratos de
ltimo nivel en cada uno de los cuales se realiza la extraccin aleatoria simple.
Se observa que las variables de estratificacin son adecuadas ya que dan a lugar
a estratros muy homogneos dentro de s y muy heterogneos entre s. Los declarantes
de cada Comunidad Autnoma se parecen porque la riqueza es una variable muy
correlada con la Comunidad Autnoma y adems diferencia muy acusadamente las
Comunidades entre s. Por otro lado, cada Comunidad tiene su legislacin propia sobre
el IRPF lo que tambin hace que los individuos de cada Comunidad se parezcan y se
diferencien del resto de las Comunidades. El nivel renta tambin es una variable que
produce estratos homogneos dentro y heterogneos entre ya que los ricos se parecen
entre s, los pobres tambin y adems se diferencian mucho de los ricos. Lo mismo
ocurre con la fuente de renta, ya que los individuos con slo rentas del trabajo suelen
parecerse entre s y se diferencian bastante de los que tienen adems rentas de capital y
otras rentas adicionales. Se utilizar afijacin de mnima varianza dada la gran
desigualdad de variabilidades de la renta en los distintos estratos.
3. Estimadores

El estimador de cualquier total poblacional X en muestreo estratificado


aleatorio es la suma de los estimadores del total en cada uno de los L estratos. Se tiene:

x h media muestral en el estrato h


x total muestral en el estrato h
h
N h tamao poblacional del estrato h
n tamao muestral del estrato h
h
feh factor de elevacin del estrato h

N
X st X h N h x h h xh feh xh
h 1 n h
h 1
h 1
h 1
L

Por lo tanto, para estimar cualquier total poblacional se suman los productos de los
factores de elevacin feh por los totales muestrales en cada estrato xh. El estimador de cualquier
media en muestreo estratificado aleatorio es la media ponderada de los estimadores de la media
en cada estrato, siendo los coeficientes de ponderacin Wh = Nh/N de suma unitaria (Nh es el
tamao poblacional del estrato y N es el tamao de la poblacin).
L
L
N 1
1 L N
1 L
xh h xh feh xh
X st xst Wh xh h
N nh
N h1 nh
N h1
h1
h1
Wh

Por lo tanto, para estimar cualquier media poblacional se suman los productos
de los factores de elevacin por los totales muestrales en cada estrato y se divide por el
tamao poblacional.
4. Tamao de muestra y error de muestreo

El tamao de muestra viene definido por un error relativo de muestreo menor del
1,5 por ciento, con un nivel de confianza adicional del 3 por mil (entre 300.000 y
400.000 individuos por ao). Para afijacin de mnima varianza, el tamao de muestra
para cometer un error relativo de muestreo dado er en el ao base viene dado por:
L

N h S h
h 1

400000

er N X N h S
2

h 1

2
h

S h2 = cuasivarianza poblacional en el estrato h

Sabemos que el tamao de muestra necesario para cometer un error de muestreo


dado no depende del tipo de estimador que se utilice, por lo tanto, la expresin anterior
es la misma para todos los estimadores posibles.
Una vez seleccionada la muestra con el tamao y error anteriormente especificados,
cualquier estimacin a nivel de estrato para cualquier variable correlada con las variables
de estratificacin tendr el error para el cual se calcul el tamao de muestra, es decir, un
1,5 por ciento, con un nivel de confianza adicional del 3 por mil. Para estimaciones a
niveles inferiores al de estrato, habr que usar reas pequeas, subpoblaciones o calcular
los errores a travs de las frmulas de la estimacin de las varianzas para muestreo
estratificado y afijacin proporcional que se especifican a continuacin:

1 L
V X st Nh Sh Nh Sh2
n h1
h1

1 L 1 L 2

Vxst Wh Sh Wh Sh
n h1
N h1

S h2 = cuasivarianza muestral en el estrato h

Los errores relativos estimados se calculan mediante las expresiones:

V x st

C v x st
x st

V ( X st )

C v X st
X st

5. Estimacin del error para estimadores con estructura matemtica compleja

Para realizar el anlisis redistributivo del impuesto se suelen llevar a cabo


anlisis de desigualdad. En concreto, lo habitual es calcular los ndices de Gini (IG)
antes y despus de la aplicacin del impuesto; el ndice de Reynolds-Smolensky (IRS),
que expresa el grado de redistribucin del impuesto as como la diferencia de los dos IG
mencionados; y el ndice de Kakwani (1977) (IK), que mide la progresividad del
impuesto mediante la diferencia entre el IG de la renta antes de impuestos y un ndice de
concentracin de las cuotas lquidas ordenadas segn renta.
El ndice de Gini es una medida de concentracin relativa definida como la
mitad de la diferencia media paara cada par de observaciones de renta, dividida por el
valor media de la variable cuya distribucin se evala, tradicionalmente expresado
como:
n

G( y)

y
i 1 j 1

yj

2n 2 y

Siguiendo a Glasser (1962) y Dixon (1987), alternativamente la frmula del


coeficiente de Gini puede escribirse como sigue:

G( y)

n
1
(2i n 1) y i

n(n 1) y i 1

Adicionalmente, cuando se dispone de una muestra de tamao n extrada de una


poblacin de tamao N, el ndice de Gini poblacional puede estimarse insesgadamente
mediante el estimador siguiente:
n

1 n

G ( y )
K
y

i i 2 K j K i N
Ny i 1
j 1

donde y es la variable renta, n es el tamao de la muestra, Ki es el factor de elevacin y


N es el tamao poblacional.

Como el resto de los ndices de desigualdad y progresividad dependen del ndice


de Gini, en este trabajo se cuantificar el error cometido.
Habitualmente el error absoluto de un estimador insesgado suele medirse, a
partir de los datos de una muestra, mediante la estimacin de su varianza. Pero el
problema aparece al intentar estimar la varianza cuando la expresin del estimador es
complicada, tal y como ocurre en el caso del estimador del ndice de Gini. En estas
situaciones se acude a los mtodos especficos de estimacin de varianzas utilizados en
la teora del muestreo. Entre estos mtodos tenemos el mtodo de las muestras
interpenetrantes, el mtodo de los grupos aleatorios, el mtodo de las semimuestras
reiteradas, el mtodo de Jacknife y el mtodo Bootstrap
Mtodo de las muestras interpenetrantes

El mtodo de las muestras interpenetrantes se utiliza cuando tenemos un conjunto de


dos o ms muestras, elegidas con el mismo esquema de muestreo (independientes o no) y tales
que cada una proporcione una estimacin vlida del parmetro que se pretenda estimar con el
mismo error de muestreo. Si las muestras son independientes es fcil obtener un estimador
insesgado de la varianza del estimador, tal y como se muestra a continuacin.
Sean 1 ,2 ,k estimadores insesgados de basados en k muestras independientes. Su media

1 k
i
k i

es tambin un estimador insesgado de , ya que:

k
1 k
E () E (i )

k i

y su varianza puede calcularse fcilmente como:

1 k 1
V V i 2
k i
k

) kV i V i .

V
(
i i
k
k2
k

Adems, un estimador insesgado de esta varianza es :

1 k 2

i k 2
k k 1 i

En nuestro caso, para el ao base del panel, utilizamos 20 muestras independientes de


tamao 20.000 declaraciones del IRPF. El estimador de la varianza para el ndice de Gini ser:

V G

1 k 2
2
Gi kG
k k 1 i

1 k
G G i
k i

Para nuestros datos en el ao base del panel tenemos:

V G

1 k 2
2
Gi kG 0,00000293063
k k 1 i

Este error absoluto lo relativizamos a partir del coeficiente de variacin, lo que nos lleva
al siguiente resultado:

V (G )
C V G
0,001295489
G
Podemos concluir por tanto que el error relativo para el estimador del ndice de Gini es
del 0,1295%, es decir, aproximadamente del uno por mil. Estamos ante un resultado ptimo
derivado del elevado tamao de las muestras, del elevado nmero de muestras y de la elevada
precisin de las propias muestras.
El mtodo de los grupos aleatorios

Se extrae una muestra de n unidades de una poblacin de tamao N. Dicha muestra se


subdivide en K submuestras de igual tamao m, de modo que n=K.m. Estas submuestras se
denominan grupos aleatorios, y adems de ser submuestras de la muestra, tambin son muestras
de la poblacin completa. La formacin de los K grupos aleatorios de tamao m dentro de una
muestra W de tamao n puede realizarse considerando una permutacin aleatoria de los
nmeros 1,2,...,n y eligiendo el primer grupo aleatorio formado por los elementos de la muestra
que ocupan los lugares definidos por los m primeros nmeros de la permutacin. El segundo
grupo aleatorio se formar con los elementos de la muestra que ocupan los lugares definidos por
el segundo conjunto de m nmeros de la permutacin. As sucesivamente se formarn los K
grupos aleatorios correspondientes a la muestra.
En estas condiciones si es un estimador insesgado de la caracterstica poblacional
basado en la muestra completa W, y si r es un estimador insesgado de la caracterstica
poblacional basado en el r-simo grupo aleatorio, un estimador insesgado de la varianza de
es el siguiente:

V ()

K
1
(r ) 2

K ( K 1) r 1

Este mtodo de los grupos aleatorios es igualmente vlido si se subdivide la muestra


completa W de tamao n en K grupos aleatorios de distintos tamaos m1, m2,...,mk cuya suma
sea n. En este caso la condicin V (r ) KV () se transforma en
K
m
1
V (r ) V () con r r . Tomando rr tenemos que:
n
r
r 1

2
1 K
r r insesgado de V ()

K 1 r 1

En nuestro caso utilizamos 20 submuestras independientes de tamao 20.000


declaraciones del IRPF. El estimador de la varianza para el ndice de Gini en el ao base del
panel ser:
El estimador de la varianza para el ndice de Gini ser:

V (G )

K
1
(G r G ) 2

K ( K 1) r 1

G = Gini de la muestra inicial

Para nuestros datos tenemos:


V (G )

K
1
(G r G ) 2 0,00000297912

K ( K 1) r 1

Este error absoluto lo relativizamos a partir del coeficiente de variacin, lo que nos lleva
al siguiente resultado:
V (G )
C V G
0,001307335
G

Podemos concluir por tanto que el error relativo para el estimador del ndice de Gini es
del 0,13%, es decir, aproximadamente del uno por mil. Estamos ante un resultado equivalente al
del mtodo anterior.
Mtodos Bootstrap o de autogeneracin

El mtodo de autogeneracin (bootstrap) se emplea, entre otras cosas, para la


estimacin aproximada de varianzas para estimadores complejos.
Para llevarlo a cabo partimos de la muestra de tamao 400000 declaraciones de IRPF
extrada de una poblacin de 16 millones de declaraciones en el ao base. A continuacin
extraemos de la muestra inicial M=1000 muestras con reposicin, tambin de tamao 400000 y
calculamos en cada una de ellas el estimador *j para el cual estamos calculando el error (ndice
de Gini).
La precisin del estimador se obtiene por la expresin:

M
*j
j 1
M 1

j 1

BOOT

*
j

Para nuestros datos obtenemos:

BOOT 1000

j 1

M
*j
j 1
M 1

M
0,00052414

Para expresar el error anterior en trminos relativos utilizamos el coeficiente de


variacin:

C V G BOOT 1000 0,00125543


G
Si ahora consideramos M=5000 muestras, tenemos los siguientes resultados:

BOOT 5000

j 1

M
*j
j 1
M 1

M
0,00052414

Para expresar el error anterior en trminos relativos utilizamos el coeficiente de


variacin:

C V G BOOT 5000 0,00122569


G
Se observa que con el mtodo Bootstrap nos movemos tambin en un error aproximado
del uno por mil. Adems, al elevar el nmero de muestras del mtodo Bootstrap se gana
precisin. La cuantificacin de esta ganancia en precisin s del 2,334%.
Por otro lado, todo los mtodos obtienen una precisin parecida para el estimador del
ndice de Gini.
Al repetir los clculos para los diferentes aos del panel, se obtienen resultados
similares.
6. Implicaciones de poltica fiscal

Los modelos de microsimulacin sobre datos de panel provenientes de registros


administrativos no slo permiten evaluar los efectos de las polticas pblicas actuales,
sino tambin las de sus posibles reformas, a travs de la proyeccin de los probables
cambios normativos sobre una base de datos representativa en el tiempo de la poblacin
afectada. Para comparar una misma poblacin en dos situaciones distintas en el tiempo
(la inicial y la que resultara de la hipottica aplicacin de los cambios previstos) es
ineludible disponer de la dimensin temporal que ofrecen los paneles de datos y de la
medicin de las observaciones sobre los mismos elementos de la poblacin en los
distintos momentos del tiempo. Los errores relativos acotados en las estimaciones
facilitan ese trabajo.
A travs de los datos de panel de IRPF es posible evaluar con fiabilidad (errores
mnimos) los factores que explican los movimientos en la recaudacin a lo largo del
tiempo, o la medicin del impacto sobre el tipo medio efectivo del impuesto derivado de
cambios legales que afecten a la tarifa y a las deducciones del IRPF, o el efecto
redistributivo del IRPF y el grado de progresividad del gravamen a travs de los ndices
habituales. La medicin de los efectos recaudatorios y redistributivos de una reforma y
sus implicaciones sobre el bienestar social se ven muy favorecidos cuando se dispone de
datos de panel y se aplican las tcnicas adecuadas de microsimulacin sobre ellos.
Si adems el panel se disea con estratificacin geogrfica, es posible realizar
estudios de mbito territorial. De esta forma ser posible, por ejemplo, estudiar las
distintas alternativas de descentralizacin del IRPF como instrumento de financiacin
autonmica y los efectos redistributivos de la cesin del impuesto a las Comunidades
Autnomas. Se pueden as medir los cambios distributivos de la renta en las CC AA
derivados de sucesivas reformas, as como simular escenarios de descentralizacin de la
imposicin sobre la renta personal. Juega un papel clave en todo ello la estimacin de
las magnitudes con errores conocidos y ptimos.

7. Bibliografa

[1]. PROGRESIVIDAD Y REDISTRIBUCIN EN EL IRPF ESPAOL: PANEL 82-98. ONRUBIA,


RODADO, SARRALDE, PREZ (PAPEL DE TRABAJO IEF 23/2006)
[2]. PANEL DE RENTA DEL INSTITUTO DE ESTUDIOS FISCALES 1999/2007: CSAR PREZ,
FIDEL PICOS Y JORGE ONRUBIA (IEF-2010).

[3]. MICROSIMULACIN MEDIANTE FUSIN DE PHOGUE Y PANEL DE DECLARENTES PARA


EVALUAR REFORMAS FISCALES: FIDEL PICOS. REVISTA DE ECONOMA APLICADA N 41
VOLUMEN 14 (2006)
[4]. MODELOS DE MICROSIMULACIN: APLICCACIONES A PARTIR DEL PANEL DE
DECLARANTES POR IRPF DEL INSTITUTO DE ESTUDIOS FISCALES. AYALA, ONRUBIA Y
RUIZ HUERTA. ICE N 68 (2004)
[5]. LA MUESTRA DE DECLARANTES DE IRPF 2002/2003: DESCRIPCIN GENERAL Y
PRINCIPALES MAGNITUDES. DOCUMENTOS DE TRABAJO DEL IEF 15/05 Y 20/06
FIDEL PICOS SNCHEZ, MARA ANTIQUEIRA PREZ, CSAR PREZ LPEZ, ALFREDO
MORENO SEZ, CARMEN MARCOS GARCA Y SANTIAGO DAZ DE SARRALDE MIGUEZ
[6]. LA MUESTRA DE DECLARANTES DE IRPF 2004: DESCRIPCIN GENERAL Y PRINCIPALES
MAGNITUDES. DOCUMENTOS DE TRABAJO DEL IEF 25/07. FIDEL PICOS SNCHEZ, CSAR
PREZ LPEZ, ALFREDO MORENO SEZ Y SANTIAGO DAZ DE SARRALDE MIGUEZ .
[7]. LA MUESTRA DE DECLARANTES DE IRPF 2005: DESCRIPCIN GENERAL Y PRINCIPALES
MAGNITUDES. DOCUMENTOS DE TRABAJO DEL IEF 9/09. FIDEL PICOS SNCHEZ, CSAR
PREZ LPEZ, ALFREDO MORENO SEZ, SANTIAGO DAZ DE SARRALDE MIGUEZ Y
CARMEN GONZALEZ QUEIJA.
[8]. LA MUESTRA DE DECLARANTES DE IRPF 2006: DESCRIPCIN GENERAL Y PRINCIPALES
MAGNITUDES. DOCUMENTO DE TRABAJO DEL IEF 28/09. FIDEL PICOS SNCHEZ,
CSAR PREZ LPEZ, Y MARA DEL CARMEN GONZLEZ QUEIJA.
[9]. TCNICAS DE MUESTREO ESTADSTICO. CSAR PREZ LPEZ. GARCETA (2010)

[10]. MUESTREO

ESTADSTICO. CONCEPTOS Y PROBLEMAS RESUELTOS.


LPEZ. PEARSON EDUCACIN PRENTICE HALL (2005)

[11].

CSAR PREZ

TCNICAS DE MUESTREO ESTADSTICO. TEORA, PRCTICA Y APLICACIONES


INFORMTICAS. CSAR PREZ LPEZ. RAMA (1999)

Das könnte Ihnen auch gefallen