Manualeconometriaparte 2

ALFREDO BARONIO - ANA VIANCO
K. Frisch, 1969 Tinbergen, 1969 Samuelson, 1970 Kuznets, 1971 Hicks, 1972 Arrow, 1972
Edición 2010
The Bank of Sweden Prize in
Economic Sciences in Memory of Alfred Nobel
Leontief, 1973 Myrdal, 1974 Hayek, 1974 Koopmans, 1975
Kantorovich, 1975 Friedman, 1976 Ohlin, 1977 Meade, 1977 Simon, 1978 Lewis, 1979
MANUAL DE
ECONOMETRÍA
2°Parte
Schultz, 1979 Klein, 1980
Tobin, 1981 Stigler, 1982 Debreu, 1983 Stone, 1984 Modigliani, 1985 Buchanan Jr, 1986
Solow, 1987 Allais, 1988 Haavelmo, 1989 Sharpe, 1990 Miller, 1990 Markowitz, 1990
FACULTAD DE CIENCIAS ECONÓMICAS - UNIVERSIDAD NACIONAL DE RÍO CUARTO

2010
Coase, 1991 Becker, 1992 Fogel, 1993 North, 1993 Harsanyi, 1994 Nash, 1994
Selten, 1994 Lucas Jr., 1995 Mirrlees, 1996 Vickrey, 1996 Merton, 1997 Scholes, 1997
Sen, 1998 Mundell, 1999 Heckman, 2000 McFadden 2000 Akerlof 2001 Spence 2001
Stiglitz, 2001 Kahneman, 2002 Smith, 2002 Engle III, 2003 Granger, 2003 Kydland, 2004
Prescott, 2004 Aumann, 2005 Schelling, 2005 Phelps, 2006 Hurwicz, 2007 Maskin, 2007
?
Myerson, 2007 Krugman, 2008 Ostrom, 2009 Williamson, 2009 2010 MEDAL
FACULTAD DE CIENCIAS ECONÓMICAS - UNIVERSIDAD NACIONAL DE RÍO CUARTO

2010
The Bank of Sweden Prize in Economic Sciences in Memory of Alfred Nobel
1969 "for having developed and applied dynamic models for the analysis of economic processes". Ragnar Frisch ( 1/2 of the
prize). Norway. University of Oslo, Oslo, Norway. b. 1895 d. 1973. Jan Tinbergen ( 1/2 of the prize). The Netherlands. The
Netherlands School of Economics, Rotterdam, the Netherlands. b. 1903 d. 1994
1970 "for the scientific work through which he has developed static and dynamic economic theory and actively contributed to
raising the level of analysis in economic science". Paul A. Samuelson. ( Complete prize) USA. Massachusetts Institute of
Technology. (MIT). Cambridge, MA, USA. b. 1915
1971 "for his empirically founded interpretation of economic growth which has led to new and deepened insight into the
economic and social structure and process of development". Simon Kuznets. ( Complete prize) USA. Harvard University.
Cambridge, MA, USA. b. 1901 (in Russia). d. 1985
1972 "for their pioneering contributions to general economic equilibrium theory and welfare theory". John R. Hicks. ( 1/2 of
the prize). United Kingdom. USA. All Souls Collage Oxford, United Kingdom b. 1904 d. 1989. Kenneth J. Arrow ( 1/2 of the
prize). Harvard University. Cambridge, MA, USA. b. 1921
1973 "for the development of the input-output method and for its application to important economic problems". Wassily
Leontief. USA. Harvard University. Cambridge, MA, USA. b. 1906 (in St. Petersburg, Russia). d. 1999
1974 "for their pioneering work in the theory of money and economic fluctuations and for their penetrating analysis of the
interdependence of economic, social and institutional phenomena". Gunnar Myrdal. ( 1/2 of the prize). Sweden. b. 1898 d.
1987. Friedrich August von Hayek.( 1/2 of the prize). United Kingdom. b. 1899 (in Vienna, Austria) d. 1992
1975"for their contributions to the theory of optimum allocation of resources". Leonid Vitaliyevich Kantorovich ( 1/2 of the
prize). USSR. Academy of Sciences. Moscow, USSR. b. 1912 d. 1986. Tjalling C. Koopmans. ( 1/2 of the prize) USA. Yale
University. New Haven, CT, USA. b. 1910 (in 's Graveland, the Netherlands) d. 1985
1976 "for his achievements in the fields of consumption analysis, monetary history and theory and for his demonstration of the
complexity of stabilization policy" Milton Friedman. ( Complete prize) USA. University of Chicago. Chicago, IL, USA. b. 1912
1977 "for their pathbreaking contribution to the theory of international trade and international capital movements" Bertil Ohlin
( 1/2 of the prize). Sweden. Stockholm School of Economics. Stockholm, Sweden. b. 1899 d. 1979. James E. Meade ( 1/2
of the prize). United Kingdom. University of Cambridge Cambridge, U. K. b. 1907 d. 1995
1978 "for his pioneering research into the decision-making process within economic organizations". Herbert A. Simon. (
Complete prize) USA. Carnegie Mellon University. Pittsburgh, PA, USA. b. 1916 d. 2001
1979 "for their pioneering research into economic development research with particular consideration of the problems of
developing countries". Theodore W. Schultz ( 1/2 of the prize) USA. University of Chicago. Chicago, IL, USA. b. 1902 d.
1998. Sir Arthur Lewis ( 1/2 of the prize). United Kingdom. Princeton University. Princeton, NJ, USA. b. 1915 (in Saint Lucia)
d. 1991
1980 "for the creation of econometric models and the application to the analysis of economic fluctuations and economic
policies". Lawrence R. Klein. ( Complete prize) USA. University of Pennsylvania. Philadelphia, PA, USA. b. 1920
1981 "for his analysis of financial markets and their relations to expenditure decisions, employment, production and prices".
James Tobin. ( Complete prize) USA. Yale University. New Haven, CT, USA. b. 1918 d. 2002
1982 "for his seminal studies of industrial structures, functioning of markets and causes and effects of public regulation".
George J. Stigler. ( Complete prize) USA. University of Chicago. Chicago, IL, USA. b. 1911 d. 1991
1983 "for having incorporated new analytical methods into economic theory and for his rigorous reformulation of the theory of
general equilibrium". Gerard Debreu. ( Complete prize) USA. University of California. Berkeley, CA, USA. b. 1921 (in Calais,
France) d. 2004
1984 "for having made fundamental contributions to the development of systems of national accounts and hence greatly
improved the basis for empirical economic analysis". Richard Stone. ( Complete prize) United Kingdom. University of
Cambridge. Cambridge, U. K. b. 1913 d. 1991
1985 "for his pioneering analyses of saving and of financial markets". Franco Modigliani. ( Complete prize) USA.
Massachusetts Institute of Technology (MIT). Cambridge, MA, USA. b. 1918 (in Rome, Italy) d. 2003
1986 "for his development of the contractual and constitutional bases for the theory of economic and political decision-
making". James M. Buchanan Jr. ( Complete prize) USA. Center for Study of Public Choice. Fairfax, VA, USA. b. 1919
1987 "for his contributions to the theory of economic growth". Robert M. Solow. ( Complete prize) USA. Massachusetts
Institute of Technology (MIT). Cambridge, MA, USA. b. 1924
1988 "for his pioneering contributions to the theory of markets and efficient utilization of resources". Maurice Allais. (
Complete prize) France. École Nationale Supérieur des Mines de Paris. Paris, France. b. 1911
1989 "for his clarification of the probability theory foundations of econometrics and his analyses of simultaneous economic
structures". Trygve Haavelmo. ( Complete prize) Norway. University of Oslo. Oslo, Norway. b. 1911 d. 1999
1990 "for their pioneering work in the theory of financial economics". Harry M. Markowitz ( 1/3 of the prize). USA. City
University of New Cork. New York, NY, USA. b. 1927. Merton H. Millar. ( 1/3 of the prize). USA. University of Chicago.
Chicago, IL, USA. b. 1923 d. 2000. William F. Sharpe. ( 1/3 of the prize). USA. Stanford University. Stanford, CA, USA. b.
1934
1991 "for his discovery and clarification of the significance of transaction costs and property rights for the institutional structure
and functioning of the economy". Ronald H. Coase. ( Complete prize) United Kingdom. University of Chicago. Chicago, IL,
USA. b. 1910
The Bank of Sweden Prize in Economic Sciences in Memory of Alfred Nobel (Cont.)
1992 "for having extended the domain of microeconomic analysis to a wide range of human behaviour and interaction,
including nonmarket behaviour". Gary S. Becker. ( Complete prize) USA. University of Chicago. Chicago, IL, USA. b. 1930
1993 "for having renewed research in economic history by applying economic theory and quantitative methods in order to
explain economic and institutional change". Robert W. Fogel. ( 1/2 of the prize). USA. University of Chicago. Chicago, IL,
USA. b. 1926. Douglass C. North ( 1/2 of the prize). USA. Washington University. St. Louis, MO, USA. b. 1920
1994 "for their pioneering analysis of equilibria in the theory of non-cooperative games". John C. Harsanyi ( 1/3 of the prize).
USA. University of California. Berkeley, CA, USA. b. 1920 (in Budapest, Hungary). d. 2000. John F. Nash Jr. ( 1/3 of the
prize). USA. Princeton University. Princeton, NJ, USA. b. 1928. Reinhard Selten ( 1/3 of the prize). Federal Republic of
Germany. Rheinische Friedrich-Wilhelms-Universität. Bonn, Federal Republic of Germany. b. 1930
1995 "for having developed and applied the hypothesis of rational expectations, and thereby having transformed
macroeconomic analysis and deepened our understanding of economic policy". Robert E. Lucas Jr. ( Complete prize) USA.
University of Chicago. Chicago, IL, USA. b. 1937
1996 "for their fundamental contributions to the economic theory of incentives under asymmetric information". James A.
Mirrlees ( 1/2 of the prize) United Kingdom. University of Cambridge. Cambridge, U. K. b. 1936. William Vickrey ( 1/2 of the
prize). USA. Columbia University. New York, NY, USA. b. 1914 (in Victoria, BC, Canada) d. 1996
1997 "for a new method to determine the value of derivatives". Robert C. Merton. ( 1/2 of the prize). USA. Harvard
University. Cambridge, MA, USA. b. 1944. Myron S. Acholes ( 1/2 of the prize). USA. Long Term Capital Management.
Greenwich, CT, USA. b. 1941 (in Timmins, ON, Canada)
1998 "for his contributions to welfare economics". Amartya Sen. ( Complete prize) India. Trinity Collage. Cambridge, United
Kingdom. b. 1933
1999 "for his analysis of monetary and fiscal policy under different exchange rate regimes and his analysis of optimum
currency areas" Robert A. Mundell. ( Complete prize) Canada. Columbia University. New York, NY, USA. b. 1932
2000 "for his development of theory and methods for analyzing selective samples" James J. Heckman. ( 1/2 of the prize).
USA. University of Chicago. Chicago, IL, USA. b. 1944. And "for his development of theory and methods for analyzing discrete
choice". Daniel L. McFadden ( 1/2 of the prize). USA. University of California. Berkeley, CA, USA. b. 1937
2001 "for their analyses of markets with asymmetric information". George A. Akerlof ( 1/3 of the prize). USA. University of
California. Berkeley, CA, USA. b. 1940. A. Michael Spence ( 1/3 of the prize). USA. Stanford University. Stanford, CA, USA.
b. 1943. Joseph E. Stiglitz. ( 1/3 of the prize). USA. Columbia University. New York, NY, USA. b. 1943
2002 "for having integrated insights from psychological research into economic science, especially concerning human
judgment and decision-making under uncertainty". Daniel Kahneman ( 1/2 of the prize). USA and Israel. Princeton University.
Princeton, NJ, USA. b. 1934 (in Tel Aviv, Israel). And "for having established laboratory experiments as a tool in empirical
economic analysis, especially in the study of alternative market mechanisms" Vernon L. Smith ( 1/2 of the prize) USA.
George Mason University. Fairfax, VA, USA. b. 1927
2003 "for methods of analyzing economic time series with time-varying volatility (ARCH)". Robert F. Engle III ( 1/2 of the
prize). USA. New Cork University. New York, NY, USA. b. 1942. And "for methods of analyzing economic time series with
common trends (cointegration)". Clive W.J. Granger ( 1/2 of the prize) United Kingdom University of California. San Diego,
CA, USA. b. 1934
2004 "for their contributions to dynamic macroeconomics: the time consistency of economic policy and the driving forces
behind business cycles". Finn E. Kydland ( 1/2 of the prize). Norway. Carnegie Mellon University. Pittsburgh, PA, USA;
University of California. Santa Barbara, CA, USA. b. 1943. Edward C. Prescott ( 1/2 of the prize). USA. Arizona State
University. Tempe, AZ, USA; Federal Reserve Bank of Minneapolis. Minneapolis, MN, USA. b. 1940
2005 "for having enhanced our understanding of conflict and cooperation through game-theory analysis". Robert J. Aumann
( 1/2 of the prize) Israel and USA. Center for Rationality, Hebrew. University of Jerusalem. Jerusalem, Israel. b. 1930 (in
Frankfurt-on-the-Main, Germany). Thomas C. Schelling ( 1/2 of the prize). USA. Department of Economics and School of
Public Policy, University of Maryland. College Park, MD, USA. b. 1921
2006 "for his analysis of intertemporal tradeoffs in macroeconomic policy". Edmund S. Phelps, ( Complete prize) USA.
Columbia University , New York, NY, USA. b. 1933.
2007 "for having laid the foundations of mechanism design theory". Leonid Hurwicz. 1/3 of the prize.USA. University of
Minnesota. Minneapolis, MN, USA. b. 1917. (in Moscow, Russia).Eric S. Maskin. 1/3 of the prize. USA. Institute for
Advanced Study Princeton, NJ, USA. b. 1950. Roger B. Myerson. 1/3 of the prize. USA. University of Chicago Chicago, IL,
USA. b. 1951
2008 "for his analysis of trade patterns and location of economic activity". Paul Krugman. ( Complete prize) Princeton
University. Princeton, NJ, USA. b. 1953.
2009 “"for her analysis of economic governance, especially the commons" Elinor Ostrom ( 1/2 of the prize) Indiana
University Bloomington, IN, USA; Arizona State University Tempe, AZ, USA b. 1933; "for his analysis of economic
governance, especially the boundaries of the firm" Oliver E. Williamson ( 1/2 of the prize), University of California Berkeley,
CA, USA, b. 1932
INDICE GENERAL
Capítulo 12. El Modelo Lineal General 507
Capítulo 13. Inferencia estadística en el Modelo Lineal General 581
Capítulo 14. Extensiones al Modelo de Regresión Lineal 613
Capítulo 15. Modelo de Regresión Lineal Generalizado 655
Capítulo 16. Modelos Dinámicos 679
Capítulo 17. Modelos de Probabilidad 709
Capítulo 18. Sistemas de Relaciones Lineales 715

506
507
Capítulo 12. EL MODELO LINEAL GENERAL .................. 509
12.1. Introducción ............................................................... 509
12.2. Especificación del modelo ............................................. 512
12.3. Estimación ................................................................. 517
12.4. Distribuciones teóricas de probabilidad ........................... 534

Variable aleatoria discreta .................................................. 535
Variable aleatoria continua ................................................. 537
Necesidad del uso de probabilidades .................................... 540
12.5. Distribuciones multivariables ......................................... 540

Casos especiales ............................................................... 544
12.6. Formas Cuadráticas ..................................................... 551

Distribución Estadística de Formas Cuadráticas ..................... 559
12.7. Normalidad de la perturbación aleatoria ......................... 563
12.8. Criterio de máxima verosimilitud ................................... 566
12.9. Utilidad del modelo econométrico .................................. 572
CASOS DE ESTUDIO, PREGUNTAS Y PROBLEMAS ............... 573
Caso 12.1: Correlación de muestras ....................................... 573
Caso 12.2: Estimación de parámetros .................................... 573
Caso 12.3: Consumo de cerveza y mortalidad infantil ............... 574
Caso 12.4: Primeros pasos en Eviews ..................................... 574
BIBLIOGRAFIA .............................................................. 579

508
509
Capítulo 12. EL MODELO LINEAL GENERAL
12.1. Introducción
Recordemos que la Econometría es la aplicación de métodos matemáticos

y estadísticos al análisis de los datos económicos con el propósito de dar
contenido empírico a las teorías económicas y verificarlas o refutarlas.
Para lograr estos objetivos, se utiliza como instrumento básico un modelo

que denominaremos modelo econométrico, y que trata de ser una
representación simplificada del mundo real. Este modelo, para ser
operativo, ha de estar expresado en forma matemática.
Ejemplo 12.1 Si queremos estudiar como se determina el consumo

familiar, la teoría económica modela el consumo en función de la
renta, es decir:
C  f R  con f'R  0
Para poder trabajar con este modelo hemos de suponer una forma
funcional para f , por ejemplo una relación lineal, y escribirlo como:
C  α  βR
Donde:  representa el consumo autónomo y  la propensión

marginal a consumir que se supone comprendida en el intervalo
[0,1] .
En este modelo se pretende explicar el consumo por medio de una

variable que determine el nivel de renta.
De acuerdo a esta especificación, se debería haber consumido una

proporción de la renta, medida por βR ; la diferencia entre ambas cifras
se supone constante (α ) .
Este modelo de consumo se puede utilizar:
 A nivel agregado, en cuyo caso las variables ct e yt serán

indicadores del nivel de consumo y la renta agregados. Para este
análisis se requieren observaciones numéricas de las variables
durante un periodo de tiempo t. Por lo tanto, las observaciones
correspondientes a cada una de las variables es una serie
temporal.
 A nivel desagregado, por ejemplo relacionando los gastos

semanales en consumo y los ingresos de las familias. Por lo tanto,
las observaciones correspondientes a cada una de las variables es
510
un dato obtenido de una muestra de un conjunto de familias y se

denominan datos de sección cruzada.
 Una combinación de observaciones a través de una muestra de

individuos en el tiempo se denomina datos de panel.
Ejemplo 12.2 Si queremos estimar, por ejemplo, la función de

producción de una empresa, la teoría económica modela la
producción como una función de los factores trabajo y capital:
P  f L, K 
Donde
P , es la producción, L es el factor trabajo y K el capital.
Si suponemos que la función de producción de la empresa es de la
forma COBB–DOUGLAS:
B G
P  A L K
El valor de la suma B  G va a determinar si la empresa tiene

rendimientos a escala constantes, crecientes o decrecientes.
El primer paso para lograr los fines que nos planteamos al realizar un
trabajo econométrico, es formular un modelo que, aún siendo una
representación simplificada de la realidad, permita reproducir los
patrones de comportamiento entre las variables económicas.
Normalmente, la teoría económica no suele dar muchas indicaciones de
cuál es la forma funcional del modelo y se han de realizar supuestos al
respecto.
El segundo paso es estimar los parámetros de interés del modelo a partir

de los datos disponibles y contrastar aquellas hipótesis que son
relevantes.
Ejemplo 12.3 si hemos estimado una función de producción

COBB–DOUGLAS, nos puede interesar contrastar la hipótesis de que
la empresa tiene rendimientos a escala constantes, es decir, que
B G 1.
Por último, el modelo econométrico estimado y validado se puede utilizar

para predecir valores futuros de las variables o tomar decisiones de
política económica.
El Análisis de Regresión, es una de las técnicas más utilizadas en el

trabajo econométrico.
Con el modelo de regresión tratamos de describir la relación existente

entre las variables que queremos analizar: Y , que denominaremos
variable endógena o dependiente y un conjunto de variables X , que
reciben el nombre de variables exógenas, explicativas, independientes o
regresores.
511
Estas relaciones pueden ser de carácter determinista, como las

expresadas por los modelos anteriores. Este tipo de modelos no tienen en
cuenta factores aleatorios que influyen en el comportamiento de los
agentes económicos.
Ejemplo 12.4 El modelo de consumo supone que, dada una renta

R0 , todas las familias (supongamos n familias) con esa renta
presentan un mismo nivel de consumo, lo que es poco realista.
Para modelar este comportamiento individual se introduce un
término aleatorio, la perturbación  :
C    β R  ; i  1,  , n
i 1 2 i i
Este tipo de relaciones se denominan Estocásticas.
Los parámetros del modelo son los coeficientes  j , y los que
caracterizan la función de distribución de la perturbación aleatoria
vectorial ε , es decir, su valor medio y su matriz de varianzas y
covarianzas.
 2
Vector paramétrico: w    i    i  1,,k
 
Desarrollaremos el modelo de regresión lineal general en sus distintas

fases de:
 Especificación del modelo econométrico.
 Estimación de los parámetros.
 Validación del modelo.
 Predicción.
Observación: a los fines de ilustrar cada paso usaremos una aplicación

numérica con los datos de la tabla 12.1
Ejemplo 12.5. Supongamos la siguiente información que nos
proporciona una muestra para Yi , X 2i , X 3i ; i  1, 2,  , 5 :
Tabla 12.1
i Yi X 2i X 3i
1 4 2 1
2 7 3 3
3 3 1 5
4 9 5 1
5 17 9 2
512
12.2. Especificación del modelo
Supongamos que tenemos la siguiente tabla de datos
Períodos Y X2 X3  Xk
1 y1 x 21 x 31 x k1
2

t yt x 2t x 3t  x kt

T yT x 2T x 3T  x kT
Establezcamos también que existe una relación lineal entre la variable
que queremos explicar Yt con k  1 variables independientes
X j , j  2,  , k
Yt  β1  β2 X 2t    βk X kt   t ; t  1, 2, ..., T [1]
En este modelo
 la variable Yt , t  1, ,T es la variable endógena
 las variables X jt , j  2,  , k ; t  1,  , T son las variables explicativas o

exógenas,
 β β
1
β
2 k

 β ´ , es el vector de coeficientes de regresión,
 t , t 1,,T es la perturbación aleatoria,
 T es el tamaño muestral.
Es decir, el modelo se podría expresar como un sistema de ecuaciones,

de la siguiente manera
 y 1   1   2 x 21   3 x 31     k x k 1   1
 y     x   x   x  
 2 1 2 22 3 32 k k2 2
 y 3   1   2 x 23   3 x 33     k x k 3   3 [2]
 

y T   1   2 x 2T   3 x 3T     k x kT   T
513
Que es un sistema de T ecuaciones con k incógnitas, por lo que el

modelo tiene T  k grados de libertad.
Los coeficientes de regresión  j , j  1,  , k se suponen constantes para

toda t y recogen el incremento promedio que experimenta la variable
endógena cuando se produce un incremento unitario en la variable
exógena j  ésima , permaneciendo las demás constantes.
Esta relación es lineal en los parámetros, pero no tiene por que ser lineal
en las variables. El modelo se puede escribir en notación matricial en
cuyo caso se representa de la siguiente forma:
y  X β ε [3]
Tx1 Txk kx1 Tx1
Donde cada uno de los elementos se definen según:
 y1  1 x 21 x 31  x k1   β1   1 
       
       
y 2  1 x 22 x 32  x k2   β2   2 
       
y   X    β    ε   
  .         
       
       
y  1 x 2T x 3T  x kT  β   
 T   k  T
Ejemplo 12.5.a Con la información de la tabla 12.1:
4  1 2 1  ε1 
  1  ε 
7  
3 3
  β1   2
  ε  ε 3 
y  3  X  1 1 5  β  β2
       
9  1 5 1   β3  ε 4 
 17  1  ε5 
  9 2
Se considera que el modelo de regresión lineal, satisface los siguientes

supuestos básicos:
1) El comportamiento de la variable dependiente Yt se ajusta al modelo

durante todo el período muestral, t  1, ,T .
514
Sea el vector columna x k que contiene las T observaciones de la

variable X j , j  2,  , k . Agreguemos este vector columna a la matriz
X de orden Txk . La primera columna de X corresponderá a una
columna de unos, por lo que 1 será el término constante del
modelo. Llamemos y a las T observaciones, y 1 , y 2 , , y T , y
denominemos ε al vector columna que contiene las T
perturbaciones. Ahora el modelo puede escribirse como
y  β1  x β2    x βk  ε
2 k
Esto es, y  Xβ  ε
Observación. Para evitar posibles confusiones tengamos claro que

x k es la k  ésima columna de X . Para referirnos a una única
observación utilizaremos la ecuación y  x' β  ε . Aquí x es
t t t t
un vector columna que es la traspuesta de la fila t  ésima ( 1xk ) de
X . Por lo tanto x' es la t  ésima fila de X .
t
2) Las variables explicativas X j , j  2,  , k son no estocásticas, es decir,

las consideramos fijas en muestra repetidas, y por lo tanto, la
función de distribución de la variable Y condicionada a los regresores
se puede escribir como f (Y / X ,  )  f (Y ,  ) .
3) r ( X )  k  T es decir, el rango de la matriz de variables explicativas es

completo por columnas. Este supuesto tiene dos implicaciones. Por
un lado, no es posible expresar una columna de la matriz X como
una combinación lineal del resto de las columnas, y por otro,
estamos suponiendo que disponemos de un mayor número de
observaciones que parámetros hay en el modelo.
4) La esperanza matemática de cada una de las perturbaciones es cero:
 
E t 0, t  1, 2,  , T [4]
De forma matricial, se puede escribir como:

515
  1   E (  1 )  0
   E(  )   
 2  2  0
E ε   E   3    E (  3 )   0  0
     
      
  E (  ) 0
 T  T   
Observación. aplicar el operador esperanza matemática a una

matriz o vector, significa que hay que tomar esperanza matemática
de cada uno de los elementos de la matriz o vector en cuestión.
5) La matriz de varianzas y covarianzas del vector de perturbaciones  ,

es escalar, V ε   σ ε2IT . Con este supuesto se quiere indicar que:
 La varianza es la misma para todas las perturbaciones, lo que

denominaremos perturbaciones homocedásticas,
E  ε 2   σ 2 , t  1, 2,  , T [5]
 t  
 No existe autocorrelación entre las perturbaciones de diferentes

períodos:
 
E ε t , ε s  0, t  S [6]
De forma matricial, se puede escribir como:
 ε  
 1  
  ε2  

V(ε)  E εε'   E   ε  ε ε
 3  1 2 3
ε  ε 
T 

   
 ε  
 T  
 ε2 ε ε ε ε
 E ε2 
 ε ε    1 
  E ε1ε3   E ε1εT 
Eε ε
1 2
 1 1T 
  E ε ε   E ε ε 
1 2 1 3 
ε ε  ε ε   E ε2 ε1 E  ε 
2 2
ε ε ε
 21 2 2 3 2 T   2 2 3 2 T

 E
ε ε
 31 3 2
ε ε ε
3
2
 ε ε

3 T 
Eε ε  E ε3ε2  E ε32   E ε3εT  
3 1
     
 2  
εT ε1 εT ε2 εT ε3  εT  E ε ε
 T 1
  E εT ε2  E εT ε3   2
 E ε  
 T
516
  
 V  ε1   
Cov ε ε
1 2
 
Cov ε ε
1 3
  σ 2ε
Cov ε ε
1T 
0 0  0 

  
  Cov ε ε   Cov ε ε   0
  2 
Cov ε ε Vε  σ 0  0 
2 1  2 2 3 2 T  ε
  

 
Cov ε3 ε1  
Cov ε ε
3 2

Vε 
 3
  
Cov ε ε 
3 T
 0

0 σ
2
ε
 0 

[7]
 
   
 
  Cov εT ε2  Cov εT ε3  
 2
Cov ε ε  
Vε    0 0 0  σ 
ε
 T 1  T    
6) La distribución de probabilidad del término de perturbación es normal

multivariante:
ε ~ N  0, σ 2I  [8]
 εT
El modelo explica la variabilidad de la variable dependiente Y mediante

dos componentes:
 La parte sistemática: Xβ
 La parte aleatoria: ε
El conjunto de supuestos 1) a 6) que hemos establecido, indican que las

pautas relevantes sobre el comportamiento de la variable Y vienen
dadas por la parte sistemática, “no quedando” en la parte aleatoria
ningún patrón sistemático que sea aprovechable para explicar el
comportamiento de la variable dependiente.
Los objetivos, entonces, se centran en hacer inferencia sobre el vector β

de parámetros del modelo de regresión en base a la información que nos
proporciona la muestra disponible:
Yt , 
X 2t ,  , X kt , t  1, 2,  , T
Ejemplo 12.5.b La información de la tabla 12.1 que nos

i
proporciona una muestra para Y , X , X ; i  1, 2,  , 5
2i 3i

517
12.3. Estimación
Los parámetros desconocidos del modelo vienen dados por el vector de

coeficientes de regresión β y la varianza de la perturbación σ ε2 .
La estimación de estos parámetros, se puede llevar a cabo por dos

métodos
 el método de mínimos cuadrados ordinarios
 el método de máxima verosimilitud.
El criterio de estimación de mínimos cuadrados ordinarios MCO  se basa

en elegir aquellos valores ̂ que minimizan la suma del cuadrado de los
errores, la cual se expresa anlíticamente por la siguiente función
objetivo:
Min Y ' Y  Xβˆ   Min  Y 

T 2
ˆ
 Xβ  β̂1  β̂2 X 2t    β̂ k X kt [9]
t
ˆ
β ˆ
β t 1
De las condiciones de primer orden del problema de minimización, se

obtiene un sistema de k ecuaciones, denominadas ecuaciones normales,
que podemos escribir:
 T T T
T β̂  β̂
1 2  X 2t    β̂ k  X kt   Yt
 t 1 t 1 t 1
 T T T T
  X 2t 
2
   β̂ 
 β̂
1
β̂
2  X
2t k 
X X
kt 2t  Yt X 2t
 t 1 t 1 t 1 t 1
[10]

 .......... .......... .................... .......... .................... .......... ....
 T T T T
 2
β̂
1  X kt  β̂2  X 2t X kt    β̂ k  X kt   Yt X kt
 t 1 t 1 t 1 t 1
Ejemplo 12.5.c El siguiente ejemplo ilustra la aplicación de estas

técnicas a los datos de la tabla 12.1. Supongamos que estamos
interesados en estimar el modelo: Yi  β1  β2 X 2i  β3 X 3i  ε i
Podemos construir la siguiente tabla de cálculos auxiliares:
Continúa…
518
…continuación
Tabla 12.2.
X2 X3 Y X 2Y X 3Y X2 X3 X2
2
X3
2
Ŷ eYYˆ
2 1 4 8 4 2 4 1 3,95 0,05
3 3 7 21 21 9 9 9 6,36 0,64
1 5 3 3 15 5 1 25 3,33 -0,33
5 1 9 45 9 5 25 1 9,40 -0,40
9 2 17 253 34 18 81 4 16,97 0,03
 20 12 40 230 83 39 120 40 40 0
Las ecuaciones normales son:

40  5 β̂1  20 β̂2  12 β̂3
230  20β̂1  120β̂2  39 β̂3
83  12 β̂1  39 β̂2  40 β̂3
Con solución: β̂1  0.01; β̂2  1.82 β̂3  0.30
Por lo tanto el modelo estimado resulta ser:
Yî  0.01  1.82 X 2i  0.30 X 3i
Las ecuaciones normales, se pueden obtener a través del algebra lineal y

se pueden escribir en términos matriciales, como:
X X  βˆ
'
MCO  X'y  0
Para obtener estas ecuaciones debemos operar matricialmente el sistema

que queremos minimizar. Para ello, planteamos el siguiente problema de
mínimo:
Dado que la recta de regresión debe pasar por el centro de

la nube de puntos, lo que hay que hacer es plantear la
minimización de las distancias de esos puntos a la recta. A
estas distancias las denominaremos residuos ( MCO ) y los
simbolizaremos por et . De esta forma, et  Yt  Ŷt
representa la distancia de cada observación a la recta de
regresión a estimar por y ˆ , siendo ésta la que se
ˆ  Xβ
obtendrá a partir de las estimaciones del vector paramétrico:
T
β̂ . Pero como et es una variable desvío,  et  0 , por lo que
t 1
el problema de mínimo a plantear es el de minimizar la suma
519
T
de cuadrados de los desvíos, esto es, Min  et2 ; ó, lo que es
t 1
lo mismo, en términos matriciales: e' e  (y  y
ˆ )' (y  y
ˆ )  Mín
Planteado el problema de minimización debemos operar algebraicamente

la siguiente relación:
 ˆ
Min y  Xβ ' y  Xβˆ   Min y' y  y' Xβˆ  (Xβˆ )' y  (Xβˆ )' Xβˆ  [11]
β β
 ˆ  (Xβ
De donde, y' y  y' Xβ ˆ )' y  (Xβ
ˆ )' Xβ
ˆ  y' y  2β
ˆ ' X' y  β
ˆ ' X' Xβ
ˆ
ˆ  (Xβ
Debido a que y' Xβ ˆ )' y
Entonces
 ˆ ' X' y  β
Min( e' e )  Min y' y  2β ˆ ' X' Xβ
ˆ  [12]
Las condiciones de mínimo exigen, primero, derivar respecto a la

variable, en este caso, β̂ e igualar la primera derivada a cero. Luego,
obtener la segunda derivada y demostrar que es positiva.
De esta forma,
e' e ˆ  0 , de donde
 2X' y  2X' Xβ
ˆ
β
ˆ 0
 X' y  X`Xβ [13]
Que determina las ecuaciones normales que se quería encontrar.
Por otra parte, dado que r ( X )  k  T , existe una solución única al

sistema de ecuaciones normales: el estimador mínimo-cuadrático
ordinario del vector de parámetros β :
ˆ
β '
MCO  X X  1
X'y [14]
520
Aunque este es el resultado deseado, a partir del cual se obtienen los

estimadores MCO  , aún falta demostrar la condición de segundo orden
del problema de minimización, esto es:
 2 e' e
 2X`X  0 [15]
β ˆ2
Y esto es así, debido a que la matriz X' X es definida positiva.
Para demostrar que X' X es definida positiva, especifiquemos
c  Xd [16]
Tx1 Tx1
Siendo d un vector no nulo de orden kx1. De esta forma c es de orden

Tx1 . Como r ( X)  k  T , garantizamos que c no es nulo. La consecuencia
de no ser nulo es que cualquiera sea el signo de sus elementos el
producto de su transpuesta por él mismo será siempre un escalar positivo
– ya que al premultiplicarlo por su transpuesta obtenemos la suma de sus
elementos elevados al cuadrado – entonces
c' c  d' (X' X)d  0 [17]
Por lo tanto, X' X es definida positiva.
Observación: La derivada de βˆ ' X' Xβˆ es la derivada de una forma

cuadrática, donde X' X es la matriz de dicha forma y β̂ es el vector de la
misma. Para diferenciar una forma cuadrática, cuya expresión analítica,
para este caso, es
 T T T 
 x 2t  x 3t  x kt
 T t 1 t 1

t 1 
T T 2 T T   ˆ 1 
  x 2t  x 2t  x 2t x 3t   x 2t x kt   ˆ 
t 1 t 1 t 1 t 1   ˆ 2 
ˆ1 ˆ 2 ˆ 3  ˆ k   T x T x x
 T 2
 x 3t 
T
 x 3t x kt   
3
( 1xk ) t 1 3t t 1 3t 2t    
t 1 t 1
        
 ˆ
T T T T 2  ( kxk1)
t x  x x 2t  x kt x 3t
1 kt t 1 kt t 1
  x kt 
t 1 
( kxk )
se aplica la regla general que establece que “la derivada de una forma
cuadrática respecto a cada uno de los elementos del vector de dicha
forma, es igual a dos veces el producto de la matriz de la forma
cuadrática por el vector de la misma”, en nuestro caso:
521
ˆ ' (X' X)β

β ˆ
ˆ
 2X' Xβ [18]
ˆ
β
[18] es un vector columna de k elementos.
Esto se puede demostrar desarrollando la forma cuadrática y aplicando

derivadas,
βˆ ' X' X βˆ 

 T T T 
βˆ1T  βˆ 2  x 2t  βˆ 3  x3t    βˆ k  x kt
 t 1 t 1 t 1 
 T T 2 T T 
 βˆ1  x 2t  βˆ 2  x 2t  βˆ 3  x 2t x3t    βˆ k  x 2t x kt 

 βˆ1 βˆ 2 βˆ 3  βˆ k   T 
t 1 t 1
T
t 1
T 2
 βˆ  x  βˆ  x x  βˆ  x    βˆ  x x 
t 1
T 
 1 t 1 3t 2 t 1 3t 2t 3 t 1 3t k t 1 3t kt 
  
 βˆ T x  βˆ T x x  βˆ T x x    βˆ T x 2 
 1 t 1 kt 2 t 1 kt 2t 3 t 1 kt 3t k t 1 kt 
 T T T 
 ˆ 1  ˆ 1T  ˆ 2  x 2t  ˆ 3  x 3t    ˆ k  x kt  
 t 1 t 1 t 1 
 
 T T 2 T T 
 ˆ 2 ˆ 1  x 2t  ˆ 2  x 2t  ˆ 3  x 2t x 3t    ˆ k  x 2t x kt 
 t 1 t 1 t 1 t 1 
 T T T 2 T 
 ˆ 3  ˆ 1  x 3t  ˆ 2  x 3t x 2t  ˆ 3  x 3t    ˆ k  x 3t x kt  
 t 1 t 1 t 1 t 1 
 
 T T T T 2 
   ˆ k ˆ 1  x kt  ˆ 2  x kt x 2t  ˆ 3  x kt x 3t    ˆ k  x kt 
 t 1 t 1 t 1 t 1 
Reagrupando términos
ˆ  Tˆ 2  2 ˆ ˆ T x  2 ˆ ˆ T x    2 ˆ ˆ T x 
ˆ ' X' X β
β 1 1 2 2t 1 3 3t 1 k kt
t 1 t 1 t 1
2T 2 T T
 ˆ 2  x 2t  2 ˆ 2 ˆ 3  x 2t x 3t    2 ˆ 2 ˆ k  x 2t x kt 
t 1 t 1 t 1
2 T 2 T
 ˆ 3  x 3t    2 ˆ 3 ˆ k  x 3t x kt 
t 1 t 1
2 T 2
   ˆ k  x kt
t 1
522
Podemos diferenciar parcialmente esta expresión con respecto a cada

uno de los elementos de β̂ . El resultado de las derivadas parciales se
ordena en forma de vector columna. Aunque también podrían ordenarse
en forma de vector fila. No obstante, el requisito importante es la
consistencia del tratamiento que debe darse a los vectores y matrices de
las derivadas de la función para que sean de orden apropiado para su
posterior manipulación.
Derivando esta expresión respecto de ̂1 los primeros k términos,

respecto de ̂ 2 los segundos k términos, y así siguiendo… el vector de
derivadas parciales es
 βˆ ' (X' X)βˆ 

 βˆ   T T T 
2Tβˆ1  2 βˆ 2  x 2t  2 βˆ 3  x3t    2 βˆ k  x kt
 1   t 1 t 1 t 1 
 βˆ ' (X' X)βˆ   T T 2 T T 
 βˆ   2 βˆ1  x 2t  2 βˆ 2  x 2t  2 βˆ 3  x 2t x3t    2 βˆ k  x 2t x kt 
βˆ ' (X' X)βˆ  2   t 1 t 1 t 1 t 1 
  βˆ ' (X' X)βˆ   T T T 2 T 
βˆ  2 β  x3t  2 β 2  x 2t x3t  2 β3  x3t    2 βk  x3t x kt 
ˆ ˆ
 βˆ   1 t 1 t 1 t 1 t 1 
 3         
 ˆ  ˆ  ˆ T T T T 2 
 β' (X' X)β   2 β1 t x kt  2 βˆ 2  x 2t x kt  2 β3  x3t x kt    2 βk  x kt 
 1 t 1 t 1 t 1 
 βˆ k 
 T T T T 
 x 2t  x3t   x kt
 t 1 t 1 t 1  ˆ
T T 2 T T   β1 
  x 2t  x 2t   βˆ 
 x 2t x3t   x 2t x kt
 t 1 t 1 t 1 t 1   ˆ2 
 2 T
 x
T T 2 T
   β3  [19]
 x 2t x3t  x3t   x3t x kt
 t 1 3t t 1 t 1 t 1    
       βˆ 
T T T T 2   k
t x
1 3t
 x x  x x
t 1 2t 3t t 1 3t kt
  x kt 
t 1 
Que es el resultado enunciado.

523
Ejemplo 12.5.d Siguiendo con el ejemplo de la tabla 12.1

1
 1 2 1 
   4
  1 1 1 1 1 1 3 3   1 1 1 1 1 7
    2 3 1 5 9  3
β̂  2 3 1 5 9  1 1 5 
MCO 
       
 1 3 5 1 2  1 5 1  1 3 5 1 2  9
   17 
 1 9 2  
1
 5 20 12   40 
  230 
  20 120 39 
 12 39 40   
   83 
 3279  332  660   40 
  332 56 45  230 
1

5 20 12 
 660
  
200   83 
20 120 39
 45
12 39 40
 0.01  ˆ 1 
ˆ
β  1.82    ˆ 2 
MCO    
0.30   ˆ 3 
El resultado es igual al obtenido al resolver las ecuaciones

normales, en el Ejemplo 12.5.c.
De las ecuaciones normales se derivan, entre otras, las siguientes dos

propiedades de la estimación mínimo – cuadrática ordinaria, la primera
de las cuales se ve directamente en la tabla 12.2 del Ejemplo 12.5.c:
T
1.  et  0 [20]
t 1
donde et  Yt  ˆ1  ˆ 2 X 2t    ˆ k X kt son los denominados

residuos mínimo-cuadrático ordinarios:
T
2. t 1
X jt et  0 j  2,  , k [21]
es decir, los residuos MCO  , son ortogonales a todas las variables

explicativas del modelo. Como se puede observar en la figura 12.1 para
el caso de k  2
524
Y Línea de regresión muestral

Observación muestral ( x t , y t )
Ŷt  ˆ 1  ˆ 2 X 2t
yt
et t
ŷ t
Línea de regresión poblacional
E ( Y / X )   1   2 X 2t
xt X
Figura 12.1. Líneas de regresión poblacional y muestral
Observación. Para demostrar estas propiedades consideremos el vector

de residuos MCO 
ˆ  y  e  Xβ
e  y  Xβ ˆ [22]
Por [13]  Xy  XXβˆ  0 , el que puede reexpresarse como

ˆ  X' y
(X' X)β
Reemplazando y por su igual en [22]

ˆ  X' (e  Xβ
(X' X)β ˆ)
Realizando los productos convenientemente

ˆ  X' e  (X' X)β
(X' X)β ˆ [23]
Para que la igualdad en [23] se cumpla, debe ocurrir que X' e  0 ; si

desarrollamos la expresión, obtenemos
 T 
  et 
 1   e1   T  0
t 1
 1 1 1
 
x
 21 x 22 x 23 x 2T   e 2   x 2t et  0
 t 1   
(X' e)   x 31 x 32 x 33 x 3T    e3    T  0 0 [24]
     x 3t et   
       t 1  
 x k 1 
xk2 xk3 x kT  eT     0
T
 x e 
 
t 1
kt t

525
Como consecuencia de esta propiedad, los residuos de la regresión MCO 

tienen siempre media aritmética igual a cero (siempre y cuando se
incluya término independiente en la ecuación de regresión). Esto es
debido a que el primer elemento del vector de orden tx1 que obtuvimos
como resultado es igual a cero, es decir
T
T  et
 et 0e  t 1
T
0
t 1
A su vez, los demás elementos establecen que la correlación muestral
entre los residuos y cada variable es cero.
Una vez estimados los coeficientes de regresión, β j , la recta de regresión

muestral,
Yˆ  X βˆ
t t
permite estimar los valores de la variable endógena Yt , dado los valores


de las variables exógenas X it . Y es de orden Tx1, X es de orden Txk,
t t
y β̂ es de orden kx1.
 β̂ 
 1
 β̂2 
Esto es, Ŷt  [ 1 X X  X ]  β̂ 
2t 3t kt  3 
  
 
 β̂k 
Ejemplo 12.5.e En el ejemplo resulta:

 ˆ 1 
 
Ŷt  [ 1 X 2t X 3t ]  ˆ 2 
 ˆ 
 3
 Ŷ t  0 . 01  1 . 82 X  0 . 30 X ;
2t 3t
Se obtiene, de esta manera, igual resultado que el obtenido en el
Ejemplo 12.5.c.
526
Los estimadores MCO  , β̂ , bajo los supuestos 1) a 6) son lineales,

insesgados y óptimos, en el sentido de tener la mínima varianza dentro
de la clase de estimadores lineales e insesgados (teorema de Gauss–
Markov).
La linealidad no requiere de demostración; es evidente, en el cálculo del

coeficiente en [14], la relación lineal que una al vector de estimadores
con la matriz que contiene los valores observados de las variables.
Para demostrar que el estimador es Insesgado se parte de [14]:
βˆ  (X' X) 1 X' y
Utilizando [3]
ˆ  (X' X) 1 X' (Xβ  ε)

β
Realizando los productos pertinentes
ˆ  (X' X) 1 X' Xβ  (X' X) 1 X' ε

β
En el primer término del segundo miembro: (X' X) 1 X' X  I , por lo que
ˆ  β  (X' X) 1 X' ε
β
Utilizando el operador esperanza matemática
E (βˆ )  β  (X' X) 1 X' E (ε)
Por [4], E (ε)  0 por lo que
E (βˆ )  β [25]
Un estimador es Óptimo cuando tiene mínima varianza. Antes de

demostrar esto, se debe hallar la varianza del estimador; la diferencia
entre el estimador y su esperanza matemática es igual a
ˆ  E( β
β ˆ )β
ˆ  β  β  (X' X) 1 X' ε  β
La varianza del estimador V(βˆ ) se define
ˆ )  E {[β
V(β ˆ  β][β
ˆ  β]' }
527
Ahora bien, al demostrar la propiedad de insesgadez, se obtuvo que
ˆ  β  (X' X) 1 X' ε
β
De modo que,
βˆ  β  (X' X) 1 X' ε
Entonces:
  
V (βˆ )  E (X' X) 1 X' ε (X' X) 1 X' ε 
Aplicando las propiedades de matriz trapuesta:
 E[(X' X) 1 X' εε' X(X' X) 1 ]
Introduciendo el operador esperanza matemática
 (X' X) 1 X' E (εε' )X(X' X) 1
Por lo establecido en [7], E (εε' )  σ ε2IT ; al reemplazarlo en la expresión

anterior
 (X' X) 1 X' σ ε2IT X(X' X) 1
σ ε2 es una constante, por lo que premultiplica al resto de la expresión
 σ ε2 (X' X) 1 X' IT X(X' X) 1
Simplificando en la expresión anterior X' IT X(X' X) 1 , la varianza del

estimador es el producto entre la varianza del término de perturbación y
la matriz inversa de (X' X)
V(βˆ )  σ ε2 (X' X) 1 [26]
Para demostrar que esta varianza es mínima, supongamos otro

estimador
β*  [(X' X) 1 X'P]y [27]
Donde P es cualquier matriz de orden (kxT) que en caso de anularse

ˆ.
hace que β*  β
528
Ahora, reemplazando [3] en [27]
β*  [(X' X) 1 X'P](Xβ  ε)  β  (X' X) 1 X' ε  PXβ  Pε
Al tomar esperanza matemática
E (β*)  β  (X' X) 1 X' E (ε)  PXβ  PE (ε)
Aplicando lo establecido en [4]
E (β*)  β  PXβ
Si PX  0
E (β*)  β
Lo que significa que β * es un estimador insesgado
El cálculo de la varianza de β * es
V(β* )  E [β * β][β * β]'
Donde
β * β  β  (X' X) 1 X' ε  PX
β  Pε  β
0
Manteniendo la restricción PX  0
β * β  (X' X) 1 X' ε  Pε
Reordenando
β * β  [(X' X) 1 X'P]ε
Reemplazando β * β en V(β*) , se tiene que
  
V(β*)  E X´X  X´ P εε´ X X´X   P´
1 1

Introduciendo el operador esperanza
V(β*)  [(X' X) 1 X'P]E (εε' )[X(X' X) 1  P' ]
Por [7], E (εε' )  σ ε2I
V(β*)  [(X' X) 1 X'P]σ ε2IT [X(X' X) 1  P' ]

529
Teniendo en cuenta que σ 2 es constante y realizando los productos:
V(β*)  σ ε2 [(X' X) 1 X' X(X' X) 1  PX(X' X) 1  (X' X) 1 X' P'PP' ]
Introduciendo la restricción PX  0 , que da lugar a que XP  0 , y

operando algebraicamente, la expresión anterior se reduce a:
V(β*)  σ ε2 [(X' X) 1  PP' ]
Por lo tanto,
  ˆ)
V(β*)   ε2 (X' X) 1  PP'  V(β [28]
La diferencia entre las varianzas de β̂ y β * es PP' , lo que hace que

V(β*)  V(βˆ )
Observación. El siguiente resultado muestra en forma conjunta las

propiedades anteriores. Sea c un vector columna de k elementos y 
una magnitud aleatoria escalar.
ν  c' β
1x1 1xk kx1
De tal manera que si elegimos c'  [ 0 1 0  0]
 1 
 
Entonces,   [ 0 1 0  0 ]     2
2
  
 
 k 
De esta forma, podemos usar ν  c' β para seleccionar un elemento de
β.

Pero también, si c'  1 X 2,n 1 X 3,n 1  X k ,n 1 
Entonces,   E (Yn 1 )
Que es el valor esperado de la variable endógena Y en el período (u

observación) n  1 condicionado a los valores de X en ese período.
530
Consideremos una clase de estimadores lineales e insesgados de  . Sea

 un escalar definido como combinación lineal de  , tal que
  a' y  a' Xβ  a'
Donde a es un vector columna de n elementos y donde y, X, β son los

vectores y matriz definidas anteriormente.  será un estimador
insesgado de  si y solamente si a' X  c' , veamos
E (  )  a' Xβ  a' E ( ) 
 a' Xβ 
 c' β  a' X  c'
Además,
V (  )  E {[   E (  )] 2 } 
 E {[ a' Xβ  a'  a' Xβ ] 2 } 
 E {( a' )( a' )' } 
 E { a' ' a }  a' E ( ' )a
Por tanto,
V (  )   2 a' a
Entonces el problema es elegir a para minimizar a' a sujeto a las k

restricciones de que a' X  c' , esto es a' X  c'  0 .
Por lo que tenemos un problema de mínimo sujeto a restricciones.

Utilizando los multiplicadores de Lagrange, definamos
  a' a  2 λ' ( X' a  c )

1x1 1x1 1xk kxn nx1 kx1
Donde λ es el vector columna de los k multiplicadores de Lagrange

(orden kx1 ) y donde a' X  c' se ha transpuesto para ser conformable.
Diferenciamos, para obtener la primera condición,

 2a  2Xλ  0  a  Xλ  0
a

 2(X' a  c)  0  X' a  c  0
λ
De donde,
531
a  Xλ  X' Xλ  c  λ  (X' X) 1 c
 a  X(X' X) 1 c
De forma tal que el estimador lineal e insesgado de varianza mínima

deseado de   c' β es
  a' y
  c' (X' X) 1 X' y
  c' βˆ
Es decir, los β parámetros desconocidos se reemplazan por los β̂

estimadores mínimos cuadráticos ordinarios y como consecuencia se
tiene que:
 Cada ̂ i es ELIO de  i
 El ELIO de cualquier combinación lineal de los β parámetros es esa

misma combinación lineal de los β̂ estimadores
 El ELIO de E (Ys ) es ˆ 1  ˆ 2 X 2,s  ˆ 3 X 3 ,s    ˆ k X k ,s
La varianza de las perturbaciones  ε2 , se puede estimar mediante la

expresión:
e' e
S2  [29]
T k
Ejemplo 12.5.f El valor de las perturbaciones para el ejemplo que

se está desarrollando:
 0.05 
 0.64 
 
0.05 0.64  0.33  0.40 0.03  0.33
 
 0.40 
 0.03  0.68
S2    0.34
53 2
Este estimador es insesgado bajo los supuestos 1) a 6)
532
Para conocer la precisión con que se estiman los parámetros, es

necesario derivar la matriz de varianzas y covarianzas de los
estimadores, que bajo los supuestos habituales, es de la forma
ˆ
Vβ 2 '
 ε X X
1
  [30]
Un estimador insesgado de V βˆ  , se puede obtener sustituyendo en la

expresión anterior la varianza de las perturbaciones por su estimador
insesgado:
V 
ˆ
ˆ β  S
2
X ' X 1 [31]
Ejemplo 12.5.g El cálculo para los datos de la tabla 12.1 es
1
 5 20 12   1.79  0.18  0.36 
ˆ )  0.34  20 120 39 
ˆV(β  0.34   0.18 0.03 0.02 
   
 12 39 40   0.36 0.02 0.11 
 
 0.61  0.06  0.12  V̂ ( ˆ 1 ) Cov ( ˆ 2 ˆ 1 ) Cov ( ˆ 3 ˆ 1 ) 
   0.06 0.01  
0.01  Cov (  2  1 ) V̂ ( ˆ 2 )
ˆ ˆ Cov ( ˆ 3 ˆ 2 ) 
   
 0.12 0.01 0.04  Cov ( ˆ 3 ˆ 1 ) Cov ( ˆ 3 ˆ 2 ) V̂ ( ˆ 3 ) 
Que es la matriz de varianzas y covarianzas de los estimadores

para los datos del ejemplo.
La estimación anterior es posible demostrarla a partir de la suma de

cuadrado de los residuos ( SCR ) . Esta suma es un escalar que se puede
calcular a partir de
T
SCR   et2  e' e [32]
t 1
Por [22], e  y  Xβˆ
Utilizando el resultado de [14]
e  y  X(X' X) 1 X' y
Reagrupando términos en torno a y

533
e  [IT  X(X' X) 1 X' ]y

  
M
El coeficiente de y se denomina matriz M
e  My
M es una matriz de orden TxT que posee propiedades interesantes a los


efectos de su posterior tratamiento; es idempotente M2  M , es
simétrica M'  M y MX  0 .
Reemplazando y por su igual en [3]
e  My  M(Xβ  ε) [33]
resolviendo
e  MXβ  Mε
Aplicando las propiedades de la matriz M
e  Mε [34]
Por lo que la suma de cuadrados de los errores será
e' e  ε' M' Mε
Aplicando las propiedades de simetría e idempotencia se obtiene un

escalar,
e' e  ε' M2ε
e' e  ε' Mε [35]
Si al escalar definido en [35] le aplicamos el operador esperanza

matemática, obtenemos
E ( e' e )  E ( ε' Mε )
si a esta igualdad le aplicamos la traza
E( e' e )  E [ tr ( ε' Mε )]
Pero en general, la trAB  trBA , por lo que
E ( e' e )  E [ tr ( Mεε' )]
534
Pero la traza de un escalar es igual al mismo escalar
E ( e' e )  trE( Mεε' )
Pero M depende de X que es no estocástica; es decir, M es una

constante, por lo que
E (e' e )  tr ME (εε' )
Nuevamente, por [7] E (εε' )  σ ε2I
E ( e' e )  tr ( M ε2 IT )
De modo que
E ( e' e )   ε2 trM [36]
Pero la traza de la matriz M es
trM  tr [ I T ]  tr [ X(X' X) 1 X' ]  tr [ I T ]  tr [ (X' X) 1 X' X ] 

 tr [ I T ]  tr [ Ik ]  T  k
Por consiguiente, en [36]
E ( e' e )   ε2 (T  k ) [37]
e' e
De donde se observa inmediatamente que: S 2  , es un estimador
T k
insesgado de  ε2 .
Con este último punto hemos concluido con la tarea de especificar y

estimar un modelo por el método de mínimos cuadrados ordinarios, con
todas las propiedades que hacen a esos estimadores lineales, insesgados
y óptimos.
12.4. Distribuciones teóricas de probabilidad
La teoría de las Distribuciones Estadísticas es fundamental para el análisis

de la información en la toma de decisiones. Es necesario distinguir entre
las distribuciones experimentales y las distribuciones teóricas, teniendo
535
en cuenta que estas últimas se determinan por la teoría de la

probabilidad.
La distribución de una variable aleatoria (sea teórica o no) se utiliza para
calcular, a partir de una muestra, el parámetro de la población que se
quiera estimar. Además, se definen distribuciones de probabilidad (o
función de densidad) y distribuciones acumulativas de probabilidad (o
función de distribución) que se usan para calcular la probabilidad de que
ocurra determinado comportamiento de la variable.
En el módulo anterior se hizo la distinción entre variables aleatorias

discretas y variables aleatorias continuas, pero nada se dijo respecto a su
distribución de probabilidad.
Ejemplo 12.6. Al pronosticar las ventas de la Empresa A a los fines de establecer

el gasto financiero futuro, quizás se quiera determinar la probabilidad de que la
venta real sea igual a 10 unidades, 12 unidades, 15 unidades, o 18 unidades. Este
tipo de información se resume en la distribución acumulativa de probabilidad de la
variable aleatoria y en la distribución de probabilidad de la misma.
Variable aleatoria discreta
La distribución de probabilidad de una variable aleatoria discreta X,

indicada como f(x), se define como una regla que asigna a cada número
real x la probabilidad de que la variable X asuma el valor x. Es decir,
f ( x )  p( X  x )
En cambio, la distribución acumulativa de probabilidad de X, indicada
como F(x), se define como una regla que asigna a cada número real x la
probabilidad de que la variable aleatoria X sea igual o menor que el valor
de x. Es decir,
F ( x )  p( X  x )   f ( xi )
Xi x
536
Ejemplo 12.7. Se define una variable aleatoria X como las unidades que constituyen
la demanda de los productos de la Empresa A durante el año próximo. Se suponen
posibles e igualmente probables cuatro niveles de venta: 10, 12, 15 ó 18 unidades.
Como las probabilidades de estos cuatro resultados posibles deben sumar 1, la
distribución de probabilidades de X está dada por:
P ( X  10)  1
 4
P ( X  12)  1
f (x)   4 (1)
P ( X  15)  1
4
P ( X  18)  1
 4
(1) indica que la probabilidad de que la demanda sea de 10, 12, 15 ó 18 unidades es
cada una igual a ¼.
La distribución acumulativa de probabilidades de X, estará dada por:
P ( X  10)  1
 4
P ( X  12)  1 2
F (x)   (2)
P ( X  15)  3 4

 P ( X  18)  1
(2) dice que hay una probabilidad de ¼ que la demanda sea igual o menor a 10
unidades, una probabilidad de ½ de que la demanda real sea menor o igual a 12
unidades, una probabilidad de ¾ de que la demanda sea menor o igual a 15 unidades
y una probabilidad cierta (igual a 1) de que la demanda sea menor o igual a 18
unidades.
La Figura 12.2 representa la distribución de probabilidad dada por (1) y a la

distribución acumulativa de probabilidad dada por (2).
Figura 12.2Pronóstico de Ventas
a) Distribución de Probabilidad b) Distribución acumulativa de

probabilidad
f(x) F(x)
3/4
1/2
1/4 1/4
0
5 10 15 20 X 5 10 15 20 X
537
El valor esperado de una variable aleatoria discreta X, indicado como

E ( X ) , se define:
E( X )   x i f ( x i ) [38]
i
donde,
x i representa cualquier valor posible de X, y
f ( x i ) es la probabilidad de que X  x i .
Es decir, E ( X ) es un promedio ponderado de todos los valores posibles
de X, donde las ponderaciones son las respectivas probabilidades de
estos valores.
La varianza de una variable aleatoria X, indicada por V(X), se define:
V ( X )   x i  E ( X )2 f ( x i ) [39]
i
donde, todos los términos responden a las definiciones anteriores. Es

decir, V(X) es un promedio ponderado de las desviaciones cuadráticas de
los valores observados de X con respecto al valor esperado de X, donde
las ponderaciones son las respectivas probabilidades.
La desviación estándar de una variable aleatoria X, de suma utilidad

práctica, se define como la raíz cuadrada de la V(X).
Variable aleatoria continua
En el campo de las variables aleatorias continuas el análisis anterior se ve

ciertamente modificado. La Distribución de Probabilidad de X es:
xj
f ( x )  P ( xi  X  x j )   f ( x )dx donde x i  x j
xi
Es decir, f(x) es una distribución donde el área bajo la misma entre x i y

x j , es exactamente la probabilidad de que X asuma un valor entre x i y
x j . De la misma manera, la Distribución acumulativa de probabilidad,
F(x), está dada por la expresión:
x
F ( x )  P ( X  x )   f ( s )ds

donde s es una variable de integración.

538
Es decir, para determinar la probabilidad acumulativa de que X sea igual

o menor que x, se calcula el área bajo la distribución de probabilidad,
f(x), entre - y x. La probabilidad de que la variable aleatoria continua X
sea exactamente igual a cierto valor x es cero.
El valor esperado y la varianza de variables aleatorias con distribución de
probabilidad continua, se definen con las respectivas fórmulas como:

E ( X )   xf ( x )dx [40]


V( X )  

x  E( X )2 f ( x )dx [41]
donde, f(x) es la distribución de probabilidad de la variable aleatoria X.
Ejemplo 12.8. Una distribución de probabilidad de una variable aleatoria

continua es la distribución de probabilidad normal estándar. La distribución de
probabilidad y la distribución acumulativa de probabilidad de una variable
aleatoria X normal estándar son las que muestra la Figura 12.3.
Figura 12.3 Distribución normal estándar

a) Distribución de probabilidad b) Distribución acumulativa de probabilidad
0.40 1.00
0.50
-4 -3 -2 -1 0 1 2 3 4 -4 -3 -2 -1 0 1 2 3 4
No necesariamente todas las variables aleatorias bajo estudio responden

a las distribuciones teóricas de probabilidad. Existen las distribuciones
experimentales que, una vez obtenidas, pueden o no responder a las
formas de las distribuciones teóricas. Precisamente este será tema de
análisis más adelante.
En el Cuadro 12.1 se presentan algunas distribuciones teóricas de
probabilidad, tanto discretas como continuas. Se han incluido en el
cuadro las distribuciones de probabilidad (también llamadas funciones de
densidad cuando están asociadas con variables aleatorias que responden
a determinada distribución teórica de probabilidad) y los principales
parámetros (media, varianza) de las distribuciones.
Es importante comentar aquí que a partir de las distribuciones muestrales
se obtienen estimadores de los parámetros poblacionales. Estos
estimadores, por provenir de una muestra aleatoria constituyen, en sí
mismos, variables aleatorias sujetas a distribuciones de probabilidad y a
539
distribuciones acumulativas de probabilidad. Esta es la verdadera

naturaleza de la Inferencia Estadística.
Cuadro 12.1: Algunas Distribuciones Teóricas de Probabilidad

Distribución Distribución de Probabilidad Parámetros
de X (o Función de Densidad) E(X) V(X)
a. Discretas
Poisson
e   k
P( X  k )  ; k  0,1, , n ,   0  
k!
Geométrica
P ( X  k )  q k 1p; k  1,2, 1 q
p p2
Binomial
n
P ( X  k )    p k ( 1  p ) n k ; k  0,..., n np npq
k 
Pascal
 k  1 r k r r rq
P ( X  k )    p q ; k  r , r  1,...
 r  1 p p2
Hipergeomé-
 r  N  r  N n
trica    np npq
k n  k N 1
P ( X  k )     ; k  0,1,2...
 N
 
n
Multinomial npi npi q i
n! p 1n1  p nk
P ( X 1  n1 , X 2  n 2 ,... X k  n k ) 
n1 ! n 2 !  n k i  1,2 k
b. Continuas
Normal 1  x  
2
 
f( x) 
1
e 2   
;  x    
2 
Exponencial
f ( x )  e x ; x  0 1 1
 2
Gamma  r r
f( x)  ( x ) r 1 e x ; x  0
( r )  2
En síntesis, para estimar un parámetro de una variable aleatoria X, que

posee distribución normal, se usará el estimador que va a obtenerse a
partir de la distribución muestral de la variable aleatoria X. Este
estimador es de suma utilidad para realizar inferencias y es una variable
540
aleatoria que posee una distribución normal, ya que proviene de una

muestra tomada de una variable aleatoria con dicha distribución.
Necesidad del uso de probabilidades
Toda decisión tomada en cualquier circunstancia, en el ámbito

empresario o fuera de él, tiene efecto durante un período de tiempo que
se extiende hacia el futuro. Esta característica, que es común a todas las
decisiones empresarias, probablemente se observe con mayor intensidad
en las áreas comerciales, financieras y de producción. Sin embargo, una
decisión involucra aspectos del futuro, cualquiera sea la base sobre la
que sea tomada.
Teniendo en cuenta que al evaluar una propuesta se estará mirando
hacia el futuro, ésta se traducirá en estimaciones de variables; por
ejemplo, costos, gastos, ventas, precios, inversiones o impuestos, que
estarán sujetas a cierto nivel de incertidumbre. Ante este nivel de
incertidumbre en la estimación de variables importantes para la empresa,
¿es suficiente trabajar con el valor sospechado, probable o
experimental?, o ¿es más conveniente trabajar con la distribución de
probabilidad de cada variable?.
Hay que tener en cuenta que el riesgo es inseparable de la estimación de
cualquier alternativa de decisión. Evidentemente, en el campo de la toma
de decisiones, es más importante basarse en los métodos probabilísticos
que en los subjetivos.
12.5. Distribuciones multivariables
En Inferencia Estadística hemos visto un tratamiento casi completo del

modelo de dos variables. Para facilitar una posterior comprensión
introducimos a continuación resultados estadísticos básicos en forma
matricial.
Supongamos que x representa un vector de variables aleatorias
X 1 , X 2 , , X n .
El valor esperado de cada variable es:  i  E ( X i ); i  1,2, , n
Agrupando estos valores esperados en un vector μ , se obtiene
 E ( X 1 )   1 
E ( X )    
μ  E( x )   2 
  2 [42]
     
   
E ( X n )   n 
541
La aplicación del operador E (esperanza) al vector x significa que E se

aplica a cada elemento de x .
La varianza de X i es, por definición V ( X i )  E [( X i   i ) 2 ] . La covarianza

entre X i y X j es Cov ( X i , X j )  E [( X i   i )( X j   j )]
Si definimos el vector x  
 X1  μ1 
X  μ 
 2 2
X μ : 
 
 : 
 X T  μn 
y tomamos E [ x   x   ' ] , nos queda
  ( X 1  1 )  
  
( X 2   2 ) 
E [( X 1  1 )( X 2   2 )( X n   n )] 
   
( X n   n )
 
 
 E ( X 1  μ1 ) 2 E ( X1  μ1 )( X 2  μ 2 )  E ( X 1  μ1 )( X n  μn ) 
 
 E ( X 2  μ 2 )( X1  μ1 ) E ( X 2  μ2 ) 2  E ( X 2  μ 2 )( X n  μn )
= [43]
     
 
E ( X n  μn )( X1  μ1 ) E ( X n  μn )( X 2  μ 2 )  E ( X n  μn ) 2 
Vemos que los elementos de esta matriz son las varianzas y covarianzas
de las variables X i , teniendo en cuenta las definiciones dadas, la matriz
de varianzas y covarianzas que puede representarse como:
 σ12 Cov  X 1 X 2   Cov  X 1 X T 
 
Cov  X 2 X1  σ 22  Cov  X 2 X T 
    
 
Cov  XT X1  Cov  X T X 2  
2
σn 
Las varianzas son los elementos de la diagonal principal y las covarianzas

aquellos elementos fuera de ésta diagonal. Esta matriz se conoce como
matriz de covarianzas y se simboliza como
V ( x )  Σ  E ( x  μ)( x  μ)' [44]
542
Está claro que Σ es simétrica (esto es, Σ  Σ' ). Es importante analizar si

Σ es definida positiva o no lo es. Porqué es importante? Veremos más
adelante que esto asegura el cumplimiento de la no dependencia lineal
entre las variables exógenas lo que implica NO MULTICOLINEALIDAD,
este es uno de los elementos que darán CONSISTENCIA AL MODELO.
Demostremos esto.
Proposición 12.5.1: Para que Σ sea definida positiva las X deben ser
linealmente independientes.
Demostración: Definamos una variable aleatoria escalar Y como una
combinación lineal de las X ,
Y  (x  μ )' c [45]
donde c es un vector columna arbitrario de n elementos no todos nulos.

Elevando [45] al cuadrado
Y 2  c' (x  μ )(x  μ )' c
esto es, por ser un escalar de argumento vectorial, su cuadrado se

obtiene premultiplicando por su transpuesta
y aplicando el operador esperanza, se obtiene
E ( Y 2 )  E [ c' (x  μ )(x  μ )' c ] = c' E [ (x  μ )(x  μ )' ] c
por ser c un vector de elementos constantes y x un vector de variables

aleatorias, entonces
E ( Y 2 )  c' Σc [46]
Puesto que Y es una variable aleatoria escalar se cumplirá

que: E ( Y 2 )  0 de esta forma, c' Σc  0 y Σ es semidefinida positiva.
Como vemos, E ( Y 2 ) puede asumir un valor nulo o un valor mayor que

cero. Si asume un valor nulo, se tiene E ( Y 2 )  0 lo que implica1 que
Y  0 , de esta forma (x  μ )' c  0 ; pero como c no es un vector nulo la
única posibilidad es que (x  μ)'  0 , lo cual significa que las desviaciones
de X con respecto a su media, esto es ( X 1  1 )( X 2   2 )( X n   n ) ,
son linealmente dependientes2.
1
La E(Cte)=Cte => E(Cte2)=Cte2 por lo tanto si Cte=0 => E(Cte=0)=0. De esta forma E(Y2)=0 => Y2=0 por lo
tanto, Y=0
2
Si para un conjunto de parámetros  , no todos nulos, pertenecientes a un campo numérico F tenemos que si se
cumple la siguiente combinación lineal1 a1 + 2 a2 + ... + n an = 0 se dice que los vectores a1, a2,..., an son
LD dentro de F, salvo que la igualdad se cumpla solo y solo si todos los  i (i=1, 2, ...,n) son iguales a cero.
543
Entonces, Σ es definida positiva si y solo si entre las X no existe

dependencia lineal.
Las k variables aleatorias tendrán alguna función de densidad de

probabilidad multivariante
p(x )  p( X 1 , X 2 , , X n )
La función de densidad de probabilidad más importante es la normal

multivariante que, al igual que la univariante, queda especificada una vez
que se conoce su media y su varianza. En este caso se puede especificar
en términos del vector de medias μ y de su matriz de covarianzas Σ . De
este modo la fórmula es:
1
1 [  (x μ)'Σ1(x μ)]
p( x )  1/ 2
e 2 [47]
( 2 ) n / 2 Σ
donde:
Σ es una matriz simétrica, definida positiva, cuyos elementos  ij son

parámetros
μ es un vector nx1, cuyos elementos μ i son parámetros.
 1 
 
   2
 
 
 n 
Una forma compacta de escribir [47] es
x ~ N( μ; Σ )
es decir, el vector x de variables X se distribuye según una ley normal

i
multivariante con vector de medias μ y matriz de covarianzas Σ.
Entonces se dice que los vectores son LI. Esta definición se aplica también cuando el número de vectores es uno,
de modo tal que un único vector a1 es independiente si a1  0 y dependiente si a1=0, es decir, es el vector nulo.
En el caso que nosotros analizamos se cumple esta última condición ya que cada variable desvío es nula y
544
Casos especiales
a) Cuando n=1,
Σ   1n 1   11  E [( X 1  1 )( X 1  1 )]  E [( X 1  1 ) 2 ]   12   2 [48]
y [47] se transforma en
1 2]
[ (x  μ)
1 2 2
p( X )  e [49]
( 2 )1 / 2 
que es la conocida función de densidad para una normal univariante.
b) Cuando n=2,
p( x )  p( X 1 , X 2 ) [50]
Donde X se define como

 X  1 
X  1 
 X 2  2 
La matriz Σ se obtiene a partir de

 X  μ1  
Σ  E  1   X1  μ1  X 2  μ2 
 X 2  μ 2  
Realizando los productos correspondientes

  X  1  X 1  1   X 1  1  X 2   2  
  E 1
 X 2   2  X 1  1   X 2   2  X 2   2 
Que puede expresarse como

  E
 X 1  1 2  X 1  1  X 2   2 

 X 2   2  X 1  1   X 2   2 2 
Aplicando el operador esperanza
 E  X 1  1  E  X 1  1  X 2   2 
2
 
 E  X 2   2  X 1  1  E  X 2   2 2 
Σ se convierte en
conforma un vector nulo: x  (x μ)'  0 ; esto es,[x1, x2, ...,xn]=[(X1-µ1), (X2-µ2), ...(Xn-µn)]=[0, 0, ...,0]
donde xi es la variable desvío.
545
  2  12 
 1 2
 21  2 
donde  12   21  covarianza
Teniendo en cuenta que el coeficiente de correlación entre X 1 , X 2 es
 12
 [51]
[  11 22 ] 1 / 2
entonces
σ12  ρσ11σ 22 
1
2
σ11  σ12 y σ 22  σ 22 por lo que podemos distribuir la raíz
 12    12  22   1 2
Lo cual significa que  21   2 1 , por lo que la matriz Σ puede expresarse

como
 σ ρσ1σ 2 
Σ   11 [52]
 ρσ 1σ 2 σ 22 
El determinante de la matriz Σ es
Σ  σ11σ 22 (1  ρ 2 )
Donde los elementos σ11 y σ 22 se demuestran al igual que en [48]
Adviértase que el Σ  0 a no ser que  2  1 , de forma que la matriz de

covarianza es definida positiva, siempre y cuando no exista una relación
lineal perfecta entre las dos variables, lo que concuerda con el resultado
más general dado en la proposición 12.5.1.
Sustituyendo los resultados anteriores en [47], se obtiene:

1
p X   eA
2  2  12 22 1   2  2
2 1
Donde
1
1  2  1 2   X 1  1 
A    X 1  1 X 2   2  1   
2   2 1  22   X 2   2 
546
1
Trabajemos con el exponente A ; veamos a qué es igual 
1
1   12  1 2  1 1
    Adj   2 2 Adj 
  2 1  22    1  2   2 12 22
La matriz Adjunta de  (Adj  ) es la transpuesta de la matriz de cofactores de


  Cof 
 
La matriz de cofactores se construye a partir del cálculo de los menores

principales  1  i j
M i  j   


  2
   2 1    22   1 2 
2
Adj   Cof     1i  j M       
  1 2  12    2 1  12 
reordenando
1 1   22   1 2 
  2 2


 1  2 1   2   2 1   12 

1
Reemplacemos Σ por su igual
1 1   22   1 2   X 1  1 
A X 1  1 X 2  2 
2  

 12 22 1   2   2 1

 12   X 2   2 

1
A
2 12 22 1  2 
 X 1  1  22   X 2   2   1 2   X 1  1   1 2    X 2   2  12 
 X 1  1 

 X 2  2 
A
1  
  X 1  1  22   X 2   2   1 2   X 1  1   

2 12 22 1   2  
 
  X 1  1   1 2    X 2   2  12  X 2   2  
1  X 1  1 2  22   X 1  1  X 2   2   1 2   
A 2 2
2 1  2 1   2    
 X 1  1  X 2   2   1 2    X 2   2 2  12 
  X 
1
 1   22  2  1 2  X 1  1  X 2   2    X 2   2   12
2 2
A
2 12 22 1  2
1
547
1
Introduciendo
 12 22
1   X 1  1 2  22 2  1 2  X 1  1  X 2   2   X 2   2 2  12 
A  

2 1  2  
  12 22  12 22  12 22


1   X 1  1 2 2   X 1  1  X 2   2   X 2   2 2 
A  

2 1  2  
  12  1 2  22


Se puede reexpresar como
1  X    2  X  1   X 2   2    X 2   2 
2

A 
1 1
  2  1 

2 1  2    1  1 2  
 2 


Reemplacemos en
1  1
p(x )  p( X 1 , X 2 )  exp 
2πσ1σ 2 1  ρ
2  2(1  ρ 2 )
[53]
 X  μ  2  X1  μ1  X 2  μ 2   X 2  μ 2   
2
 1 1   2 ρ    
 σ1   σ
 1 
 σ
2
  σ
  2
 
  

que es la función de densidad para un vector de dos variables, que se

distribuye normal bivariante.
c) La forma cuadrática de la normal multivariante se define como
Q  (x  μ)' Σ 1 (x  μ) [54]
Es una forma cuadrática en los elementos X i  μ i , y puede escribirse así:
n n (X i   i )( X j   j )
Q   [55]
j1i1  ij
Como quedó demostrado la matriz de la forma cuadrática, Σ , es definida

positiva por lo que la forma cuadrática también lo es. Un resultado
548
inmediato de esto es que p(x )  0 , puesto que el determinante de una

matriz definida positiva es positivo, Σ  0 . Esto basta para probar que
[47] satisface una de las propiedades que la califican como función de
densidad. La otra propiedad que deberíamos probar es que     p(x )  1.
Cuestión que se cumple pero que no demostraremos aquí.
d) Un caso especialmente importante de [47] se da cuando todas las X

tienen la misma varianza  2 y no están correlacionadas entre sí (lo que
es lo mismo decir que son estadísticamente independientes). Para que
esto ocurra Σ debe ser una matriz diagonal, esto es
 11 0  0 
 0   0 
Σ  I 
2 22
[56]
     
 
 0 0   nn 
donde:
n es el número de variables
 11   22     nn   2
 ij  0, i  j . Esto ocurre si y solamente si el coeficiente de correlación

 ij es cero cuando i  j .
Esta matriz tiene las siguientes particularidades

2n
Σ σ ,
Σ
1/ 2
 
 σ
2n 1/ 2
 σ 2 n/2
1 1
Σ  2
I
σ
con lo que
[  1 (xμ )'(xμ )]
e 2
1 2
p( x )  [57]
( 2 2 ) n / 2
La ecuación [57] se puede factorizar de la siguiente forma:

549
n
 1  1 
p(x )  p( X 1 , X 2 ,  X n )    2 1/ 2
exp  2 ( X i  μi ) 2  
i 1  ( 2πσ )  2σ  [58]
 p( X 1 ) p( X 2 )  p( X n )
de modo que la densidad multivariante es el producto de cada una de las

densidades marginales; es decir, las X se distribuyen
independientemente unas de otras. Este resultado es de gran
importancia. Si los coeficientes de correlación entre variables que se
distribuyen normalmente son cero entonces las variables son
estadísticamente independientes3.
Ejemplo 12.9 Dada una matriz de 3x3
 11 0 0 
B   0  22 0 
 0 0  33 
Donde:
 3 es el número de variables
 σ11  σ 22  σ 33  σ 2
  ij  0, i  j , lo cual indica que el coeficiente de correlación  ij
es cero cuando i  j .
El determinante es
B  σ 2*n  B  σ11σ 22σ 33  σ 2σ 2σ 2  σ 2*3  σ 6
La inversa es
1
B 1  I
σ2
Para el cálculo se utilizará el método de la matriz adjunta, por el cual

1
B 1  Adj (B )
B

 
 σ2 2
0 0 
  


Adj B   Cof B    1i  j M iB j  0  
σ2
2
0 
 0
 0  
σ2
2

Continúa…
3
No se puede generalizar este resultado a cualquier tipo de distribución y deberá tenerse presente que las
correlaciones que deben ser cero son las poblacionales y no las muestrales
550
continuación

 
 σ2 2
0 0 

 0  
σ2
2
0 σ I
4
 0
 0  
σ2
2

De modo que:
1 4 1
B 1  6
σ I 2I
σ σ
Quedan demostradas las particularidades que tiene la matriz 
e) Un caso más general se obtiene de particionar la matriz Σ de la

siguiente forma
Σ 0 
Σ   11  [59]
 0 Σ 22 
donde: Σ11 es cuadrada de orden r y Σ 22 es cuadrada de orden n  r .
La forma de [59] significa que todas y cada una de las variables del
conjunto X 1 , X 2 , , X r están incorrelacionadas con todas y cada una de las
variables del conjunto X r 1 , X r  2 , , X n .
Aplicando una partición similar a x y a µ, se tiene:
(x  μ )' Σ 1 (x  μ )  (x 1  μ 1 )' Σ1-1 (x 1  μ 1 )  (x 2  μ 2 )' Σ -1

2 (x 2  μ 2 ) [60]
También se puede demostrar que
Σ  Σ 11 Σ 22 [61]
Tanto de [60] como [61] se obtienen de propiedades de partición de

matrices cuadradas no singulares4.
Aplicando [60] y [61] en [47] se obtiene:
4
Matriz simétrica A=A' (sólo se cumple para matrices cuadradas: m=n). Matriz no singular es aquella que admite
3
inversa y esta es única si la matriz es cuadrada. Matriz idempotente A=A2=A =...=An.
551
 1  1  
p( x )   1 2
exp  2 (x 11  μ 11 )' Σ -1
11 (x11  μ 11 ) 
 (2 ) 11
/
r /2
  
[62]
 1  1  
x  1/2
exp 
 2 22 (x  μ 22 )' Σ -1
22 (x 22  μ )
22  
 (2 )   
n r / 2
 22
es decir,
p( x )  p( x 1 )p( x 2 ) [63]
de forma que las r primeras variables se distribuyen independientemente

de las n  r variables restantes.
12.6. Formas Cuadráticas
Supongamos que nuestra matriz simétrica Σ de orden nxn se combina

con el vector x de n elementos de la siguiente forma:
 11  12  13   1n 
 X 
 21  22  23   2 n   1 
X
X 1 X2 X3  X n  31  32  33   3n   2 
   
       
Xn
 n1  n 2  n3   nn   
 X1 
X 
σ11 X1  σ 21 X 2  σ 31 X 3  ...  σ n1 X n  σ1n X 1  σ 2 n X 2 ...  σ nn X n  2  
  
 
Xn 
x' Σx   11 X 12  2 12 X 1 X 2  2 13 X 1 X 3    2 1n X 1 X n 
  22 X 22  2 23 X 2 X 3    2 2n X 1 X n 
[64]
  33 X 32    2 3n X 3 X n  
   nn X n2
Esta forma se conoce con el nombre de forma cuadrática, donde:

552
 Σ es la matriz de la forma cuadrática, en nuestro caso la matriz de

covarianzas.
  ij , para todo i=1, 2, ...n y para todo j=1, 2, ...n, son los elementos
de la matriz de la forma cuadrática, en nuestro caso
E [( X i   i )( X j   j )]   ij
 x'  [ X 1 , X 2 , , X n ] , es el vector de variables aleatorias
Propiedades:
a) Si x' Σx  0 x  0 , se dice que la forma cuadrática es definida
positiva y se dice que Σ es una matriz definida positiva. (ver proposición
12.5.1)
b) Si x' Σx  0 x  0 , la forma cuadrática y la matriz son semidefinidas

positivas.
c) Si las desigualdades anteriores cambian de signo se dice que las

matrices y las formas cuadráticas son definidas y semidefinidas negativa,
respectivamente.
d) Si una forma cuadrática es positiva para algunos vectores x y para

otros negativa, entonces se dice que es indefinida.
Condiciones necesarias y suficientes

a) Una condición necesaria y suficiente para que una matriz simétrica y
real Σ sea definida positiva es que el determinante de cada submatriz
principal sea positivo.
Las submatrices principales de Σ son un conjunto de n submatrices tales

que
  ii  ij  ik 
 ii  ij   
σ ii ,  ,  ji  jj  jk  ,  , Σ
 ji  jj   ki  kj  kk 
 
Lo más común es considerar las matrices superiores
 11  12  13 
 11  12 
Σ1  σ 11 , Σ 2   
 21  22  , Σ 3   21  22  23  ,  , Σ n  Σ [65]
 31  32  33 
553
Cuando Σ es definida positiva, x' Σx  0 para cualquier x distinto de cero.

Por lo tanto, podemos considerar un vector x cuyos primeros elementos
son distintos de cero y los restantes n  r elementos son nulos, es decir,
x'  [x' r 0' ]
Entonces
Σ  x r 
x' Σx  [x'r 0] r  x'r Σr x r
   0 
donde se ha particionado en las primeras r y las últimas n  r filas y

columnas y los asteriscos representan a otras submatrices de Σ que
serán absorbidas por los subvectores nulos de x . Puesto que
x' Σx  0
se deduce que
x' r Σr x r  0
Así pues, dadas las condiciones anteriores, todas las raíces de Σr son
positivas, de forma que
Σr  0
Por lo tanto, con una elección adecuada de los vectores x , la condición

necesaria y suficiente para que Σ sea definida positiva se puede expresar
como
Σ1  0, Σ 2  0, Σ 3  0, , Σ  0 [66]
b) Otra condición necesaria y suficiente para que Σ sea definida positiva

es que los valores característicos5 de Σ sean positivos.
Para demostrar la condición necesaria supongamos que x' Σ x  0 .

Para cualquier valor característico i
5
Los valores característicos  i de la matriz Σ , son las raíces del polinomio que se obtiene al resolver el sistema
(Σ  λI)x  0 . Si la matriz Σ  λI no es singular, la única solución es la trivial x  0 . Por lo tanto, para que
una solución no trivial exista, la matriz debe ser singular o, en otras palabras, el siguiente determinante: Σ - I
debe ser cero. Este determinante se conoce como la ecuación característica de la matriz Σ . Esto da un polinomio
en λ . Cada raíz o valor característico  i se puede sustituir en (Σ  λI)x  0 , con lo que se obtendrán los
correspondientes vectores característicos.
554
Σx i  λ i x i
premultiplicando por x' i da
x' i Σx i  λ i x' i x i  λ i
puesto que se cumple que x' Σx  0 para cualquier x distinto de

cero, también se cumplirá para cualquier vector característico de
forma que i  0 para todo i.
Para demostrar la condición suficiente suponemos que todas las i

son mayores que cero y demostramos que x' Σx  0 .
Puesto que una matriz simétrica tiene un conjunto completo de n

vectores característicos ortogonales6 x 1 , x 2 ,  , x n , cualquier vector
no nulo x se puede expresar como una combinación lineal de los
vectores característicos.
x  c1x 1  c 2 x 2    c n x n
Así pues,
x  c1x 1  c 2  x 2    c n x n 
 c11x 1  c 2 2 x 2    c n n x n
x' x  ( c1x 1  c 2 x 2    c n x n )' ( c11x 1  c 2 2 x 2    c n n x n )

 c12 1  c 22 2    c n2 n
puesto que
0 i  j
x'i x j   ij   i , j  1, 2, , n
1 i  j
Habiendo supuesto que todos los i son positivos, entonces

x' Σx  0 , ya que los c i2 son siempre positivos.
TEOREMA 12.6.1. Si Σ es simétrica y definida positiva, se puede

encontrar una matriz no singular P tal que:
Σ  PP' [67]
6
Los vectores ortogonales cumplen con la condición que x' x  I
555
Para hallar P, primero hay que encontrar los valores característicos de Σ

a partir de Σ  λI
 11  12  13 

Ejemplo 12.10 Supongamos Σ   21  22  23  y hagamos el

 31  32  33 
calculo del determinante de Σ  λI
 11  12  13   0 0 
   
 21  22  23    0  0 
 31  32  33   0 0  
Donde
  ij son constantes
  son incógnitas, representan los valores característicos
Si resolvemos la diferencia de matrices

σ11  λ σ12 σ13
σ 21 σ 22  λ σ 23
σ 31 σ 32 σ 33  λ
 σ11  λ σ 22  λ σ 33  λ   σ12σ 23σ 31  σ 21σ 32σ13 
 σ13 σ 22  λ σ 31  σ12σ 21 σ 33  λ   σ 32σ 23 σ11  λ 
 11 22 
  11   22   2  33      12 23 31   21 32 13
  13 22   13   31   12 21 33   12 21   32 23 11   32 23  
Veamos que
 21   12
 31   13 Entonces σ12σ 23σ 31  σ 21σ 32σ13
 32   23
Por lo que σ12σ 23σ 31  σ 21σ 32σ13  2σ 21σ 32σ13

Si  21   12   12 21   12 
2
Entonces el determinante será
σ 
σ 22σ 33  σ11 λσ 33  σ 22 λσ 33  λ2σ 33  σ11σ 22 λ  σ11 λ2  σ 22 λ2  λ3
11
 2σ 21σ 32σ13  σ13  σ 22  σ13  λ  σ12  σ 33  σ12  λ  σ 32  σ11  σ 32  λ

2 2 2 2 2 2
Continúa…
556
continuación
Agrupando de acuerdo a la potencia de 
 2 2 2

 3   11   22   33 2   13    12    23    11 33   22 33   11 22 

  11 22 33  2 21 32 13   13   22   12   33   32   11
2 2 2

Esta última expresión es el determinante de Σ  λI
α  σ11  σ 22  σ 33

Definamos  β  σ13   σ12   σ 23   σ11σ 33  σ 22σ 33  σ11σ 22
2 2 2

γ  σ11σ 22σ 33  2σ 21σ 32σ13  σ13  σ 22  σ12  σ 33  σ 32  σ11
2 2 2
De modo que
Σ  I  3  2    
Debemos encontrar λ1 ; λ2 ; y λ3 que hacen que el polinomio se

anule
 3  2      0
Cuando hallemos los λi

 3  2        1    2   3 
La primera parte, que consiste en encontrar los valores propios,

está cubierta; λ1 , λ2 y λ3 son los valores propios que estábamos
buscando.
La segunda parte consiste en encontrar los vectores propios
(también denominados autovectores o vectores característicos).
Para esto tenemos que hacer:
 Con 1 ; resolver el sistema Σ  1IX 1  0 . La incógnita es el
vector propio X 1 , la resolución del sistema nos permite hallar su
valor.
 Con  2 ; resolver el sistema Σ   2 IX 2  0 y hallar el segundo
vector propio
 Con 3 ; resolver el sistema Σ  3 IX 3  0 y hallar el tercer vector
propio
En síntesis, en el polinomio hay que encontrar los valores de  que lo

anulen; dicho de otro modo, las raíces características de la matriz que
anulen el polinomio. Luego con cada uno de los  se resuelve el sistema
Σ  i IX  0
donde la incógnita es el vector X.
557
Cada  da lugar a un vector X distinto y cada uno de estos vectores X

son los vectores característicos, vectores propios o auto vectores de la
matriz Σ .
Luego, reunimos estos vectores característicos en una matriz D, que

pueden utilizarse para diagonalizarla. Es decir, D  diag ( 1 ,  2 , ,  n ) es
una matriz con los vectores característicos de Σ y tiene en su diagonal
principal los valores característicos de la matriz Σ . De modo que:
X ΣX  D  Σ  XDX  [69]
Cuando Σ es definida positiva, todos sus valores característicos son

positivos por lo que es válido hacer
  
Es decir, D se puede descomponer en los factores
D  D 1/2 D 1/2 [70]
donde
 λ1 0  0 
 
0 λ2  0 
D1/2  [71]
     
 
 0 0  λn 
Sustituyendo

Σ  XDX  XD1 2 D1 2 X  XD1 2 XD1 2 


Habíamos dicho que Σ  PP entonces quiere decir que P  XD1 2 siendo P
no singular
sustituyendo en [69] se obtiene:
Σ  XD1/2D1/2 X'  (XD1/2 )(XD1/2 )'
por lo tanto, como Σ  PP'
se concluye que
P  XD1/2 [72]
y P es no singular puesto que es el producto de dos matrices no

singulares.
558
TEOREMA 12.6.2. Si Σ es nxn y definida positiva y si P es nxm con

rango igual a m , entonces
P' ΣP es definida positiva
Queda claro que P' ΣP es simétrica y para cualquier vector y de m

elementos
y' (P' ΣP)y  x' Σx
donde, x  Py
Por lo tanto, a x se le puede considerar como una combinación lineal de

las m columnas LI de P, por lo que:
x  0 sí y solo sí y  0
Así pues, P' ΣP es definida positiva.
Proposición 12.6.2. Dadas dos matrices A y B, si A es nxm con rango

m  n , entonces A' A es definida positiva y AA' es semidefinida
positiva.
Ejemplo 12.11 Supongamos una matriz A de orden nxm con rango

m
A A  AA  rango ( AA)  m

mxn nxm mxm
A A  AA  rango ( AA)  m  n donde hay, m columnas

nxm mxn nxn
linealmente independientes y n-m columnas linealmente
dependientes
Proposición 12.6.3. Si A es nxm con rango k  min( m , n ) , entonces

A' A y AA' son ambas semidefinidas positivas.
Proposición 12.6.4. Dadas dos matrices A y B, si ambas son definidas

positivas y su resta también lo es, entonces la resta de sus
respectivas inversas es definida positiva. A  B definida positiva
 B 1  A 1 .
559
Distribución Estadística de Formas Cuadráticas
a) Supongamos que
x ~ N(0, I)
es decir, x es un vector de n elementos y cada una de las n variables

en x se distribuyen normal e independiente, con media cero y
varianza 1. O sea las Xi son variables aleatorias normales
independientes tipificadas.
Teniendo en cuenta a σ  1 , se tiene
x' Σx  x' Ix  x' x  X12  X 22    X n2
o sea la suma de cuadrados de n variables aleatorias normales

tipificadas. De la definición de chi-cuadrado
x' x ~  2 (n) [73]
b) Supongamos que x ~ N(0, 2 I)
Ahora, x' Σx  x' (  2 I )x
O sea que la matriz de la forma cuadrática es una matriz identidad

premultiplicada por un escalar  2 .
De esta forma cada variable aleatoria normal X i deberá dividirse por

 2 para que su varianza sea la unidad. Así pues,
X 12 X 22 X n2
  ~ χ 2 (n)
 2
 2
 2
1
es decir, x' x ~ χ 2 (n)
 2
o lo que es lo mismo,
x' (  2I ) 1 x ~ χ 2 (n) [74]
O sea que la suma de cuadrados de variables aleatorias normales con

media cero y varianza constante distinta de uno se distribuye Chi-
cuadrado con n grados de libertad.
560
La ecuación [74] muestra explícitamente que la matriz de la forma

cuadrática es la inversa de la matriz de covarianzas.
c) Supongamos ahora que
x ~ N(0, Σ)
donde Σ es una matriz definida positiva.
La expresión equivalente a [74] sería ahora
x' Σ 1x ~  2 (n) [75]
De hecho este resultado se cumple pero la demostración no es

inmediata ya que las variables aleatorias normales X ya no son
estadísticamente independientes. El procedimiento consiste en
transformar las X en Y , las cuales serán variables aleatorias
normales independientes y tipificadas.
Puesto que Σ es definida positiva, de acuerdo a [67] existirá una

matriz no singular P tal que Σ  PP' , que da lugar a:
Σ-1  (P 1 )(P 1 )' 

 [76]
(P 1 )Σ-1 (P 1 )'  I 
Definamos un vector y de n elementos como
y  P 1x
las variables Y son normales multivariantes puesto que son

combinaciones lineales de las X ,
E ( y )  P 1E ( x )  P 1 0  0 porque X ~ N0, Σ
V ( y )  E [( P 1xx' (P 1 )' ]  P 1Σ(P 1 )'  I (de acuerdo a [76])
Este resultado significa que las Y son variables aleatorias normales

tipificadas, de media 0 y varianza 1, por lo que:
y' y ~ χ 2 (n) [77]
Pero, según se vió, y  P 1x ; de modo que
y' y  x' (P-1 )' P 1x

561
De acuerdo a [76]
y' y  x' Σ1x
luego, x' Σ 1x ~  2 (n)
que es el resultado que se anticipó en [75]
d) Supongamos de nuevo que x ~ N(0, I)
y ahora consideremos la forma cuadrática x' Ax donde A es

idempotente con rango r  n .
Si representamos a la matriz de vectores característicos de A por Q ,

entonces
Q' AQ  D [78]
donde D tendrá r unos y n  r ceros en la diagonal principal.
1 
 1 
 
r términos = rango(A)
  
 
 1 
 0 
 
   n-r términos
 0 

Definamos: y  Q' x , entonces, x  Qy
Entonces:
E Y   E Q X   Q E X   0

V Y   E Q X Q X    E Q XX Q   Q E XX Q  Q IQ  Q QI
 
Al ser Q ortogonal, es decir vectores LI,
Q   Q 1  Q Q  Q 1Q  I
Por esto
V ( y)  I [79]
De esta forma las variables Y son normales tipificadas e

independientes.
La forma cuadrática se puede expresar ahora usando [78] como:

562
x' Ax  y' Q' AQy
donde
Qy  x
QAQ  D
De modo que
x' Ax  y' Q' AQy  Y12  Y22    Yr2
Por lo tanto,
x' Ax ~ χ 2 (r ) [80]
Generalizando, si x ~ N(0, 2 I) y A es idempotente con rango r  n ,

1
entonces x' Ax ~ χ 2 (r )
 2
Proposición Independencia de la Forma cuadrática.

12.6.5.
Supongamos que x ~ N(0, 2 I) y que tenemos dos formas
cuadráticas x' Ax y x´Bx donde A y B son matrices
idempotentes simétricas del mismo orden. Se distribuirán con
independencia estadística si y solamente si el producto de las matrices
idempotentes es la matriz nula
AB  BA  0 [81]
Se puede demostrar diciendo que, si las matrices son idempotentes

simétricas, tenemos
x' Ax  (Ax)' (Ax) y x´Bx  (Bx)' (Bx)
Si existe correlación nula entre cada una de las variables del vector
Ax y las del vector Bx entonces se distribuirán independientemente
una de otra y, por lo tanto, cualquier función de un conjunto de
variables, tal como x' Ax se distribuirá independientemente de
cualquier función del otro conjunto, tal como x´Bx . Las covarianzas
entre las variables de Ax y de Bx vendrán dadas por
E [ (Ax)( Bx )' ]  E [ Axx' B ]   2 AB
Estas covarianzas (y, por lo tanto, las correlaciones) serán todas cero
siempre y cuando AB  0 .
563
Puesto que A y B son simétricas, esta condición también se puede

establecer como que BA  0 ; una implica la otra.
Proposición 12.6.6. Del mismo modo una forma cuadrática y una

función lineal L son independientes  LA  0 . Siendo L una
combinación lineal de las X que se distribuyen x ~ N(0, 2 I) .
Para demostrarla, supongamos que x ~ N(0, 2 I) . Además

supongamos que x' Ax sea una forma cuadrática en la que A es una
matriz idempotente simétrica de orden n y supongamos que Lx es un
vector de m elementos, siendo cada elemento una combinación lineal
de las X . Así pues, L es de orden mxn , lo que nos dice que no
necesita ser ni cuadrada ni simétrica. Si las covarianzas entre las
variables de Ax y Lx son cero, estos supondrá que
E [ Axx' L' ]   2 AL'  0 , con lo que
LA  0 [82]
12.7. Normalidad de la perturbación aleatoria
Se ha admitido, aunque implícitamente, que los datos con que se trabaja

provienen de muestras finitas. Esto es cierto en la mayoría de los casos,
aunque para sostenerlo son necesarios supuestos bastante fuertes, tales
como regresores no estocásticos y distribución normal de las
perturbaciones aleatorias. Vale decir aquí que, además de MCO  existen
otros métodos para estimar el vector de parámetros β . Por ejemplo, se
podría aplicar una regresión por cuantiles (separando los valores más
altos y más pequeños de las variables explicativas) o una regresión
ortogonal (minimizando la distancia ortogonal a la recta de ajuste y no la
distancia ortogonal respecto a las variables explicativas). La cuestión de
cuál estimador hay que elegir normalmente se basa en las propiedades
estadísticas de los candidatos, tales como insesgadez, eficiencia y
precisión. Estos, a su vez, dependen también de la distribución que se
supone que producen los datos. Es interesante el hecho de que un buen
número de propiedades deseables pueden obtenerse para el estimador
MCO  , incluso sin especificar una distribución particular para las
perturbaciones aleatorias en la regresión. Sin embargo, se admite a los
efectos de ampliar la discusión, que las perturbaciones siguen una
distribución normal. Esto es, se incluye el supuesto adicional de
Normalidad y se incorporan algunas propiedades asintóticas.
564
En forma alternativa se podrían calcular los estimadores máximo

verosímiles, de los parámetros del modelo; es decir, aquellos que son
más probables dada la distribución de los datos muestrales y su
implicación sobre la función de densidad conjunta.
Para todo esto, se admite la hipótesis de normalidad en la distribución de

la perturbación aleatoria dada en [6]
ε ~ N( 0, ε2IT )
Es decir, el vector de perturbaciones aleatorias ε tiene una distribución

normal multivariante, dada por la siguiente función de densidad,
 ε1 
ε 
1 1
f (ε)  p  2   exp[ 2 ε' ε] [83]
   (2π ) (σ ε )
T /2 2 T /2
2σ ε
 
εT 
donde:
 ε2IT es una matriz escalar, definida positiva, cuyos elementos  ε2 son

constantes.
Si se recuerda la definición de la distribución normal multivariante, se

observa que en este caso todas las variables tienen la misma varianza
 2 y no están correlacionadas entre sí (lo que es lo mismo decir que son
estadísticamente independientes). Para que esto ocurra Σ debe ser una
matriz diagonal, esto es
 11 0  0 
 0   0 
Σ  I 
2 22
     
 
 0 0   TT 
Con las siguientes propiedades
  11   22     TT   2
  ij  0, i  j . Esto ocurre si y solamente si el coeficiente de

correlación  ij es cero cuando i  j .
 Σ   2T ; Σ
1/ 2
 
  2T
1/ 2
 
 2
T/2
y Σ 1 
1
I, con lo que se
2
obtiene la función mostrada.
565
Por tanto, los elementos del vector ε , se distribuyen independiente y

conjuntamente según una ley normal multivariante con vector de medias
0 y matriz de covarianzas  ε2IT .
En [83],
1
2
σε
ε' ε puede expresarse como ε'  ε2IT  
1
ε , el cual define una
forma cuadrática cuyo resultado es
 12  22  T2
   
2 2 2
Es decir, una suma de variables normales tipificadas, porque ε  0 .
De esta forma cada variable aleatoria normal  T se divide por  2 . Así

pues,
 12  22  T2
    ~ T2
 2
 2
 2

es decir, la forma cuadrática ε'  ε2IT 
1
ε ~ T2
La ecuación anterior muestra explícitamente que la matriz de la forma

cuadrática es la inversa de la matriz de covarianzas.
Dado que las perturbaciones son no observables, puede interesar conocer

la distribución de la suma de cuadrados de los residuos vista en [35]
e' e  ε' Mε
Y para ello se utilizan las propiedades de las matrices simétricas e

idempotentes, vistas anteriormente y, en particular, que la forma
cuadrática con variables aleatorias  T tipificadas se distribuye como
ε' Mε ~ χT2 k
Siendo T  k el rango y la traza de la matriz M , matriz simétrica e

idempotente. Por tanto, y en este caso con ε ~ N ( 0, ε2IT ) y rango igual a
la traza T  k
ε' Mε e' e
 ~ T2k [84]
 ε2  ε2
Resultado que será utilizado en los contrastes de validez del modelo.

566
12.8. Criterio de máxima verosimilitud
En general, las propiedades asintóticas del estimador máximo-verosímil

son muy atractivas en casos en los que es imposible encontrar
estimadores con buenas propiedades para muestras finitas, situación esta
que se produce frecuentemente en la práctica.
Para ello, si suponemos que las perturbaciones aleatorias siguen una

distribución normal multivariante como la expuesta en [83]
1
f ( ε )  ( 2 ) T / 2 (  ε2 ) T / 2 exp[  ε' ε ]
2 ε2
La función de verosimilitud, para los valores muestrales, expresando

ε  y  Xβ y denominando β̂ MV al vector de estimadores máximo
verosímiles, es
T
1
2 
L  ( 2 ε2 ) T / 2 exp[  ( y t  X 't β ) 2 ]
2 ε t 1
1
L  ( 2 ε2 ) T / 2 exp[  (y  Xβ )' (y  Xβ )] [85]
2 ε2
Observación. La transformación ε t  y t  X 't β es posible ya que el

jacobino para cada observación,  t y t es igual a la unidad. Recordemos
que ante una transformación de variables se aplica la solución estadística
de cambio de variable.
Mediante un cambio de variable se puede resolver, totalmente o en

parte, un buen número de problemas importantes en la teoría estadística.
Los cambios de variables pueden ser simples cambios de localización o
escala o pueden ser transformaciones ortogonales.
En este caso tenemos una variable aleatoria ε con comportamiento

aleatorio conocido, esto es, con densidad f ( ε ) conocida, y necesitamos
determinar el comportamiento aleatorio o la densidad g ( y ) , de una
variable aleatoria y cuya relación con ε está dada por una función
conocida y   ( ε ) . En este caso en particular, esa función es
y t  X 't β  ε t
Encontramos
567
M X' β (  )   e X tβεt f (  )d  e X tβ  M  (  )

 ' '
t t 
Así, la función generatriz de momentos de y se determina en términos

de la función generatriz de momentos de ε , y el problema de los
momentos de y queda resuelto.
En el caso que estamos analizando, afortunadamente, se resuelve en

forma sencilla, ya que
E( y )  E ( Xβ  ε )  Xβ  E ( ε )  Xβ
V( y )  E [( y  Xβ )( y  Xβ )'  E ( εε' )   2 I
Que es la formula utilizada en la función de verosimilitud.
Por otra parte, ante un cambio de variable y   ( ε ) donde la función de

densidad de ε es f ( ε ) , la función de densidad y se calcula como:
 t ( y t  X 't β )
g( y )  f (  ) J( y )  f (  )  f ( y t  X 't β )
y t y t
Donde J ( y ) es el Jacobino de la transformación, determinante definido

sobre la matriz de derivadas parciales de ε respecto a y . En nuestro caso
J ( y )  1 y por lo tanto g ( y )  f (  ) .
Para maximizar la función de verosimilitud con respecto a β , sería

necesario maximizar el exponente o minimizar la suma de cuadrados.
Tomando logaritmos obtenemos el logaritmo de la función de
verosimilitud
T T 1
ln L   ln 2  ln  ε2  (y  Xβ )' (y  Xβ )
2 2 2 ε2
Aplicando las condiciones, de primer orden, de máximo respecto a los

parámetros desconocidos, tenemos
 ln L 1
 X' (y  Xβ )  0
β 2 ε2
 ln L T 1
  ( y  Xβ )' (y  Xβ )  0
 ε2 2 ε2 2 ε4
Resolviendo el sistema, obtenemos
ˆ
β '
MV  X X   1
ˆ
X'y  β MCO
568
e' e
ˆ MV
2
  S2
T
Para ver si se trata de un máximo, apliquemos las condiciones de

segundo orden,
 2 ln L X' X   2 ln L  X' X
 2 con - E 
ββ' ε  ββ'   2
  ε
 2 ln L X' ε  2 
 con -E
  ln L 
β ε2  ε4  β 2   0
 ε 
 
 2 
 2 ln L T ε' ε   ln L  T ; 2
  con E ya que E( '  )  T
  
 ε2
2
2 ε4  ε6   2 2  2 ε4
   ε  
ε
   
Se puede demostrar que la matriz de derivadas segundas
  2 ln L  2 ln L   1 X'  
 2    2 ( X' X )  4 
 ββ'  ε β ε    ε ε 
2

  2 ln L  ln L    X' 
2 T ' 
 6
 2 2  ε 4
2 ε  ε 
4
 β ε (  ε )  
2
Constituyen una forma cuadrática definida negativa, condición suficiente

para la existencia de un máximo. Una forma cuadrática definida negativa
es aquella en que todos sus menores principales son negativos. Veamos
1
 ( X' X )  0
 ε2
1 X' ε
 ( X' X )  2
ε 2
 ε4 ( X' X )  T ε' ε   X' ε 
     0

X' ε T

ε' ε  ε2  2 ε4  ε6    ε4 
 ε4 2 ε4  ε6
Por otra parte, la matriz de información es

569
 1 
 ( X' X ) 0 
 
β  2
I 2    ε 

 ε  T 
0
 4
2 ε 

Y su inversa
 ε2 ( X' X ) 1 0 
 β 
I 1  2    
2 ε4 
 ε   0
 T 
Los términos que están fuera de la diagonal principal son iguales a cero e
indican que β y  ε2 se distribuyen independientemente.
Sustituyendo los valores estimados máximo verosímiles en la función

logarítmica y tomando antilogaritmos, obtenemos el máximo de la
función de verosimilitud
ˆ ,ˆ 2 )   T ln 2  T ln e' e  T e' e

ln L( β
2 2 T 2 e' e
ˆ ,ˆ 2 )   T ln 2  T ln e' e  T
ln L( β
2 2 T 2
T
T  T
ˆ ,ˆ )  ( 2 )
2
  e' e  2 
L( β 2
  e 2
 T 
T
T 
ˆ ,ˆ 2 )  ( 2  e )
  e' e  2
L( β 2
 
 T 
T

ˆ ,ˆ )   2  e 
T
e' e  2
2 2
L( β
 T 
T
ˆ ,ˆ 2 )  constante  e' e 
L( β

2
Donde la constante no depende de ninguno de los parámetros del modelo.

La misma depende de las constantes matemáticas  y e .
Cabe aclarar, entonces que el estimador de máxima verosimilitud tiene

varianza sesgada, pero goza de todas las propiedades asintóticas
deseables. Es consistente, posee normalidad y eficiencia asintótica, es
invariante y su gradiente tiene media nula y varianza igual a la cota de
Cramer – Rao para estimaciones eficientes.
570
La cota de Cramer – Rao la obtuvimos al hacer la inversa de la matriz de

información
 ε2 ( X' X ) 1 0 
 β 
I 1  2    
2 ε4 
 ε   0
 T 
Ningún otro estimador con normalidad y consistencia asintótica tiene una

matriz de varianzas y covarianzas menor que esta.
Dijimos que los estimadores máximos verosímiles son también

invariantes. Esto significa que el estimador máximo verosímil de
cualquier función continua de β es esta función del estimador máximo
verosímil. Es decir, mientras que con el teorema de Gauss – Markov
podíamos afirmar que el estimador lineal insesgado más eficiente de c' β
ˆ , ahora tenemos un resultado asintóticamente más significativo,
era c' β
ya que el estimador más eficiente de g ( β ) , donde g ( β ) es cualquier
ˆ
conjunto de funciones continuas, es g ( β MV ) . La distribución asintótica de
un estimador fue analizada anteriormente en esta misma sección.
Por otra parte, a pesar de tener una varianza estimada sesgada, ésta
k
solo difiere de S 2 por el factor  , ya que el estimador de máxima
T
verosimilitud esta sesgado hacia cero, como vemos a continuación
(T  k ) 2  k
E ( ˆ MV
2
)   1   2   2
T  T
k
Pero el factor  desaparece en muestras grandes.
T
Asimismo, es posible verificar la equivalencia entre ambos estimadores,

aunque sea asintóticamente. A partir de lo que hemos analizado,
sabemos que es posible, teniendo en cuenta la inversa de la matriz de
información y de que la E ( S 2 )   2 , escribir
T 1 / 2 ( ˆ MV
2 d
  2 )  
N 0 k , 2 4 
Donde T 1 / 2 ( ˆ MV
2
  2 ) es una variable que representa convenientemente
la diferencia de medias de los dos estimadores de la varianza y que,
tomando esperanza matemática y varianza sobre la misma, cuando
T   , la media tiende a cero y la varianza a 2 4 . Tomando esperanza
matemática,
571
E [ T 1 / 2 ( ˆ MV
2
  2 )]  T 1 / 2 E ( ˆ MV
2
  2 )  T 1 / 2 [ E ( ˆ MV
2
)  E (  2 )] 
k 2 k 2 k 2
T 1/ 2
[( 1  )   ]  T
2 1/ 2
[ ] 
T T T
Si tomamos varianza de la variable, tenemos
V [ T 1 / 2 ( ˆ MV
2
  2 )]  (T 1 / 2 ) 2 V ( ˆ MV
2
  2 )  T [ V ( ˆ MV
2
)  V (  2 )] 
4
T[2 ]  2 4
T
Entonces, cuando T   ; T 1 / 2 ( ˆ MV
2
  2 )  N 0 k , 2 4  
Definiendo ahora,
 k k
zT  1  T 1 / 2 ( ˆ MV
2
  2 )  1/ 2  2 ,
 T T
Observación. zT representa una variable centrada y corregida por el

 k
sesgo 1   y donde hemos utilizado la deducción anterior de
 T
esperanza matemática para centrarla.
De lo cual se puede deducir que la distribución límite de zT es,
 k
 4 k
1  N 0 k ,2  1 / 2 
2

 T T
k  k
Pero,   y 1/ 2 desaparecen a medida que T   , por lo que la
T  T
distribución límite de zT también es N 0 k , 2 4 .  
Por otra parte, se puede demostrar que centrando convenientemente la
variable S 2 , obtenemos
zT  T 1 / 2 ( S 2   2 ) ~ N( 0 k ,2 4 ) (demuéstrelo)
Por lo que la distribución asintótica de S 2 es la misma que la del

estimador de máxima verosimilitud.
572
12.9. Utilidad del modelo econométrico
Una vez que mediante los métodos econométricos de estimación se ha

asignado valores numéricos a los parámetros, el modelo puede utilizarse
con dos objetivos:
 Descripción de la economía, de la que procede la información muestral

(Familia, Región, País, etc.).
 Predicción
Por supuesto que la fiabilidad de la Predicción dependerá de:
 el horizonte de predicción
 la constancia de los valores paramétricos estimados a lo largo del

horizonte de predicción
 la calidad de nuestras estimaciones de los parámetros del modelo
 que el modelo utilizado sea apropiado y que, en particular, esté

especificado correctamente.
Ejemplo 12.11. Un análisis de predicción es fundamental para

hacer cualquier estudio de política económica. Supongamos que el
Banco Central quiere hacer un análisis del posible efecto
inflacionario de una expansión monetaria. En este caso se usarán
predicciones de los tipos de interés (que explican los posibles
gastos de consumo) y de los gastos de consumo utilizando un
determinado supuesto sobre el crecimiento de la oferta monetaria.
Los valores paramétricos también son importantes para tener un

conocimiento descriptivo de la economía, por ejemplo, ¿cuánto empleo se
crea o se destruye si los salarios reales se mantienen constantes durante
los próximos tres años?
Para responder a la pregunta sobre qué tipo de modelo especificar, se

podría utilizar un modelo del tipo:
U t  e  ( W t  pt )  e 
donde:
U t , denota la tasa de crecimiento o destrucción del empleo
Wt
, es el salario real
pt
573
Este modelo es claramente NO LINEAL pero puede transformarse en otro

lineal mediante un CAMBIO DE VARIABLES, haciendo
Yt  ln U t
Wt
X t  ln
pt
Quedando,
Yt    X t  
Esta especificación tiene la ventaja de que el valor del coeficiente 

proporciona la elasticidad desempleo - salario real, puesto que:
dlnUt Wt /pt dUt Variac.% en Ut

β   
dlnWt /pt Ut d(Wt /pt ) Variac.% en Wt /pt
CASOS DE ESTUDIO, PREGUNTAS Y PROBLEMAS
Caso 12.1: Correlación de muestras

La siguiente tabla proporciona los valores de las medias y las desviaciones estándar de
dos variables X e Y, y la correlación de ellas para cada una de las submuestras. Calcular la
correlación entre X e Y para la muestra compuesta obtenida juntando las dos
submuestras. ¿Porqué dicha correlación es menor que cualquiera de las correlaciones que
pudieran existir en las submuestras?
Número de
Muestra
muestras X Y sX sY r XY
1 600 5 12 2 3 0.6
2 400 7 10 3 4 0.7
Caso 12.2: Estimación de parámetros

Una muestra de 20 observaciones correspondiente al modelo
Y    X  
en el que las  se hallan distribuidas normal e independientemente con media cero y
varianza constante, ofrece los siguientes datos:
574
Y  21.9  (Y  Ŷ ) 2
 86.9  ( X  X )(Y  Y )  106.4
 X  186.2 (X  X ) 2
 215.4
a) Estimar  y 
b) Calcular sus errores estándar.
Caso 12.3: Consumo de cerveza y mortalidad infantil

Un investigador se muestra interesado en las dos series siguientes, definidas para el
periodo comprendido entre 1935 y 1946.
Año 35 36 37 38 39 40 41 42 43 44 45 46
X, muerte de niños
60 62 61 55 53 60 63 53 52 48 49 43
menores de 1 año (000)
Y, consumo de cerveza
23 23 25 25 26 26 29 30 30 32 33 31
(barriles)
a) Calcular el coeficiente de correlación entre X e Y.

b) Ajustar a X (o Y) una tendencia temporal lineal calculando una regresión MCO de
X (o Y) sobre el tiempo t. El procedimiento requiere elegir un origen y una unidad
de medida para la variable t. Por ejemplo, estableciendo el origen en la mitad de
1935 y tomando como unidad de medida un año, al año 1942 le corresponderá el
valor t=7, y así sucesivamente para los demás años. Si el origen se sitúa a finales
de 1940 (principios de 1941) y la unidad de medida es 6 meses, entonces al año
1973 le corresponderá el valor t=-7. Demostrar que cualquier tendencia calculada
mediante X t  a  bt no queda afectada por la elección del origen y la unidad
de medida.
c) Supongamos que e X ,t y eY ,t indican los residuos de X e Y respecto a sus valores
tendenciales. Calcular los coeficientes de correlación entre e X ,t y eY ,t . Comparar

dicho valor con el obtenido en el apartado a) y comentar la justificación de tales
diferencias.
Caso 12.4: Primeros pasos en Eviews
En el marco de la materia de econometría se

trabajará con Eviews 6, el cual es un
software de la empresa Quantitative Micro
Software (http://www.eviews.com/)
orientado al análisis econométrico. Es uno
de los paquetes más usados y más
completos disponibles en la actualidad,
junto con Stata, que a diferencia de otros
conocidos programas como SAS o SPSS
(orientados al análisis estadístico general).
Se especializa en econometría, tanto de
series de tiempo, corte transversal y datos
de panel. Posee la ventaja de contar con un Icono y ventana inicial de Eviews 6
interface gráfica de modo que resulta mucho
575
más intuitivo que otras alternativas, pero también cuenta con el potencial de un
entorno programable para usuarios avanzados, como son S o R (versión
freeware de S).
Una alternativa freeware interesante es
“gretl”, un paquete econométrico con
interface usuario gráfica
(http://gretl.sourceforge.net/gretl_espano
l.html)
En el escritorio de la PC, seguramente se
encuentra un icono como el de la figura, y
tras abrirlo, una ventana con fondo
grisáceo sin más detalles. Se comenzará
Creación de un nuevo archivo
utilizando datos de la Tabla 12.1 del
Ejemplo 12.5.
Creando Workfile.
El archivo base con el cual trabaja este programa es el workfile (fichero de
trabajo) que se crea desde el menú File > New > workfile...
(archivo>nuevo>fichero de trabajo). En principio se abre la ventana Worfile
create donde debemos especificar la estructura del archivo.
Las opciones disponibles son: (1) Unstructured / Undated (Desestructurado /

No Fechado) que se utiliza en caso de datos que no se corresponden con
observaciones en el tiempo regulares; por ejemplo, los existentes en tabla 12.1
no se corresponden con algún período de tiempo; (2) Dated - Regular
Frecuency (Fechado – Frecuencia Regular) para tabla de datos donde las
unidades de observación se corresponden con unidades regulares de tiempo,
como años, trimestres, meses, etc., se debe especificar la frecuencia, start date
(fecha inicial) y end date (Fecha final); y (3) Balanced Panel (Panel
Balanceado) cuando para cada individuo observado se dispone de series de
tiempo de igual longitud, tal que deben especificarse frecuencia, fecha inicial,
fecha final y número de cross-section (secciones cruzadas).
Puesto que en la Tabla 12.1 i  1,2,...,5 , en Data Range (Rango de datos) se

indica 5 observaciones. También es posible, aunque no es necesario, indicar el
nombre de archivo en WF, y el nombre de hoja (como en Excel) en Page.
Cargando datos
Para cargar los datos en el archivo creado existen dos
maneras diferentes: (1) importando desde una aplicación
externa como puede ser Microsoft® Excel, o (2) tipeando
directamente en Eviews.
El primero de los métodos consiste en utilizar una planilla
Tabla de Datos en Excel de cálculo para tipear los datos para luego guardarlos con
alguna de las siguientes extensiones: *.xls (Excel 97-2003), *.wks (Lotus), otros
archivos de texto ASCII como *.txt y *.cvs. Una vez confeccionada la Tabla 12.1
y guardada con el nombre tabla11_1.xls, hay que asegurase de cerrarla y de
que ningún programa la esté utilizando.
En Eviews desde el menú File > Import > Read Text-Lotus-Excel (Archivo >
Importar > Leer Texto-Lotus-Excel) se abre el cuadro de diálogo donde explorar
hasta encontrar el archivo de la tabla.
576
Primero, hay que indicarle al

programa como es el orden
de los datos, estos que
representan las filas de la
planilla. En el caso de la tabla
12.1 las filas son las
observaciones por lo que se
marca la opción By
Observation – series in
columns. En Upper-left
data cell, hay que indicar la
celda a partir de la cual
comienzan los datos
Cuadro de Dialogo para Importar datos propiamente dichos, o sea la
celda B2, pues la columna A
contiene rótulos de observaciones, y la Fila 1 los rótulos para las variables. En
names for series or number if named in file hay que detallar el nombre
de las series de la tabla o bien indicar cuantas variables contiene la tabla, si
deseamos que el programa importe los nombres originales. Para este ejercicio se
puede escribir vdep vind1 vind2 para renombrar a Y, X1, X2 respectivamente.
Si se han realizado bien todos los pasos, el workfile debería contener cinco
observaciones y tres variables: vind1, vind2, vdep; además de reservar el
espacio para el vector de coeficientes estimados (c)
y la serie de los residuos (resid). Una vez
importados los datos es posible verificarlos
seleccionado varios objetos y clickeando con el
botón derecho del mouse elegir Open > as group.
Cuadro de Dialogo: Grupo, editando Series
Cuadro de Dialogo Crear Series El segundo método para incluir datos consiste
en generar series mediante el menú Object > New
Object. Se debe especificar Type of Object: Series y un nombre. Una vez
generados los objetos se abren en grupo o individualmente y presionando Edit
+/-, es posible tipear los datos como si fuera un planilla de cálculo normal.
Trabajando con los Datos

Los Grupos abiertos pueden guardarse con un nombre para encontrarlos
fácilmente después. Basta con seleccionar el botón Name y escribir el nombre
deseado. Otras herramientas importantes con las que pueden trabajar dentro de
la ventana del grupo se encuentran en el menú View. Así en Group Members
obtienen el listado de variables que observan:
Edit series expressions below this line -- '
UpdateGroup' applies edits to Group.
VIND1
VIND2
VDEP
577
La opción Spreadsheet les permite volver a la planilla con los datos. La

opción Graph les permite graficar los datos en un gran número de formas
diferentes, pueden elegir el tipo de gráfico en la primera pestaña del
cuadro de diálogo, y pueden cambiar el aspecto del gráfico en las pestañas
restantes. Como ejemplo, escogen General: Basic Graph, dado que los
datos no tienen estructura temporal, o al menos no lo sabemos puede ser
Graficando Series
preferido ver los datos en forma de barras y no como curvas por eso eligen
Specific: Bar, y para visualizar las tres series en un mismo gráfico eligen
Multiple Series: Single Graph.
Otra herramienta importante que debemos utilizar cuando comenzamos a
trabajar con los datos son las estadísticas descriptivas. Haciendo View >
Descriptive Stats > Common Sample (muestra común) el programa
genera una tabla con las estadísticas para cada variable: Media (mean),
mediana (median), máximo (máximum), mínimo (mínimum), desviación
estándar (std. Dev.), asimetría (skewness), el estadístico Kurtosis, Jarque
– Bera con su probabilidad, la suma y la suma de desvíos cuadráticos (sum
sq. Dev).
También pueden efectuar Análisis de Covarianza (Covariance Analysis), el cual

les permite visualizar la matriz de covarianzas, la matriz de correlación y asociar
a estas la matriz de pruebas t para hipótesis de covarianza nula o
independencia. Otro tipo de pruebas de hipótesis son los test de igualdad (test
equality) para medias, medianas y varianzas a los que acceden a través del
menú View.
Análisis de Regresión
Para realizar una explicación del comportamiento de la variable dependiente
construimos el siguiente modelo
Vdepi    1Vind 1i   2Vind 2i   i , i  1,2,,5
Se puede hallar el valor de los parámetros de la Regresión, usando Eviews en el

menú Quick > Estimate Equation se abre el cuadro de diálogo en el cual se
especifica la estimación escribiendo
nombredependiente c nombreexplicativa_1 nombreexplicativa_2 …
nombreexplicativa_K
578
El término c indica que debe calcular la constante de la regresión. En nuestro

ejemplo corresponde
vdep c vind1 vind2
En Estimation settings se elige Last Square (Mínimos Cuadrados) y en
Sample (muestra) se escribe 1 5, es decir desde la observación 1° a la 5°. Una
vez que se acepta esta configuración se obtiene la “Salida” de la Estimación
(Estimation Output).
Cuadro de Dialogo: Estimar ecuación y Salida de la Regresión.

El primer grupo de elementos
de la salida indica la variable
a explicar, el método
empleado, la muestra
considerada y la cantidad
total de observaciones tenidas
en cuenta, este último dato
podría se menor que el
tamaño de muestra pues
podrían faltar datos o
establecerse una
especificación del modelo a
estimar que imposibilitara
utilizar todas las
observaciones. El segundo
Grafico de la Variable, su estimación y los errores
grupo contiene la estimación
de los coeficientes, sus
errores estándar y la prueba t de significatividad correspondiente. El tercer
grupo de información contiene estadísticos útiles para evaluar la bondad del
ajuste de la regresión, la significatividad conjunta y la calidad de la estimación
en cuanto al cumplimiento de los supuestos básicos del modelo lineal general.
Finalmente, desde esta misma ventana de estimación pueden plotearse gráficos
para la variables dependiente, los valores estimados y los errores de estimación.
Para ello seleccionamos el menú View > Actual, Fitted, Residual > Actual,
Fitted, Residual graph (gráfico real, estimado, y de residuos).
Desde el mismo menú View se accede a los test y pruebas de hipótesis sobre el
modelo estimado que estudiaremos a lo largo de la materia.
579
Actividades Propuestas
a) Realice todos los pasos comentados anteriormente para familiarizarse con
el manejo del software.
b) Compare la información de la salida de la estimación, con los resultados
obtenidos a lo largo del Capítulo 12 en relación al ejemplo 12.5.
c) Interprete con los conocimientos ya aprendidos y los que recuerda de
Inferencia Estadística el significado de la información contenida en la
salida.
d) Localice en la Salida el estadístico
T
SCR   et2  e' e
t 1
e) Repitiendo los pasos explicados en este caso, seleccione un modelo
económico con el que haya trabajado teóricamente, especifique el modelo
econométrico, busque los datos y estime un modelo de regresión lineal.
BIBLIOGRAFIA
□ Gujarati, D. (2004). "Econometría". 4° Edición. Mc.Graw Hill. México.
□ Johnston, J. Dinardo, J. (2001) "Métodos de Econometría". Editorial Vicens

Vives. Barcelona.
□ Pyndick, R.S. y Rubinfeld. D.L. (2001) "Econometría, Modelos y
Pronósticos". 4° Edición. Editorial McGraw Hill. México.
580
Capítulo 13. INFERENCIA ESTADÍSTICA EN EL MODELO LINEAL
GENERAL .......................................................................................... 583
13.1. El coeficiente de determinación .................................................. 583
13.2. Inferencia ............................................................................... 586
13.3. El modelo en forma de desviaciones............................................ 599
13.4. Predicción en el modelo lineal .................................................... 607
CASOS DE ESTUDIO, PREGUNTAS Y PROBLEMAS .............................. 609
Caso 13.1: Cálculo de R 2 ................................................................. 609
Caso 13.2: Modelo de Inversión de empresas españolas entre 1959-1971 609
BIBLIOGRAFIA ................................................................................. 612

582
583
Capítulo 13. INFERENCIA ESTADÍSTICA EN EL MODELO

LINEAL GENERAL
13.1. El coeficiente de determinación
Una de las propiedades de la estimación MCO del modelo de regresión

lineal es que, si el modelo posee término independiente, podemos realizar
la siguiente descomposición de la varianza:
 Yt   Ŷt   Yt 

2 2 2
 Y   Y   Ŷt [1]
t t t
Que es lo mismo que decir: SCT  SCE  SCR

Donde,
SCT , es la suma de cuadrados de la variable endógena o lo que es lo
mismo, es el numerador de la varianza de Yt y que se denominará
Suma de Cuadrados Totales;
SCE , es la Suma de Cuadrados Explicada por las variables exógenas;
SCR , es la Suma de Cuadrados de los Residuos de la regresión.
Basándonos en esta descomposición de la variabilidad de Yt , se define el

coeficiente de determinación como una medida de la capacidad explicativa
del modelo, es decir, de la bondad de ajuste:

 Ŷt  Y  2
 et
2
SCR
R2  t  1  t  1 [2]

 Yt  Y  2

 Yt  Y 
2
SCT
t t
O lo que es lo mismo,
e' e SCR
R2  1   1 [3]
Y' Y  TY 2
SCT
Para demostrar esta igualdad, partimos de la suma del cuadrado de los

residuos; teniendo en cuenta que, según definiciones estudiadas en el
584
capítulo anterior, el error (e) es la diferencia entre el valor observado (Y) y

el valor estimado ( Xβˆ ) se tiene
 ˆ
e' e  y  Xβ ' y  Xβˆ 
ˆ ' X' y  y' Xβ
 y' y  β ˆ β
ˆ ' X' Xβ
ˆ
Se sabe, por demostraciones en el capítulo anterior, que y  Xβˆ  e ;

reemplazando esta expresión en el segundo y tercer término se tiene
 y' y  βˆ ' X' (Xβˆ  e)  (Xβˆ  e)' Xβˆ  βˆ ' X' Xβˆ
Aplicando la propiedad de traspuesta y eliminando paréntesis
 y' y  βˆ ' X' Xβˆ  βˆ ' X' e  βˆ XXβˆ  e' Xβˆ  βˆ ' X' Xβˆ
Recordando que X' e  0 , por lo que e' X  0 , y simplificando la expresión
ˆ ' X' Xβ
e' e  y' y  β ˆ
Pero Xβˆ  y
ˆ , por lo que
e' e  y' y  y
ˆ'y
ˆ [4]
Ŷ
Y
e 
Ŷ
X
Restamos en ambos miembros TY 2 y reordenando términos, obtenemos
y' y  TY 2  e' e  yˆ ' yˆ  TY 2
[5]
SCT  SCR  SCE
585
Por lo tanto,
SCE SCT  SCR SCR e' e
R2    1  1 [6]
SCT SCT SCT y' y  TY 2
Este coeficiente mide el porcentaje de la variación de la variable endógena,
Yt , que queda explicada en la regresión por la variación conjunta de las
variables exógenas, X .
Ejemplo 13.1. (datos del ejemplo 12.5)
SCE 122.5  1 .5 
R2    0.988  1  
SCT 124  124 
Por lo tanto, la proporción de la variación de Yt explicada por la

regresión lineal es de 0.988 ó el 98.8%.
El coeficiente R 2 está comprendido entre 0 y 1.
Si  et2  0 , entonces R 2  1 y el modelo estimado se ajustaría

t
perfectamente a los datos.
 Yt  
2
Por el contrario, si  Y  et2 , el modelo de regresión no
t t
explicaría nada de la variabilidad de Yt  R 2  0 .
Como conclusión, podemos decir que el modelo se ajusta mejor a los datos
cuando más próximo está el coeficiente de determinación a la unidad.
El coeficiente de determinación, R 2 , va a aumentar al añadir más

regresores al modelo, sin que esto signifique que la nueva variable incluida,
sea relevante para explicar el comportamiento de Yt . Una medida que
posibilita analizar el número óptimo de variables a incorporar es el
coeficiente de determinación corregido, que se define como:
 et2 / T  k
e' e / T  k [7]
t
R2  1   1
 Yt  Y 
2
/ T 1 y' y  TY  / T  1
2
t
586
Donde las sumas cuadráticas (residual y total) se corrigen por los grados de
libertad); éstos son los términos que penalizan la inclusión desmedida de
regresores en el modelo.
La incorporación de variables en el modelo aporta el beneficio de
incrementar el valor de R 2 pero tiene el costo de disminuir los grados de
libertad. Mientras el beneficio supere al costo, será conveniente incorporar
nuevas variables; si el costo, en términos de grados de libertad, supera el
beneficio de incorporar variables significa que ya no resulta conveniente la
inclusión.
De esta forma, conforme aumentamos el número de regresores, no está
claro cual va a ser la variación que experimente el coeficiente de
determinación corregido.
Ejemplo 13.1.a Para el ejemplo

1.5 / 3
R2  1   0.983
124 / 4
Existen otros dos criterios para comparar el ajuste de varias

especificaciones de acuerdo con el número de regresores utilizados:
e' e k
 Criterio de Schwarz: CS  ln  ln T [8]
T T
e' e 2k
 Criterio de Akaike: CA  ln  [9]
T T
Habitualmente se buscan especificaciones capaces de reducir la suma
cuadrática de los residuos; sin embargo, todos los criterios llevan implícita
una penalización que aumenta con el número de regresores.
13.2. Inferencia
Para contrastar determinadas hipótesis, sobre los parámetros del modelo

de regresión, se utilizan estadísticos cuya distribución exacta, bajo la
hipótesis nula, depende de la distribución de los estimadores de β y  2 .
De acuerdo a los supuestos establecidos sobre el modelo, se puede

demostrar que para cualquier tamaño de muestra dado, las perturbaciones
 t siguen distribuciones normales, independientemente distribuidas de
media cero y varianza constante  2 . De donde, podemos enunciar las
siguientes proposiciones.
587
Proposición 13.1. Bajo el supuesto de normalidad de las perturbaciones

aleatorias  t y, conociendo además, que X es una matriz no estocástica de
rango completo por columnas,  ( X )  k , se tiene que β̂ es un vector
aleatorio con distribución normal k  variante , ya que es función del vector
aleatorio normal ε . Por lo tanto, β̂ se distribuye normal k-variante con
media β y varianza σ 2 X ' X  
1
ˆ ~ N β,  2 X ' X
β k

 
1 

[10]
Para demostrar esta importante proposición partamos del resultado

conocido de que
ˆ  β  (X' X) 1 X' ε
β
Con lo que queda demostrada la primera parte. Pero sabemos también que
ˆ )β
E( β
ˆ )   2 X' X
V( β    1
Con lo cual β̂ es estimador insesgado y óptimo.
ˆ ~ N β,  2 X ' X
Por lo tanto, β

 
1 

Tipificando, obtenemos
ˆ β
β
~ N 0, I [11]
 X X

2
 '
1 1 / 2

Es decir, los k estimadores tienen una función de probabilidad normal

multivariante
p (βˆ )  p ( βˆ1 , βˆ 2 ,  , βˆ k )
 1 ˆ  [12]
 2 β  β ' σ ε (X' X)  β  β 
1 1 1 ˆ
 exp  2
2π  k /2 2
σ ε (X' X)
1 1/ 2
588
Proposición 13.2. Sea el vector aleatorio β̂ con distribución normal

multivariante y sea R una matriz de orden qxk , con rango  ( R )  q ,
ˆ tiene una distribución normal q  variante con media
entonces el vector Rβ
igual a Rβ y varianza igual a  2R X ' X  

1
R'
Corolario: R( βˆ  β ) ~ Nq 0,  2R X ' X

 
  1
R'


[13]
Si se tiene βˆ ~ N β, σ ε2 X ' X   
1
 y una matriz R qxk
donde rango (R )  q
el producto de

Rβˆ ~ N Rβ, σ ε2R X ' X R  
1

de modo que
  1

R βˆ  β ~ Nq 0, σ ε2R X ' X R    
Proposición 13.3. Si combinamos al vector de perturbaciones ε del

modelo, con distribución 
Nt 0,  2 ,  con una matriz simétrica e
idempotente M , entonces,
ε' Mε
(a) ~  gl2   ( M )
 2
(b) Sea N otra matriz idempotente y simétrica, las distribuciones  2

ε' Mε ε' Nε
y son independientes si y solo si M  N  0
 2
 2
(c) Dada una matriz R de orden qxk , con rango  ( R )  q ; el vector

ˆ , con distribución normal q  variante con media igual a Rβ y
aleatorio Rβ
589
varianza igual a  2R X ' X  1

R' , es independiente de
ε' Mε
 2
~  gl2   ( M ) , si y
solamente si R  M  0
Corolarios: Así, de la parte (a) se puede decir que, sobre la

base de demostraciones anteriores, e' e  ε' Mε , entonces,
e12 e22 et2 e' e

  ~ T2  k , o bien, ~ T2  k [14]
 2
 2
2
 2
De esta última expresión y conociendo que el estimador de

e' e
 2 es S2  podemos establecer la importante
T k
conclusión:
(T  k )S 2
~ T2  k [15]
 2
Donde los grados de libertad se obtienen por el hecho de

que  ( M )  trM , siendo M una matriz simétrica e
idempotente con trM  T  k .
Pero también, y teniendo en cuenta las tres partes de esta

proposición, se tiene que
ˆ y e' e
β se distribuyen independientemente .
 2
Estas proposiciones son suficientes para establecer los procedimientos de

inferencia para cualquier elemento del vector β̂ o sobre alguna
combinación lineal de los mismos. El objetivo es contrastar hipótesis sobre
los coeficientes de regresión del modelo.
Nos vamos a restringir a aquellas hipótesis que se pueden expresar como
combinaciones lineales de los coeficientes de regresión, β .
Las hipótesis que vamos a contrastar se pueden escribir, de forma general:

590
H o : Rβ  r
[16]
H1 : Rβ  r
Donde:
R es una matriz de orden qxk , sus filas representan la cantidad de
restricciones (q) y sus columnas la cantidad de parámetros (k) del modelo,
siendo sus elementos los coeficientes que acompañan a los parámetros a
contrastar.
 ( R )  q , viene dado por el número de restricciones sobre los parámetros
que estamos contrastando
r , vector de tamaño qx1 , con q  1 .
R es una matriz tal que
El estadístico de contraste se determina de acuerdo a las proposiciones

anteriores. Así, por [13] sabemos que
ˆ  β) ~ N
R( β q    
0,  2R X ' X 1
R'


Planteando la hipótesis nula Rβ  r , y reemplazando en R(βˆ  β) se tiene

que
ˆ  β)  Rβ
R(β ˆ  Rβ  Rβ
ˆ r
con lo cual
ˆ  r ~ N 0,  2R X ' X  R'

1
Rβ q   
   
Asimismo, por la proposición 13.3 y tipificando la variable aleatoria Rβˆ  r

se tiene que
1
ˆ  r )'  2R X ' X  R' ( Rβ
1
( Rβ ˆ r) ~ 2 [17]
     q
 
Es decir, se distribuye como una chi cuadrado con grados de libertad igual
al número de restricciones (e igual al rango de la matriz R ).
591
El problema habitual es que  2 es desconocido; pero, utilizando la

e' e e' e
propiedad ~ T2  k , se estima a partir de s 2 
2
T k
Finalmente, el estadístico que se obtiene es
 
1
 
ˆ  r '  R X ' X R '  Rβ
Rβ
1

ˆ  r / q
H0 
F   ~ F [18]
e' e / T  k q, T  k
Que bajo la hipótesis nula sigue una distribución F de Snedecor, cuyos

grados de libertad vienen dados por el número de restricciones q , y T  k ,
donde T , es el número de observaciones y k el número de coeficientes
estimados.
A este procedimiento se lo conoce como test de restricciones lineales y
permite contrastar cualquier conjunto de restricciones lineales sobre los
parámetros.
Decidiremos rechazar la hipótesis nula H o : Rβ  r , con un nivel de

significación  , cuando el valor muestral del estadístico F , sea mayor que
la ordenada de la distribución Fq , T  k que deja a la derecha, una
probabilidad  , es decir, si:
F  F ; q ,T  k
Ejemplo 13.1.b. Con los datos del ejemplo 12.5 se va a contrastar el

conjunto de las hipótesis
 β  1,5
H0 :  2
 β3  0,1
El modelo definido en el ejemplo 12.5 es

Yi  β1  β2 X 2 i  β3 X 3i  εi ; i  1, , n
592
La matriz R y el vector r se construyen de la siguiente manera:

0 1 0   1,5 
R qxk 2 x 3  0 0 1  rqx12 x1   
  0,1
β β2 β3
1 
 

coeficientes de βi
en las restricciones
De acuerdo a [16], la hipótesis nula se define

H 0 : Rβ  r
esto es
 β1 
0 1 0    1,5 
0 0 1  β2    0,1
    
 β3 
El contraste de esta hipótesis se realiza con la expresión [18], para lo

cual comencemos por resolver Rβ̂  r .
 0,01

En el ejemplo 12.5 β̂  1,82

 
0,30
por lo que
 0,01
ˆ 0 1 0      1,5   1,82    1,5   0,32
Rβ  r     1,82         
0 0 1 0,30  0,1 0,30  0,1  0,4 
 
En el ejemplo 12.5.d se tiene el resultado de XX 
1
 3279  332  660

1 
XX  45 
1
   332 56
1835
 660 45 200 
De modo que R XX  R será

1
 3279  332  660 0 0

0 1 0  1 
R XX  R   45  1 0
1
 1835  332 56
 0 0 1   660 45 200  0 1
0,03052 0,02452
R XX  R  
1

0,02452 0,10899 
593
Ahora debemos calcular la inversa de R XX  R , para lo cual se dbee

1
calcular el determinante y la matriz adjunta:
RXX  R
1 1

1

Adj R XX  R
1

R XX  R
1
0,0302 0,02452
resolviendo, R XX  R 
1
 0,00273
0,02452 0,10899

Adj R XX  R  
1

 0,10899  0,02452
0,0302 
 0,02452
por lo que
RXX  R
1 1

1  0,10899  0,02452  39,9231  8,981685
0,00273  0,02452

0,0302   8,981685 11,179487 
Entonces
Rβˆ  r  RXX  R Rβˆ  r   0,32

1 1  39,9231  8,981685 0,32
0,4  
 8,981685 11,179487   0,4 
0,32
 9,182718 1,5976556   3,577532
 0,4 
De acuerdo al Ejemplo 12.5.f, ee  0,68
En síntesis:
Rβˆ  r  RXX  R Rβˆ  r   3,577532

1 1
ee  0,68
q=2
T k  n k  53 2
El estadístico F expresado en [18] es
     
1
' 1

Rβˆ  r  R X ' X R '  Rβˆ  r / q
F   
3,577532 2
 5,261076
e' e / T  k 0,68 2
El valor teórico de F  19 ,
2,2;0,95
por lo que F  F
2,2;0,95
entonces se acepta la hipótesis nula: β2  1,5 y β3  0,1 .
594
Nos centraremos, a continuación, en dos casos particulares.

1- Contraste de la significación conjunta del modelo de regresión, es decir,
si cambios en las variables explicativas X nos ayudan, en conjunto, a
explicar la variable endógena y .
La hipótesis nula, es:

H 0 : β2  β3    βk  0 [19]
H1 : alguna de las igualdades no se cumple
Y la matriz R de orden (k  1)xk y el vector r , de orden (k  1) del

estadístico1, son en este caso:
0 1 0 0  0 0
0 0 1 0  0 0
  
R  0 0 0 1  0 r  0
   
. . . .  . . 
0 0 0 0  1 0
Es interesante señalar que esta hipótesis nula, no incluye el coeficiente

relacionado con el término independiente de la regresión 1 . De hecho,
aunque todos los coeficientes  2 ,  3 ,,  k no fueran estadísticamente
distintos de cero, el término independiente 1 recogería
aproximadamente la media de la variable endógena y podría ser distinto
de cero.
El conjunto de hipótesis de [19] puede contrastarse en función del

coeficiente de determinación como:
H
R2 / k 1 0
F
 
1 R 2 / T  k
~ Fk -1, T - k [20]
Si el valor del estadístico F , es superior a la ordenada F ; k -1, T - k

concluiremos que las variables X 2 , , X k , conjuntamente, tienen un
efecto significativamente distinto de cero a la hora de explicar la
variable dependiente.
1
k-1 es el número de restricciones (q); estas restricciones representan a las variables explicativas del
modelo, dejando a un lado el término constante.
595
2.- Si la hipótesis que deseamos contrastar, se refiere al valor de un solo

coeficiente, la hipótesis nula, es del tipo:
H 0 : βi  β i 0
[21]
H1 : βi  βi 0
La matriz R del estadístico sería un vector 1xk de la forma

( 0, ,1, ,0 ) , con el 1 ocupando la posición i  ésima , mientras que el
vector r , vendría dado por el escalar  i 0 .
El estadístico de contraste, toma la forma:
F
ˆ i  i 0 
2 H0
~ F1, T - k
ˆ 2 aii
O equivalentemente, ya que F es igual a t 2 :
ˆ   i 0 H0
t i ~ t T-k
ˆ  aii1 / 2
Donde
 aii es el elemento i  ésimo de la diagonal principal de la matriz
( X ' X )1 ,
 ˆ 2aii  S2ˆ es la varianza estimada del estimador ̂ i ; y

i
 tT  k denota la distribución t de student de T  k grados de libertad.
βˆ i  βi 0 H0
t ~ t T -k [22]
 ee
1/ 2

 a 
 T  k ii 
En el caso particular de que  i 0  0 , se está contrastando la significación
individual de la variable explicativa X t .
La hipótesis nula del contraste, es que el efecto marginal de un cambio

en X t sobre el valor medio de Yt , es nulo:
596
H0   i  0
H1   i  0
El estadístico de contraste, toma la forma:

ˆ i H0

t 1/ 2
~ t T-k
S a
ii
Rechazaremos la hipótesis nula a un nivel de significación  , si:
ˆ i
 t /2;T  k
S ˆ
i
Donde: t /2;T  k , es la ordenada de la distribución t de student de T  k

grados de libertad, que deja a la derecha una probabilidad de  / 2 .
Ejemplo 13.1.d Veremos ahora como comprobar la significatividad

individual de las variables
Las hipótesis, para el Ejemplo 12.5, son

H 0 : β2  0 H 0 : β3  0
H1 : β2  0 H1 : β3  0
Teniendo en cuenta los resultados alcanzados en 12.5.d y 12.5.g, los

estadísticos respectivos serán
t  1,82  0  18,26 t  0,30  0  1,5
0.01 0.04
El valor teórico de t para 2 grados de libertad y un nivel de confianza

de 0,95 es
t  4,303
2;0,95
β 2 es significativamente distinto de cero, por lo que la variable X 2
es significativa; mientras que, β3 es estadísticamente igual a cero,
por lo que la variable X 3 en el modelo es irrelevante.
597
En general, y en este ejemplo en particular, podríamos armar la

tabla de análisis de la varianza para definir el estadístico F . Plantea
inicialmente la Tabla teórica y luego complétala con los datos del
ejemplo que venimos desarrollando:
Fuente de Suma de Grados de Media de suma de

variación cuadrados libertad cuadrados
X SCE
Residuos SCR
Total SCT
Tabla 12.1. Análisis de la varianza para la regresión
Fuente de Suma de Grados de Media de suma de

variación cuadrados libertad cuadrados
X
Residuos
Total
Tabla 13.2. Análisis de la varianza para la regresión (datos del ejemplo)
Ahora calcula el estadístico F:

R 2 / k 1 SCE / k  1
F  
 
1  R / T  k SCR / T  k
2
Para ilustrar aún más la relación entre las distribuciones, recordemos que
de acuerdo con la proposición 13.1. el estimador de cualquier parámetro de
la relación lineal sigue una distribución normal univariante, dada por
ˆ i ~ N(  i , 2aii )
Donde, como antes, aii es el elemento i  ésimo de la diagonal principal de

la matriz ( X ' X )1 . Así,
ˆ  
i i ~ N( 0,1)
 a
ii
Y según el corolario de la proposición 13.3.

598
(T  k )S 2
~ T2  k
2
Por lo que si definimos el estadístico t ,
ˆ  
t i i : S T k
 a  T  k
ii
Nos queda
ˆ  
t i i ~t
T k ; i  1, , k
S a
ii
Ejemplo 13.2 Para estimar el modelo

Yt  1   2 X 2t   3 X 3t   4 X 4t   t ; t  1, ,90
Se dispone de las matrices

 5 3 2 0  3
 3 6  2  4 2
(X' X)  1   ; X' y   
 2 2 4 3   1
   
 0 4 3 4  2
90
Se conoce además que: Y ' Y   Yt2 80
t 1
y que la estimación MCO del modelo de regresión lineal es
Ŷt  11
  7
 X 2t  12
 X 3t  3 X 4t
( 1.6 ) ( 1.7 ) ( 1.4 ) ( 1.4 )
Donde entre paréntesis se informa del desvío estándar de cada

estimador.
Con esta información se solicita lo siguiente:
a) Calcular la SCR
b) Contrastar la significatividad individual de cada una de las variables

del modelo.
599
c) Contrastar la significatividad conjunta de las variables del modelo
d) Contrastar la restricción lineal sobre el modelo, expresada en la

siguiente hipótesis, a un nivel de confianza de 0.95,
H 0   3 ` 2 2  3
Los apartados a), b) y c) se dejan como ejercicio al lector. Para

contrastar la hipótesis formulada en el apartado d) debemos definir
las siguientes matrices, realizar y comprobar los cálculos
correspondientes
R  0 2 1 0 r  3
Rβˆ  r '  R X ' X 

1 1
'
R  Rβˆ  r  / q ( 5 )
1
( 5 )
F 
   20  2.5
e' e / T  k 1
2
Para el nivel de confianza establecido ¿los coeficientes  3 ,  2

satisfacen la restricción lineal planteada?
13.3. El modelo en forma de desviaciones
Comencemos este tema con una observación. Algunos autores informan

que el coeficiente de determinación varía en el intervalo [ 0,1] siempre y
cuando el modelo lineal tenga coeficiente o término independiente. No
estamos de acuerdo con esta afirmación habida cuenta de que el modelo de
regresión lineal siempre tiene término independiente excepto cuando se
formula en forma de desviaciones (o variables desvíos), pero aún en este
caso el coeficiente R 2 está comprendido entre 0 y 1.
Observación: Decimos lo anterior ya que el estimador MCO del modelo
de regresión lineal es, como hemos demostrado, el mejor estimador lineal,
insesgado y óptimo. La última propiedad dice que es el de menor varianza
de entre todos los estimadores insesgados posibles. Esto, como vamos a
ver, se mantiene si el modelo se formula en forma de desviaciones, pero es
falso cuando el modelo se formula sin término independiente.
Demostremos esta cuestión utilizando la regla del absurdo. Es decir,

definamos nuestro modelo sin término independiente,
Yt   2 X 2t   3 X 3t     k X kt   t ; t  1, ,T
600
En este caso, la diferencia entre este modelo y el formulado habitualmente

es el término 1 , por lo que podríamos expresar el modelo sin término
independiente de la siguiente forma:
Yt  1 X 1t   2 X 2t   3 X 3t     k X kt   t  1 X 1t ; t  1, ,T
Donde X1t es un vector de unos, T x 1 , por lo que
 1 
 
β1X 1   1   β1

 
 1 
Se puede demostrar que el estimador del modelo reformulado es

ˆˆ
 X`X  X' ( y  β
ˆ )
1
β 1
ˆ )β
Este estimador es insesgado solo si E ( β1 1
Partiendo de este supuesto, la varianza de este estimador es

ˆˆ
V( β )   2 X`X 1  V ( β
ˆ )  V( β
1
ˆ)
Es decir, no es un estimador óptimo y por lo tanto demás esta referirse al

coeficiente de determinación del mismo como una cuestión general dentro
de la teoría econométrica, que deba tenerse presente a la hora de estimar
un modelo.
Por lo tanto, hasta el momento, la única forma de especificar un modelo

econométrico, para su posterior estimación, es la generalmente aceptada o
la presentación en forma de desviaciones de las variables con respecto a
sus medias aritméticas, cuestión que analizaremos seguidamente.
Supongamos, ahora, que deseamos realizar una estimación sin término
independiente, para ello especificamos el modelo en forma de desviaciones
de la siguiente manera
y t   2 x 2t   3 x 3t     k x kt   t ; t  1, ,T
601
Donde las letras minúsculas representan variables desvíos respecto a su

media, es decir:
y t  Yt  Y
x kt  X kt  X ; k
 t   t ; ya que E (  t )  0
Se utiliza, generalmente, para estimar el modelo en dos etapas. En la

primera se estiman los coeficientes de regresión – que coinciden con los
estimados en la regresión habitual - y en la segunda etapa la ordenada al
origen, término o coeficiente independiente.
Se puede escribir matricialmente como

Ay  AX 2β 2  ε
Donde
1
 A  I   ii' ; siendo A una matriz de transformación, simétrica e
T 
idempotente, e i un vector de T unos
 Ay , es el vector endógeno representado en forma de desviaciones
 AX , es la matriz de variables explicativas en forma de desviaciones
 β 2 , es el vector de los coeficientes del modelo (sin ordenada al origen)
 Aε  ε
 Ai  0 , en general premultiplicando por A cualquier vector cuyos
elementos sean idénticos, da como resulta el vector nulo
Por lo tanto,
1 0  0 1 1  1
0 1  0 1 1 1  1
1
A  I   ii'    
T      T    
   
0 0  1 1 1  1
Las variables del modelo sufren una transformación, por ejemplo para el
caso de la variable endógena, tenemos
602
 Y1 
Y 
1
y   2   i' y  Y
   T
 
YT 
 Y1  Y 
Y  Y 
Entonces, Ay  y  iY   
2
  
 
YT  Y 
Lo mismo se puede realizar con cada una de las variables exógenas del
modelo. Por lo que el modelo estimado se puede escribir como:
ˆ e
Ay  AX 2β 2
Observación: Para demostrar esta última igualdad partamos del hecho de

que el estimador MCO β̂ y el vector de residuos están ligados por
ˆ  e.
y  Xβ
Si realizamos la partición de la matriz X como

X  [x 1 X 2 ]
Donde
x1 , es un vector columna de unos
X 2 , es la matriz Tx(k  1) de observaciones de las variables X 2 , X 3 , , X k
Entonces podemos reescribir la relación entre el estimador y el vector de

residuos de la siguiente manera
ˆ e
y  x1β̂1  X 2β 2
ˆ 
ˆ   1 
Con lo que, β
ˆ
 2
603
Premultiplicando por A da,

ˆ e
Ay  AX 2β 2
Con lo que queda demostrado (en la última expresión, hemos usado el

resultado general: cualquier vector cuyos elementos sean idénticos
premultiplicado por A es igual al vector nulo).
Con este resultado a la vista podemos reescribir el modelo en forma de

desviaciones como
ˆ e
yd  X d β 2
Donde los subíndices nos indican que el modelo esta expresado en forma
de desviaciones con respecto a la media. Como X' e  0 , resulta que
X' d e  0 . Por lo que premultiplicando el modelo en forma de desviaciones
por X'd se obtiene
ˆ
X' d y d  ( X' d X d )β [23]
2
Que son las conocidas ecuaciones normales, excepto que los datos están en
forma de desviaciones y que el vector de estimadores incluye solo los
coeficientes de la pendiente y excluye el término independiente. Para
obtener este último, luego del proceso de estimación, podríamos
ˆ  e por 1
premultiplicar y  Xβ i' , lo que da
T
 1 
 

Y  1 X2 X3 
 Xk  2 
  
 
 k 
donde, ˆ1  Y  ˆ 2 X 2  ˆ 3 X 3    ˆ k X k [24]
También podríamos expresar la descomposición de la suma de cuadrados

como,
604
ˆ ' X' X β
y'd y d  β ˆ
2 d d 2  e' e
SCT  SCE  SCR
El coeficiente de correlación múltiple, R , se define como la raíz cuadrada

positiva de
SCE βˆ ' X' X β ˆ

R2   2 d d 2 [25]
SCT y'd yd
Ejemplo 13.3 Con los siguientes datos muestrales, en forma de

desviaciones, realice la estimación y obtenga los coeficientes de
determinación y de correlación múltiple y los coeficientes de
correlación parcial del modelo
Yt  1 X 1t   2 X 2t   3 X 3t   t ; t  1, ,5
  1 0 0
 3  2  1
   
y d   4 ; Xd   2 1
   
  1   1  1
 1   1 1 
Demuestre que las ecuaciones normales son

10 6  ˆ 2  16
 6 4   ˆ    9 
   3   
Luego obtenga la solución para el vector de estimadores.
Partiendo del vector yd compruebe que la suma de cuadrados

totales es igual a 28. Obtenga la suma de cuadrado residual, la
suma de cuadrados explicada, el coeficiente de determinación
corregido y el coeficiente de correlación múltiple.
Las correlaciones parciales cobran importancia en caso de dos o

más regresores. Si trabajamos los datos en forma de desviaciones
podemos calcular el residuo parcial de la regresión entre la
variable dependiente y, supongamos, X 3 , de la siguiente manera:
e  y  ˆ x3 ,
yx 3 yx 3
605
 y x3
donde ̂ ,
yx 3   x 2
3
se denomina coeficiente de regresión parcial, en este caso entre
Y y X3 .
El coeficiente de correlación parcial, entre Y y X 3 , se define como

el cociente de correlación entre ambos conjunto de residuos. Se
indica como r .
YX 3 X 2 .
Su cálculo se realiza mediante la siguientes expresión:

rYX 2  rYX 3 r X 2 X 3
r 
YX 3 X 2 .
1  rYX
2
2
1  r X23 X 2
De manera similar podemos calcular r .

YX 2 X 3 .
El primero mide la asociación entre Y y X 3 una vez eliminada la

influencia ejercida por X 2 , mientras que el segundo mide la
asociación entre X 2 y X 3 cuando desaparece cualquier efecto que
pueda ejercer la variable endógena.
Los coeficientes de correlación simple como rYX 2 , rYX 3 , r X 2 X 3 se

suelen denominar coeficientes de orden cero, mientras que los
coeficientes de correlación parcial reciben el nombre de
coeficientes de primer orden.
Realice el cálculo con los datos del ejemplo. ¿Podría llegarse al

mismo resultado si en lugar de los coeficientes de correlación
simple usáramos los residuos parciales?. Compruébelo.
Con los datos del ejemplo, también podemos calcular la suma de

cuadrados totales en forma secuencial. De la siguiente manera:
Fuente de Suma de Fuente de Suma de

variación cuadrados variación cuadrados
X2 r 2 y2 X3 r 2  y2
YX YX
2 3
Incremento   Incremento  
r2 1  r 2  y 2 r2 1  r 2  y 2
YX YX
debido a X 3 YX X .
3 2 2 debido a X2 YX X .
2 3 3
X2 y X3 R2  y 2 X2 y X3 R2  y 2
(1  R 2 ) y 2 (1  R 2 ) y 2
Residuos Residuos
606
Reemplace las fórmulas por números y obtenga el resultado

correspondiente. También compruebe que las sumas de cuadrados
explicada, totales y residuales coinciden con los resultados
anteriores.
Cuando hay dos o más variables explicativas, no existe modo de

determinar la importancia relativa que cada una de las variables
tiene para explicar las variaciones de Y . Kruskal (1987) considera
varios métodos para evaluar la importancia de las distintas
variables explicativas2. Su propuesta se centra en el interés en el
promedio de los cuadrados de los coeficientes de correlación
simple y parcial sobre los distintos momentos posibles de
introducir las variables explicativas. En cada etapa, los coeficientes
de correlación al cuadrado relevantes indican la proporción de
varianza explicada por una variable X específica. Con los datos
del ejemplo, tenemos
Proporción media para X 2  rYX

2

 r 2YX 3 X2. / 2
 r ./ 2
2
Proporción media para X 3 2

YX 3  r 2YX 2 X3
Obtenga dichos valores y demuestre que según los coeficientes

medios de Kruskal, en nuestro ejemplo, el papel de X 2 es más
importante que el de X 3 a la hora de determinar Y .
Una forma alternativa de ver las contribuciones individuales, fue

introducida por Tinbergen en su diagrama utilizado en el estudio
de los ciclos de negocios3. Trabajando con los datos del ejemplo y
las variables en forma de desvíos realice cuatro gráficos. En el
primero dibuje lo valores de y con los valores de ŷ (compare
estos gráficos con los que hubiera obtenido desde las relativas
cíclicas e irregulares); en el segundo dibuje ̂ 2 x 2 ; en el tercero
̂ 3 x3 y finalmente grafique los residuos de la regresión. Llega
Tinbergen a la misma conclusión que Kruskal. ¿Porqué?.
2
Kruskal, W. “Relative importante by Averagin over Orderings”. The American Statiscian, 1987.
3
Tinbergen, J. “Bussiness Cycles in the United Status of America, 1919 – 1932. League of Nations, 1939.
607
13.4. Predicción en el modelo lineal
Una vez estimado el modelo con los datos de la muestra disponible, uno de
nuestros objetivos, es utilizarlo para hacer predicciones sobre los valores
futuros de la variable endógena Y .
Para que el modelo estimado sea adecuado para predecir valores futuros de
Y , hemos de suponer que la relación lineal entre Y y X se mantiene
también en el período de predicción.
Bajo este supuesto de estabilidad y dados unos valores conocidos de las
variables exógenas en el período de predicción, x P , la predicción por punto
de YP , será:
ˆ
Ŷp  x p' β [26]
Este predictor es lineal, ya que es una combinación lineal de las

observaciones Y .
El error de predicción correspondiente, es:

ˆ  u
e p  Yp  Ŷp  x p' β  β p   [27]
Este error de predicción incluye dos componentes, uno relacionado con el

error en la estimación de β y otro inherente a la parte estocástica del
modelo.
Bajo los supuestos habituales se tiene que el error de predicción sigue una
distribución normal con media:
 
E e p   E x p' β  β 
ˆ  u  0
p  [28]
Por lo que el predictor ŶP es insesgado.
En cuanto a su varianza:


 e2   2 1  x p' X ' X  1
x p 

[29]
El intervalo de confianza 1   para YP , será:
P x p' βˆ  t /2 T k 


ˆ 1  x X X 
2 '
p
' 1
xp 
1/2
  1 
 [30]
608
Este intervalo de confianza es aleatorio, ya que depende de los estimadores

β̂ y ̂ 2 .
Si contáramos con 100 muestras diferentes, podríamos construir 100
intervalos de confianza, de los cuales 1   contendrían el verdadero valor
de YP .
Ejemplo 13.1.e Supongamos, para los datos suministrados en el

Ejemplo 12.5, que queremos un intervalo de confianza del 95 por
ciento para Yˆt 1 dado X 2,t 1  8 , X 3,t 1  4 ; el intervalo sería:
 0,01  1,7869  0,1869  0,3597  1 

1 8 41,82   4,303 0.34 1  [1 8 4]  0,1869 0,0305 0,0245  8
 
0,30  0,3597 0,0245 0,1089  4
Calcula el valor de los límites del intervalo
A veces no estamos interesados en predecir tanto el valor futuro de la

variable endógena YP como su valor E (YP ) . La predicción por punto es,
operativamente, similar a la expresada en [26]:
Ê Yp   x p' β
ˆ [31]
Y el error de predicción asociado:
Vp  E Yp    Ê Y   p x p' β  x p' β p 
ˆ  x' β  β
ˆ  [32]
 V2  ˆ 2 x p' X ' X  x p
1
[33]
Este error de predicción, es debido solamente al error en la estimación de

β , por lo que  v2   e2 y el intervalo de predicción para E (YP ) :


P x p' βˆ  t /2 T k  ˆ 2 x p' X ' X  x p
1
1/2
  1
 [34]
Va a ser más estrecho que el que correspondía a la variable endógena, YP .

609
Ejemplo 13.1.f Para los datos del Ejemplo 12.5, calcula el intervalo
de confianza
Caso 13.1: Cálculo de R

2
Utilice la información que se suministra para el cálculo de R 2 .

 X  1700 Y  1110  xy  205500  x 2
 322000 y 2
 132100
Caso 13.2: Modelo de Inversión de empresas españolas entre 1959-

1971
Sobre la base de la información que se adjunta, se pide:

a) Cálculo del desvío estándar de la regresión
b) Cálculo del desvío de ̂1
c) Cálculo del coeficiente de determinación
d) Contraste  4  55 , nivel de confianza de 0.95
e) Se supone que la utilización de la capacidad productiva en 1972 se
ubicará en sus niveles medios; mientras que se espera una reducción
del 10% en los niveles de cash flow y capital, y del 5% en los niveles
de renta y rendimiento de las obligaciones. En este contexto, ¿cuál
es el valor esperado para la inversión?
610
Tabla de datos
obs CAPITAL CASHFLOW INVER RENDOBLI RENTA UCP
1958 989.2 88.4 6.7583 964.6
1959 1032.9 82.8 87.3 6.9422 943.8 78
1960 1088.4 90.2 98.8 6.95 951.8 74.7
1961 1154.6 103.9 114.2 6.945 1059.3 80
1962 1240.4 115.3 136.6 5.9379 1161.9 83.2
1963 1345.3 115.7 159.3 6.1638 1272.1 85.21
1964 1461.3 126.6 176.2 5.9756 1355.3 84.9
1965 1611.7 138.6 220.2 5.9787 1457.9 84
1966 1778.9 155 250.3 6.2188 1569.1 83
1967 1943.6 150.9 261.2 6.3087 1639 80
1968 2111.3 178.9 271.8 6.4047 1733.2 80.5
1969 2297.4 192.6 303.6 7.1207 1849.6 83.75
1970 2484.7 210.9 317.3 7.558 1957.6 83.75
1971 2647.8 234.4 305 8.6722 2053.3 82.2
Descripción de las variables

CAPITAL CASHFLOW INVER RENDOBLI RENTA UCP
Mean 1656.250 141.7286 207.8308 6.709614 1426.321 81.78538
Median 1536.500 132.6000 220.2000 6.581500 1406.600 83.00000
Maximum 2647.800 234.4000 317.3000 8.672200 2053.300 85.21000
Minimum 989.2000 82.80000 87.30000 5.937900 943.8000 74.70000
Std. Dev. 561.7621 47.73313 83.21946 0.753005 384.3025 3.031231
Skewness 0.436316 0.532956 -0.116699 1.245159 0.174604 -1.003863
Kurtosis 1.841288 2.162788 1.518098 4.252310 1.715203 3.251134
Jarque-Bera 1.227392 1.071638 1.219026 4.532479 1.034046 2.217600

Probability 0.541346 0.585190 0.543616 0.103701 0.596293 0.329955
Sum 23187.50 1984.200 2701.800 93.93460 19968.50 1063.210

Sum Sq. Dev. 4102496. 29619.87 83105.75 7.371223 1919949. 110.2603
Observations 14 14 13 14 14 13
Especificación del modelo:

I t   0  1C t   2Yt 1   3 CFt 1   4 RO   5 K t 1   t
donde:
It  INVER  Inversión en miles de millones de pesetas de 1969
C  UCP  Utilización de la capacidad productiva del periodo en %
Y  RENTA =Renta en miles de millones de pesetas de 1969
CF  CASHFLOW  Cash-flow de las empresas en miles de millones de
pesetas de 1969
RO  RENDOBLI  Rendimiento de las obligaciones en %
K  CAPITAL  Stock de capital en miles de millones de pesetas de
1969
611
2800 240
2400
200
2000
160
1600
120
1200
800 80
1958 1960 1962 1964 1966 1968 1970 1958 1960 1962 1964 1966 1968 1970
CAPITAL CASHFLOW
320 9.0
280 8.5
8.0
240
7.5
200
7.0
160
6.5
120 6.0
80 5.5
1958 1960 1962 1964 1966 1968 1970 1958 1960 1962 1964 1966 1968 1970
INVER RENDOBLI
2200 86
2000 84
1800
82
1600
80
1400
78
1200
1000 76
800 74
1958 1960 1962 1964 1966 1968 1970 1958 1960 1962 1964 1966 1968 1970
RENTA UCP
Matriz inversa de X´X

CAPITAL CASHFLOW RENDOBLI RENTA UCP
305,581292 0,02607461 0,9307289 -14,0134991 -0,12074648 -2,58732386
CAPITAL 0,02607461 5,8854E-05 -0,00012317 -0,00380121 -6,5333E-05 0,00015946
CASHFLOW 0,9307289 -0,00012317 0,0058293 -0,04112714 -0,00042482 -0,00806403
RENDOBLI -14,0134991 -0,00380121 -0,04112714 0,92270685 0,00879191 0,08866388
RENTA -0,12074648 -6,5333E-05 -0,00042482 0,00879191 0,00013049 0,00051801
UCP -2,58732386 0,00015946 -0,00806403 0,08866388 0,00051801 0,02582799
612
Estimación del modelo de inversión

Dependent Variable: INVER
Method: Least Squares
Date: 09/04/06 Time: 10:54
Sample(adjusted): 1959 1971
Included observations: 13 after adjusting endpoints
Variable Coefficient Std. Error t-Statistic Prob.
C 142.6521 235.0748 0.606837 0.5631
UCP -0.634780 2.161166 -0.293721 0.7775
RENTA(-1) 0.075908 0.153615 0.494142 0.6363
CASHFLOW(-1) 0.281594 1.026718 0.274267 0.7918
RENDOBLI -30.10861 12.91739 -2.330860 0.0525
CAPITAL(-1) 0.111703 0.103164 1.082771 0.3148
R-squared 0.984768 Mean dependent var 207.8308
Adjusted R-squared 0.973888 S.D. dependent var 83.21946
S.E. of regression 13.44754 Akaike info criterion 8.339507
Sum squared resid 1265.854 Schwarz criterion 8.600253
Log likelihood -48.20679 F-statistic 90.51270
Durbin-Watson stat 2.130300 Prob(F-statistic) 0.000003
Matriz de varianzas y covarianzas de los coeficientes

C UCP RENTA(-1) CASHFLOW(-1) RENDOBLI CAPITAL(-1)
C 55260.1809 -467.88199 -21.8353 168.30954 -2534.14890 4.71523
UCP -467.8819 4.6706 0.09367 -1.45827 16.03364 0.028837
RENTA(-1) -21.8353 0.0937 0.02359 -0.07682 1.58989 -0.011815
CASHFLOW(-1) 168.3095 -1.4583 -0.07682 1.05415 -7.437279 -0.022273
RENDOBLI -2534.1489 16.0336 1.58989 -7.437279 166.8588 -0.687395
CAPITAL(-1) 4.7152 0.0288 -0.01181 -0.02227 -0.68739 0.01064
BIBLIOGRAFIA

Vives. Barcelona.
□ Kruskal, W. “Relative importante by Averagin over Orderings”. The American
Statiscian, 1987.
□ Novales, A. (1993) "Econometría". Editorial McGraw Hill. Madrid.
□ Pulido, A. (1989). "Modelos Econométricos". Editorial Pirámide. Madrid.
□ Tinbergen, J. “Bussiness Cycles in the United Status of America, 1919 –

1932. League of Nations, 1939.
Capítulo 14. EXTENSIONES AL MODELO DE REGRESIÓN LINEAL
............................................................................................... 615
14.1 Introducción ........................................................... 615
14.2. Variables ficticias y cambio estructural....................... 616
14.3. Multicolinealidad ..................................................... 624

Detección de la Multicolinealidad .................................... 626
Consecuencias de la multicolinealidad ............................. 627
Solución para modelos con multicolinealidad .................... 628
14.4. Error de especificación ............................................ 638

Omisión de variables relevantes ..................................... 639
Inclusión de variables irrelevantes .................................. 641
Pruebas de errores de especificación. .............................. 642
CASOS DE ESTUDIO, PREGUNTAS Y PROBLEMAS...................... 643
Problema 14.1: Componentes principales ........................... 643
Caso 14.1: Determinantes del consumo ............................. 644
Caso 14.2: Regresión en componentes principales ............... 646
BIBLIOGRAFIA ........................................................................ 654

614
615
Capítulo 14. EXTENSIONES AL MODELO DE REGRESIÓN

LINEAL
14.1 Introducción
Una vez estimado el modelo de regresión tendremos que contrastar

diferentes hipótesis sobre su especificación y sobre los residuos del
modelo, con la finalidad de realizar el mejor ajuste posible de acuerdo
con los datos que sobre las variables involucradas fueron utilizados,
en un espacio y tiempo determinado. Los problemas que pueden
surgir, luego de la estimación, se pueden referir, por un lado, a
cambio estructural, error de especificación y multicolinealidad y por el
otro a violación de algunos de los supuestos sobre los residuos. En
este capítulo nos ocuparemos de las primeras causas de problemas,
en el próximo abordaremos el análisis de los residuos.
A modo de síntesis podemos decir que vamos a contrastar, por un

lado, hipótesis de linealidad, cambio estructural, omisión de variables
relevantes o inclusión de variables irrelevantes, multicolinealidad y
por el otro, normalidad, homocedasticidad, no autocorrelación.
Los problemas en la especificación pueden deberse a:
1) Cambio estructural
 La posibilidad de que los parámetros varíen entre distintos sub

períodos de tiempo o entre distintos grupos de individuos, dentro de
la muestra considerada. Dado que uno de los supuestos del modelo
de regresión, es la constancia de los parámetros en todo el periodo de
medición o para la totalidad de la muestra considerada, sería
interesante contrastar la existencia de cambios en los coeficientes del
modelo, es decir, de un cambio en la estructura del mismo.
 La introducción como variable explicativa en el modelo de factores

que, o bien no son cuantificables por naturaleza, como el sexo, la
profesión, el nivel de estudios, etc. O bien de forma discreta, como,
por ejemplo, la renta o la edad definida por intervalos.
616
2) Error de especificación
 La elección del conjunto de variables explicativas del modelo y los

efectos que puede tener sobre la estimación MCO de los parámetros
una mala elección de las mismas, bien sea porque omitimos variables
que son relevantes (omisión de variables relevantes) o porque
incluimos variables que no lo son (inclusión de variables irrelevantes).
 También puede existir la posibilidad de que la relación estimada no

sea lineal, es decir, las variables incluidas en el modelo son las
correctas pero la relación lineal entre ellas no es la adecuada. La
presencia de no linealidades hace que los residuos muestren
tendencias que indican su falta de aleatoriedad.
3) Multicolinealidad
 Al especificar el modelo suponíamos que las variables exógenas

eran linealmente independientes, esta hipótesis se denomina
hipótesis de independencia y cuando no se cumple decimos que el
modelo presenta multicolinealidad.
 Problemas en la identificación de los parámetros del modelo. Estos

problemas pueden provenir, por un lado, de especificar el modelo de
manera tal que no se pueden estimar de forma única todos sus
parámetros y, por otro, de que las características de la información
muestral disponible, no permitan estimar con precisión los
parámetros.
14.2. Variables ficticias y cambio estructural
Se denomina variable ficticia, en general, a una variable que se

construye artificialmente para recoger en el modelo, ciertos aspectos
importantes que expliquen el comportamiento de la variable
dependiente y que son de carácter discreto o cualitativo.
La incorporación de estas últimas en el modelo se realiza a través de

variables dicótomas, que asumen el valor 1 si esta se presenta o 0 si
no se presenta.
Una variables cualitativa puede tener m categorías pero en el modelo

deben definirse m-1 variables ficticias.
Si se definen tantas variables ficticias como categorías tenga la

variable cualitativa a estudiar, se estaría en presencia de la trampa de
617
las variables ficticias por la cual existe una combinación lineal entre la
suma de las variables ficticia (F) y la intersección.
Supongamos una variable cualitativa XCL que tiene m categorías,

esto nos lleva a definir:
1 cuando XCL  1
F1 
0 cuando XCL  1
1 cuando XCL  2
F2 
0 cuando XCL  2
  
1 cuando XCL  m  1
F (m  1) 
0 cuando XCL  m  1
Sea REG1 el conjunto de departamentos que tienen un IDHR mayor o

igual a la media, y REG2, el conjunto de regiones con IDHR inferior.
Si la región i–ésima pertenece a REG1, su función de consumo sería:
 IDHR i 
C i   1   R i   NBI i   i i  REG1  i  1
 IDHR(medio ) 
Mientras que, si una región pertenece a REG2, su ecuación de

consumo sería:
 IDHR i 
C i   2   R i   NBI i   i i  REG2  i  1
 IDHR( medio ) 
De esta forma se permite que los valores de los parámetros de la

función de consumo varíen de unas regiones a otras, es decir, que la
estructura de la función de consumo, sea distinta para cada tipo de
región.
618
Tabla 14.1. Regiones de Córdoba

Regiones PBG Población Consumo IDHR NBI F
Calamuchita 466189 46870 294029.84 0.793 15.06 0
Capital 9273055 1306725 8197419 0.786 12.2 0
Colón 1271521 182028 1141909.5 0.807 16.36 0
Cruz del Eje 289040 52906 331895.61 0.518 29.16 1
General Roca 476036 33415 209621.89 0.83 15.27 0
General San Martín 1180969 118429 742937.43 0.813 9.96 0
Ischilín 205080 30471 191153.63 0.602 21.08 1
Juárez Celman 1382524 88997 558304.13 0.805 9.82 0
Marcos Juárez 1539693 100200 628579.97 0.871 8.8 0
Minas 26750 4897 30722.42 0.42 39.46 1
Pocho 26712 5147 32289.29 0.404 40.77 1
Pte. R.Sáenz Peña 505783 34677 217540.75 0.844 12.25 0
Punilla 1025037 162968 1022343 0.837 12.34 0
Río Cuarto 2208493 232175 1456491.4 0.655 11.15 1
Río Primero 688052 43516 272989.95 0.636 17.55 1
Río Seco 125958 13088 82103.79 0.496 30.95 1
Río Segundo 1163385 98264 616434.22 0.837 10.61 0
San Alberto 190839 34090 213854.35 0.67 26.26 1
San Javier 236806 50338 315782.67 0.687 22.01 0
San Justo 2530314 193000 1210739.1 0.885 9.33 0
Santa María 519539 89855 563682.45 0.757 16.11 0
Sobremonte 23529 4601 28864.16 0.045 30.37 1
Tercero Arriba 1222153 108225 678922.42 0.832 9.51 0
Totoral 403004 17068 107069.19 0.548 20.1 1
Tulumba 177644 12404 77812.27 0.413 30.86 1
Unión 1491739 101052 633925.42 0.818 10.62 0
PBG. Producto Bruto Geográfico en miles de pesos corrientes para el año 2003, en base a
datos publicados por la Gerencia de Estadísticas y Censos de la Provincia de Córdoba.
Población: Estimada para el año 2003 a partir del crecimiento intercensal 1991 a 2001 según
datos publicados por la Gerencia de Estadísticas y Censos de la Provincia de Córdoba.
Consumo: Consumo en miles de pesos corrientes para el año 2003. Elaboración propia a
partir de la cantidad de habitantes y del consumo per cápita nacional del año 2003. El consumo
per cápita nacional se calculó a partir de la relación entre el Consumo más IVA en pesos
corrientes del año 2003 informado por el Ministerio de Economía y la cantidad de habitantes
proyectados para el año 2003 por el INDEC
IDHR. Indice de Desarrollo Humano Regional del año 2003, indicador resumen elaborado por
el Consejo Profesional de Ciencias Económicas de Córdoba, en base a datos de la Secretaría de
Energía de la Nación, EPEC y Anuario Estadístico de la Provincia de Córdoba, que mide la
calidad de vida de la población a partir de los indicadores de mortalidad infantil, alfabetización
y consumo de energía eléctrica; para el año 2003 el promedio provincial alcanzó el valor de
0.6773.
NBI: Población que tiene NBI (en % sobre el total de personas del Departamento) según datos
publicados por la Gerencia de Estadísticas y Censos de la Provincia de Córdoba.
F: Variable ficticia o dummy que asume el valor 1 cuando el departamento posee un nivel de
IDHR inferior a la media.
619
Ejemplo 14.1. Supongamos que se quiere estimar los parámetros de la

siguiente ecuación de consumo:
C i     R i   NBI i   i i  1, 2, , 26
Donde
C, es el consumo, R es la renta disponible, NBI es el indicador de población con
necesidades básicas insatisfechas y se cuenta con observaciones para los 26
departamentos de la Provincia de Córdoba.
Dada esta especificación, se supone que tanto el consumo autónomo,  , como
la propensión marginal a consumir,  , y el aporte marginal de NBI,  , no
varían para las distintas regiones.
Sin embargo, se sospecha que, al determinar el consumo agregado, puede ser
relevante tener en cuenta el grado de desarrollo de cada comunidad.
Un indicador plausible del grado de desarrollo, se basa en medir si el índice de
desarrollo humano regional es superior a la media del grupo analizado.
Los efectos del grado de desarrollo en una región, pueden introducir diferencias
tanto en el consumo autónomo como en la propensión marginal a consumir. Se
estudiarán ambos casos tanto en forma separada como conjunta. Para ello se
utilizarán los datos de la tabla 14.1.
1. Supongamos que las diferencias en el consumo debidas al grado de

desarrollo humano, se reflejan solo en el intercepto de la ecuación de
consumo, es decir, en el consumo autónomo.
Este efecto diferenciador, se puede recoger en una sola ecuación

definiendo una variable artificial que distinga entre los dos tipos de
regiones. Sea:
1 si la región i  REG1
F  
i
0 en otro caso
La ecuación de consumo se puede especificar como sigue:
C i   1   Fi   R   NBI i   i i  1, 2, , 26
i
Se puede comprobar fácilmente que el coeficiente que acompaña a la

variable ficticia Fi recoge la diferencia en el consumo entre las
regiones con IDHR  IDHR (medio) y las regiones con IDHR <
IDHR (medio).
El modelo estimado es:
Cˆ i  αˆ 1  δˆ Fi  βˆ R  γˆ NBI i
i
620
Cuando Fi = 0:
Cˆ i  αˆ 1  βˆ R  γˆ NBI i
i
el consumo autónomo viene dado por  1 , e indica el nivel de consumo

para los departamentos de REG2
Cuando Fi = 1:
 
Cˆ i  αˆ  δˆ  βˆ R  γˆ NBI i
1 i
el consumo autónomo viene dado por αˆ 1  δˆ  αˆ 2 , siendo

δˆ  αˆ 2  αˆ 1 y es la estimación del consumo para REG1
La utilización de variables ficticias permite recoger cambios discretos

en la función de consumo.
Para contrastar este posible cambio de estructura, es decir, si existe

evidencia de un cambio en el consumo autónomo de un grupo de
regiones a otro dependiendo del grado de desarrollo humano, la
hipótesis de contraste, sería:
H0 :   0
HA :   0
Aceptar la hipótesis nula es indicativo de no influencia de los niveles

de desarrollo en el consumo. Si la hipótesis nula se rechaza es porque
existen diferencias significativas.
Si el modelo cumple los supuestos habituales del modelo de regresión

lineal general, los estimadores MCO de los coeficientes de regresión
del modelo tienen buenas propiedades y el contraste de hipótesis
basados en el estadístico F , es válido.
Observación. Otra forma equivalente de recoger esta diferencia de

comportamiento en el intercepto entre los dos grupos de regiones, se
basa en definir dos variables ficticias:
F1i  
0 en otro caso
621
F2i  
0 en otro caso
Y especificar la ecuación de consumo como sigue:
C i   1 F1i   2 F2i   R i   NBI i   i i  1, 2, , 26
En este caso los coeficientes que acompañan a las variables ficticias

recogen, respectivamente, cada uno de los dos consumos autónomos.
El contraste de cambio de estructura en el consumo autónomo, se

basa en contrastar la siguiente hipótesis:
H 0 : 1   2
H A : 1   2
Se puede observar que los dos modelos dados son equivalentes,

siendo el último modelo, únicamente una reparametrización del
primer modelo.
Cuando incluimos tantas variables ficticias como grupos o categorías

tiene la variable cualitativa, no se ha de incluir el término constante.
En este ejemplo, si especificamos el modelo:
C i   0   1 F1i   2 F2i   R i   NBI i  u i i  1, 2, , 26
La primera columna de la matriz de regresores X , es la suma de la

segunda y tercera columna.
Por lo tanto, el rango de la matriz X , no es completo:  ( X)  3  4
La matriz X' X es singular, por lo que ( X' X) 1 no existe.
El sistema de ecuaciones normales, tiene menos ecuaciones

linealmente independientes que incógnitas y no se puede resolver de
forma única.
2. Supongamos ahora que las regiones con un IDHR  IDHR (medio),

pueden tener una propensión marginal a consumir distinta de
aquellas con IDHR < IDHR (medio).
622
En este caso, lo que cambia es el efecto de la variable explicativa,

renta sobre el consumo, es decir:
C i     1 R i   NBI i   i i  REG1
C i     2 R i   NBI i   i i  REG2
Podemos recoger estas diferencias en una sola ecuación mediante la

utilización de la variable ficticia Fi , de forma que tenemos la
ecuación:
C i    1 R i   Fi R i   3 Fi NBI i   NBI i   i i  1, 2, , 26
Cuando Fi = 0:
C i     1 R i   NBI i   i i  REG1
Y  1 es la propensión marginal a consumir de las regiones con

desarrollo superior.
Cuando Fi = 1
C i     1    R i   NBI i   i i  REG2
La propensión marginal a consumir es: 1     2 .
Es interesante señalar que el parámetro    2  1 recoge la

diferencia en la propensión marginal al consumo entre regiones con
IDHR  IDHR(medio) y regiones con IDHR < IDHR(medio).
Si suponemos que el modelo, cumple los supuestos habituales del

modelo de regresión, los estimadores por MCO de  ,  ,  son
insesgados y eficientes y el contraste de hipótesis basado en el
estadístico F , sigue siendo válido.
El contraste de cambio estructural en la propensión marginal a

consumir, se basa en contrastar la siguiente hipótesis:
H0 :   0
HA :   0
623
3. Para contrastar un posible cambio estructural en todos los

parámetros de la ecuación de consumo, tanto en el intercepto como
en la pendiente entre ambos grupos de regiones, se especifica el
modelo como sigue:
C i   1   1 Fi   2 Fi R i   1 R i   NBI i   i i  1, , 26
Suponiendo que este modelo cumple las hipótesis habituales del

modelo de regresión, los estimadores MCO de 1 ,  1 ,  2 y 1 son
insesgados y eficientes y los contrastes siguen siendo válidos.
La hipótesis nula de no existencia de cambio estructural en la función

de consumo entre ambos grupos; es decir, que el grado de desarrollo
humano no afecta a la función de consumo, es:
H 0 : 1  0 y 2  0
H A : 1  0 y 2  0
Que se puede contrastar con el estadístico F .
Una forma equivalente de realizar este contraste, también conocido

como contraste de CHOW, se basa en el siguiente estadístico:
F
e '
R  
e R  e 1' e 1  e '2 e 2 / k H 0
~ F k, T - 2k 
 
e 1' e 1  e '2 e 2
T  2k
Donde, en nuestro ejemplo, T  26, k  3 .
Se rechaza la hipótesis nula de no existencia de cambio estructural, si

el valor del estadístico es mayor que la ordenada F k,T-2k)  de la
distribución F de Snedecor con k, T - 2k  grados de libertad.
Observación. Para poder llevar a cabo el contraste de cambio

estructural utilizando las sumas de cuadrados de residuos de las
regresiones para cada sub muestra, es necesario disponer en cada
grupo de un número suficiente de observaciones para poder estimar
los parámetros de la ecuación.
624
En ocasiones, especialmente con datos de series temporales, es

posible que en alguno de los sub períodos, no se disponga el número
de observaciones necesarias.
 Supongamos, sin pérdida de generalidad, que en el segundo sub

período o grupo, el número de observaciones t2, es menor o igual
que el número de coeficientes de regresión, k.
 El contraste de cambio estructural, se puede realizar modificando el

estadístico como sigue:
F
e' e
R R 
 e1' e1 / T2 H0
~ F T2 , T1 - k 
e' e
1 1
T1  k
Bajo la hipótesis nula de no existencia de cambio estructural entre los

dos sub períodos, este estadístico, conocido con el nombre de
contraste predictivo de Chow, se distribuye como una F de
Snedecor.
14.3. Multicolinealidad
La existencia de correlación entre las variables explicativas en la

muestra, se denomina multicolinealidad. Por lo tanto la hipótesis nula
que vamos a contrastar es
H 0 : No Multicolinealidad
Si, dada la especificación del modelo, algún o algunos regresores, se

pueden expresar como una combinación lineal exacta de otros
regresores, entonces se dice que existe multicolinealidad perfecta.
En este caso extremo, el rango de la matriz x, no es completo, es

decir,  (X)  k .
Por lo tanto, la matriz (X' X) no es invertible y no existe una solución

única para β̂ del sistema de ecuaciones normales, (X' X)βˆ  X' y .
La multicolinealidad perfecta, es un problema de identificación en el

siguiente sentido. Si dada la especificación del modelo hay un
problema de multicolinealidad perfecta, distintos valores de los
625
parámetros, generan el mismo valor medio de la variable

dependiente, E (y )  Xβ .
Por lo tanto dada la muestra (Y , X ) , no se pueden identificar aquellos

valores de los parámetros que la han generado porque la función
criterio que minimizamos y  E(y) y  E(y) no discrimina entre
'
distintos valores de β .
Ejemplo 14.2. Matriz de regresores colineales

Consideramos el siguiente modelo de regresión:
Yi   1   2 X 2i   3 X 3i   i i  1,  , n
Donde se satisface que X2i  X3i  3.
Entonces la suma de la segunda y tercera columna de la matriz de regresores
X , es igual a tres veces la primera, por lo que el rango de la matriz de
regresores, 2, es menor que el número de parámetros, 3, y no existe solución
única al sistema de ecuaciones normales.
En este caso, para cualquier observación:

E Yi    1   2 X 2i   3 X 3i 
   1  3  2    3   2  X 3 i 
  1   2 X 3i
Podemos observar distintos valores de 1, 2, y 3 para los que las
combinaciones lineales  1  3 2  y  3   2  permanecen invariantes y, por lo
tanto, nos proporciona el mismo valor de E Yi  .
No es posible discriminar entre todos esos valores y solamente podemos
identificar o estimar de forma única  1   1  3 2  
y  2   3   2 , es  
decir, combinaciones lineales de los parámetros de interés.
Observación. Si el problema no es de multicolinealidad perfecta, sino

de un alto grado de colinealidad entre las variables explicativas, los
parámetros del modelo de regresión se pueden estimar de forma
única por MCO, y los estimadores serán lineales, insesgados y
óptimos.
Supongamos que en un modelo, la correlación entre los regresores

X2i y X3i es muy alta, es decir, r23  1 .
2
Se puede demostrar que la varianza del estimador MCO de los

coeficientes asociados a X2i y X3i está directamente relacionada con
el grado de correlación existente entre los regresores:
626

2
V ˆ 2  

 X 2t  X 2 2 1  r23
2

Cuanto mayor sea la correlación muestral entre los regresores, mayor
será la varianza de los estimadores y menor la precisión con la que se
estiman los coeficientes individualmente.
En el caso extremo, si r232  1, V ˆ 2    lo que implica que cualquier

valor para β 2 , es admisible.
Detección de la Multicolinealidad
Como síntomas más comunes de la multicolinealidad tenemos los

siguientes:
 Matriz de correlaciones, R XX , entre las variables explicativas en el

intervalo [0.72;0.99].
 Poca significatividad individual con alta significatividad conjunta y

buen R 2 .
 Influencia en las estimaciones de la eliminación de una

observación en el conjunto de datos.
 Factores de inflación de la varianza
1
VIF   10 ,
(1  R j )
2
donde R j es el coeficiente de determinación de la regresión auxiliar

2
de la variable explicativa j en función de las demás variables

explicativas.
 Valores propios i de X' X cercanos a cero o Índice de condición
1/ 2
  max 
   30 .
  min 
 Entre los estadísticos para detectar la multicolinealidad se

encuentra el contraste de Farrar-Glauber, donde la hipótesis a
contrastar es no multicolinealidad.
627
 (2k  5)  H0 2
G   ln R XX T  1   ~   ; k ( k 1)
 6  2
donde ln R XX es el logaritmo natural del determinante de la matriz de

correlación de las variables explicativas incluidas en la estimación
Consecuencias de la multicolinealidad
Un alto grado de multicolinealidad, tiene consecuencias negativas

sobre las estimaciones:
1- Aunque se obtenga un buen ajuste en base al R 2 y, por lo tanto,

evidencia de que conjuntamente las variables explicativas son
estadísticamente significativas, los coeficientes estimados pueden
tener grandes desviaciones típicas y pueden resultar individualmente
no significativos.
2- Las estimaciones son muy inestables ante pequeños cambios en la

muestra.
3- Los coeficientes estimados, pueden presentar signos incorrectos o

magnitudes poco esperadas a priori.
La multicolinealidad puede afectar mucho a la estimación de unos

parámetros y nada a la de otros. Los parámetros asociados a
variables explicativas poco correlacionadas con las restantes, se
podrán estimar con precisión.
Una vez detectado un posible problema de multicolinealidad, es difícil

solucionarlo.
No es probable que obtengamos información nueva, es decir, otra

muestra que no represente este problema, porque, de disponer de
ella, se utilizaría.
Una posible solución, pero no buena, es eliminar del modelo alguna

de las variables que crean el problema. Sin embargo, proceder de
esta forma, puede introducir sesgos en la estimación y problemas en
la validez de los contrastes, si las variables omitidas, son relevantes.
La multicolinealidad, no afecta a la predicción y p  X 'p βˆ siempre que

la misma estructura de colinealidad, se mantenga fuera de la
muestra.
628
Tampoco afecta al vector de residuos MCO, e , que siempre está

definido, ni crea problemas en la estimación de  2 .
Solución para modelos con multicolinealidad
Las soluciones se pueden clasificar en robustas y no robustas. Las

primeras son aquellas que suprimen la variable que genera la
multicolinealidad con justificación estadística y económica.
Entre aquellas no robustas se encuentran las que no transforman las

variables y las que si lo hacen. Entre los métodos que no transforman
variables está la solución de ampliar la muestra de datos. Entre los
segundos, existen varias alternativas:
 Usar el modelo en diferencias vigilando la autocorrelación
 Usar transformaciones de las variables exógenas usando ratios
 Usar la regresión en cadena, que ofrece como estimadores de los

parámetros a
βˆ  (X' X  cI) 1 X' y
siendo c una constante, que en la práctica suele tomarse con valores

en el intervalo [0,01;01]. En este modelo, la matriz de varianzas y
covarianzas es  2 (X' X  cI) 2 X' X( X' X  cI) 1
 Usar la regresión sobre componentes principales
Supongamos que tenemos un modelo de regresión con T

observaciones y k variables explicativas Este último método consiste
en sustituir el conjunto de k variables explicativas por sus k
componentes principales C1t ,C 2 t , C kt , o por un subconjunto de éstas.
Así, en el modelo lineal,
Yt   0  1 X 1t   2 X 2t     k X kt   t
sea
629
 z11  z k1 
 
Z    
 
 z1T  z kT 
las observaciones expresadas en forma de variables tipificadas,

correspondiente a las k variables explicativas. De tal forma que,
1
R Z' Z
T 1
será la matriz de correlaciones muestrales entre las k variables

explicativas.
La naturaleza de las componentes principales puede enfocarse de

distintas formas. Cuántas dimensiones existen en el conjunto de las k
variables explicativas, es decir hay suficiente correlación entre ellas
que hagan pensar que dos o más representan la misma dimensión
para el análisis. Para ello plantearemos la transformación de las
mismas en un nuevo conjunto de variables que tomadas de dos en
dos no estén correlacionadas, que denominaremos componentes
principales. Una de las características de estas nuevas variables es
que la primera recogerá la mayor varianza del análisis, la segunda la
mayor parte de la varianza residual y así siguiendo… A estas nuevas
variables se las obtiene a partir de los vectores propios, estos son las
direcciones principales de la nube de puntos.
Para calcular los vectores propios necesitamos primero calcular los

valores propios y eso se obtiene diagonalizando la matriz R . Es
posible demostrar que existen k números reales positivos
1  2     k y k vectores asociados p1 ,p 2 ,, p k que forman una
nueva base ortonormal de  k y que verifican,
Rp k  k p k ; k
Rp k  k p k  0
p k (R  k I k )  0
R  k I k  0  R  k I k  0  k I k  R
630
La solución a este sistema genera los k valores propios buscados. A

partir de ellos se calculan los k vectores propios, formando la matriz
ortogonal k x k
P  p 1 p2  pk 
De esta forma, se tiene que
C1t  p11 z1t  p 21 z 2t    p k 1 z kt ; t  1,, T
Representa la primera de las nuevas variables.
En forma matricial
C 1  Zp 1
En donde C 1 es un vector de T elementos – T observaciones

transformadas – y p 1 un vector de k elementos – la primera columna
de la matriz de vectores propios –
Observación. La suma de cuadrados de C 1 es
C1 ' C1 Z' Z
C 1 ' C 1  p 1 ' Z' Zp 1 (ó también  p1 ' p1 )
T 1 T 1
Se elige p 1 que maximice C 1 ' C 1 , pero hay que imponer alguna

restricción, caso contrario la suma de cuadrados de C 1 podrá hacerse
infinitamente grande. Para ello normalicemos, haciendo
p1 'p1  1
Ahora se trata de obtener un máximo sujeto a restricciones.

Definamos
Z' Z
  p1 ' p 1  1 (p 1 ' p 1  1)
T 1
En donde 1 es un multiplicador de Lagrange. De esta forma tenemos

631

 T21 Z' Zp 1  21p 1
p1
Aplicando la condición de primer orden de máximo, obtenemos
1
( Z' Z )p 1  1p 1
T 1
De esta forma demostramos que p 1 es un vector propio de la matriz

1
R Z' Z , correspondiente al valor propio 1 .
T 1
Además, se observa que
1
Z 1 ' Z 1  1p 1 ' p 1  1 ¿Por qué?
T 1
Por lo que debemos elegir como 1 al mayor de los valores

característicos de R que, en ausencia de multicolinealidad perfecta,
será definida positiva y por lo tanto sus valores propios serán
positivos, es decir
1  2    k  0 .
La primera componente principal de Z es entonces C 1 .
Definamos C 2  Zp 2
Z' Z
Debemos elegir p 2 tal que maximice p 2 ' p 2 , sujeto a que
T 1
p 2 'p 2  1 y p1 'p 2  0 .
La razón de la segunda restricción es que C 2 no debe estar

correlacionada con C 1 .
La covarianza entre ellas viene dada por

632
p 1 ' Z' Zp 2  1p 1 ' p 2  0, siempre que p 1 ' p 2  0
Definamos,
Z' Z
  p2' p 2  2 (p 2 ' p 2  1)  * (p1 ' p 2 )
T 1
En donde  2 , * son multiplicadores de Lagrange.
 2
 Z' Zp 2  22 p 2  *p1  0
p 2 T 1
Premultiplicando por p 1 ' , queda
2
p1 ' Z' Zp 2  *  0
T 1
lo que a su vez, implica que
p1 ' Z' Zp 2  *  *  

2 ' 2
*  p 2 ' Z' Zp1
T 1 T 1
Pero conociendo que,
1
( Z' Z )p 1  1p 1
T 1
1
p 2 ' ( Z' Z )p 1  1p 2 ' p 1  0
T 1
Entonces, *  0
Y tenemos que,
1
Z' Zp 2  2p 2
T 1
Aquí se elige  2 tal que sea la segunda raíz característica más grande
de Z' Z .
Se puede proceder de esta forma para cada una del las k raíces de
Z' Z y con los vectores resultantes formar la matriz ortogonal
P  p 1 p 2  p k .
633
De esta manera las k componentes principales de Z vienen dadas

por la matriz C de orden T x k definida como
C  ZP
Que verifican
1 0  0
0   0 
1 1
CĆ  P´Z´ZP     2
T 1 T 1     
 
0 0  k 
De esta manera podemos decir que las componentes principales son

centradas, no correlacionadas y sus varianzas son los valores propios.
Para obtener las coordenadas del t  ésimo individuo en el nuevo

sistema de ejes, se procede de la siguiente forma,
C1t  p11z1t  p21z2t    pk 1zkt ; t  1,,T

C 2t  p12 z1t  p22 z 2t    pk 2 zkt ; t  1,,T

C kt  p1k z1t  p2k z 2t    pkk z kt ; t  1,,T
Ejemplo 14.3. La tabla 13.2 contiene información sobre 5 observaciones para

tres variables explicativas ( X 1 , X 2 , X 3 ). Estas variables presentan alta
correlación alta correlación por lo que procedemos a calcular las componentes
principales.
Tabla 14.2 Matriz de valores de X
Observaciones X2 X3 X4
1 2 3 2
2 4 3 2
3 5 4 3
4 2 2 1
5 1 2 2
De acuerdo a lo analizado teóricamente tendremos que calcular los vectores

propios ortogonales de la matriz Z' Z , donde Z es la matriz de variables
tipificadas de los valores originales de la matriz de variables independientes. Los
elementos de Z' Z serán los siguientes, (¿por qué?)
 4 3.4915 2.5820 

Z' Z  3.4915 4 3.3806 

2.5820 3.3806 4 
634
Observación. si se divide la matriz Z' Z por T  1 se obtiene la

matriz de correlaciones, R , de las variables explicativas X it ¿Por qué?
Para calcular los vectores propios necesitamos primero calcular los

valores propios y eso se obtiene diagonalizando la matriz Z' Z . Según
los datos del ejemplo, existen k  3 números reales positivos
1   2  3 y k  3 vectores asociados p 1 , p 2 , p 3 que forman una
nueva base ortonormal de  3 y que verifican, Rp k   k p k ; k  1,2,3
El lector deberá comprobar que la solución de este sistema genera 3 valores

propios, que para nuestros datos son:
1  2,579783  2  0,355272 3  0,064945
Y que forman la matriz diagonal correspondiente a R
2,579783 0 0 
  0 0,355272 0 
 
 0 0 0,064945 
Demuestre que a estos valores propios le corresponden los vectores propios
  0.564302   0.679974   0.468186 
p 1    0.609621 p 2   0.039211  p 3   0.791723 
     
 0.556709   0.732187   0.392400 
Observación: podemos elegir p k ó ( p k )k  1,2,3
Las componentes principales serán entonces,

C1t  0.564302 z1t  0.609621z 2t  0.556709 z kt ; t  1,  ,24
C 2t  0.679974 z1t  0.039211z 2t  0.732187 z kt ; t  1,  ,24
C 3 t  0.468186 z1t  0.791723 z 2t  0.392400 z kt ; t  1,  ,24
Dada la matriz Z
Observaciones Z1 Z2 Z3
1 -0.4869 0.2390 0.0000
2 0.7303 0.2390 0.0000
3 1.3389 1.4343 1.4142
4 -0.4869 -0.9562 -1.4142
5 -1.0954 -0.9562 0.0000
635
Las coordenadas del t  ésimo período en el nuevo sistema de ejes son
Observaciones C1 C2 C3
1 0.1290 -0.3217 0.4172
2 -0.5578 0.5060 -0.1527
3 -2.4172 -0.0688 -0.0462
4 1.6450 0.6669 0.0258
5 1.2011 -0.7824 -0.2442
Así, por ejemplo, la primera coordenada de la observación 3 en

componentes principales, se obtuvo haciendo,
C1,3  0.564302  (1.3389 )  0.60962  (1.4343 )  0.556709  (1.4142)

 2.4172
También sugerimos al lector que verifique que
C1  C 2  C 3  0
V (C1 )  1;V (C 2 )   2 ;V (C 3 )  3
Cov (C1C 2 )  0; Cov (C1C 3 )  0; Cov (C 2C 3 )  0
Las componentes principales fueron obtenidas postmultiplicando la

matriz de variables explicativas tipificadas por la matriz de vectores
propios.
Teniendo en cuenta que P' P  I k y que los autovectores anteriores

además de ortogonales se pueden elegir unitarios. El modelo original
se puede transformar en
Y  Zβ  ε  ZPP' β  ε  Cα  ε
Los coeficientes de regresión α  P' β están asociados a k variables

explicativas no correlacionadas pues las componentes principales son
ortogonales.
Este modelo auxiliar
Yt   0   1C1t     k C kt   t ; t  1,, T
No estará afectado de multicolinealidad pues las variables C1t ,  C kt no

están correlacionadas.
636
Si se eliminan las variables explicativas C r 1 ,  , C k ,que son las k  r

últimas componentes cuya variabilidad es menor, se pierde poca
información y el modelo resultante.
Yt   0*   1* C1t     r* C rt   t* ; t  1, ,T
Será una aproximación al original, sin multicolinealidad, y a partir de

sus estimaciones se obtiene el estimador βˆ de β .
*
α
Como, β  Pα  [P1 P2 ][ **
]
α
Donde,
P1 es la matriz formada por las r  1 primeras columnas de P
α *  ( 0* 1*  r* )' .
Si las últimas k  r componentes principales explican una pequeña

parte de la variabilidad de las variables predeterminadas del modelo
original, o sea si se puede considerar α **  0
Resulta que, β  P1 α * con lo que el estimador de β será, βˆ  P1 αˆ *
Siendo α̂ * el estimador de los coeficientes α * en el modelo de las r  1

primeras componentes principales.
Ejemplo 13.3. (continuación). Para ilustrar esta segunda parte del análisis de
las componentes principales con los datos del ejemplo se incluye una estimación
al final del capítulo.
Por otra parte, la variación total de las variables tipificadas Z viene

dada por
z
t
2
1t   z 22t     z kt2  tr (Z' Z)
t t
Pero,
tr (P' Z' ZP)  tr (Z' ZPP' )  tr (Z' Z) , debido a que, P' P  I k

637
Quiere decir que,

k
tr (P' Z' ZP)  tr (Z' Z)  trΛ   i 
i 1
 Z1 ' Z1    Z k ' Z k
Pero como hemos trabajado con la matriz de variables tipificadas y

diagonalizando la matriz de correlaciones, se tiene que esta última
suma, igual a la traza de la matriz lambda, es igual a k . (Comprobar)
De esta forma,
1 2 
, ,, k
  
Representa la proporción en que cada componente principal
contribuye a la explicación de la varianza total de las Z , y puesto que
las componentes son ortogonales, estas proporciones suman la
unidad, (que el lector deberá comprobar).
Con frecuencia, la correlación entre los datos económicos y sociales

significa que un número pequeño de componentes explicarán una
gran proporción de la variación total y sería deseable poder realizar
una prueba de hipótesis para evaluar cuál es el número de
componentes que debe retenerse para un análisis posterior.
Supongamos que hemos calculado las raíces 1   2     k y que las
primeras r raíces 1   2     r ; ( r  k ) , parecen ser suficientemente
grandes y diferentes como para retenerlas. En este caso, la pregunta
es si las restantes k  r raíces son lo suficientemente parecidas entre
sí como para concluir que los verdaderos valores son iguales. Es
decir, la hipótesis nula a corroborar es
H 0 :  r 1   r  2     k
Un contraste de hipótesis aproximado se basa en el estadístico1
     k   H 0 2
k r
rho  T ln ( r 1 r  2   k ) 1  r 1 r  2   ~  1 / 2 ( k  r 1)( k  r  2)

  k  r  
1
Kendall, M. y Stuart, A. The advanced theory of Statistics, vol. 3, Londres, 1966.
638
En las aplicaciones prácticas (ver problema al final del capítulo) se

espera que el número de componentes significativamente diferentes
r que han de retenerse sea sustancialmente menor que el número k
a partir de las cuales se obtienen las componentes.
14.4. Error de especificación
Habitualmente se entiende por error de especificación todo error que

se comete en la especificación de la parte sistemática del modelo de
regresión, es decir, qué variables explicativas se incluyen, cuál es la
forma funcional, etc.
A pesar de que pueden existir muchos problemas en la especificación

del modelo, con el término error de especificación nos referimos solo
a las relacionados con la selección del conjunto de variables
explicativas, es decir, a las consecuencias de omitir variables
relevantes o de incluir variables irrelevantes en el modelo. No
obstante, también se puede estudiar si el modelo especificado
responde a una relación lineal o no. La linealidad del modelo puede
ser evaluada a partir de la prueba RESET de Ramsey. Partiendo de
que cualquier función puede ser aproximada por polinomios del orden
adecuado, se puede introducir en el modelo de regresión términos
con las potencias sucesivas de la variable endógena. El contraste de
Ramsey realiza una prueba para comprobar si los coeficientes de las
potencias incluidas en el modelo son cero, en cuyo caso se podría
aceptar la forma funcional lineal del mismo.
Para realizar el contraste RESET debemos decidir cuantas funciones

de los valores ajustados incluiremos en la regresión ampliada. No hay
una respuesta concreta a esta pregunta, pero los términos al
cuadrado y el cubo suelen ser suficientes en la mayoría de los casos.
Sean Yˆt los valores ajustados por MCO al estimar la ecuación
Yt   1   2 X 2t     k X kt   t
Consideremos la ecuación ampliada

639
Yt  1   2 X 2t     k X kt   2Yˆ 2   3Yˆ 3   t
Obviamente no estamos interesados en los valores estimados de esta

última ecuación, solo queremos determinar la existencia de no
linealidad en el modelo originalmente estimado. Debemos recordar, al
respecto, que Yˆ 2 , Yˆ 3 son funciones no lineales de las variables
exógenas.
La hipótesis nula es la de linealidad. Formalmente, Ramsey establece,
H 0 : ε  N(0,  2 I ); H 1 : ε  N(ε,  2 I) ε  0
El estadístico RESET es una F que, bajo hipótesis nula, tiene

2, T  k  2 grados de libertad. ¿por qué?. En general, podríamos
expresar los grados de libertad en función de la cantidad de
regresores que se añaden, pero teniendo en cuenta que debemos
dejar los suficientes grados de libertad para la estimación del modelo.
Omisión de variables relevantes
Supongamos que el modelo correctamente especificado, es de la

forma:
y  X1 β1  X 2 β 2  ε
Donde
 X 1 Txk1  y X 2 Txk 2  , son matrices de regresores no estocásticos.
 E (ε)  0; E εε '    2 Ι T
Sin embargo, se especifica y se estima el siguiente modelo,
y  X 1β 1  ε *
Donde se han omitido k 2  variables explicativas de la parte

sistemática del modelo.
Dado que la perturbación del modelo es ε *  X 2 β 2  ε , tenemos

640
 
E ε *  X 2β 2 y  
E X '1ε *  X '1X 2β 2
Es interesante observar que si, al especificar el modelo de regresión,

omitimos variables explicativas relevantes para determinar la
variabilidad de y , el efecto de estas variables queda recogido en el
término de error.
El comportamiento de la perturbación ε * , va a reproducir el

funcionamiento de las variables X 2 omitidas, por lo que, salvo casos
excepcionales, no va a cumplir los supuestos exigidos en el modelo de
regresión lineal general.
Este resultado lleva a cuestionar las propiedades del estimador MCO

de β 1 en el modelo.
En este sentido, es fácil demostrar que el valor medio del estimador,

es:
E βˆ 1   X 1' X 1  X 1' E y   β 1  X 1' X 1  X 1' X 2 β 2

1 1
El sesgo del estimador desaparece si: X 1' X 2  0 .
Esta condición implica que las variables explicativas incluidas en el

modelo y las omitidas, no están correlacionadas.
Por otro lado, el estimador habitual de la varianza de las

perturbaciones:
e *' e *
S 
2
T  k1
Será también sesgado, aunque se cumpla que X 1' X 2  0 , lo que

implica que el estimador de V βˆ 1 :  
ˆ βˆ 1   S 2 X 1' X 1 
1
V
No es insesgado y los contrastes de hipótesis habituales sobre el

vector de coeficientes β 1 , no son válidos porque:
641
e *' e *
I) no se distribuye como una 2
 2
II )

βˆ 1 ~ N  β 1  X 1' X 1

 
1

X'1 X 2 β 2 , σ 2 X'1 X 1  1



Inclusión de variables irrelevantes
Supongamos que el modelo correctamente especificado, es:
y  X 1β 1  ε
Donde X 1 es una matriz T x k de regresores no estocásticos y la

perturbación, sigue una distribución normal con E (ε)  0; E εε '   2 Ι T .  
Sin embargo, se incluyen k 2  variables en el modelo de regresión
que no son relevantes, de forma que estimamos por MCO, el siguiente
modelo:
y  X1 β1  X 2 β 2  ε
Los estimadores MCO de los vectores de parámetros β 1 y β2

obtenidos a partir del modelo, son:
1 1
βˆ 1    X 1    X '1    X '1    X '1 
'
     X X    y    X X    X β  ε  
    1 2      1 2    1 1
 
β 2   X
ˆ '    '   '    '
 2    X 2    X 2    X 2 
1 1
 X '1 X 1 X '1 X 2   X '1 X 1   X '1 X 1 X '1 X 2   X '1 
       
    β 1     ε
 ' '   '   ' '   '
X 2 X 1 X 2 X 2  X 2 X1  X 2 X1 X 2 X 2  X 2 
Se puede demostrar que:
1
 X 1' X 1 X1' X 2   X 1' X 1  I k 1 
     
      
X ' X X ' X  X ' X  0 k 
 2 1 2 2   2 1  2
642
Se obtiene que el valor medio de los estimadores MCO del modelo,

es:
1
βˆ 1  β 1   X 1' X 1 X1' X 2   X 1'  β 1 
         
E          E (ε)   
βˆ  0 k  X ' X X ' X  X '  0 k 
 2  2   2 1 2 2   2  2
Por lo que podemos concluir que son insesgados, es decir,

Eβˆ 1   β1 y Eβˆ 2   β2  0 (dado que las variables X2 son
irrelevantes).
Observación. Ahora bien, hay que señalar que a la hora de estimar

los parámetros de interés de β 1 no estamos incorporando toda la
información disponible, ya que no incluimos la restricción cierta de
que β 2  0 .
Por lo tanto, estamos perdiendo eficiencia al estimar β 1 en el modelo

mal especificado, relativamente a estimarlo en el modelo bien
especificado. El estimador de la varianza de las perturbaciones en el
modelo mal especificado:
e' e
S2  es un estimador insesgado de  2 y se mantiene la validez
T k
de los contrastes habituales de restricciones lineales sobre el vector
de coeficientes β .
Pruebas de errores de especificación.
1) Detección de la presencia de variables innecesarias: data–mining.
Si un investigador desarrolla un modelo de k variables y va

probando una a una la inclusión o no de variables, realiza lo que
se conoce como regresión por etapas.
Una de las consecuencias a la que se enfrenta es que estará

modificando los niveles de significación.
Lowel ha sugerido que si hay c candidatos a regresores de los

cuales k son finalmente seleccionados (k < c) con base en la data–
643
mining, entonces el verdadero nivel de significación ( * ) está

relacionado con el nivel de significación nominal ( ) de la siguiente
manera:
 *  (C / k )  
Por ejemplo, si c = 15, k = 5 y   5%, el verdadero valor de

significación es 15%.
Por consiguiente, si un investigador extrae datos y selecciona 5 de

15 regresores y solamente informa los resultados al nivel de
significación del 5% nominal y declara que estos resultados son
estadísticamente significativos, esta conclusión se debe tomar con
gran reserva.
2) Existen contrastes para observar si un modelo adolece de variables

omitidas. El test de la razón de verosimilitud para variables
omitidas permite añadir un conjunto de variables a una ecuación
existente y contrastar si constituyen una contribución significativa
a la explicación de la variable dependiente. Este contraste tiene
como hipótesis nula que el conjunto de regresores adicionales no
son conjuntamente significativos.
También se puede aplicar el test de la razón de verosimilitud para

variables redundantes que permite contrastar si un subconjunto de
variables de una ecuación existente son conjuntamente
significativas.
El test de Wald (denominador del contraste general F para

restricciones lineales) puede utilizarse para detectar cuando una
variable es redundante. Basta comprobar cuando puede
considerarse cero su coeficiente de modo formal a través de esta
prueba.
Problema 14.1: Componentes principales
Dada la siguiente tabla de datos, obtenga las componentes principales.

644
Tabla 14.3
Observación X2 X3 X4
1 7 15 4
2 6 12 3
3 4 10 1
4 3 11 -1
5 6 14 0
6 4 10 5
Caso 14.1: Determinantes del consumo
Dada las series de datos de PIB, Consumo y Tasa de Interés de Argentina

para el periodo primer trimestre de 1993 a primer trimestre de 2006,
a) pruebe si hay cambio estructural en el modelo
Consumo t     PBI t   Interés t   t t  1´93, 2´93, , 1´06
Tabla 14.4. Indicadores Macroeconómicos

Periodo PIB CONSUMO F INTERES
1993 I 216370111 152148446 1
II 241871858 166025867 1
III 242645522 166667550 1
IV 245132429 169860311 1
1994 I 232945326 164965420 1
II 257476895 177234828 1
III 253467778 174510154 1
IV 257341544 177721808 1
1995 I 237968103 164321480 1
II 248093639 166567449 1
III 242214699 164276737 1
IV 244467965 168866520 1
1996 I 236566037 164311572 1 7.837
II 260751925 175591878 1 6.773
III 262166964 177726972 1 7.293
IV 267020047 183153037 1 7.523
1997 I 256387857 177490019 1 7.007
II 281769801 191310690 1 6.530
III 284092268 195505523 1 6.410
IV 287515346 199383506 1 7.920
1998 I 271702368 187196678 1 7.093
II 301207598 202675183 1 6.667
III 293315404 200922426 1 8.093
IV 286267849 199434263 1 8.393
1999 I 265024636 185463056 1 8.110
II 286412327 195463399 1 6.610
III 278472694 194457732 1 7.780
IV 283566399 199054269 1 9.687
2000 I 264555918 186315129 1 7.797
II 285275176 195338736 1 7.630
III 276767971 193972609 1 7.485
IV 278091676 193703380 1 10.439
Continúa…
645
Tabla 14.4. Indicadores Macroeconómicos Continuación

Periodo PIB CONSUMO F INTERES
2001 I 259199874 182900187 1 8.678
II 284795763 191297580 1 12.750
III 263126505 181090983 1 22.867
IV 248864555 169871185 1 20.359
2002 I 216849495 148507392 0 9.394
II 246314633 158475554 0 60.913
III 237416867 156093858 0 62.071
IV 240361392 157992266 0 24.616
2003 I 228595882 153188337 0 18.277
II 265402478 169567358 0 13.874
III 261534523 172253988 0 4.578
IV 268560967 176794330 0 3.913
2004 I 254330423 171056272 0 2.360
II 284375611 183635133 0 2.330
III 284392060 187557703 0 2.744
IV 293467061 193373719 0 3.027
2005 I 274594503 200565514 0 2.782
II 313927290 219462442 0 3.535
III 310593081 218509900 0 4.125
IV 319939241 224988560 0 4.607
2006 I 298695561 218515535 0 5.626
II 338243727 238547451 0 6.518
III 337741885 237975913 0 6.874
IV 347578707 245923679 0 6.667
2007 I 322448871 236761556 0 7.189
II 367492351 256321622 0 6.874
III 367538727 254163194 0 8.331
IV 379199661 255268779 0 9.493
2008 I 349945322 240312979 0 8.256
II 396227240 200565514 0 10.237
III 393039229 219462442 0 10.938
IV 394564940 218509900 0 14.766
2009 I 357077664 224988560 0 12.515
PBI: Producto Bruto Interno a precios de mercado en miles de pesos a precios de 1993
Consumo: Consumo de los hogares con IVA en miles de pesos a precios de 1993
Interés: Tasa de interés trimestral a plazo fijo entre 30 y 59 días
FUENTE: Ministerio de Economía. República Argentina.
b) analice el gráfico de residuos que surge de estimar el modelo anterior

a partir de los datos de la Tabla 14.4.
646
260,000,000
240,000,000
220,000,000
200,000,000
40,000,000 180,000,000
20,000,000 160,000,000
140,000,000
0
-20,000,000
-40,000,000
-60,000,000
96 97 98 99 00 01 02 03 04 05 06 07 08
Residual Actual Fitted
Caso 14.2: Regresión en componentes principales
La tabla 14.5 contiene información sobre 24 meses correspondientes a los

gastos de comercialización (Gastos) de una empresa, el nivel de ventas
(Ventas), su costo de personal (Personal) y los costos de materias primas
(Insumos). El objetivo es estimar el nivel de ventas a partir de las restantes
variables.
Primer Paso: Especificación del modelo
Ventas  1   2Gastos   3 Insumos   4 Personal  
Segundo Paso: Estimación del Modelo

La tabla se encuentra en el archivo “ventas.xls”. Esta información debe
importarse en Eviews para realizar la estimación econométrica
correspondiente. Los pasos a seguir consisten en
1. Generar en Eviews un archivo de trabajo (workfile) a partir de File-New,
desde la ventana Workfile frecuency seleccionar Undated or irregular
dates, en End date consignar la cantidad de observaciones que se
tienen (en este caso 24).
2. Importar desde File-Import-Read Text_Lotus_Excel ubicando el archivo
ventas.xls.
3. En la ventana de importación, en Upper-left data cell, consignar la celda
donde se encuentra el primer dato. En Names series or number of
series if name in file, especificar el nombre de las series o el número
de series a importar.
647
Tabla 14.5
Mes Ventas Gastos Insumo Personal
1 607 197 110 173
2 590 208 107 152
3 543 181 99 150
4 558 194 102 150
5 571 192 109 163
6 615 196 114 179
7 606 203 113 169
8 593 200 113 166
9 582 198 115 159
10 646 221 119 206
11 619 218 120 181
12 651 213 123 192
13 648 207 122 191
14 694 228 131 217
15 697 249 133 190
16 707 225 135 221
17 693 237 133 189
18 680 236 128 192
19 664 231 134 193
20 747 260 135 233
21 708 254 139 196
22 702 239 138 199
23 711 248 146 202
24 778 273 153 240
4. La estimación se realiza a partir de Quick-Estimate Equation,

consignando la variable dependiente (ventas) seguida de la constante
(c) y de las variables explicativas (Gastos, Insumos, Personal) de la
siguiente manera: ventas c gastos insumo personal. Esto da lugar
a la siguiente salida:
El modelo estimado es
Ventas  107.444  0.923Gastos  1.298Insumos  0.950 Personal
(18.058) (0.223) (0.431) (0.156)
R  0.98
2
F  323.64 DW  1.30
donde los valores entre paréntesis indican el desvío estándar de los

coeficientes estimados.
Tercer Paso: Análisis de la bondad del ajuste
Nivel de explicación: El R  0.98 indica que las variaciones del

2
a)
conjunto de variables explicativas determinan el 98% de las variaciones de
la variable dependiente.
648
Estimación 13.2.1
Dependent Variable: VENTAS
Date: 08/25/06 Time: 14:58
Sample: 1 24
Included observations: 24
C 107.4435 18.05749 5.950079 0.0000

GASTOS 0.922567 0.222733 4.142030 0.0005
INSUMO 1.297786 0.430729 3.012996 0.0069
PERSONAL 0.950177 0.155845 6.096928 0.0000

b) Nivel de significación individual de las variables: La hipótesis

nula es que el coeficiente que acompaña a la variable es nulo, de aceptarse
esta hipótesis indica que la variable explicativa no está relacionada con la
variable dependiente.
El conjunto de hipótesis a docimar es
H0  i  0
H1   i  0
La distribución teórica de probabilidades a utilizar para este contraste es la
distribución t con (n-k) grados de libertad, con k igual al número de
parámetros a estimar. Para un nivel de confianza del 95%, el valor crítico de
la distribución t es de  2.086 . El valor de prueba a utilizar para docimar la
significatividad de la variable Gastos es:
ˆ 2   2 0.922567  0
t   4.14
s2 0.222733
El estadístico empírico cae en la zona de rechazo de la hipótesis nula,
(4.14>2.086) se concluye que la variable es significativa en el modelo.
Repitiendo el procedimiento para los demás coeficientes, se concluye que
todas las variables son significativas individualmente.
649
c) Nivel de significación conjunta de las variables: La hipótesis

nula es que los coeficientes que acompañan a las variables son todos nulos,
de aceptarse esta hipótesis indica que el conjunto de variables explicativas
utilizado no determina el comportamiento de la variable dependiente.
El conjunto de hipótesis a docimar es
H0   2  3   4  0
H1   2   3   4  0
La distribución teórica de probabilidades a utilizar para este contraste es la
distribución F con k y n-k grados de libertad, con k igual al número de
parámetros a estimar. Para un nivel de confianza del 95%, el valor crítico de
la distribución F es de  2.87 . El valor de prueba a utilizar es:
SCE /(k  1) 87728.72601 /(4  1)

F   323.6415
SCR /(n  k ) 1807.117 /(24  4)
El estadístico empírico cae en la zona de rechazo de la hipótesis nula, se
concluye que el conjunto de variables explicativas determinan la variable
dependiente.
¿Cómo se obtienen los componentes del estadístico F?

La suma de cuadrados explicada (SCE) es la diferencia entre la suma de
cuadrados totales (SCT) y la suma de cuadrados de los residuos (SCR):
SCE=SCT-SCR
El desvío de la variable dependiente es
SCT
sY  , de modo que SCT  sY * ( n  1)  62.393 * 23  89535.84301
2 2
n 1
la SCR=1807.117, con lo cual
SCE=SCT-SCR=89535.84301-1807.117=87728.72601
d) Multicolinealidad. El modelo se especifica y estima bajo el supuesto

de que las variables explicativas no están relacionadas entre sí. A través del
cálculo de la matriz de correlaciones se observa que la asociación estadística
entre las variables es alta. Los gastos de comercialización con respecto a
gastos de personal y el costo de materias primas, muestran una correlación
elevada 0.82 y 0.93; de igual modo costo de materias primas y personal
muestran una correlación de 0.86. Esta situación indica la existencia de
multicolinealidad entre todas las variables
GASTOS INSUMO PERSONAL

GASTOS 1.000000 0.931240 0.820452
INSUMO 0.931240 1.000000 0.857916
PERSONAL 0.820452 0.857916 1.000000
650
Otra manera de probar la existencia de multicolinealidad es regresionar las

variables explicativas entre sí. De modo que la especificación de los modelos
a estimar es
Gastos   1   2Insumos  
Personal   1   2 Insumos  
Gastos   1   2 Personal  
Las respectivas estimaciones arrojan los siguientes resultados
Gastos  20.82  1.618Insumos R 2  0.867

Gastos  69.30  0.81Personal R 2  0.67
Personal  0.53  1.51Insumos R 2  0.74
Los coeficientes de determinación de cada variable explicativa respecto de la
otra indica nuevamente la existencia de multicolinealidad. La presencia de
multicolinealidad provoca variabilidad en los coeficientes estimados. Para
salvar este problema es necesario hallar las componentes principales de las
variables explicativas y estimar las ventas a partir de los factores
resultantes.
Cuarto paso: Análisis de Componentes Principales

Con Eviews se realiza el ACP sobre el conjunto de variables explicativas
El primer eje factorial reúne el 91.35% de la varianza (inercia) de las
variables explicativas y el primer plano (los dos primeros ejes, es decir, las
dos primeras componentes) el 97.84%.
Correlation of GASTOS INSUMO PERSONAL
Comp 1 Comp 2 Comp 3
Eigenvalue 2.740561 0.194568 0.064872

Variance Prop. 0.913520 0.064856 0.021624
Cumulative Prop. 0.913520 0.978376 1.000000
Eigenvectors:
Variable Vector 1 Vector 2 Vector 3
GASTOS -0.580238 -0.514175 -0.631623

INSUMO -0.588138 -0.271946 0.761669
PERSONAL -0.563399 0.813430 -0.144613
Ponderadores en la combinación lineal

651
Los ponderadores en la combinación lineal permiten calcular, para cada

observación, las coordenadas sobre cada eje factorial determinando de esta
manera las componentes principales.
obs C1 C2 C3
1 1.506231 0.299516 -0.037624
2 1.853441 -0.576847 -0.366855
3 2.890413 0.090451 -0.086389
4 2.449552 -0.246221 -0.262575
5 1.900217 0.092529 0.097884
6 1.221876 0.442400 0.173072
7 1.326530 -0.020977 -0.006374
8 1.468150 -0.056916 0.090149
9 1.593096 -0.286881 0.294148
10 -0.216850 0.710388 -0.368121
11 0.390405 -0.078791 -0.086172
12 0.129487 0.335922 0.144863
13 0.339721 0.450410 0.253263
14 -1.149357 0.691960 0.043003
15 -1.117047 -0.696328 -0.238097
16 -1.339299 0.810884 0.318048
17 -0.804620 -0.473284 0.082786
18 -0.637431 -0.253687 -0.183776
19 -0.794810 -0.231346 0.271555
20 -2.460332 0.463226 -0.671708
21 -1.631015 -0.720918 -0.074868
22 -1.296164 -0.280755 0.246036
23 -1.922235 -0.530122 0.432073
24 -3.699960 0.065388 -0.064320
Quinto paso: Reespecificación del modelo

El modelo inicial que presentaba multicolinealidad se reespecifica. Las
ventas, ahora vienen explicadas por las componentes principales C 1 , C 2 , C 3
Ventas   1   2 C 1   3 C 2   4 C 3  
El resultado de la estimación muestra que la primera componente que reunía
el 91.35% de la varianza de las variables exógenas es la que presenta un
buen ajuste.
Se reespecifica nuevamente el modelo eliminando la tercera componente y

se obtienen los resultados de la estimación 14.3.3.
652
Estimación 13.3.2
Date: 08/25/06 Time: 14:56
Sample: 1 24
C 650.4167 1.940316 335.2117 0.0000

C1 -36.51051 1.172068 -31.15050 0.0000
C2 2.551440 4.398832 0.580027 0.5684
C3 -3.687286 7.618078 -0.484018 0.6336

Estimación 13.3.3
Date: 08/25/06 Time: 15:02
Sample: 1 24
C 650.4167 1.904613 341.4955 0.0000

C1 -36.51051 1.150501 -31.73444 0.0000
C2 2.551440 4.317890 0.590900 0.5609

653
Estimación 13.3.4
Date: 08/25/06 Time: 15:03
Sample: 1 24
C 650.4167 1.876229 346.6617 0.0000

C1 -36.51051 1.133355 -32.21453 0.0000

La segunda componente no presenta un buen ajuste por lo que se

reespecifica el modelo
Ventas   1   2 C 1  
y se realiza la estimación 14.3.4
El modelo estimado es: Ventas  650.4167  36.51051 C 1
C 1 es la primer componente principal que se forma al hacer la suma

ponderada, por los ponderadores de la combinación lineal, de las variables
tipificadas para cada observación, es decir:
 Gasto i  Gasto   Personal i  Personal   Insumo i  Insumo 

C1i  0.58   0.56   0.59 
 s   s   s 
 Gasto   Personal   Insumo 
sustituyendo los respectivos valores de medias y desvíos para las variables
 Gasto i  221.1667   Personal i  187.625   Insumo i  123.7917 

C1i  0.58   0.56   0.59 
 24.58   24.92   14.14 
Reemplazando el valor de C 1i en el modelo estimado tendremos

654
Vi  650.4167 
  G  221.1667   P  187.625   I  123.7917 

36.51205   0.58 i   0.56 i   0.59 i 
  24.58   24.92   14.14 
donde Vi  Ventas, G i  Gastos, Pi  Personal , I i  Insumos
Operando matemáticamente

Vi  650.4167  36.51205  0.0236G i  5.2187  0.0225 Pi  4.2163  0.0417I i  5.1653 
El modelo definitivo es:
Vi  117.3298  0.8617Gi  0.8215Pi  1.5225 I i
donde se ha eliminado la multicolinealidad
BIBLIOGRAFIA
□ Caridad, J.M. y Ocerin: (1998). "Econometría: Modelos Econométricos

y Series Temporales". Editorial Reverté, S.A. Barcelona.
□ Crivisqui, E. (2002) “Iniciación a los métodos estadísticos
exploratorios multivariados”. Université Libre de Bruxelles. Belgique.
□ Gujarati, D. (2004) "Econometría". 4°Edición. Mc.Graw Hill. México.
Capítulo 13.
□ Johnston, J. Dinardo, J. (2001) "Métodos de Econometría". Editorial
Vicens Vives. Barcelona.
□ Perez Lopez, C. (2006). “Problemas Resueltos de Econometría”.
Thomson. Madrid.
□ Pulido, A. (1989). "Modelos Econométricos". Editorial Pirámide.
Madrid.
Capítulo 15. MODELO DE REGRESIÓN LINEAL
GENERALIZADO ............................................................. 657
15.1. Análisis de los Residuos.................................................. 657
15.2. Perturbaciones no esféricas ............................................ 658
15.3. Mínimos Cuadrados Generalizados ................................... 660
15.4. Heterocedasticidad ........................................................ 662

Contraste de Goldfeld y Quandt (1965).................................. 663
Contraste de White (1980)................................................... 665
Contraste de Breusch y Pagan (1979).................................... 666
15.5. Mínimos cuadrados generalizados o ponderados ................ 667
15.6. Mínimos Cuadrados Generalizados Factibles ...................... 669

Estimador de White ............................................................ 670
15.7. Autocorrelación ............................................................. 671

Contraste de autocorrelación de Durbin–Watson (1951) ........... 673
15.8. Estimación bajo Autocorrelación ...................................... 675

Mínimos cuadrados generalizados. ........................................ 675
Mínimos Cuadrados Generalizados Factibles ........................... 676
Método de Durbin ............................................................... 676
Método de Cochrane-Orcutt ................................................. 677
CASOS DE ESTUDIO, PREGUNTAS Y PROBLEMAS ............ 678
Problema 15.1: Heterocedasticidad en series de datos de corte

transversal ........................................................................... 678
Problema 15.2: Contrastes sobre la perturbación aleatoria .......... 678
Problema 15.3: Especificación y Estimación de modelos lineales ... 678
BIBLIOGRAFIA .............................................................. 678

656
657
Capítulo 15. MODELO DE REGRESIÓN LINEAL GENERALIZADO
15.1. Análisis de los Residuos
En esta unidad veremos cómo comprobar el cumplimiento de los supuestos

del modelo lineal general sobre el término de perturbación y cómo estimar
un modelo donde estos supuestos no se cumplen. El tema desarrollado en
este capítulo se articula con el anterior al presentar los contrastes para el
componente aleatorio en la construcción del modelo econométrico.
Una vez construido el modelo de regresión tendremos que contrastar,

además de los supuestos sobre la parte sistemática, que ya analizamos, las
hipótesis de media nula, homocedasticidad, no autocorrelación y normalidad
sobre los residuos del modelo.
El análisis gráfico de los residuos va a presentar una primera información

sobre estas hipótesis. Por ejemplo, si el histograma de frecuencias de los
residuos no se ajusta al de una normal, pueden existir valores atípicos.
Eliminando la o las unidades de observación que producen los valores
atípicos se puede conseguir normalidad en los residuos. Otros gráficos
interesantes son los siguientes:
 El de los valores de et contra los valores de t , si detectamos una

tendencia creciente o decreciente en el gráfico, puede existir
autocorrelación.
 El de los valores de et contra los valores de Ŷt , si comprobamos una

tendencia de cualquier tipo en el gráfico, puede existir
autocorrelación, ya que habrá correlación entre los residuos. También
puede haber en este caso heterocedasticidad o no linealidad.
 El de los valores de et2 contra los valores de Ŷt , si verificamos una

heterocedasticidad.
 El de los valores de et contra los valores de X t , si detectamos una

tendencia creciente o decreciente en el gráfico, puede existir
autocorrelación, ya que los residuos no serán ortogonales respecto a
las variables explicativas. También, en este caso, puede haber
heterocedasticidad o falta de linealidad.
 El de los valores de et2 contra los valores de X t , si verificamos una

658
heterocedasticidad o no linealidad (habrá relación entre la varianza

del término del error y las variables explicativas).
15.2. Perturbaciones no esféricas
Recordemos que las varianzas y covarianzas de las perturbaciones
V (  j / X )   2 , j  1, ,T (Homocedasticidad)
Cov (  i  j / X )  0, i  j (No autocorrelación)
Estos supuestos describen la información sobre las varianzas y covarianzas

entre las perturbaciones que es proporcionada por las variables
independientes. Es decir, las perturbaciones, por ellas mismas, no
proporcionan dicha información.
Bajo los supuestos de homocedasticidad y no autocorrelación las

perturbaciones mínimo cuadráticas se suelen denominar esféricas. El
término describe una función normal multivariante. Si Σ   2I en la función
de densidad normal multivariante, entonces la ecuación f ( X )  c es la
fórmula de una esfera centrada en  con radio  en el espacio n –
dimensional. El nombre de esférica se usa tanto si se trata de una
distribución normal como si no; a veces se asume explícitamente la
distribución normal esférica.
Bajo estas condiciones, la matriz de varianzas y covarianzas de la

perturbación será escalar, es decir:
 
E εε '   2IT
Este supuesto “se puede relajar” para recoger situaciones más generales en
donde las varianzas de las perturbaciones son distintas y/o las covarianzas
no nulas. Si no imponemos ninguna restricción a priori, la forma general de
la matriz de varianzas y covarianzas de las perturbaciones, es:
 12  12   1T 
 
 
  2   2T 
2
 21
 
E εε  
'
 Ω
 
    
 
 
 T 1  T 2   T2 
Esto es, vamos a trabajar dentro del marco más general del modelo de
regresión lineal con matrices de varianzas y covarianzas no escalares,
659
 
E εε'  Ω
que se suele denominar, en la literatura econométrica, modelo de regresión

lineal generalizado.
En primer lugar, analizaremos qué consecuencias tiene sobre los

estimadores MCO de los coeficientes de regresión, la relajación del supuesto
de perturbaciones esféricas.
Seguidamente, introduciremos un método de estimación alternativo al MCO

que tendrá en cuenta la información que recoge la matriz de covarianzas
Ω . Este método se conoce con el nombre de mínimos cuadrados
generalizados, MCG.
Como veremos, en el caso particular de que Ω   2IT , ambos métodos de

estimación coinciden.
Observación. Matriz de covarianzas de las perturbaciones. Sea el modelo de

regresión lineal generalizado siguiente:
yXβ ε
Donde  
E    0, E  '  Ω y X , es una matriz no estocástica de rango k .
Bajo los supuestos del modelo, el estimador MCO de β, es lineal e insesgado con
matriz de varianzas y covarianzas dada por,
Vβ  
1
ˆ   X ' X  X 'ΩX X ' X 
 
1
Se puede demostrar que si la matriz de covarianzas de las perturbaciones no es
escalar, el estimador habitual de la matriz de varianza V β  '1

ˆ  σ X X , es un
2
estimador sesgado de la misma.

Esto tiene graves consecuencias a la hora de realizar contrastes de hipótesis sobre
el vector de coeficientes β , porque los estadísticos habituales, no se distribuyen
como una F de Snedecor, ni como una t de Student, de forma que si se compara
el valor del estadístico muestral con el correspondiente a esas distribuciones, se
puede llegar a una mala elección de la región crítica y a conclusiones erróneas.
Por otro lado, el estimador MCO de β , es óptimo si se cumplen todos los supuestos
básicos del modelo de regresión lineal. Al relajar uno de los supuestos, no se puede
aplicar el teorema de GAUSS-MARKOV y nada nos garantiza que el estimador MCO
de β , del modelo especificado, sea el de menor varianza dentro de la clase de
estimadores lineales e insesgados. Intuitivamente, es razonable pensar que
podemos obtener un estimador más eficiente incorporando la nueva información
que tenemos en el modelo a través de la matriz de covarianzas no escalar
  '
E uu  Ω y que no es tenida en cuenta por el método de MCO.
660
15.3. Mínimos Cuadrados Generalizados
El método de estimación de mínimos cuadrados generalizados, se basa en el

criterio de estimación mínimo cuadrática, pero la función de distancia a
minimizar es distinta a la de este criterio, ya que incorpora la información
adicional, en la matriz de varianzas y covarianzas, de las perturbaciones Ω .
La función objetivo que vamos a minimizar, viene dada por
Min Y ˆ
 Xβ 
'
 ˆ
Ω 1 Y  Xβ 
β
o equivalentemente, si escribimos Ω   2  , donde  es conocida y  2 es

un factor de escala
Min Y ˆ
 Xβ 
'
 ˆ
 1 Y  Xβ 

A lo largo de este tema vamos a trabajar indistintamente con la matriz Ω o

2 .
El factor de escala  2 no es relevante a la hora de minimizar la suma de

cuadrados ponderada con respecto a β . Lo que si es relevante, es la
información incorporada en  .
En el criterio MCO, la función objetivo consta únicamente de la suma de

 
cuadrados de las desviaciones Y  Xβˆ . En la “nueva” función objetivo
aparece, como matriz de ponderaciones la inversa de  , incluyendo de esta
manera, la información existente sobre la dispersión y correlación de las

desviaciones Y  Xβˆ .
De las condiciones de primer orden del problema de minimización, se
obtiene el sistema de k ecuaciones normales:
X  X  βˆ
' 1
MCG  X '  1 Y
Cuya solución, es el estimador de mínimos cuadrados generalizados
ˆ
β '

1
MCG  X  X  X  Y 
1 ' 1
Se puede demostrar que el estimador MCG de β, es lineal, insesgado y

óptimo dentro del marco del modelo de regresión lineal generalizado.
Este resultado, se conoce con el nombre de Teorema de AITKEN y es una

generalización del Teorema de GAUSS-MARKOV.
661
Observación. Otra forma de derivar la función criterio y obtener el estimador

MCG, se basa en transformar el modelo de forma que la matriz de varianzas y
1
covarianzas de sus perturbaciones, sea escalar. Dado que  , es una matriz
simétrica y definida positiva, existe una matriz P no singular, tal que  1  P' P .
Por lo tanto P'  P  IT . Este resultado sugiere la siguiente transformación del
modelo original:
Py  PX β  Pε
 ' '

Donde E Pε   0 y E Pεε P   IT . El modelo transformado, satisface todas
2
las hipótesis básicas, será ELIO. La función objetivo para el modelo es:
Min Py  PXβ ' Py  PXβ   y  Xβ '  1 y  Xβ 


La solución de las condiciones de primer orden de este problema de minimización

es, de nuevo, el estimador de mínimos cuadrados generalizados,
ˆ
β MCG  X P XP X PPy   X  X  X  y
' ' 1 ' ' 1 1 ' 1
Se puede demostrar fácilmente que si   I T , el estimador β̂ MCG es igual

que el estimador β̂ MCO . ¿Por qué?
La matriz de varianzas y covarianzas del estimador β̂ MCG , es

ˆ
Vβ MCG   X 
2 '
1
X   1
Un estimador insesgado de la matriz de varianzas y covarianzas, viene dado

por
ˆ βˆ
V  ˆ2 
MCG   MCG X 
' 1
X   1
Donde el estimador insesgado del factor de escala  2 , es
ˆ MCG
2

y  Xβˆ   y  Xβˆ 
MCG
' 1
MCG
T k
Si suponemos que la perturbación ε , sigue una distribución normal, se

puede obtener la siguiente distribución para el estimador MCG:
ˆ
β 
MCG ~ N  β,  X 

2 ' 1
X   1 


con lo que podemos contrastar restricciones lineales sobre los coeficientes

del tipo H 0 : Rβ con el estadístico:
662
R βˆ    R βˆ 
1
 r  R X '  1 X R ' 
' 1
MCG MCG r / q
F   ~ F q, T - k 
ˆ MCG
2
Siguiendo las reglas de decisión habituales.
El estimador β̂ MCG es función de  y, por lo tanto, para obtenerlo es

preciso conocer esta matriz de varianza y covarianzas.
Observación. En la práctica, es muy difícil que la matriz  sea conocida. La

solución a este problema pasa por obtener un estimador de la misma que tenga
buenas propiedades y sustituirlo en la expresión del estimador MCG:
ˆ
β 
' ˆ 1
MCGF  X  X  X ˆ y
1 ' 1
Este estimador se conoce con el nombre de estimador de mínimos cuadrados

generalizados factibles, MCGF.
El estimador β̂ MCGF es una función no lineal de ̂ e y , lo que dificulta en gran
manera la derivación analítica de sus propiedades en muestras pequeñas. Bajo
ciertas condiciones de regularidad, y si el estimador de  es consistente, se puede
demostrar que el estimador β̂ MCGF posee propiedades asintóticas deseables; es
decir, es consistente y se distribuye asintóticamente como una normal:
ˆ
T β 
MCGF  β  d
 
N 0 ,  2 G 1 
X '  1 X
Donde: G  lim
T  T
La estimación de la matriz de varianzas y covarianzas,  , crea muchos problemas
en la práctica ya que significa tener que estimar, además de los k coeficientes de
regresión, T varianzas y T ( T  1) / 2 covarianzas, con solo T observaciones
disponibles. ¿Por qué?
Además, el número de parámetros que hay que estimar crece con el número de
observaciones. Para poder estimar con T observaciones, tanto la matriz  , como
el vector de coeficientes β, es preciso imponer algún tipo de restricción sobre los
parámetros contenidos en  . Una solución a este problema consiste en modelar
las varianzas y covarianzas de las perturbaciones en función de un número pequeño
de parámetros que no se incremente con el tamaño muestral.
15.4. Heterocedasticidad
Si la varianza del término de perturbación del modelo de regresión lineal no

es constante para todas las observaciones se dice que es heterocedástica, o
que existe heterocedasticidad en las perturbaciones.
663
La heterocedasticidad puede surgir en numerosas aplicaciones económicas,

aunque es más común en el análisis de datos de sección cruzada.
Ejemplo 15.1. En los estudios que analizan el consumo o gasto familiar,

es frecuente encontrar una mayor variabilidad del gasto realizado por
familias de renta alta que por familias de renta baja. Esto se debe a que
un mayor nivel de renta permite un mayor margen para la realización de
gastos, y por lo tanto, una mayor varianza. Lo mismo ocurre en estudios
sobre beneficios de las empresas, cuya varianza puede depender del
tamaño de la empresa, de la diversificación de su producto, de las
características del sector industrial al que pertenezca, etc., y por lo tanto,
puede variar a través de las distintas empresas.
Suponiendo que no existe autocorrelación en las perturbaciones, la

heterocedasticidad implica la siguiente estructura de la matriz de varianzas
y covarianzas:
 12 0  0 
 
   0 2  0 
2
E εε ' Ω 
.......... ...... 
 0 0   T2 
Normalmente, en la práctica, no sabemos de antemano si hay o no

problemas de heterocedasticidad en las perturbaciones, por lo que se han
desarrollado un gran número de métodos para contrastar la hipótesis nula
de igualdad de varianzas u homocedasticidad.
Esta gran variedad, se debe a que la especificación de la hipótesis

alternativa de heterocedasticidad, no suele ser conocida y puede ser más o
menos general.
A continuación se explican someramente algunos de los contrastes más

utilizados en la literatura.
Contraste de Goldfeld y Quandt (1965)
En determinados contextos, aunque no conozcamos la forma de la

heterocedasticidad, tenemos sospechas de que las varianzas,  i2 ; i  1, ,T
mantienen una relación monótona con los valores de alguna variable Z.
664
Ejemplo 15.2. En el análisis del gasto familiar, podemos suponer que la

varianza del gasto depende del nivel de renta de cada familia, es decir,
que  i2   2G( R i ) , donde G(  ) es una función creciente con la renta
familiar y  2 es un factor de escala.
En estos casos, para contrastar la hipótesis nula de homocedasticidad, esto

es:
H 0 :  12   22     T2
podemos proceder como sigue.
Supongamos que nuestra hipótesis alternativa es  12   22GZ i ,   , donde

G(  ) , es una función monótona creciente en Z i que puede ser o no uno de
los regresores incluidos en el modelo de regresión.
Los pasos que se siguen, son:
1.- Ordenar las observaciones correspondiendo a un ordenamiento de

menor a mayor de la variable Z i .
2.- Eliminar p observaciones centrales dando lugar a dos bloques de

T  p  / 2 observaciones, T1 y T2 respectivamente; las observaciones
centrales que se eliminan permiten mayor independencia entre los dos
grupos. El número de observaciones en cada grupo ha de ser mayor que el
número de parámetros que tenemos que estimar. Habitualmente, se suele
tomar la tercera parte de la muestra disponible.
3.- Estimar el modelo de regresión separadamente para cada grupo de

observaciones.
4.- Construir el siguiente estadístico de contraste que, bajo la hipótesis nula

de homocedasticidad y suponiendo que la perturbación se distribuye como
una normal de media cero y no está serialmente correlacionada, sigue una
distribución F de Snedecor:
e '2 e 2 T1  k
GQ  ~ F T1  k, T2  k 
e 1' e 1 T2  k
Donde, e '2 e 2 es la suma de cuadrados de residuos de la regresión de Y

sobre X en el segundo grupo de observaciones, y e 1' e 1 es la suma de
cuadrados de residuos de la regresión Y sobre X utilizando el primer grupo
de observaciones.
665
Mientras que, bajo la hipótesis nula, las varianzas deben ser iguales, bajo la
hipótesis alternativa, crecerán de un grupo a otro. Cuanto más difieran
estas sumas de cuadrados, mayor será el valor del estadístico, y por lo
tanto, mayor evidencia habrá en contra de la hipótesis nula.
Rechazaremos H0, a un nivel de significación , si:
GQ  F T1  k , T2  k 
Este contraste se puede utilizar, en principio, para detectar

heterocedasticidad de forma general, aunque está “pensado” para
alternativas específicas donde se supone un crecimiento de las varianzas en
función de una determinada variable.
Si en realidad el problema no es ese, sino que existe otra forma de

heterocedasticidad, el estadístico puede no captarla y no ser significativo.
Contraste de White (1980)
Con este método podemos contrastar la hipótesis nula de homocedasticidad

frente a una alternativa general de heterocedasticidad.
Para la construcción del estadístico de contraste no se necesita una

especificación concreta de la heterocedasticidad bajo la alternativa.
White, derivó este contraste comparando dos estimadores de la varianza de

los estimadores MCO:

1. V̂ ˆ  ˆ 2 X X  ' 1
( ˆ )  X X  X SX X X 
' 1 ' ' 1
2. VWHITE
Donde, S es una matriz diagonal cuyos elementos, son los residuos mínimo-
cuadráticos ordinarios al cuadrado

S  diag e12 , e22 ,  , eT2 
El estimador VWHITE ( ˆ ) es consistente independientemente de cómo sea la
matriz  , siempre que esta sea diagonal.
Bajo la hipótesis nula de homocedasticidad, ambos estimadores, 1 y 2, son

consistentes, mientras que bajo la alternativa de heterocedasticidad, el
estimador Vˆ β 
ˆ no lo es.
La forma operativa de realizar el contraste se basa en la siguiente regresión
k k
ei2   0     js X ji X si   i i  1, 2,  , T
j 1 s  j
666
Ejemplo 15.3. De este modo, si tuviéramos que contrastar a través de

este test un modelo que tuviera tres regresores, procederíamos a realizar
la siguiente regresión
3 3
e i2   0     js X ji X si   i i  1, 2,  , T
j 1 s  j
Esto es,
3 3
e i2   0    1s X 1i X si    2s X 2i X si 
s 1 s 2
3
   3s X 3i X si   i i  1, 2,  , T
s 3
Con lo que queda finalmente el siguiente modelo a estimar,
e i2   0   11 X 12i   12 X 1i X 2i   13 X 1i X 3i   22 X 22i   23 X 2i X 3i
  33 X 32i   i i  1, 2,  , T
Contrastar la hipótesis nula de homocedasticidad, es equivalente a

contrastar que todos los coeficientes de esta regresión, exceptuando el
intercepto, son conjuntamente cero, es decir:
H 0 :  js  0 j , s
Se utiliza como estadístico de contraste   TR 2 , donde R 2 es el coeficiente

de determinación de ésta regresión.
a
Se puede demostrar que bajo la hipótesis nula  ~  2 p  , donde p es el
número de regresores en la regresión sin incluir el término constante.
Rechazaremos H 0 :  js  0 si el valor muestral del estadístico excede el
valor crítico de las tablas  2 , elegido un nivel de significación.
Este contraste tiene la ventaja de ser muy flexible por no tener que
especificar la hipótesis alternativa; pero si se rechaza la hipótesis nula de
homocedasticidad no indica cual puede ser la dirección a seguir.
El contraste de White puede recoger otro tipo de problemas de mala

especificación de la parte sistemática: omisión de variables relevantes, mala
forma funcional, etc. Esto es correcto si se identifica cuál es el problema; en
caso contrario, la solución que se tome puede estar equivocada.
Contraste de Breusch y Pagan (1979)

667
Breusch y Pagan, derivan un contraste de heterocedasticidad donde la

hipótesis alternativa es bastante general

H A :  i2   2 G  0  α ' Z i 
Zi es un vector de variables exógenas que pueden ser las explicativas del
modelo y la función G(  ) no se especifica.
La hipótesis nula del contraste, es la de homocedasticidad que, dada la

alternativa, implica contrastar:
H0 : α  0
Una forma operativa de realizar el contraste, es la siguiente:
ˆ
1. Utilizando los residuos e  Y  X β MCO se construye la siguiente serie
ei2
ri  i  1,  , T
e'e
2. Se obtiene la suma de cuadrados explicada (SCE) de la siguiente

regresión
ri   0  α ' Z i  i i  1,  , T
3. Se utiliza como estadístico del contraste SCE/2, que bajo hipótesis nula
se distribuye asintóticamente  2 ( S ) , donde S son los grados de libertad
igual al número de variables en Zi. Rechazaremos hipótesis nula a un nivel
de significación (), si el valor muestral del estadístico excede el cuantil
 2 S  .
15.5. Mínimos cuadrados generalizados o ponderados
Existen casos en los que es posible conocer la estructura de la matriz de

varianzas y covarianzas  .
Ejemplo 15.4. En los casos de agregación de datos de sección cruzada o

temporal. Si consideramos como observaciones en el modelo de
regresión las medias de datos agrupados, la varianza de la perturbación
en el modelo de regresión dependerá inversamente del número de
observaciones en cada grupo Ti esto es  i2   2 Ti  . Si en lugar de las
1
medias consideramos simplemente la suma de las observaciones en cada

668
grupo, la varianza de la perturbación es proporcional al número de

observaciones en cada grupo  i2   2 Ti .
El vector de coeficientes  se puede estimar por MCG resolviendo el

problema de minimización que, para el problema de heterocedasticidad,
toma la forma:
Y  Xβ  Ω
' 1
Y  Xβ   
T Yi  Xiβ
'

2
Min 2
 i 1 i
En la suma de cuadrados, se ponderan más las desviaciones Yi  X iβ  '


con menor varianza que las de mayor varianza, por ello, también se conoce
este método como de mínimos cuadrados ponderados.
En el caso de heterocedasticidad, la matriz Ω 1 es diagonal
Ω
1

 diag  12 ,  22 ,  ,  T2 
entonces el estimador MCG se puede obtener también estimando por MCO
el modelo transformado
Yi 1 X 2i X ki u
  2    k  i i  1, 2,  , T
i i i i i
Yi*   1 X 1*i   2 X 2i     k X ki*  u i* i  1, 2,  , T
Donde
 0
E u i*
E u 
E u   * 2 i
2
 i2
i   1, i
 i
2
 i2
E u u   0,
*
i
*
j i  j
De esta forma se satisfacen todas las condiciones para que el estimador

MCO del vector  en el modelo sea un estimador ELIO. Ahora bien, este
estimador no es más que el estimador de MCG:

ˆ MCG  X *' X *  X
1 *'
 
Y *  X '  1 X 1

X '  1Y  X '  1 X  X
1 '
 1 Y 
669
15.6. Mínimos Cuadrados Generalizados Factibles
Cuando no se conocen los elementos de Ω , no es posible estimar T

varianzas más k coeficientes de regresión con solo T observaciones.
Una forma de abordar el problema, es “modelar” las varianzas de las

perturbaciones en función de un vector (sx1) de variables que son
observables, Z i (que pueden ser parte o no del conjunto de regresores), y
de un vector de parámetro θ , cuya dimensión es estimable y no crece con
el tamaño muestral:
i
2
 G Z i , θ , i
de forma que Ω  Ω(θ)
ˆ  Ω(θˆ ) y
Una vez obtenido un estimador θ̂ , se puede definir un estimador Ω
estimar el vector de coeficientes β por el método de mínimos cuadrados
generalizados factibles.
Sabemos que, bajo ciertas condiciones de regularidad, si el estimador Ω̂ es

consistente, el estimador β̂ MCGF tiene buenas propiedades asintóticas.
Por lo tanto, una primera etapa para obtener el estimador MCGF de β se

basa en obtener un estimador consistente de θ .
Una forma de conseguirlo, es considerar la siguiente aproximación del

residuo mínimo-cuadrático con la perturbación:
ˆ
ei  Yi  x i' β ' ' ˆ

MCO  Yi  x iβ  X i  MCO     i  error
Dado que
 
E  i2   i2  G Z i , θ  ,
Se tiene que,
ei2  G Z i , θ   error
Si G Z i , θ  es lineal en θ , por ejemplo θ'

ˆ Z , se puede considerar la siguiente
i
regresión para estimar los parámetros θ :
ei2  θ' Zi   i i  1,  , T
En esta regresión, el término de perturbación es una combinación de los

errores acumulados en las aproximaciones.
Se puede demostrar que, bajo ciertas condiciones, el estimador de θ así

derivado, es consistente.
670
Una vez obtenido un estimador consistente de θ , se sustituye en la función

suma de cuadrados ponderada y se minimiza con respecto a β ,
obteniéndose el estimador MCGF.
Estimador de White
Si estimamos los coeficientes de regresión β por MCO en presencia de

heterocedasticidad, estos estimadores son insesgados, pero no eficientes.
Además, estimador de la matriz de varianza y covarianza de

ˆ
β MCO , ̂ X X
2
 
' 1
, es inconsistente, por lo que los estadísticos de contraste
habituales, no son válidos para hacer inferencia sobre β , ni siquiera para
muestras grandes.
Por otro lado, en los apartados anteriores hemos visto cómo, para aplicar
métodos de estimación más apropiados, es preciso conocer la matriz Ω , o
al menos, cuál es la estructura de la heteocedasticidad para poder
especificar Ω  Ω(θ) .
Dada la dificultad de conocer la forma de Ω , sería interesante poder contar

con una estimación consistente de V βˆ MCO  y de esta forma derivar
estadísticos válidos, al menos asintóticamente, para contrastar hipótesis
sobre el vector de coeficientes β .
White (1980), demuestra que es posible obtener un estimador consistente

de la matriz de varianzas y covarianzas de β̂ MCO , sin tener que hacer
ningún supuesto sobre Ω , salvo que es una matriz diagonal.
Para ello, sólo es necesario obtener un estimador consistente de X ' ΩX .  

White demuestra que, bajo ciertas condiciones de regularidad y siendo
e i ,  1,  , T el residuo mínimo-cuadrático ordinario,
p lim
X' S X
T
 p lim
X' Ω X
T

donde S  diag e12 , e22 ,  , eT2 
Por lo tanto, se puede utilizar:
  X
ˆ WHITE  T X ' X
V
1 '
 
S X X'X
1
Como un estimador consistente de la matriz de varianzas y covarianzas

asintóticas de T β̂ MCO .
Este resultado es muy importante, ya que si estimamos por MCO en

presencia de heterocedasticidad y utilizamos este estimador de la matriz de
covarianzas, es posible realizar inferencia válida sobre los coeficientes β , al
menos para muestras grandes, basándonos en el siguiente resultado:
671
ˆ
T Rβ MCO  r  R
'
ˆ
V WHITE R
'
 R βˆ
1
MCO  d
 r   2 q 
Sin tener que especificar a priori la estructura de la heterocedasticidad.
15.7. Autocorrelación
En el modelo de regresión, el término de perturbación engloba todos

aquellos factores determinantes de la variable endógena que no están
recogidos en la parte sistemática del modelo. Estos factores pueden ser
innovaciones, errores de medida de la variable endógena, variable omitida,
etc.
Si estos factores están correlacionados en el tiempo o en el espacio,

entonces no se satisface la hipótesis
E (  i  j )  0, i  j
Este fenómeno, se conoce con el nombre de autocorrelación o correlación

serial, en el caso de datos de series temporales, y de correlación espacial en
el caso de datos de sección cruzada.
En los modelos que se especifican relaciones en el tiempo entre variables, la

propia inercia de las series económicas donde el impacto de una
perturbación en un período de tiempo, puede tener efectos en subsiguientes
períodos, puede generar autocorrelación en el término de perturbación.
Esta dinámica, aunque no sea relevante en media, refleja un patrón

sistemático de comportamiento que hemos de considerar a la hora de
estimar el modelo. La matriz,
E ( εε' )  Ω
tiene elementos fuera de la diagonal principal, distintos de cero.
Los coeficientes de regresión, habrán de ser estimados, en consecuencia,

por métodos de mínimos cuadrados generalizados.
Si no conocemos la matriz Ω , es necesario estimarla, lo que significa

estimar T (T  1) / 2 covarianzas distintas con solo T observaciones, lo que
no es factible.
Para poder estimar los elementos de Ω , es necesario especificar la

autocorrelación de las perturbaciones en términos de un proceso que
depende de un número pequeño y estimable de parámetros.
672
Observación. El tipo de procesos estocásticos más utilizados para especificar el

comportamiento de las perturbaciones, son los denominados modelos
autorregresivos y de medias móviles, ARMA (p,q).
Esta clase de procesos incluye, como casos particulares, los autorregresivos de
orden p, AR (p), y de medias móviles de orden q, MA (q).
La forma general de un proceso AR (p), es:
 t  1  t 1   2  t  2     p  t  p   t
Donde t , se distribuye independientemente en el tiempo con media cero y
varianza constante  2 y 1 ,  ,  p , son parámetros constantes en el tiempo. El

proceso autorregresivo más utilizado dentro del marco del análisis de regresión, es
el proceso de orden uno, AR (1):
 t    t 1  t
Donde la perturbación en un período t , depende de la perturbación en el período
anterior t  1 , y un término aleatorio o innovación t que suponemos que es ruido
blanco, es decir, tiene media 0, varianza constante  2 y covarianzas nulas. Si

sustituimos repetidamente obtenemos:

t    i t  i
i 0
La perturbación t , es una combinación lineal de las innovaciones pasadas t con

ponderaciones 1,  , 
2
que decaen geométricamente, si el valor del coeficiente 
está acotado en el intervalo (-1, 1), lo que implica que las innovaciones  t i tienen
menor influencia en t cuanto más alejadas están en el tiempo.
Es fácil comprobar que el vector de perturbaciones ε , tiene media cero y matriz de
varianzas y covarianzas:
1  2   T 1 
 
 1    T 2 
 
E εε ' 
 2  2
  1 

 T 3    2 
1  2     
 T 1 
  T  2  T 3  1 
 
De esta forma, dado el valor de , la matriz Ω , queda totalmente determinada, a

excepción del factor de escala 2
.
Un proceso autorregresivo utilizado con datos trimestrales para recoger efectos
estacionales en la perturbación, es el siguiente AR(4):
 t    t 4   t
El proceso de medias móviles general, MA (q), es:

673
 t  t  1 t 1     q t q
Donde se supone que t , es ruido blanco con media cero y varianzas  2 y

1 ,   q son parámetros constantes.
El proceso de medias móviles más sencillo, es el MA (1):

 t  t    t 1
A diferencia de los procesos autorregresivos, en el proceso MA (1) la perturbación

 t es una combinación lineal de solo dos innovaciones  t y  t 1 por lo que se dice
que es un proceso de memoria corta. En este caso, el vector de perturbaciones
tiene media cero y matriz de varianza y covarianza:

 
 1  2   0  0 

  
1  2     0 
 
E uu '   2

0  
1  2  0 

   
2
    
 
0

0 0  1  2 

 
Por último, el modelo más general es el modelo autorregresivo de medias móviles,
ARMA (p, q), donde la perturbación  t depende de sus valores pasados y de la
innovación t y su pasado:
 t  1  t 1  2  t 1       t   t  1 t 1    q t q
Cuando modelamos la dependencia en el tiempo de t mediante un proceso ARMA

(p, q), estamos especificando la estructura de la matriz de varianza y covarianza
Ω en términos de los parámetros  2 , 1 , ,  p ,1 , , q .
La elección de un proceso ARMA (p, q) concreto, depende en cada caso, de las

características de los datos y del estudio que estemos realizando. A lo largo de este
tema vamos a suponer, para simplificar la explicación, que las perturbaciones
siguen un proceso AR (1).
Contraste de autocorrelación de Durbin–Watson (1951)
En la práctica, no se conoce a priori si existe autocorrelación ni cuál puede

ser el proceso más adecuado para modelarla.
Existen varios contrastes de autocorrelación que se construyen utilizando

los residuos mínimo–cuadráticos ordinarios.
Uno de estos contrastes, es el derivado de Durbin-Watson, para detectar la

existencia de un proceso AR(1) en el término de perturbación.
La hipótesis nulas, es la no existencia de autocorrelación,
H0:  = 0
674
El estadístico de contraste, es:
T
 et  et 1 2
t 2
DW  T
 et2
t 1
donde et , son los residuos mínimo–cuadráticos ordinarios.
Si el número de observaciones es suficientemente grande, este estadístico

se puede calcular mediante la aproximación:
DW  2 1  ̂ 
siendo ̂ el coeficiente estimado por MCO en la regresión:
et   et 1  t t  2,  , T
A partir de la relación se puede establecer el rango de valores que puede

tomar el estadístico:
1. ˆ  0 DW  2
2.  1  ˆ  0 DW  ( 4,2 )
3. 0  ˆ  1 DW  ( 2,0 )
Durbin y Watson tabularon los valores críticos, el máximo du y mínimo dL,

que depende de la matriz de datos X. Estos valores críticos definen la zona
de duda, donde no es posible afirmar o rechazar la existencia de
autocorrelación, las zonas de autocorrelación positiva y negativa, y la zona
de no existencia de autocorrelación. La comparación del estadístico empírico
DW con la escala teórica de variabilidad 0 a 4, donde se explicitan los
valores críticos, permite concluir si se acepta o rechaza la hipótesis nula.
Zona de Contraste de Zona de Contraste de

Autocorrelación (+) Autocorrelación (-)
Autocorre- Zona de Zona de Autocorre-
No hay Autocorrelación
lación (+) duda duda lación (-)
0 dL du 2 4-du 4-dL 4
Este contraste se puede considerar también, como un contraste de mala

especificación del modelo. La omisión de variables relevantes, una forma
funcional poco adecuada, cambios estructurales no incluidos en el modelo,
etc., pueden originar un estadístico DW significativo. Esto nos puede llevar
a errores, si consideramos que hay evidencia de autocorrelación y se
modela con un proceso AR (1). Por otro lado, si  t sigue un proceso
675
distinto a un AR (1), puede que la significatividad del estadístico DW se

vea afectada.
En resumen, el estadístico de Durbin-Watson, es útil porque nos indica la

existencia de problemas en el modelo, pero no ayuda a establecer cuál es el
modelo alternativo.
15.8. Estimación bajo Autocorrelación
Supongamos que las perturbaciones siguen un proceso autorregresivo de

orden uno, AR (1), de forma que el modelo de regresión lineal
generalizado, es:
Yt  1   2 X 2t     k X kt   t t  1,  , T
 t    t 1   t 
 t ~ NID 0,  2 
Dado este modelo, vamos a explicar distintos métodos de estimación.
Mínimos cuadrados generalizados.
Si el valor de  es conocido, el estimador de mínimos cuadrados

generalizados de β se obtiene minimizando la función criterio. En este caso,
como Σ es una matriz simétrica y positiva definida, existe una matriz P tal
1 '
que   PP , y el estimador de mínimos cuadrados generalizados se
puede obtener, también estimando por MCO, el modelo transformado.
En el caso de un modelo AR (1), la matriz P , es la siguiente:
 1  2  0  0 0
 
  1   0 0
 
P  0  1  0 0 
      
 
0 0 0   1 

y el modelo transformado, se puede escribir como:

676
1   2 Y1   1 1   2   2 1   2 X 21     k 1   2 X k 1   1
Yt  Yt 1  1 1      2  X 2t  X 2t 1      k  X kt  X kt 1    t
t  2, ,T
Es interesante señalar que la primera observación sufre una transformación
diferente a todas las demás.
La suma de cuadrados que tenemos que minimizar con respecto a β , es:
 
S    1   2 Y1  1   2 X 2t     k X kt 
2

2
 
X jt   X jt 1  
T k
   Yt   Yt 1   1 1       j
t 2  j 2 
El primer sumando proviene de la primera observación y el segundo, no es

sino la suma de cuadrados de residuos del modelo transformado para
t  2,  , T .
Mínimos Cuadrados Generalizados Factibles
En el caso de que  sea desconocido, no se puede obtener el estimador de

β por MCG directamente, sino que hay que estimar conjuntamente  y β .
Existen varios métodos que estiman conjuntamente  y β , basándose en el

modelo transformado, de lo que vamos a estudiar dos: el método Durbin y
el método de Cochranne-Orcutt.
Ambos métodos de estimación se basan en que las perturbaciones siguen

un proceso AR (1), por lo que el modelo transformado apropiado es
Yt  Yt 1  1 1      2  X 2t  X 2t 1      k  X kt  X kt 1    t
t  2, ,T
pero no tienen en cuenta la transformación de la primera observación.
Método de Durbin
La estimación por el método de Durbin (1960), se realiza en dos etapas:
1. Se estima  por MCO en el modelo:
Yt   Yt 1   1   2 X 2t   2 X 2,t 1     k X kt   k X k ,t 1   t
Donde t  2,  , T ,  1  11   ,  i     i , i  2,  , k .
677
Dadas las propiedades de  t el estimador de  por MCO ̂ , es

consistente.
2. Se utiliza el estimador ̂ , para obtener el modelo transformado:
Yt  ˆ Yt 1   1 1  ˆ    2  X 2t  ˆ X 2t 1      k  X kt  ˆ X kt 1   Vt
y estimamos el vector de coeficientes β por MCO en este modelo, es

decir, minimizando con respecto a β , la suma de cuadrados siguientes:
S 2      Yt  ˆ Yt 1   1 1  ˆ     j X jt  ˆ X jt 1  
T
 k

t 2  j 2 
Método de Cochrane-Orcutt
El método de Cochrane-Orcutt (1949), también se realiza en dos etapas:
1. Partiendo de   0 , se estima por MCO el modelo:
Yt  1  2 X 2t     k X kt  ut t  1,  , T
El estimador MCO de β , es consistente. En segundo lugar, se obtiene

un estimador consistente de  , esto se logra estimando por MCO la
regresión:
et   et 1   t t  2,  , T
2. Se utiliza ̂ para obtener el modelo transformado:
Yt  ˆ Yt 1   1 1  ˆ    2  X 2t  ˆ X 2t 1      k  X kt  ˆ X kt 1    t
y se estima β por MCO en este modelo minimizando la suma de

cuadrados
2
 
   Yt  ˆ Yt 1   1 1  ˆ     j X jt  ˆ X jt 1  
T k
S  
t 2  j 2 
Este proceso en dos etapas, se suele realizar repitiendo las regresiones

hasta que las estimaciones de  y β , no varíen dentro de un margen de
valores.
Es preciso tener en cuenta que los dos métodos considerados minimizan la

suma de cuadrados, que no tiene en cuenta la primera observación, por lo
que solo son aproximaciones al estimador de mínimos cuadrados
generalizados factibles. Asintóticamente, ambos son equivalentes al
678
estimador MCGF, pero para muestras pequeñas, puede haber diferencias, a

veces, importantes.
Problema 15.1: Heterocedasticidad en series de datos de corte

transversal
En el modelo estimado a partir de la Tabla 15.1, contraste las hipótesis de

homocedasticidad.
Problema 15.2: Contrastes sobre la perturbación aleatoria
En el modelo estimado a partir de la Tabla 15.4, contraste las hipótesis de

homocedasticidad, no autocorrelación y normalidad.
Problema 15.3: Especificación y Estimación de modelos lineales
Especifique un modelo para estudiar una temática económica de su interés,

construya la tabla de datos, realice la estimación y contraste la validez de los
supuestos.
BIBLIOGRAFIA

Vives. Barcelona.
□ Novales, Alfonso. (1993) "Econometría". Editorial McGraw Hill. Madrid.
Capítulo 16. MODELOS DINAMICOS................................... 681
16.1. Características .................................................................. 681
16.2. Estimación ....................................................................... 682

Estimación ad hoc .................................................................. 682
Restricciones a priori sobre los  ............................................. 683
16.3 Enfoque de Koyck............................................................... 683

Estadístico h de Durbin ......................................................... 684
Estructura de rezagos .......................................................... 685
El Modelo de Expectativas Adaptativas....................................... 686
Modelo de ajuste de existencia o modelo de ajuste parcial ............ 688

Método de variables instrumentales ....................................... 690
16.4 Modelo de rezagos distribuidos de Almon ............................... 690
CASOS DE ESTUDIO, PREGUNTAS Y PROBLEMAS ............... 694
Caso 16.1: Modelo de Rezagos Distribuidos de Almon para la función

Consumo .................................................................................. 694
Prueba de Granger ................................................................. 695
Estimación del Modelo de rezagos distribuidos de Almon .............. 698
Estimación del Modelo de Almon en Eviews ................................ 701
BIBLIOGRAFIA ................................................................. 707

680
681
Capítulo 16. MODELOS DINAMICOS
16.1. Características
La característica principal de los modelos econométricos dinámicos es tener

una variable rezagada. Esto indica que la influencia de una variable explicativa
( X ) sobre la dependiente ( Y ) se efectiviza en un lapso de tiempo, siendo este
lapso el que se denomina rezago.
Las razones por las cuales se producen rezagos obedecen a causas sicológicas
(no se cambia de hábito de manera inmediata), tecnológicas (la incorporación
de la nueva tecnología disponible se realiza a lo largo del tiempo) o
institucionales (por ejemplo, una buena alternativa financiera puede
aprovecharse hasta que existan fondos disponibles).
Se distinguen dos tipos:
Modelo de rezagos distribuidos: donde la variable a rezagar es una variable

explicativa exógena.
Yt     0 X t   1 X t 1   2 X t 2   t (1)
Los rezagos distribuidos pueden ser finitos o infinitos, de acuerdo

a que se conozca el número exacto de rezagos.
Modelos autorregresivos: donde la variable a rezagar es la variable

dependiente
Yt    X t  Yt 1   t (2)
En un modelo de rezagos distribuidos en el tiempo
Yt     0 X t   1 X t 1   2 X t 2     k X t k   t (3)
 0 es el multiplicador o propensión que mide el impacto de corto plazo,
 1   2   3   informan el impacto intermedio

682
 i   0   1   2     k indica el multiplicador de rezagos distribuidos de

largo plazo o total
16.2. Estimación
A partir del modelo de rezagos distribuidos infinitos
Yt     0 X t   1 X t 1   2 X t 2     t (4)
Se pueden adoptar dos modalidades de estimación
1. estimación ad hoc
2. restricciones a priori sobre los 
Estimación ad hoc
Este enfoque lo adoptaron Alt (1942) y Tinbergen (1949). Ellos sugieren que la
estimación se realice secuencialmente, lo cual significa hacer:
Yt  f ( X )
Yt  f ( X , X t 1 )
Yt  f ( X , X t 1, X t 2 )

sucesivamente
El procedimiento se detiene cuando:
a. los coeficientes de la regresión comienzan a hacerse estadísticamente

insignificantes, y/o
b. el coeficiente de por lo menos 1 variable cambia de signo
Las desventajas de este método radican en que
a. no está especificado qué tan largo es el rezago
b. a medida que se estiman rezagos sucesivos quedan menos grados de

libertad
c. puede presentarse multicolinealidad

683
Restricciones a priori sobre los 
En estos modelos se supone que los coeficientes siguen un patrón sistemático

de comportamiento, se estudiarán el enfoque de Koyck y el polinomio de
Almon.
16.3 Enfoque de Koyck
Se parte de un modelo de rezagos infinitos como el expresado en (4), se

supone que todos los coeficientes  tienen igual signo y que
 k   0 k siendo k  0, 1, 2 y 0    1 (5)
 es la tasa de descenso o caída del rezago distribuido
1-  es la velocidad de ajuste
El enfoque de Koyck (1954) postula que:
a. cada coeficiente  sucesivo es inferior, lo que significa que con el paso

del tiempo la influencia de la variable disminuye
b.   0 con lo que elimina la posibilidad de que los coeficientes 

cambien de signo
c.   1 le da menos peso a los más alejados en el tiempo
d. la suma de los coeficientes  integrantes de un modelo indica el

multiplicador de largo plazo finito
 1 
 k  0  
 1  
(6)
Como resultado, el modelo de rezagos infinitos puede escribirse como
Yt     0 X t   0 X t 1   0 2 X t 2     t (7)
684
La expresión (7) tiene parámetros no lineales, al rezagarlo un período se tiene:
Yt 1     0 X t 1   0 X t 2   0 2 X t 3     t 1
multiplicando por 
Yt 1     0 X t 1   0 2 X t 2   0 3 X t 3     t 1 (8)
Restando (8) de (7) se obtiene:
Yt  Yt 1   (1   )   0 X t   t   t 1 (9)
Reordenando
Yt   (1   )   0 X t  Yt 1   t (10)
donde  t es un promedio móvil de los errores.
Este procedimiento se conoce como transformación de Koyck.
Las diferencias entre el modelo expresado en (10), respecto del expresado en

(4), radica en la cantidad de parámetros a estimar. Además, (10):
a. no tiene multicolinealidad porque se reemplazó a las X t por Yt 1
b. es un modelo autorregresivo derivado de un modelo de rezagos

distribuidos
c. es posible que presente correlación entre la explicativa y el término de

error
d. es posible la autocorrelación de errores por la construcción
e. no puede usarse el estadístico Durbin-Watson habitual, sino la h de

Durbin
Estadístico h de Durbin
En estos modelos donde la variable dependiente se encuentra explicada por

sus propios rezagos, la autocorrelación se mide con el estadístico h de Durbin
n
h  ˆ
1  n(var ˆ )
685
donde n tamaño de muestra
var ̂ varianza del coeficiente del la variable rezago
̂ estimación de 
̂ se aproxima a partir del estadístico Durbin Watson (d)
1
ˆ  1  d
2
h se distribuye N (0,1) y la hipótesis nula es no existencia de

autocorrelación.
Estructura de rezagos
La mediana de rezagos y el rezago medio son medidas que caracterizan la

naturaleza de la estructura de rezagos.
log 2
Mediana de rezagos   0   1 (11)
log 
Indica el tiempo que se necesita para alcanzar el 50% del cambio total en Y
Con   0.2 Mediana = 0.4306 menos de la mitad del periodo
Con   0.8 Mediana = 3.1067 más de tres periodos
Con   1/ 2 Mediana = 1 necesita 1 periodo
Si todos los  son positivos

Rezago medio  (12)
1 
Si   1/ 2 rezago promedio = 1
La mediana y la media de los rezagos sirven como medida resumen de la

velocidad con la cual Y responde a X .
686
El Modelo de Expectativas Adaptativas
El modelo de Koyck se obtiene por un proceso puramente algebraico pero está

desprovisto de cualquier soporte teórico. Esto puede suplirse si se supone el
siguiente modelo
Yt   0  1 X t*   t (13)
Donde Y es la demanda de dinero
X * la tasa de interés esperada a largo plazo
 el término de error
La variable expectativa no es directamente observable pero se puede proponer

la siguiente hipótesis:

X t*  X t*1   X t  X t*1  (14)
Con 0    1 denominado coeficiente de expectativas. (14) es conocido como

hipótesis de expectativas adaptativas, expectativas progresivas o de
aprendizaje por error popularizadas por Cagan (1956) y Friedman (1957).
Esta hipótesis establece que las expectativas son corregidas cada periodo por
una fracción  de la brecha entre el valor actual y el esperado de la variable.
Otra manera de plantear la hipótesis es sumar en ambos miembros X t*1 y

sacar factor común 
X t*   X t  ( 1   ) X t*1 (15)
Lo que muestra que el valor esperado de la tasa de interés en el tiempo t es un

promedio ponderado del valor actual de la tasa de interés en el tiempo y su
valor esperado en el periodo anterior, con ponderaciones de  y ( 1   )
Si   1 X t*  X t , las expectativas se cumplen inmediatamente
Si   0 X t*  X t*1 , hay expectativas estáticas, las condiciones prevalecen

a lo largo del tiempo
687
Sustituyendo (15) en (13)
 
Yt   0   1  X t  (1   ) X t*1   t
(16)
  0   1  X t   1 (1   ) X t*1   t
Si se rezaga (13) un periodo
Yt 1   0  1 X t*1   t 1 (17)
Se lo multiplica por ( 1   )
( 1   )Yt 1  ( 1   )  0  ( 1   ) 1 X t*1  ( 1   )  t 1 (18)
Restando (18) a (16)
Yt  ( 1   )Yt 1   0  ( 1   )  0  1X t  ( 1   ) 1 X t*1  1( 1   ) X t*1 

  t  ( 1   )  t 1
Yt   0   1  X t  ( 1   ) Yt 1   t (19)
Donde  t   t  ( 1   )  t 1
Entre los modelos expresados en (13) y (19) se observan las siguientes

diferencias:
a. en (13), 1 mide el cambio en Y ante cambios en el largo plazo
b. en (19), 1  mide el cambio promedio de Y ante cambios unitarios en el

valor actual u observado de X
c. si   1, los valores actuales y de largo plazo son iguales
d. en (19), 1 se obtiene luego de conocer 
El modelo de expectativas adaptativas –expresado en (19)-, y el modelo de

Koyck –expresión (10)-, son similares; ambos son autorregresivos y tienen
igual término de error.
688
La hipótesis de expectativas adaptativas fue muy popular hasta la llegada de

las expectativas racionales difundidas por Lucas y Sargent; éstas suponen que
los agentes económicos individuales utilizan información actual disponible y
relevante en la formación de sus expectativas y no se apoyan únicamente en
experiencia pasada.
Modelo de ajuste de existencia o modelo de ajuste parcial
Esta es otra racionalización del modelo de Koyck dada por Marc Nerlove.
Partiendo del modelo de acelerador flexible de la teoría económica, se supone
que hay un nivel de existencias de capital de equilibrio -u óptimo deseado o de
largo plazo- requerido para generar una producción determinada bajo unas
condiciones dadas de tecnología y tasa de interés, entre otras.
Si el nivel de capital deseado Y * es función lineal de la producción X
Yt*   0  1 X t   t (20)
Y dado que el capital deseado no es observable, Nerlove postula la siguiente

hipótesis

Yt  Yt 1   Yt*  Yt 1  (21)
Que es la hipótesis de ajuste parcial o de ajuste de existencias, donde:
0    1 es el coeficiente de ajuste
Yt  Yt 1 es el cambio observado
Yt*  Yt 1 es el cambio deseado
Pero,
Yt  Yt 1  inversión (22)
Entonces la expresión (21) puede escribirse como

I   Yt*  Yt 1 
También, eliminando paréntesis, (21) puede escribirse como
Yt  Yt*  Yt 1  Yt 1
689
Yt  Yt*  1   Yt 1 (23)
Sustituyendo (20) en (23)
Yt    0   1 X t   t   1   Yt 1
Yt   0   1 X t   t  1   Yt 1
Yt   0   1 X t  1   Yt 1   t (24)
(24) se denomina modelo de ajuste parcial y puede considerarse demanda de

existencias de capital de corto plazo
Una vez que se estima (24) es posible estimar la existencia de capital de largo
plazo (ecuación 20) a partir del término  : dividiendo los coeficientes  0 y
 1 , y eliminando el término rezagado de Y , se obtiene la función de largo
plazo.
En resumen, se tienen tres modelos:
Koyck Yt   (1   )   0 X t  Yt 1   t   t 1  (25)
Expectativas adaptativas
Yt   0    1  X t  (1   ) Yt 1   t  (1   )  t 1  (26)
Ajuste parcial Yt   0   1 X t  1   Yt 1   t (27)
Todos tienen una estructura común:
o Ordenada al origen
o Una variable X
o Una variable rezagada
Es decir, todos son autorregresivos por naturaleza

690
Estos modelos tienen:
o Variable explicativa estocástica ( Yt 1 )
o Correlación serial (entre Yt 1 y X )
Por esto existe la posibilidad de que no puedan estimarse por mínimos

cuadrados ordinarios. Los modelos expresados en (25) y (26) tendrán errores
autocorrelacionados por la propia construcción. En la expresión (27) pueden
existir errores homocedásticos y no autocorrelacionados, en cuyo caso es
posible usar mínimos cuadrados ordinarios aun cuando las estimaciones sean
sesgadas.
Método de variables instrumentales
Este método sugerido por Leviatán (1963) constituye una alternativa de

estimación cuando no puede aplicarse mínimos cuadrados ordinarios y consiste
en encontrar una variable altamente correlacionada con Yt 1 pero no con  t
(término de error del modelo de Koyck o el de expectativas adaptativas).
La variable sugerida es X t 1 que no está relacionada con los errores lo cual

genera estimaciones consistentes pero puede haber multicolinealidad lo cual
dará lugar a estimadores ineficientes.
16.4 Modelo de rezagos distribuidos de Almon
El modelo de Koyck supone que los  se reducen geométricamente a medida

que el rezago aumenta, esto no es aplicable cuando tenemos situaciones como
las planteadas en las Figuras 1 a 3.
Shirley Almon (1965) consideró que los coeficientes de los rezagos  i podían
ajustarse a un polinomio en i de grado m 1:
 i  a0  a1i  a2 i 2  a3 i 3    am i m (28)
La Figura 1 se corresponde con coeficientes que se ajustan por un polinomio de

grado 2; la Figura 2 con un polinomio de grado 3 y la Figura 3 con un
polinomio de grado 4. En general, un polinomio de grado 2 o grado 3, ajusta
bien el comportamiento de los  i .
1
Esto se basa en el Teorema de Weierstrass que dice que én un intervalo cerrado finito cualquier función
continua puede ser aproximada mediante un polinomio de grado apropiado´
691
Figura 1 Figura 2
Figura 3
La técnica de Almon parte de un modelo finito de rezagos distribuidos
Yt     0 X t  1 X t 1   2 X t 2     k X t k   t (29)
expresión que puede escribirse como
k
Yt      i X t i   t (30)
i 0
A efectos de simplificar la notación se supone que los coeficientes  i se

ajustan por un polinomio de segundo grado
 i  a0  a1i  a2 i 2 (31)
Reemplazando (31) en (30)
 
k
Yt     a0  a1i  a2 i 2 X t i   t
i 0
(32)
k k k
   a0  X t i  a1  i X t i  a2  i X t i   t 2
i 0 i 0 i 0
692
Definiendo las variables instrumentales
k
Z 0t  X t  X t 1  X t 2    X t k   X t i
i 0
k
Z1t  1X t 1  2 X t 2    kX t k   iX t i (33)
i 0
k
Z 2t  12 X t 1  2 2 X t 2    k 2 X t k   i 2 X t i
i 0
y reemplazado en (32)
Yt    a0 Z 0t  a1Z1t  a2 Z 2t   t (34)
Este modelo se estima por MCO, si los errores son homocedásticos y no

autocorrelacionados  y a m tendrán las propiedades estadísticas deseables.
Las variables explicativas no están correlacionadas con el término de error

pero sí puede haber alta correlación entre ellas por la manera en que fueron
construidas. Si ocurriera este caso se debería eliminar la multicolinealidad a
través de ACP.
Ahora bien, se ha llegado al final del modelo pero se está a mitad camino de lo
que realmente se quiere conocer. El objetivo son los coeficientes de la
variables explicativa rezagada y, lo que se tiene, son los coeficientes de
variables que en su interior tienen una combinación de variables con rezagos.
Para calcular los coeficientes  i , se debe hacer uso del supuesto inicial dado
en (31), donde:
 i  a0  a1i  a2 i 2
Por lo que
Si i  0 , ˆ0  aˆ 0  aˆ1 0  aˆ 2 0 2
Si i  1, ˆ1  aˆ 0  aˆ11  aˆ 2 12
Si i  2 , ˆ 2  aˆ 0  aˆ1 2  aˆ 2 2 2 (35)
 sucesivamente
693
Si i  k , ˆ k  aˆ 0  aˆ1k  aˆ 2 k 2
¿Cuál es el desvío de los  i ? También se debe calcular, a partir de los desvío

de am
m
Var ( ˆ i )  Var (aˆ 0  aˆ1i  aˆ 2 i 2 )   i 2 j var(aˆ j )  2 i j  p cov(aˆ j aˆ p ) (36)
j 0 j p
Entonces:
i  0  Var ( ˆ 0 )  Var ( aˆ 0  aˆ 10  aˆ 2 0 2 ) 
i  1  Var ( ˆ 1 )  Var ( â0  â11  â2 12 )  12* 0 var( â0 )  12* 1 var( â1 )  12* 2 var( â2 ) 

2 101 cov( â0 â1 )  10 2 cov( â0 â2 )  11 2 cov( â1â2 ) 
i  2  Var ( ˆ 2 )  Var ( â0  â1 2  â2 2 2 )  2 2* 0 var( â0 )  2 2*1 var( â1 )  2 2* 2 var( â2 ) 

2 2 01 cov( â0 â1 )  2 02 cov( â0 â2 )  212 cov( â1â2 ) 
i  3  Var ( ˆ 3 )  Var ( â0  â1 3  â2 3 2 )  3 2* 0 var( â0 )  3 2*1 var( â1 )  3 2* 2 var( â2 ) 

2 3 01 cov( â0 â1 )  3 02 cov( â0 â2 )  312 cov( â1â2 ) 

i  k  Var ( ˆ k )  Var ( â0  â1k  â2 k 2 )  k 2* 0 var( â0 )  k 2*1 var( â1 )  k 2* 2 var( â2 ) 

2 k 01 cov( â0 â1 )  k 02 cov( â0 â2 )  k 12 cov( â1â2 ) 
¿Qué problemas se plantean con este método?
Un problema que presenta la estimación de estos modelos es la reducción de

los grados de libertad, tener un número importante de rezagos conduce a
estimar un alto número de coeficientes que redunda en disminuir los grados de
libertad. Además es posible que exista relación entre las variables explicativas.
694
La elección del grado del polinomio y de los términos de rezago es subjetivo.
Para determinar la cantidad de rezagos se puede utilizar un correlograma o el

test de causalidad de Granger, pero con el grado del polinomio es prueba y
error.
El procedimiento es estimar sucesivos modelos con distinto polinomio y, el que

mejor modelo estimado arroje, ese será el polinomio a adoptar finalmente. La
elección del modelo final puede hacerse a través de los criterios de información
de Akaike o Schwarz, cuanto menor sean estos indicadores mejor modelo.
El método es flexible para incorporar diversas estructuras, no se encuentra la

variable dependiente rezagada y, si se puede ajustar un polinomio de grado
bajo, se reduce el número de coeficientes a estimar.
Caso 16.1: Modelo de Rezagos Distribuidos de Almon para la función

Consumo
El objetivo es aplicar la técnica de Almon a los datos de Consumo y PBI de

Argentina utilizando la información existente en la Tabla 12.4.
Uno de los problemas que se presenta es el desconocimiento de la relación de

causalidad, ¿el comportamiento del consumo causa un comportamiento
determinado en el PBI?, o ¿las variaciones en el PBI dan lugar a cambios en el
consumo?
Para aproximar una respuesta a esos interrogantes es de utilidad el Test de

Granger, que mide la causalidad cuando hay relación temporal del tipo
adelanto rezago entre las variables.
695
Prueba de Granger
La prueba involucra la estimación de dos regresiones

n n
Yt    i X t i    j Yt  j   1t
i 1 j 1
m m
X t   i X t i    j Yt  j   2t
i 1 j 1
donde se supone que  1t y  2t no están correlacionados.
Los pasos consisten en

1. regresar Y sobre los rezagos de Y para obtener la suma de los
cuadrados de los residuos restringidos ( SCR r )
2. repetir la regresión anterior pero incorporando los términos

rezagados de X para obtener la suma del cuadrado de los
residuos sin restringir ( SCR nr )
3. se construye el estadístico
F
SCR r  SCR nr  / m
SCR nr / n  k 
que se distribuye como una Fm,n k ; donde:
m es el número de términos rezagados de X

k es el número de parámetros estimados en la regresión no
restringida
4. Bajo la hipótesis nula de que el término rezagado de X no
pertenece a la regresión
H 0 :  i  0
si el valor de F calculado excede al crítico, a un nivel de
significación de  , se rechaza la H 0 . Esto significa que los
términos rezagados de X pertenecen a la regresión.
Granger distingue 4 casos de causalidad

1. Unidireccional de X a Y : cuando los  i son estadísticamente distintos
de cero y los  i estadísticamente iguales a cero
2. Unidireccional de Y a X : cuando los  i son estadísticamente iguales a

cero y los  i estadísticamente distintos de cero
696
3. Retroalimentación o causalidad bilateral: cuando los  i ,  i , i y  i son

estadísticamente distintos de cero.
4. Independencia: cuando el conjunto de coeficientes no es significativo.
Para aplicar el test se debe, en Eviews, abrir un grupo para las variables PIB y
Consumo; luego en View-Granger Casuality se debe ingresar el número de
rezagos a considerar (Lags to include):
La salida del test muestra la prueba de causalidad de PBI a Consumo y de

Consumo a PIB. La hipótesis nula es que los coeficientes que acompañan a los
términos rezagados de la variable explicativa se anulan.
En la primera línea del test cuando dice “PBI does not Granger Cause
CONSUMO” quiere decir que el comportamiento del PBI no afecta las
variaciones de Consumo, por ende los coeficientes asociados a la variable
explicativa PBI se anulan. Esta es la hipótesis nula, la cual es rechazada.
En la segunda línea se prueba la relación inversa bajo la hipótesis nula de que

las variaciones en Consumo no determinan el nivel asumido por el PBI, por
ende los coeficientes que acompañan a la variable explicativa Consumo se
anulan. Esta hipótesis, al igual que la primera, se rechaza.
El resultado del test indica la presencia de retroalimentación o causalidad

bilateral entre las dos variables.
697
También puede observarse el correlograma cruzado de las dos variables (Cross

Correlogram of CONSUMO and PIB) que se obtiene abriendo un grupo para
Consumo y PIB, haciendo en View-Cross correlation. En la gráfica, las barras
que salen de las bandas de confianza alcanzan al cuarto rezago.
Estos resultados, la Prueba de Ganger con 4 rezagos y el correlograma,

sugieren que el modelo a considerar es:
Consumot     0 PIBt   1PIBt 1   2 PIBt 2   3 PIBt 3   4 PIBt 4   t
Se supone que los  i pueden aproximarse por un polinomio de segundo grado
 i  a0  a1i  a2 i 2
698
Estimación del Modelo de rezagos distribuidos de Almon
El modelo a estimar por variables instrumentales es:
Consumot    a0 Z0 t  a1Z1t  a2 Z 2t   t
En Eviews deben construirse las variables Z

4
Z 0t   X t i  X t  X t 1  X t 2  X t 3  X t 4
i 0
4
Z1t   iX t i  X t 1  2 X t 2  3 X t 3  4 X t 4
i 0
4
Z 2t   i 2 X t i  X t 1  2 2 X t 2  3 2 X t 3  4 2 X t 4
i 0
a partir del comando Genr se construyen las variables

Z0=pib+pib(-1)+pib(-2)+pib(-3)+pib(-4)
Z1=pib(-1)+2*pib(-2)+3*pib(-3)+4*pib(-4)
Z2=pib(-1)+2*2*pib(-2)+3*3*pib(-3)+4*4*pib(-4)
La estimación en Eviews se realiza desde Quick-Estimate Equation consignado

en el cuadro de diálogo la expresión
consumo c Z0 Z1 Z2
Los coeficientes corresponden a  , a0 , a1, a2 ; para hallar el valor de

 0 ,  1,  2 ,  3 ,  4 debe utilizarse la expresión
 i  a0  a1i  a2 i 2
i  0  0  a0  a10  a2 02  ̂0  aˆ 0  0.464424
i  1  1  a0  a11  a212  ˆ1  aˆ 0  aˆ 1  aˆ 2  0.464424 - 0.347033  0.061411

 0 ,1788
699
i  2   2  a0  a12  a2 22  ˆ 2  aˆ 0  aˆ 12  aˆ 2 4 
 0.464424 - 0.347033 * 2  0.061411 * 4
 0 ,016
i  3  3  a0  a13  a2 32  ˆ 3  aˆ 0  aˆ 13  aˆ 2 9
 0.464424 - 0.347033 * 3  0.061411 * 9
 0 ,02397
i  4   4  a0  a14  a2 42  ˆ 4  aˆ 0  aˆ 14  aˆ 216
 0.464424 - 0.347033 * 4  0.061411 * 16
 0 ,05887
Reconstruyendo la ecuación consumo

Consumo t  3686572  0.46442PIBt  0.17880PIBt 1  0.01600PIBt 2
 0.02397PIBt 3  0.05887PIBt 4
Los errores estándar de los estimadores s ˆ se calculan haciendo

700
m
Var ( ˆ i )  var( aˆ 0  aˆ 1i  aˆ 2i 2    aˆ m i m )   i 2 j var( aˆ j )  2  i j  p cov( aˆ j aˆ p )
j 0 j p
A partir de la información contenida en la matriz de covarianzas de los

coeficientes a
Y teniendo en cuenta que  i  a0  a1i  a2 i 2 , el cálculo de los desvíos será
i  0  Var ( ˆ 0 )  var( aˆ 0  aˆ 10  aˆ 2 02 )  var( aˆ 0 )  0 ,001188

sˆ 0  saˆ 0  0 ,001188  0 ,03446738
i  1  Var ( ˆ1 )  var( aˆ 0  aˆ 11  aˆ 212 )

 12* 0 var( aˆ 0 )  12*1 var( aˆ 1 )  12* 2 var( aˆ 2 )
 
 2 10 1 cov( aˆ 0aˆ 1 )  10  2 cov( aˆ 0aˆ 2 )  11 2 cov( aˆ 1aˆ 2 )
 0 ,001188  0 ,002281  0 ,000132
 2 0 ,001386  0 ,000268  0 ,000529 )  0 ,000307
sˆ 1  0 ,000307  0 ,01752142
701
i  2  Var ( ˆ 2 )  var( aˆ 0  aˆ 12  aˆ 2 22 )

 2 20 1 cov( aˆ 0aˆ 1 )  20  2 cov( aˆ 0aˆ 2 )  21 2 cov( aˆ 1aˆ 2 ) 
 0 ,001188  4 * 0 ,002281  16 * 0 ,000132
 22 * ( 0 ,001386 )  4 * 0 ,000268  8 * 0 ,000529 )  0 ,00056
sˆ 2  0 ,00056  0 ,02366
i  3  Var ( ˆ 3 )  var( aˆ 0  aˆ 13  aˆ 2 32 )
 
 2 30 1 cov( aˆ 0aˆ 1 )  30  2 cov( aˆ 0aˆ 2 )  31 2 cov( aˆ 1aˆ 2 )
 0 ,001188  9 * 0 ,002281  81* 0 ,000132
 23 * ( 0 ,001386 )  9 * 0 ,000268  27 * 0 ,000529 )  0 ,000351
sˆ 3  0 ,000351  0 ,01873
i  4  Var ( ˆ 4 )  var( aˆ 0  aˆ 14  aˆ 2 42 )

 2 40 1 cov( aˆ 0aˆ 1 )  40  2 cov( aˆ 0aˆ 2 )  41 2 cov( aˆ 1aˆ 2 ) 
 0 ,001188  16 * 0 ,002281  256 * 0 ,000132
 24 * ( 0 ,001386 )  16 * 0 ,000268  64 * 0 ,000529 )  0 ,001252
sˆ 3  0 ,001252  0 ,03538
Estimación del Modelo de Almon en Eviews
A continuación se describe cómo solicitar a Eviews la estimación de un

polinomio de rezagos distribuidos (pdl), donde cada pdl equivale a una variable
instrumental construida con un procedimiento de cálculo distinto al de Almon
pero que arroja los mismos coeficientes de los términos rezagados.
Para un modelo del tipo
Yt  w t    0 X t   1 X t 1     k X t k   t (1)
Se construye un polinomio de orden p para los β

702
 j   1   2 ( j   )   3 ( j   )2     p1( j   ) p , j  0,1,2,3  k (2)
 es una constante dada por
 k / 2  si k es par
  (3)
(k  1) / 2  si k es impar
La constante  no afecta la estimación de  , es incluida solamente para

esquivar problemas numéricos que pueden presentarse desde la colineariedad.
La especificación del modelo con k rezagos de X solo debe contener p

parámetros. Se debe cumplir la restricción p  k , caso contrario reporta matriz
singular.
Al especificar PDL, Eviews sustituye 2 en 1 , de modo que

Yt  w t    1   2 (0   )   3 (0   ) 2     p 1 (0   ) p X t  
 1 
  2 (1   )   3 (1   ) 2     p 1 (1   ) p X t 1   
 1 
  2 (k   )   3 (k   ) 2     p 1 (k   ) p X t k   t
Eliminando paréntesis
Yt  w t    1 X t   2 (0   ) X t   3 (0   )2 X t     p 1(0   ) p X t 
 1 X t 1   2 (1   ) X t 1   3 (1   )2 X t 1     p1(1   ) p X t 1   
 1 X t k   2 (k   ) X t k   3 (k   )2 X t k     p1(k   ) p X t k   t
Agrupando términos
Yt  w t    1  X t  X t 1    X t k 
  2 (0   ) X t  (1   ) X t 1    (k   ) X t k 

  3 (0   )2 X t  (1   )2 X t 1    (k   )2 X t k 

 
  p 1 (0   ) p X t  (1   ) p X t 1    (k   ) p X t k   t
703
El modelo con variables instrumentales se especifica:

Yt     1Z1t   2Z2t   3Z3t     p 1Z( p 1 )t   t (4)
donde
Z1t  X t  X t 1    X t  k
Z2t  ( 0   ) X t  ( 1   ) X t 1    ( k   ) X t  k
Z3t  ( 0   )2 X t  ( 1   )2 X t 1    ( k   )2 X t  k

Z( p 1 )t  ( 0   )p X t  ( 1   )p X t 1    ( k   )p X t  k
Estimar  desde 4, permite calcular los  y sus errores a partir de la relación

2. Este procedimiento es sencillo a partir de que  es una transformación
lineal de  .
La especificación del polinomio de rezagos distribuidos tiene 3 elementos

 Longitud del rezago k
 El grado del polinomio p
 Restricciones que se quieran emplear
La estimación en Eviews se realiza desde Quick-Estimate Equation consignado

en el cuadro de diálogo la expresión
consumo c pdl(pib,4,2)
Es decir, variable dependiente – ordenada al origen – pdl términos; este último

es la sentencia para que el sistema interprete que
 debe rezagar términos de la variable explicativa pib,
 que la cantidad de rezagos tienen que ser 4,
 que el grado del polinomio a considerar es 2.
El soft proveerá los siguientes resultados

704
Reemplazando los coeficientes de PDLit en el polinomio de  i , se obtienen los

valores de los coeficientes del PIB.
 1  0.016004
 2  0.101388 K  4    2 (Por lo expresado en 3)
 3  0.061411
Con esta información y dado que se ha definido un polinomio de segundo
grado para  j ,
 j   1   2 ( j   )   3 ( j   )2
el cálculo se realiza de la siguiente manera:
705
j  0  ˆ 0  ˆ1  ˆ 2 ( 0  2 )  ˆ 3 ( 0  2 )2
 0.016004  0.101388 * 2  0.061411* 4
 0.464424
j  1  ˆ1  ˆ1  ˆ 2 ( 1  2 )  ˆ 3 ( 1  2 )2
 0.016004  0.101388 * 1  0.061411* 1
 0.178803
j  2  ˆ 2  ˆ1  ˆ 2 ( 2  2 )  ˆ 3 ( 2  2 )2
 0.016004
j  3  ˆ 3  ˆ1  ˆ 2 ( 3  2 )  ˆ 3 ( 3  2 )2
 0.016004  0.101388 * 1  0.061411* 1
 0.023973
j  4  ˆ 4  ˆ1  ˆ 2 ( 4  2 )  ˆ 3 ( 4  2 )2
 0.016004  0.101388 * 2  0.061411* 4
 0.058872
Consumot  3686572  0.464424PIBt  0.178803PIBt 1  0.016004PIBt  2

 0.023973PIBt 3  0.058872PIBt  4
El resultado coincide con los coeficientes que muestra Eviews bajo el título
“Lags Distribution of”
¿Cómo proceder cuando el número de rezagos es impar? Se especifica el

siguiente modelo
Consumot     0 PIBt   1PIBt 1   2PIBt 2   3 PIBt 3   4 PIBt 4   5 PIBt 5   t
En Eviews se indica de la siguiente manera

consumo c pdl(pib,5,2)
y la estimación es:
706
Los coeficientes de PDLit
 1  0.058942
k 1
 2  0.120499 K 5    2 (por lo expresado en 3)
2
 3  0.036707
Deben reemplazarse en el polinomio de  i , (  j   1   2 ( j   )   3 ( j   )2 ) para

obtener los valores de los coeficientes del PIB.
707
j  0  ˆ 0  ˆ1  ˆ 2 ( 0  2 )  ˆ 3 ( 0  2 )2
 0.058942  0.120499 * 2  0.036707 * 4
 0.446768
j  1  ˆ1  ˆ1  ˆ 2 ( 1  2 )  ˆ 3 ( 1  2 )2
 0.058942  0.120499  0.036707
 0.216148
j  2  ˆ 2  ˆ1  ˆ 2 ( 2  2 )  ˆ 3 ( 2  2 )2
 0.058942
j  3  ˆ 3  ˆ1  ˆ 2 ( 3  2 )  ˆ 3 ( 3  2 )2
 0.058942  0.120499  0.036707
 0.02485
j  4  ˆ 4  ˆ1  ˆ 2 ( 4  2 )  ˆ 3 ( 4  2 )2
 0.058942  0.120499 * 2  0.036707 * 4
 0.035228
j  5  ˆ 5  ˆ1  ˆ 2 ( 5  2 )  ˆ 3 ( 5  2 )2
 0.058942  0.120499 * 3  0.036707 * 9
 0.027808
Consumot  -2764189  0.446768PIBt  0.216148PIBt 1  0.058942PIBt  2

 0.02485PIBt 3  0.035228PIBt  4  0.027808PIBt 5
BIBLIOGRAFIA

□ Quantitative Micro Software (2007). “EViews 6 User’s Guide”. USA.
708
Capítulo 17. MODELOS DE PROBABILIDAD ..................... 711
17.1. Características .............................................................. 711
17.2. Modelo Lineal de Probabilidad ......................................... 711
17.3 Modelo Logit .................................................................. 714

Estimación del modelo ........................................................ 716
Estimación con datos agrupados ........................................ 717
Estimación con datos individuales ...................................... 721
17.4 Modelo Probit................................................................. 722
17.5 Modelo Tobit .................................................................. 724
Caso 17.1: Vulnerabilidad social en los hogares de Río Cuarto ..... 725
BIBLIOGRAFIA .............................................................. 727

710
711
Capítulo 17. MODELOS DE PROBABILIDAD
17.1. Características
En los modelos de probabilidad la variable dependiente es binaria,

asumiendo el valor de 1 o 0 de acuerdo a la presencia de la cualidad que se
quiera medir; es decir, produce una respuesta de sí o no.
Ejemplo. Supongamos que se desea estudiar la participación de la

fuerza laboral de hombres adultos en función de la tasa de desempleo,
de la tasa de salarios promedio, del ingreso familiar, de la educación,
etc. Una persona o bien está en la fuerza laboral o no está. Por tanto,
la variable dependiente que es la participación en la fuerza laboral,
solamente puede adquirir dos valores: 1 si la persona está en la fuerza
laboral y 0 si no lo está.
Se considerarán los cuatro enfoques de mayor difusión
 Modelo lineal de probabilidad (MPL)
 Modelo Logit
 Modelo Probit
 Modelo Tobit
17.2. Modelo Lineal de Probabilidad
El modelo se especifica
Yt   1   2 X 2t     k X kt   t
donde,
Y es una variable cualitativa
X 2 , X 3 , X k son variables explicativas de carácter cuantitativo o cualitativo

712
Modelos de este tipo, que expresan la variable binaria como una función
lineal de la o las variables independientes, se denominan MPL puesto que la
E Yi X i  , puede ser interpretada como la probabilidad condicional de que el

evento suceda dado X i ; es decir, P Yi  1 X i 
Ejemplo. En un estudio en los hogares, si Y mide la posesión de una
casa -Y=1 cuando la familia posee casa y Y=0 cuando no posee- y X
el nivel de ingresos. La E Yi X i  da la probabilidad de que una familia
posea una casa dado que tiene un ingreso de cierta cantidad X i
Si E  i   0
E Yi X i    1   2 X 2t     k X kt
Haciendo, Pi  prob(Yi )  1 es decir que el evento ocurra y

1  Pi  prob(Yi )  0 es decir de que el evento no ocurra, la variable Y tiene
la siguiente distribución:
Yi Probabilidad
0 1  Pi
1 Pi
Total 1
Por consiguiente, por definición de esperanza matemática se obtiene
E Yi   01  Pi   1Pi   Pi
comparando con E Yi X i    1   2 X 2t     k X kt , se puede igualar
E Yi X i    1   2 X 2t     k X kt  Pi
es decir, la esperanza condicional del modelo puede ser interpretada, de

hecho, como la probabilidad condicional de Yi
Puesto que la probabilidad Pi debe encontrarse entre 0 y 1, se tiene la

restricción
0  E Yi X i   1
es decir, la esperanza condicional o probabilidad condicional debe

encontrarse entre 0 y 1.
713
En aplicaciones prácticas el MPL tiene infinidad de problemas, tales como,

 No normalidad de los  t
 Heterocedasticidad de  t
 La posibilidad de que Yˆt se encuentre fuera del rango 0 – 1
 Valores generalmente bajos de R 2
Aunque estos problemas se pueden resolver, por ejemplo, se pueden

utilizar mínimos cuadrados ponderados para resolver el problema de
heterocedasticidad o incrementar el tamaño de la muestra y minimizar así
el problema de no normalidad. También, recurriendo a las técnicas de
mínimos cuadrados restringidos o de programación matemática, es posible
hacer que las probabilidades estimadas se encuentren dentro del intervalo 0
– 1.
Con respecto al R 2 , Aldrich y Nelson sostienen que el uso del coeficiente de

determinación como estadístico resumen debe evitarse en modelos con
variable dependiente cualitativa.
Aún salvando estos problemas el MPL no es un modelo muy atractivo

porque supone que aumenta linealmente con X, es decir el efecto marginal
o incremental de X permanece constante todo el tiempo. En realidad se
esperaría que Pi estuviera relacionado en forma no lineal con X i
Ejemplo. Si se aplica el modelo de propiedad de la vivienda y se

encuentra que ˆ 2  0.10 significaría que a medida que X aumenta
una unidad (supongamos en miles de pesos), la probabilidad de ser
propietario de una vivienda aumenta en la misma cantidad constante
de 0.10. Esto es así para niveles de ingreso de $ 8.000; $15.000 o
$50.000. Esto no parece ser realista.
Para ingresos muy bajos una familia no poseerá una casa, pero a un
nivel de ingresos suficientemente alto, por ejemplo $a es muy
probable que ésta sí posea una casa. Cualquier aumento en el
ingreso más allá de $a tendrá un efecto pequeño sobre la
probabilidad de poseer una casa. Así a ambos extremos de la
distribución de ingresos, la probabilidad de poseer una casa no se
verá afectada, virtualmente, por un pequeño incremento en X .
Para solucionar estos problemas se presentan a continuación los modelos

Logit y Probit (Normit).
714
17.3 Modelo Logit
Para desarrollar la metodología del modelo Logit, se trabajará con el

ejemplo de propiedad de la vivienda.
Ahora se considerará la siguiente especificación
Y t 1   2 X t   t
Y  Pi  E Y  1 X t  
1 1 ez
 
1  e (  1   2 X t ) 1  e z 1  e z
donde
X es el ingreso
Y  1 significa que la familia es propietaria de una casa
ez
representa la probabilidad de que el evento se presente.
1 e z
Por simplicidad, se escribe la ecuación de la siguiente manera:
1
Pi  ; donde z i  ˆ1  ˆ2 X i
1  e  zi
Esta última ecuación representa lo que se conoce como función de

distribución logística (acumulativa).
Es fácil verificar que mientras z i se encuentra dentro de un rango de   a

 , Pi se encuentra dentro de un rango de 0 a 1 y que Pi no está
linealmente relacionada con z i (es decir, con X i ), satisfaciendo así los dos
requerimientos considerados anteriormente.
Obsérvese, a medida que
 z i   , e  zi  0
 z i   , e  zi aumenta indefinidamente1.
Recuerde de que e=2.71828

1
715
Ahora bien, se consigue satisfacer los dos requerimientos, pero se crea un

problema de estimación porque Pi no es solamente no lineal en las X sino
también en los  , como puede verse a partir de la ecuación del modelo.
Esto significaría que no se puede utilizar MCO para estimar los parámetros.
Pero, este problema es más aparente que real ya que el modelo es
intrínsecamente lineal, lo cual puede verse de la siguiente manera.
1
Si el evento se presenta Pi 
1  e  zi
1
Si el evento no se presenta la probabilidad es 1  Pi 
1 e z
La razón de probabilidad a favor del evento bajo estudio se expresa como
ez
 1 e  e z
Pi z
1  Pi 1
1 e z
Ejemplo. La razón de probabilidades a favor de poseer una casa se

interpreta como la probabilidad de que una familia posea una casa a
la probabilidad de que no la posea. Así si Pi  0.8 significa que las
probabilidades son 4 a 1 a favor de la familia que posee una casa.
Tomando logaritmo natural de la razón de probabilidades
 P 
Li  ln i   In e zi  Z i   1   2 X t
 1  Pi 
L es denominado logit, es lineal en X y lineal en los parámetros:
 Si L  0 a valores crecientes de X , se incrementa la probabilidad de

ocurrencia del evento
 Si L  0 a valores crecientes de X , disminuye la probabilidad de

ocurrencia del evento
A continuación se enuncian los aspectos que caracterizan al modelo Logit:

716
1. A medida que P va de 0 a 1 (cuando Z varía de   a  ) el Logit L va

de   a  . Es decir, aunque las probabilidades (por necesidad) se
encuentran entre 0 y 1, los Logit no están limitados en esa forma.
2. Aunque L es lineal en X, las probabilidades en sí mismas no lo son. Esta

propiedad hace contraste con el MLP en donde las probabilidades
aumentan linealmente con X.
3. Utilizando el cálculo, puede demostrarse que dP dX i   i P (1  P ) , lo cual

muestra que la tasa de cambio en la probabilidad con respecto a X
contiene no solamente a  i sino también al nivel de probabilidad a partir
del cual se mide el cambio. A propósito, obsérvese que un cambio
unitario en X i sobre P es máximo cuando P  0.5 y mínimo cuando P
está cercano a 0 o a 1.
4. La interpretación del modelo LOGIT es la siguiente:  i , la pendiente,

mide el cambio en L ocasionado por un cambio unitario en X i . En el
ejemplo, como el logaritmo de las probabilidades a favor de poseer una
casa cambia a medida que el ingreso cambia en una unidad
(supongamos, $1.000). El intercepto  1 es el valor del logaritmo de las
probabilidades a favor de poseer una casa si el ingreso es cero.
5. Dado un nivel de ingreso determinado, por ejemplo $a, si realmente se

desea estimar la probabilidad misma de poseer una casa, y no las
probabilidades a favor de poseer una casa, esto puede hacerse
directamente a partir de la primera ecuación una vez de que se disponga
de las estimaciones de  1 y  2 .
6. Mientras que el MLP supone que Pi está relacionado linealmente con X i ,

el modelo LOGIT supone que el logaritmo de la razón de probabilidades
está relacionado linealmente con X i .
Estimación del modelo
A fines de la estimación el modelo se especifica
 P 
Li  ln i    1   2 X t   t
 1  Pi 
Para estimar el modelo, además de los valores de X i , se necesitan los

valores del logit Li pero se incurre en algunas dificultades. En el caso del
ejemplo (y en otros similares) si existe información disponible sobre familias
individuales, entonces Pi  1 si una familia posee una casa y Pi  0 si una
familia no la posee. Pero si se colocan estos valores directamente en el
logit Li se obtiene
717
 1
Li  ln  si una familia posee una casa
0
0
Li  ln  si una familia no posee una casa.
 1
Ambas expresiones carecen de sentido.
Por consiguiente, si la información disponible está a nivel micro o individual,

no se puede estimar el modelo mediante la rutina del método de mínimos
cuadrados ordinarios. En esta situación puede ser preciso recurrir a
máxima verosimilitud.
Estimación con datos agrupados
La información se agrupa siguiendo algún criterio y se estima por mínimos

cuadrados ordinarios. En el ejemplo de familias propietarias de viviendas, la
información puede agruparse según el nivel de ingresos.
Obs X i , ingreso N i , número de familias ni , número de familias

(miles de $) con ingreso X i que poseen casa
1 6 40 8
2 8 50 12
3 10 60 18
4 13 80 28
5 15 100 45
6 20 70 36
7 25 65 39
8 30 50 33
9 35 40 30
10 40 25 20
Luego se deben seguir los siguientes pasos:
1. Para cada nivel de ingreso X i calcular la probabilidad estimada de

n 
poseer una casa como P̂i   i  ; es decir la frecuencia relativa. Se
 Ni 
puede utilizar ésta como una estimación del verdadero Pi
correspondiente a cada X i . Si N i es relativamente grande, P̂i será una
estimación razonablemente buena de Pi (de la estadística elemental
recuerde que la probabilidad de un evento es el límite de la frecuencia
relativa a medida que el tamaño de la muestra se hace infinitamente
grande).
718
2. Utilizando Pi estimado, se puede obtener el Logit estimado como
 Pˆ 
Lî  ln i   ˆ1  ˆ 2 X t
 1  Pî 
3. Por lo tanto, dada la información agrupada o replicada (observaciones

repetidas), se puede obtener información sobre la variable dependiente,
los Logit.
4. La interpretación se realiza de la siguiente manera:
 P 
Li  ln i 
 1  Pi 
al tomar antilogaritmo a esta expresión se obtiene la razón de

Pî
probabilidades
1  Pî
Pi Pî
 e z esto significa que  e 1   2 X 2 t
ˆ ˆ
Pero
1  Pi 1  Piˆ
Al resultado de evaluar e z se le resta 1 y se lo multiplica por 100, este

resultado es el cambio porcentual a favor de la ocurrencia del evento
ante el cambio en algún regresor.
5. Si se quiere calcular la probabilidad P se debe hacer
Pi ez
 ez  Pi  e z 1  Pi   Pi 
1  Pi 1 e z
6. Puede demostrarse que si Ni es relativamente grande y cada

observación en una clase de ingreso dado X i está distribuida en forma
independiente como una variable binomial, entonces
 1 
 i  N 0, 
 N i Pi 1  Pi 
por consiguiente, como en el caso del MLP, el término de perturbación es

heterocedástico y habrá que utilizar MCP. En esta situación se usará la
siguiente transformación del modelo
W i Li   1 W i   i W i X i  W i  i
que se escribe como: Li   1 W i   i X i   i

donde W i  N i Pî 1  Pî  es el coeficiente que pondera
719
Li es igual a Li ponderada
X i es igual a X i ponderada
 i es el término de error ponderado homocedástico
7. Estímese la ecuación transformada mediante MCO. Tenga en cuenta que

en esta ecuación no hay término de intercepto introducido
explícitamente, por lo que se tendrá que usar el procedimiento de
regresión a través del origen.
8. Establézcanse intervalos de confianza y/o pruebas de hipótesis dentro de

lo usual para MCO, cuyos resultados serán válidos sólo para muestras
relativamente grandes.
Aunque paquetes tales como el EVIEWS estiman directamente estos

modelos, apliquemos el razonamiento anterior para comprender algunos
resultados.
La estimación por MCP sin ordenada al origen da:
Esto es,
Lˆi  1.5932 W i  0.0787 X i

El intercepto estimado es  i N i Pî 1  Pî 
Como muestra esta regresión, el coeficiente de pendiente estimado sugiere
que para un incremento unitario ($1.000) en el ingreso ponderado, el
logaritmo ponderado de las probabilidades a favor de poseer una casa
aumenta en alrededor de 0.08.
720
Tomando antilogaritmo de 0.0787, se obtiene aproximadamente 1.0818, lo

cual significa que para un incremento unitario en los ingresos ponderados,
las probabilidades ponderadas a favor de poseer una casa aumentan en
1.0818 o alrededor de 8.18%.
¿Se puede calcular la probabilidad de poseer una casa, dado el ingreso, a

partir de la razón de probabilidades?
Este cálculo puede hacerse fácilmente. Supóngase que se desea estimar la

probabilidad de poseer una casa para el nivel de ingreso de $20.000. Se
tiene el dato observado en la Tabla 16.1 para la observación 6, donde
x i  20 , N i  70 y n i  36 , y la estimación que surge de la Tabla 16.1.
Lˆi  1,593238 w  0,078669 x i* (1)
Se debe tener en cuenta que

w  N i Pî 1  Pî  70  36 34
70 70
 4,181592 (2)
x i*  x i w
Si x  20 entonces x i*  20  4,181592  83,63184 (3)
Reemplazando (2) y (3) en (1) L*i  0,083038
L*i
Pero L  Li w , por lo que Li 
*
i  0,019858 .
w
Pi
Ahora bien, Li  ln
1  Pi
Tomando el antilogaritmo de Li
Pi
anti logLi   e
ln
1Pi Pi
 (4)
1  Pi
Es decir, anti logLi   e 0,019858  0,980338 (5).
Igualando (4) y (5) se obtiene
Pˆ 1 Pˆ   0.980338

i i  Pî  0.495036
Es decir, la probabilidad de que una familia con un ingreso de $20.000

posea una casa es de alrededor de 0,50.
721
Estimación con datos individuales
Dado el modelo
Li   1   2 X 2t    k X kt   t
El modelo estimado con datos individuales por Logit será
Lî  ˆ1  ˆ 2 X 2t   ˆ k X kt
Este resultado se interpreta de la siguiente manera. En primer lugar debe

tenerse en cuenta que
 Pˆ 
Li  ln i 
 1  Pî 
Al tomar antilogaritmo en la expresión anterior, tendremos la razón de

probabilidades:
 Pˆ 
ln i 
Pî
anti logLi   e  1 Pî 
  e z  e 1   2 X 2 t  k X kt
1  Piˆ
Para encontrar la probabilidad de ocurrencia del evento dado que las

variables explicativas se comportan de una manera determinada, se
procede de la siguiente manera:
Pi
 e z  Pi  e z 1  Pi 
1  Pi
ez
Pi 
1 e z
Habitualmente, para encontrar el valor de z se le asigna a las variables

cuantitativas el valor medio; con las cualitativas se trabaja asignando el
valor 1 o el valor 0, de acuerdo a que se quiera encontrar la probabilidad
del evento cuando la cualitativa está presente o ausente.
La tasa marginal de cambio en la probabilidad de ocurrencia del evento ante

cambios en las variables explicativas cuantitativas viene dado por:
 ˆ i 1  Pˆ Pˆ
dP
dX i
722
17.4 Modelo Probit
Como se ha mencionado, para explicar el comportamiento de una variable

dependiente binaria, es preciso usar una función de distribución acumulada
seleccionada apropiadamente.
Para el caso del modelo Logit se usó la función logística acumulativa.
La función de distribución acumulada normal también brinda utilidad a estos

efectos.
El modelo de estimación que surge de una función de distribución

acumulada normal se conoce como modelo Probit o Normit.
Por ejemplo, supóngase que la decisión de la i–ésima familia de poseer una

casa o de no poseerla depende de un índice de conveniencia no observable
I i , que está determinado por una o varias variables explicativas, por
ejemplo, el ingreso X i , de tal manera que cuando mayor sea el valor del
índice, mayor será la probabilidad de que la familia posea vivienda.
De esta manera:
Ii  1   2 X i
¿Cómo se relaciona el I i no observable con la decisión de poseer una casa?
Igual que antes, sea Y  1 si la familia posee una casa e Y  0 si no la

posee.
Ahora bien, es razonable suponer que para cada familia hay un nivel crítico
o umbral del índice, que se puede denominar I i , tal que si
I i  I i
la familia poseerá una casa, de lo contrario no lo hará.
Si se supone que el índice y el umbral se distribuyen normales con igual

media y varianza, será posible estimar los parámetros del modelo y obtener
alguna información adicional.
Dado el supuesto de normalidad, la probabilidad de que I i sea menor o

igual que I i puede ser calculada a partir de la FDA normal estandarizada
como
 
Pi  Pr Y  1  Pr I i  I i  F I i  
1

Ii
e t
2
/2
dt 
1

1   2 X i
e t
2
/2
dt
2 
2 
723
donde t es una variable normal estandarizada, es decir t ~ N(0,1).
Ahora, para estimar el modelo, deberá tenerse en cuenta que:
I i  F 1 Pi   1   2 X i
Al igual que el logaritmo de la razón de probabilidades (en el modelo Logit),

la inversa de la FDA normal sirve para hacer lineal al modelo Probit.
De esta forma el modelo a estimar resulta de conocer las probabilidades, en

este caso
I i  F 1 Pî    1   2 X t   t
Luego, aplicar MCP.
Notas:
 La perturbación  i , al igual que antes, es heterocedástica. Se puede

demostrar que su varianza está dada por    Pi 1  Pi  / N i f i
2 2
donde fi 2
es la función de densidad normal estándar evaluada en F 1 Pi  . Por lo
tanto, habrá que ponderar el modelo para aplicar mco.
 La variable no observable es conocida como desviación equivalente

normal o simplemente normit. Puesto que normit será negativo siempre
que Pi  0.5 , en la práctica se agrega el número 5 al normit y el
resultado se denomina probit.
 Los dos métodos presentados son bastante similares, generalmente por

conveniencia matemática se prefiere el logit. Pero como lo sugieren
algunos autores una estimación logit de un parámetro multiplicada por
0.625 proporciona una aproximación relativamente buena de la
estimación probit del mismo parámetro.
 También, se puede demostrar que  MPL  0.25  Logit , excepto para el

intercepto.  MPL  0.25  Logit  0.5 , para el intercepto.
 Todas las aproximaciones anteriores funcionan bien cuando el valor

promedio de la probabilidad de que suceda el evento no este lejana de
0.5.
 Se debe tener cuidado al interpretar el coeficiente de pendiente. En el

mpl el coeficiente de pendiente mide directamente el cambio en la
probabilidad de que ocurra un evento como resultado de un cambio
unitario en el valor del regresor. En el logit la tasa de cambio en la
724
probabilidad está dada por  j Pi 1  Pi  donde  j es el coeficiente del j–

ésimo regresor. En el probit, la tasa de cambio en la probabilidad es
algo complicada y está dada por  j  z i  , donde   es la función de
densidad de la variable normal estándar y donde
z i   1   2 X 2i     k X ki o sea, el modelo de regresión utilizado en el
análisis.
En síntesis, dado el modelo
Yt  1   2 X 2t    k X kt   t
la estimación por Probit es
Î t  ˆ 1  ˆ 2 X 2t   ˆ t X kt
En el modelo Probit, la probabilidad de que ocurra el evento viene dad por
    
Pi  P Y  1 X   P I i*  Î t  P z i  ˆ 1  ˆ 2 X 2t   ˆ t X kt  F ˆ 1  ˆ 2 X 2t   ˆ t X kt 
z es la variable normal estándar y F es la función de distribución normal

estándar
La contribución de cada variable cuantitativa viene dado por
 f ˆ1  ˆ 2 X 2t    ˆ k X kt ˆ i  f z ˆ i

dP
dX i
17.5 Modelo Tobit
Es una extensión del modelo Probit, desarrollado por el Nobel J. Tobin.
Continuando con el ejemplo de la vivienda, supóngase ahora que se desea

encontrar la cantidad de dinero que el consumidor gasta en comprar una
casa en relación con su ingreso (y otras variables económicas).
Ahora se tiene un problema: si un consumidor no compra una casa,

obviamente no se tiene información sobre el gasto en vivienda, se tiene tal
725
información solamente sobre los consumidores que efectivamente compran

casa.
Por lo tanto se tiene dos grupos de consumidores. Unos, digamos n1 sobre

quienes se posee información sobre los regresores y la variable dependiente
y otros, supongamos n 2 sobre quienes solamente se tiene información
sobre los regresores.
Cuando en una muestra la información para la variable dependiente está

disponible solamente para algunas observaciones, ésta se conoce como
muestra censurada. Por consiguiente el modelo Tobit también se conoce
como modelo de regresión censurada.
En términos matemáticos se puede expresar el modelo Tobit como
Yi   1   2 X 2i   2i ; si Y tiene datos
Yi  0 ; en los demás casos
Ante esta situación el modelo sólo se puede estimar por Máxima

Verosimilitud, ya que el término de error no cumple con la propiedad de
media nula. Esto se debe a que sólo se incluyen en la muestra las
observaciones para las cuales  2i    2 X 2i , que puede verse si se escribe el
modelo en forma de desviaciones.
Caso 17.1: Vulnerabilidad social en los hogares de Río Cuarto
El objetivo del trabajo es identificar los fenómenos de mayor impacto en la

determinación de la vulnerabilidad en la ciudad de Río Cuarto
El diccionario de la Real Academia Española define vulnerable como aquel

que puede ser herido o recibir una lesión física o moral
Roberto Pizarro2, consultor de la División de Estadística y Proyecciones

Económicas de CEPAL, define la vulnerabilidad social como un estado de
inseguridad e indefensa que experimentan los individuos en sus condiciones
de vida, en el manejo de recursos y en las estrategias que utilizan para
enfrentar las consecuencias del impacto provocado por algún tipo de evento
económico social
2
Pizarro, Roberto (2001). La vulnerabilidad social y sus desafíos. Una mirada desde América Latina.
Estudios Estadísticos y Prospectivos. Serie 6. CEPAL
726
La población estudiada consta de 1686 hogares que tienen bebés nacidos en

el año 2005. Las características cualitativas medidas en estos hogares
reúnen 527 modalidades.
Dado que la vulnerabilidad es un concepto multidimensional, se optó por

realizar un análisis factorial de correspondencia múltiple utilizando 90
variables activas con 381 modalidades asociadas y 9 variables ilustrativas
con 146 modalidades asociadas. La partición del espacio de observación y la
posterior clasificación de los hogares dio lugar a la conformación de 9
grupos, tal como puede observarse en el Gráfico.
Vulnerabilidad Social
Alta-Alta Baja-Baja
8,84% 14,35%
Alta-Media
Baja-Media
25,62%
18,98%
Alta-Baja Baja-Alta
5,58% 10,26%
Media-Alta Media-Baja
8,78% 3,14%
Media-Media
4,45%
Los hogares que forman los grupos de vulnerabilidad alta (segmentados en

los subgrupos Alta-Alta, Alta-Media y Alta-Baja) se caracterizan por tener
•Baja edad y bajo nivel educativo de la madre y situaciones de
maternidad en cuasi-soledad
•Alto número de hijos, aun en madres muy jóvenes, y comienzo tardío
en la atención durante el embarazo
•Hogares numerosos con alto número de menores de 15 años, bajos
ingresos con pocos aportantes por hogar, no hay aportes
jubilatorios del jefe de hogar y se observan jóvenes entre 15 y 24
años que no estudian ni trabajan.
•Presentan déficit en la infraestructura sanitaria de la vivienda, no
cuentan con gas natural, y se proveen de energía eléctrica de
manera irregular, no son propietarios, los hogares tienen
hacinamiento
•Están expuestos a riesgos por accidentes con electricidad, los bebés
carecen de identificación y no cuentan con cobertura de salud
•Los barrios Alberdi, Banda Norte y Santa Teodora es la ubicación
geográfica de estos grupos.
Además se observó que existían variables comunes a todos los grupos,

independientes del nivel de vulnerabilidad; estas eran
•Edad de la madre
727
•Edad de la madre al tener el primer hijo

•Existencia de baño en la vivienda
•Provisión de agua potable
•Cantidad de cuartos
•Número de integrantes del hogar
•Ingreso del hogar
•Ingreso per cápita mensual
•Personas que aportan ingresos
Ahora bien, ¿qué nivel de impacto tienen estos factores en los niveles de
vulnerabilidad de los hogares?
Para responder a esto se provee de la Tabla 16.1 que contiene:
 Unidades de observación: 1549 hogares con hijos nacidos en 2005
 Características observadas
Altavul: 1 pertenencia a grupo de alta vulnerabilidad
0 no pertenencia a grupo de alta vulnerabilidad
MAD: 1 madre adolescente
0 madre adulta
Edad: edad actual de la madre (variable continua)
NBI: 1 hogar con NBI
0 hogar sin NBI
AI: cantidad de personas que aportan ingresos en el hogar (variable
continua)
IM: ingreso mensual del hogar (variable continua)
IPC: ingreso per cápita diario (variable continua)
Se solicita
 la estimación a través del Modelo Logit y el Modelo Probit
 realizar comparaciones entre los resultados de ambos modelos
BIBLIOGRAFIA

Capítulo 18. SISTEMAS DE RELACIONES LINEALES
SIMULTANEAS ............................................................... 717
18.1. Introducción ................................................................. 717
18.2. Modelo Keynesiano Simple ............................................. 717
18.3 Modelo simple de mercado .............................................. 728
18.4 Contraste de Hausman .................................................... 729
Caso 18.1: Las relaciones macroeconómicas de la responsabilidad

social corporativa. ................................................................. 730
BIBLIOGRAFIA .............................................................. 734

716
717
Capítulo 18. SISTEMAS DE RELACIONES LINEALES SIMULTANEAS
18.1. Introducción
Hasta ahora nos hemos concentrado exclusivamente en la estimación de

relaciones lineales únicas de variables económicas. Es de saber que la
mayor parte de los estudios económicos basan sus teorías en modelos con
varias ecuaciones, en forma de sistemas de relaciones económicas. Como
veremos, cuando una relación es parte de un sistema, algunos regresores
serán estocásticos y no serán independientes de las perturbaciones.
Entonces la estimación clásica por mínimos cuadrados será inconsistente y
deberemos desarrollar procedimientos especiales para estimaciones
consistentes.
Tomemos el caso, por ejemplo, de los siguientes modelos:
 Modelo keynesiano simple
 Modelo simple de mercado
18.2. Modelo Keynesiano Simple
Quizá el modelo más familiar en los libros de economía es el sistema

keynesiano simple
(1) Ct     Yt
(2) Yt  Ct  I t
Donde,
C : Consumo;
Y : Renta;
I : Inversión
t : Unidades de observaciones (temporales o transversales),

t  1,, T
La interpretación típica de este modelo es que (1) representa la ecuación de

comportamiento de los consumidores y que (2) es una condición de
equilibrio que iguala el ahorro (Y  C ) a la inversión; y que la inversión es
718
autónoma. Esto es, dada una inversión el modelo determina los valores de
equilibrio del consumo y de la renta. Se ve que tanto el consumo como la
renta dependen de la inversión. Eso es, si resolvemos el sistema, sin tener
en cuenta los subíndices:
 
(3) C   I
1  1  ,
 1
(4) Y   I
1  1 
Hasta aquí el modelo es exacto y, por tanto, obviamente incongruente con

una descripción empírica de la economía. Una formulación econométrica del
sistema es,
(5) Ct     Yt   t
(6) Yt  Ct  I t
Donde ε es el vector de orden T  1 que representa a la perturbación

aleatoria con,
(7) E ( t )  0, E ( t2 )   2 , E ( t  s )  0 para todo s, t ; s  t
Para mantener la idea que la inversión es autónoma determinada fuera del

sistema, se supone que,
(8) I t y  t son independientes (t  1,, T ; s  1,, T ).
C e Y sobre I y 
Tenemos ahora la dependencia explícita de , resolviendo el
sistema
  1
(9) Ct   It  t
1  1  1 
 1 1
(10) Yt   It  t
1  1  1 
Dada una muestra de observaciones conjuntas sobre C , Y e I , nuestro

interés se basa en estimar los parámetros de la función consumo (5). Ahora
bien, en esa ecuación el regresor y la perturbación no son estadísticamente
independientes, ni temporal ni contemporáneamente. Se puede encontrar la
covarianza de
Yyε
multiplicando (10) por
 t y tomando esperanzas:
719
 1 1
(11) E (Yt  t )  E ( t )  E ( I t t )  E ( t2 )
1  1  1 
1
  2  0, utilizando (7) y (8).
1 
Así para la estimación de (5) MCO no produciría estimaciones consistentes.
Vamos a considerar esto explícitamente. El estimador clásico de  en (5)

es
( 12 ) b
 ( C  C )(Y  Y )   (   Y       Y )(Y  Y )
 (Y  Y ) 2  (Y  Y ) 2

 [  (Y  Y ) 2   (Y  Y )
  
  (Y  Y ) 
 (Y  Y ) 2  (Y  Y ) 2

  (Y  Y ) / T
 (Y  Y ) 2 / T
Ahora bien,   (Y  Y ) / T es la covarianza muestral, así que bajo

condiciones generales1
(13) P lim 
 (Y  Y )
 E ( tYt )  E ( tYt )  (1   ) 1 2
T
 (Y  Y )
2
Similarmente, / T es la varianza muestral, que bajo condiciones
generales
(14) P lim 
(Y  Y ) 2
 E[Y  E (Yt )]2  E[Y  E (Yt )]2   yy
T
Entonces,
(1   ) 1 2
(15) P lim b   
 yy
Por lo que el estimador MCO no sería consistente. Realmente está clara la

dirección del sesgo asintótico si empleamos la información económica de
que la propensión marginal a consumir está entre cero y uno: con
0    1, P lim b   .
También es informativa una expresión distinta del sesgo. Como I y  no

están correlacionados (10) implica
1
Observación 1. Ver apuntes de Distribuciones asintóticas descriptos en Inferencia Estadística.
720

(16) Var (Y )   YY  E [Y  E (Yt )] 2  (1   ) 2 [E (I  E (I )]  E ( 2 ) 
 (1   ) 2 ( ii   2 )
Introduciendo esto para  yy en (15), encontramos
(1   ) 1 2 2
(17) P lim b       (1   )
(1   ) 2 ( ii   2 )  ii   2
Nuevamente con 0    1, P lim b   . Más aún, P lim b   será grande

cuando la varianza de las perturbaciones es grande en relación con la
varianza de la inversión. Una interpretación heurística del resultado es que
la regresión clásica MCO del consumo sobre la renta da crédito a la renta
debido al efecto de las perturbaciones puesto que éstas están
correlacionadas positivamente con la renta.
Otra forma de mirar el resultado es considerando que MCO pueden

suministrar estimaciones consistentes cuando los parámetros en las
relaciones son los parámetros de la esperanza condicionada del regresando
dados los regresores. Pero no es este el caso en (5), ya que
(18) E (Ct | Yt )     Yt  E ( t | Yt )
Pero,
E ( t | Yt )  E ( t )  0
Aunque, esta forma de mirar el resultado nos recuerda que los MCO
deberían ser apropiados para resolver las relaciones (9) y (10). Esto es (9)
cae bajo el modelo de regresión lineal estocástico independiente; obsérvese
   1 
(19) E (Ct | I t )   I t  E   t | I t  
1  1  1  
 
  It
1  1 
Supongamos entonces que estimamos por MCO, esto es
(20) Ct   0   1I t   t
Donde,
  1
(21)  0  , 1  , t  t
1  1  1 
Designando las estimaciones MCO de

 0 ,  1 como p0 , p1 , los cuales son
consistentes, ya que
 
(22) P lim p0   0  , P lim p1   1 
1  1 
721
Observación 2. Aquí hemos utilizado el resultado más general dado de la siguiente

manera: En el modelo de regresión lineal, se ha expuesto hasta ahora que las
variables explicativas, eran fijas o no estocásticas en muestras repetidas. Este
supuesto puede ser apropiado para experimentos de laboratorio, en los que el
investigador, tiene el control sobre las variables explicativas, pudiendo fijar el valor
de las mismas y observar los resultados obtenidos para la variable endógena en
experimentos repetidos, o en el caso de las variables que construimos
artificialmente, como pueden ser las tendencias lineales o las variables ficticias.
Pero en economía, las variables explicativas no están, en general, sujetas a control
y tanto las variables endógenas como los regresores, son el resultado de un
determinado sistema económico-social. Por lo tanto, ambos tipos de variables, son
estocásticos por naturaleza. Si estamos analizando la relación entre consumo y
renta y el parámetro de interés, es la propensión marginal a consumir, no podemos
suponer que la variable explicativa renta, sea fija, ya que tanto el consumo como la
renta vienen determinados por el mismo sistema económico-social y son aleatorias.
Bajo esta nueva situación, vamos a analizar si los métodos de inferencia
desarrollados se pueden aplicar todavía y, en caso contrario, de qué métodos de
estimación alternativos disponemos.
Sea el método de regresión lineal general en el que se cumplen los supuestos
habituales, pero donde ahora la matriz de regresores X, es estocástica. Los
coeficientes de regresión, se pueden estimar aplicando el criterio MCO:
βˆ  X ´X  1
XÝ  β  X´X 1
Xú
Podemos observar que este estimador ya no es una combinación lineal de las
perturbaciones, sino que es una función estocástica no lineal de X y u, por lo tanto,
sus propiedades dependerán de la distribución conjunta de estas. Por ejemplo, si
queremos comprobar si el estimador es insesgado, hemos de calcular su valor
medio:

E βˆ  β  E[ X´X  
1
X´ u ]
Para poder obtener E[X´X  X´ u ] , deberíamos conocer la distribución conjunta de
1
las variables aleatorias X y u. Bajo el supuesto de regresores fijos, el problema se

soluciona fácilmente:

E[ X´X  1
X´ u ]  X´X 1
X´ 
E u
Y este valor medio es cero, dado que E (u) = 0. Cuando los regresores son
estocásticos, esta igualdad ya no se cumple y es preciso contar con la distribución
conjunta de X y u, para poder derivar propiedades de los estimadores β̂ , así como
las distribuciones de los estadísticos de contraste habituales.
Una forma de enfocar este problema, es utilizar la distribución de Y condicionada a
las X. La función de distribución conjunta f (Y , X ;  ,  ) , la podemos escribir como:
2
 ,  )  f (Y | X ;  ,  ) f ( X ,  )
2 2
f (Y , X;
Si nuestro interés se centra en los parámetros de la distribución condicionada  , 
2
y estos no están relacionados con los parámetros de la distribución marginal, ,

podemos olvidarnos de ella y considerar solo la distribución de Y condicionada a
uno de los valore fijos de las variables X.
El modelo de regresión lineal general condicionado a X, se puede escribir como:
Y  X β  u
Donde:
 
E u| X  OT
 
E uu´ | X
2
 σ IT
ρ X  
 k  T
2
u | X  N 0, σ I T  
Podemos derivar los siguientes resultados condicionados:
ob 2 1 1
(1) E(βˆ | X )  β  E[( X´X ) Xú | X ]  β  ( X´X ) XÉ(u | X )  β
722
De la misma forma, podemos demostrar que:

( 2)
ob 2
   EX´X  X´ uu´ XX´X  | X 
V βˆ | X
1 1

 X´X  X´ Euu´ | X  X X´X 

1 1

 X´X  X´ σ I T X X´X   σ X´X 

1 2 2 1 1
Eσˆ | X   σ
2 2
u u
Un estimador insesgado de la varianza condicionada de los estimadores, viene dado

por:
 
Vˆ βˆ | X  σˆ
2
X´X  1
El estimador β̂ , no es un estimador lineal, sino una función estocástica no lineal en

X e Y, por lo que estrictamente hablando no podemos aplicar el teorema de Gauss-
Markov y decir que es ELIO. Sin embargo, si consideramos la varianza del
estimador como condicional a valores dados de X, entonces el estimador es
eficiente.
Por otro lado, la distribución de β̂ condicionada a los regresores X, es:
2 1
βˆ | X  N[β, σ ( X´X) ]
Y los estadísticos de contraste de la significatividad individual y conjunta,
condicionados a X, siguen teniendo una distribución t de Student y F de Snedecor,
respectivamente.
De esta forma, aunque en principio las variables X son variables aleatorias, si
condicionamos nuestro análisis a unos valores fijos de estas, los resultados
dependen de los valores concretos que tomen estas variables en la muestra. El
problema se plantea cuando nos encontramos con situaciones en las que los
regresores son estocásticos y no tiene sentido realizar un análisis condicionado a
unos valores fijos de X. Para ilustrar en que situaciones no podemos hacer este
supuesto, vamos a considerar tres ejemplos:
a) Supongamos el siguiente modelo de regresión:

    Yt 1  ut t  2,  , T
ob 2
(3) Yt
En este modelo aparece como regresor, la variable dependiente retardada un
período. Dado que Y1 ,  , YT , son variables aleatorias, el regresor Yt 1 , es una
variable aleatoria. En esta situación, la matriz X  [1 Yt 1 ] , es estocástica. Por
otro lado, no podemos realizar el análisis condicionado a unos valores fijos de
Y , t  1  2,  , T , ya que no tendría sentido porque es el propio modelo estocástico
es el que indica cómo se generan.
b) Dado el siguiente modelo de regresión:

    Xt  t t  1,  , T
ob 2 *
( 4) Yt
Supongamos que no se observa X*, ya que es una variable difícil de cuantificar
o medir. En su lugar, observamos la variable X, tal que:
X t  X t  t t  1,  , T
*
Donde t, es una variable aleatoria que recoge el error de medida en t. En esta
situación X t es una variable aleatoria aunque consideramos X t como fija. Por lo
*
tanto, el modelo en términos de X , sustituyendo X t por X t , queda:

*
    X t  ut t  1,  , T
ob 2
( 5) Yt
Donde ut   t   t , es el término de perturbación que recoge, además de  t , el
error de medida  t .
El modelo (5)ob2, es equivalente al (4)ob2, pero donde el regresor X t , t  1,  , T es
una variable aleatoria. Tampoco podemos hacer, en este caso, un análisis
723
condicionado a unos valores fijos de X, ya que hipótesis sobre E(u | X ) , E(uu´| X )

no tendrían sentido, dado que u, es función de  y X.
c) Supongamos que se quiere estimar los parámetros de la siguiente

ecuación de demanda de un bien:
    Pt  ut t  1,  , T
ob 2
(6) Qt
Donde Q, es la cantidad de demandada y P, es el recio. Dado que en el
momento t, observamos cantidad y precio de equilibrio, ambas variables se
determinan simultáneamente en el mercado. Luego tanto Q como P, son
variables endógenas. Si en t, se produce un shock en la demanda de este bien
debido, por ejemplo, a un cambio en gustos de los consumidores, recogido por
 t , se generaría un cambio en t, tanto de la cantidad demandada, Qt como el
precio. En este contexto, tanto la variable dependiente como el regresor, se
determinan simultáneamente, por lo que ambas variables Qt , Pt son aleatorias.
Este es otro ejemplo donde la matriz de regresores X  [1 P] es estocástica. Por
otro lado, tampoco tiene sentido realizar el análisis condicionado a Pt , t  1,  , T ,
dado que Pt se determina simultáneamente a Qt .
En todos estos casos es aconsejable utilizar el Modelo de Regresión Lineal con

Regresores Estocásticos, para demostrar su utilización, consideremos el modelo
lineal siguiente:
Y  X β  u; 
u  N O, σ I T
2

Donde al menos uno de los regresores, es una variable aleatoria, siendo, por lo
tanto, la matriz X  [1 X 2  X k ] estocástica. Los estimadores y estadísticos derivados
en el modelo de regresión lineal clásico, son función de las variables aleatorias X y
u, por lo que será importante conocer las características estocásticas de ambos
conjuntos de variables aleatorias y cómo se relacionan.
Regresores independientes de la perturbación

Cuando las variables aleatorias X it y  t son independientes, para todo i = 1, ..., k
y t = 1, ..., T, la función de densidad marginal de ( X 1t ,  X kt ) no depende de los
parámetros (, 2) para todo t. Bajo los supuestos habituales sobre las
perturbaciones del modelo, aún podemos derivar analíticamente algunas
propiedades para muestras finitas del estimador MCO de : es insesgado y su
matriz de varianzas y covarianzas, alcanza la cota de Cramer-Rao, con lo que es
eficiente dentro de los estimadores insesgados de . Se puede demostrar fácilmente
que el estimador MCO, es insesgado y obtener su matriz de covarianzas, si
tomamos esperanzas sobre X en las expresiones (1)ob2 y (2)ob2, utilizado el
resultado:

E a   
Eb E a | b

E βˆ     E X β  X´X X´ Eu | X   β
E X E βˆ | X
1
 E X X´X  X´ Euu´| X  X X´X    σ E X X´X 

1 1 2 1
V βˆ
1
Donde E X ( X´X) es la matriz de covarianzas poblacional de los regresores calculada
en la distribución marginal de X.
Sin embargo, no conocemos la distribución exacta de los estimadores MCO. En
particular, no siguen una distribución normal aun suponiendo que X it siga una
distribución normal  i, t. Esto se debe a que este estimador, es una combinación
no lineal de las variables aleatorias X y u. Como consecuencia, los estadísticos de
significación individual y conjunta, no tienen una distribución exacta conocida y en
particular no se distribuirán como una t de Student y una F de Snedecor,
724
respectivamente. Ahora bien, bajo los supuestos habituales y si además se

satisface que:
X´X
 Q, donde Q es una matriz finita, definida positiva, es posible derivar las
ob 2
(7) p lim
T
siguientes propiedades asintóticas para los estimadores MCO, utilizando los
teoremas de Mann-Wald y Cramer:
1) El estimador por MCO de  es consistente, es decir:
p lim î  i , i  1,  , k
2) T (βˆ  β) 

d
N (O, σ
2 1
Q )
3) Bajo la hipótesis nula H0: R = r los estadísticos t y F usuales, se distribuyen
2
asintóticamente como N ( 0,1) y  q , respectivamente, donde q, es el número de
restricciones. Por lo tanto, podemos utilizar estas distribuciones asintóticas para
aproximar la distribución exacta de los estadísticos de significatividad individual
y conjunta, si el tamaño de la muestra es grande.
El supuesto de independencia entre los regresores y el término de perturbación,
no se satisface en los ejemplos a), b) y c). Luego este supuesto sigue siendo
bastante restrictivo, en muchas ocasiones.
Incorrelación contemporánea
Si las variables aleatorias X it y  t no son independientes, aunque estén
incorrelacionadas contemporáneamente, esto es, E ( X it ut )  0, t , i , no podemos
derivar analíticamente propiedades para muestras finitas de los estimadores:
1
E(βˆ )  β  E[( X´X) X´ u ]
1
En general, E[( X´X) X´ u ] puede ser distinto de cero, con lo cual β̂ puede ser
sesgado. Por otro lado, el cálculo analítico de la matriz de varianzas y covarianzas,
es difícil debido a la no linealidad del estimador en X y u. Finalmente, no
conocemos su distribución exacta. En particular, no siguen una distribución normal
aun suponiendo que X it se distribuye normal  i, t. Como consecuencia, los
estadísticos, no tiene una distribución exacta conocida. Respecto a las propiedades
asintóticas de los estimadores MCO, bajo los supuestos habituales más el (7 ) y
ob 2
aplicando los teoremas de Mann-Wald, Slutzky y Cramer, se pueden demostrar los

resultados asintóticos.
En este contexto, se enmarcaría el ejemplo a) si  t  N (0,  ) . En este caso,
2
Y1 ,  , YT 1 no son variables aleatorias independientes de 1 ,  , T . Sin embargo, si

E ( t  s )  0 t  s , entonces se satisface que E (Yt 1 t )  0 t . Por lo tanto, regresor y
perturbación, están contemporáneamente incorrelacionados.
Correlación contemporánea
Supongamos que algunos de los regresores están correlacionados
contemporáneamente con el término de perturbación, es decir
E ( X it ut )  0, t y para al menos algún i . En este caso, por las mismas razones que en el
anterior, no es posible derivar ninguna propiedad en muestras finitas de los
estimadores MCO. Además, perdemos las propiedades asintóticas deseables. No se
satisface una de las condiciones del teorema de Mann-Wald, por lo que, en general,
el estimador MCO no va a ser consistente, ni va a distribuirse asintóticamente como
una normal. Esto nos lleva a que, bajo la hipótesis nula H0: R = r, los estadísticos
t y F, no se distribuyen asintóticamente como una N ( 0,1) y  q , respectivamente. Por
2
725
lo tanto, no disponemos de una distribución asintótica para aproximar la

distribución exacta de estos estadísticos, si el tamaño de la muestra es grande.
Estas graves consecuencias, hacen necesario buscar un método de estimación
alternativo al de MCO, con el que se obtengan al menos estimadores con
propiedades asintóticas deseables y que permita derivar estadísticos con
distribuciones asintóticas conocidas para contrastar hipótesis sobre el vector de
coeficiente .
Este supuesto de correlación contemporánea entre regresor y perturbación, es de
gran relevancia en la estimación de muchos modelos econométricos. Por ejemplo,
los casos b) y c), se enmarcan en este contexto. En el ejemplo b), el término de
perturbación del modelo (5)ob2, recoge el error de medida t que está correlacionado
con X t dado que X t  X t   t t  1,  , T .
*
Luego, aun suponiendo que: E ( t  t )  0 y E( X t t )  0

*
E ( X t ut )  E[( X t   t )( t    t )]    V ( t )  0
*
En el ejemplo c), la variable Pt se determina simultáneamente con Qt por lo que si

 t recoge factores que afectan a Qt , estos afectarán simultáneamente a Pt y
E ( Pt ut )  0, t .
Continuando con el modelo Keynesiano, (21) sugiere que llamemos a la

estimación de  por  , definido por p1   (1   ) , esto es
ˆ ˆ ˆ
p1
(23) ˆ 
1  p1
En presencia de la observación 2, realmente  es consistente

ˆ
P lim p1  /(1   )
(24) P lim ˆ   
P lim(1  p1 ) 1   /(1   )
Igualmente (21) sugiere que llamemos a la estimación de  por ̂ ,

definido por p0  ˆ (1  ˆ ) , esto es
(25) ˆ  p0 (1  ˆ )
Realmente ̂ es consistente
 (1   )
(26) P lim ˆ  P lim p0 P lim(1  ˆ )  
(1   )
Debe observarse que aunque

p0 , p1 son insesgados ˆ , ˆ , que son funciones
p ,p
no lineales de 0 1 , no son insesgados. Aunque sí consistentes y, por
tanto, insesgados asintóticamente.
En resumen, el Modelo Keynesiano Simple demuestra que cuando una

relación es una de las muchas de un sistema simultáneo, las estimaciones
clásicas MCO de sus coeficientes serán generalmente inconsistentes. La
726
razón subyacente es que algunos regresores están determinados

conjuntamente con el regresando y, por tanto, son dependientes de la
perturbación contemporánea. Hemos visto también que podemos obtener
estimaciones consistentes mediante una especie de procedimiento indirecto
mínimo cuadrático. Sin embargo, se verá que esta última alternativa no es
por lo general aprovechable.
Por supuesto, si es aprovechable el método de variables instrumentales.

Realmente no es difícil demostrar que nuestros estimadores ˆ ,  son los
ˆ
estimadores de variables instrumentales de  ,  en (5), donde I , que es

independiente de las perturbaciones, se utiliza como instrumento para Y .
Sin embargo, no siempre será tan simple encontrar una variable
instrumental legítima.
Observación 3. El método de estimación conocido como método de variables

instrumentales (VI), trata de obtener un estimador consistente de  cuando existen
problemas del tipo descrito en la sección anterior, es decir, cuando algunos
regresores están correlacionados con el término de perturbación, haciendo que el
estimador por MCO no sea consistente.
El método de variables instrumentales, se basa en buscar k variables denominadas
instrumentos, Zjt, j = 1, ..., k, que estén por su lado, incorrelacionadas con la
perturbación ut y por otro, muy correlacionadas con las variables para las que
hacen de instrumento, es decir:
(a) 
E Z jt , ut  0  t , j  1,  , k
X´X
(b ) p lim  Q ZX finita y no singular
T
Hay que tener en cuenta que, para aquellas variables explicativas que no están
correlacionadas con el término de perturbación, los mejores instrumentos son ellas
mismas. La matriz de instrumentos Z (Txk), se puede construir reemplazando las
columnas de X correspondientes a las variables explicativas correlacionadas con la
perturbación por las T observaciones de otras variables que satisfagan las
condiciones (a) y (b), de forma que el rango de (Z´ X) sea completo, es decir, que
(Z´ X) sea una matriz no singular, ya que el estimador de  de variables
instrumentales, se define como:
βˆ VI  Z´X 1
Z´ Y
En general, es difícil conocer las propiedades del estimador β̂ VI para muestras
finitas, dado que es un estimador no lineal en las variables aleatorias Z, X y u. Sin
embargo, si se satisfacen las condiciones (a) y (b) y
Z´Z
(c ) p lim  Q ZZ finita y definida positiva
T
Aplicando el teorema de Mann-Wald y el teorema de Cramer, se pueden demostrar
los siguientes resultados asintóticos:
1. β̂ VI es un estimador consistente de .
2. T βˆ VI  β  
d
N 0, σ
2 1
Q XZ Q ZZ Q ZX
1

Un estimador consistente de la matriz de varianzas y covarianzas asintóticas, es:
1 1
 X´Z  Z´Z  Z´X 
ˆVI
2
 T  T  T 
727
Donde:
( Y  X βˆ VI )' ( Y  X βˆ VI )
ˆVI 
2
T
Para contrastar hipótesis del tipo H0: R = r, se utiliza el estadístico:
1 1 1
(R βˆ VI  r)´ [R(X´Z) (Z´Z) R´] (R βˆ VI  r )
F  2
σˆ VI
2
Este estadístico, se distribuye asintóticamente como una  q , donde q, es el número
de restricciones.
Incidentalmente, podíamos haber mirado (10) y observado que:
 1  1 
(27) E (Yt | I t )   I t  E   t | I t  
1  1  1  
 1
  It
1  1 
Y estimando por MCO
(28) Yt   0  1I t  t
Donde
 1 1
(29)  0  , 1  , t  t
1  1  1 
Entonces las estimaciones MCO designadas por

d 0 , d1 serán consistentes:
 
(30) P lim d 0   0  , P lim d1  1  .
1  1 
~
Entonces podríamos haber considerado los estimadores  ,  definidos por
~
~ ~
d1  1 (1   ) y d 0  ~ (1   ) esto es,
1 d
(31) ~  1  , ~  0
d1 d1
Y ver que eran consistentes;

~
(32) P lim    , P lim ~   .
Sin embargo, no hay por qué hacer esto en el presente modelo; utilizando
~
(6) puede demostrarse que   ˆ y que ~  ˆ .

728
Ejemplo. Extraemos algunos datos de Haavelmo para la economía de Estados

Unidos referidos a consumo, renta e inversión. Con esos datos se calcularon los
siguientes momentos alrededor de la media:
C Y I
C 35.887 47.585 11.698
Y 64.993 17.408
I 5.710
La estimación mínimo cuadrática clásica inconsistente de  en (5) es entonces
mcy 47.585
(33) ˆ    0,732
m yy 64.993
La estimación mínimo cuadrática clásica consistente para 1 en (20) es

mci 11.698
(34) p1    2,048
mii 5.710
De esto podemos deducir una estimación consistente de  a través de (23)
p1 2,048
(35) ˆ    0,672
1  p1 3,048
Obsérvese que ˆ   para esta muestra, lo que no es sorprendente puesto que
P lim b    P lim ˆ .
De esta forma podemos tomar la estimación mínimo cuadrática clásica de 1 en
(28):
m yi 17.408
(36) d1    3,048
mii 5.710
Y de esto deducir una estimación consistente de  a través de (31)
1 1
(37 ) ~  1  1  0,672  ˆ
d1 3,048
Y también para la estimación de la variable instrumental de  en (5) vemos
 m 11.698
(38) b  ic   0,672  ˆ .
miy 17.408
18.3 Modelo simple de mercado
Para una segunda demostración, consideremos el modelo de la Oferta y

Demanda para una mercancía en particular con una perturbación permitida
para desplazamientos aleatorios en las curvas de oferta y demanda.
(39) Demanda qt     pt   t
qt    pt  
*
( 40) Oferta t
729
pt
Si en la ecuación de demanda un regresor fuera independiente de la
t
perturbación , entonces cuando la ecuación de demanda recibe una
qt
perturbación positiva, en (39) debería elevarse en la cantidad de la
qt pt
perturbación. Pero entonces eso haría en (40); cuya independencia de
  
*
y t implica que t t
. Aunque las perturbaciones de la demanda y de la
oferta pueden estar correlacionadas, sin embargo, es absurdo pensar que
p 
sean idénticas. Concluimos que t y t no son independientes, el precio está
determinado conjuntamente por la cantidad y por los desplazamientos
aleatorios de la ecuación de demanda.
18.4 Contraste de Hausman
Cuando en un modelo de regresión lineal general de los regresores son

estocásticos, es necesario añadir la siguiente hipótesis complementaria al
modelo para garantizar la consistencia de la estimación MCO de los
coeficientes de regresión:
VIII) Los regresores no están correlacionados con el término de

perturbación, de forma que, bajo ciertas condiciones de regularidad, se
cumple que (X´ u/T) = 0.
Como hemos visto en los apartados anteriores, este supuesto nos garantiza
que el estimador MCO de los coeficientes de regresión , es consistente.
Existen casos en los cuales esta hipótesis no se satisface, por ejemplo, si
algún regresor está medido con error, si omitimos variables relevantes, si
hay problema de simultaneidad, etc.. Hausman (1978), ha desarrollado un
procedimiento para contrastar el cumplimiento de esta hipótesis. Este
contraste se puede interpretar también, en términos generales, como un
contraste de mala especificación de la parte sistemática del modelo.
El mecanismo de contraste, es el siguiente. La hipótesis nula, es:
X ú
H 0 : p lim  0
T
Frente a la hipótesis alternativa:
X ú
H A : p lim  0
T
En el modelo de regresión uniecuacional, el estadístico del contraste, se

basa en la diferencia de los estimadores de los coeficientes de regresión:
ˆMCO y ˆVI . Bajo la H0 y suponiendo que se cumplen los supuestos básicos
sobre la perturbación, se puede demostrar, bajo ciertas condiciones de
regularidad, que:
730
ˆMCO y ˆVI . son consistentes.
ˆMCO es asintóticamente eficiente.
Las distribuciones asintóticas, son:
T ˆMCO    
d
N 0, V1  T ˆVI    
d
N 0, V2 
donde (V2, V1), es una matriz definida positiva.
Bajo la hipótesis alternativa solo es consistente el estimador ˆVI . Por lo

tanto, si los regresores y la perturbación están correlacionados ambos
estimadores tenderán a diferir, dado que ˆVI es consistente y converge a ,
mientras que ˆMCO no es consistente y convergerá a un valor distinto de .
El estadístico del contraste, es:
ˆ  ˆVI ´ Vˆ2  Vˆ1  ˆMCO  ˆVI 

1
H  T MCO
donde Vˆ1 y Vˆ2 son estimadores consistentes de V1 y V2, respectivamente.

Bajo H0 el estadístico H, se distribuye asintóticamente como una X2 con k
grados de libertad. Rechazaremos la H0 con un nivel de significación , si
H  X 2 k  .
Caso 18.1: Las relaciones macroeconómicas de la responsabilidad social

corporativa.
En el mundo desarrollado la discusión pública, acerca de las

responsabilidades empresariales, está en debate plenamente; también la
sociedad en su conjunto está tomando conciencia de su importancia,
especialmente por la relación que se establece entre la responsabilidad
social corporativa y los problemas de exclusión, pobreza e inequidad social.
731
El concepto de desarrollo sostenible ofrece la visión de una sociedad más

próspera y justa y que promete un medio ambiente más limpio, seguro y
sano, por lo que es necesaria una mayor relación entre los objetivos de
crecimiento económico y de progreso social, con una actitud permanente de
máximo respeto al medio ambiente, estas decisiones definen un nuevo
marco general de responsabilidad de las empresas.
La responsabilidad social corporativa involucra valores éticos que hasta hace

unas décadas no se relacionaban con el actuar de los negocios. En general,
el rol de las empresas estaba asociado a la acumulación de riquezas,
proporcionar empleo y cumplir con normativas y leyes, especialmente
tributarias; sin embargo, hoy se entiende la empresa como un sujeto o
actor social, con un nuevo rol dentro de la sociedad.
Como lo menciona Rebolledo Moller (2004), las empresas que asumen su

responsabilidad social entiende que, ser empresa ciudadana, significa
poseer una cultura organizativa que otorgue coherencia al negocio, con un
sistema de valores reconocidos públicamente por la organización
empresarial; lo cual significa tener una ética compartida por todos sus
miembros, que le otorga identidad y un sentido de trascendencia al
proyecto empresarial en ejecución, el cual se inserta en un espacio mayor,
que posibilita la sustentabilidad social y ambiental de la economía.
La responsabilidad social corporativa debe entenderse como una estrategia

empresarial; para hacer buenos negocios se deben elevar la calidad de vida
y los niveles de ingresos de la población más vulnerable, lo que permitiría
superar la pobreza humana y la pobreza material a partir de un aumento en
el bienestar y en el poder adquisitivo de la población.
La responsabilidad social empresarial es la contribución al desarrollo

humano sostenible, a través del compromiso y confianza del empresariado
con sus empleados y familia, la sociedad en general y la comunidad local,
en pos de mejorar su capital social y calidad de vida.
El desarrollo humano postula que la persona es el sujeto, el fin, y al mismo

tiempo el beneficiario del desarrollo. A esta afirmación, enunciada por
Mahbub ul Haq y Amartya Sen, y citada por Ortega (2002), le sucede la que
considera que no se puede seguir con la idea de que el desarrollo es el
crecimiento material; el desarrollo tiene un fin, tiene una orientación, tiene
un sentido, el desarrollo se orienta a que el ser humano sea centro, actor,
sujeto y beneficiario de los esfuerzos sociales por expandir la demanda
material y espiritual de las personas.
La responsabilidad social y el desarrollo humano deben lograr expresarse en

los desafíos de la realidad de las familias, en las empresas, en el entorno
social de éstas, en la manera de establecer relaciones laborales, en la
manera en que los distintos actores viven y valoran la existencia de los
otros. La valoración del otro es una actitud y un comportamiento
indispensable para la propia realización. Así se va creando un tejido de
solidaridad y reciprocidad, de justicia y de dignidad, que enriquece toda la
vida social.
732
Se comparte la visión de que la responsabilidad social corporativa implica a

todos los agentes, sean públicos y privados, en virtudes cívicas que
respeten la ética de la transparencia y de la probidad. Ello es una condición
para crear un clima de confianza en una comunidad; una ética del desarrollo
humano debe plasmarse en cuatro ámbitos específicos:
 Uno es el ámbito de la empresa, el ámbito del ser, de ser ella misma,
de construir su propia evolución y de ser responsable de esa
evolución sin afectar a los demás.
 El segundo ámbito del desarrollo humano y la ética de la
responsabilidad social corporativa es también una ética del otro, de
las relaciones de la empresa con los otros.
 Hay un tercer ámbito en donde se juega la perspectiva normativa del
desarrollo humano. Se trata de los ámbitos macrosociales como la
comuna, la región, el país; y lo que hoy llamamos el mundo global.
 El cuarto ámbito se refiere a la necesidad de una ética en la relación
de la empresa con la naturaleza.
Por otra parte, la responsabilidad social corporativa, en términos de

mercado, puede asimilarse a un precio sombra; en este sentido, es el valor
de intermediación entre las demandas de la sociedad, medidas en términos
de desarrollo humano, y la oferta de bienes de las empresas, medidas en
términos de crecimiento del producto. Un alto nivel de responsabilidad
social corporativa se conjuga con altos niveles de crecimiento del producto y
alto nivel de desarrollo humano; si la responsabilidad social es baja, el
desarrollo humano de la sociedad va a mantenerse bajo y los niveles de
producto, aún a niveles elevados, no alcanzarán a compensar la pérdida de
bienestar derivada de aquella caída.
De acuerdo a esto se postula que:

 El crecimiento en la oferta de bienes tiene una relación directa con la
responsabilidad social corporativa observada con anterioridad y la
relación capital trabajo existente en la economía.
 El desarrollo humano está influenciado por la responsabilidad social
corporativa y la relación capital trabajo.
 La responsabilidad social corporativa se acumula a través del tiempo
y su nivel actual se ajusta por las diferencias en los niveles de
desarrollo humano observados y la oferta de bienes.
 El desarrollo humano y el producto físico del trabajo posibilitan en el
largo plazo el crecimiento continuo de la responsabilidad social
corporativa.
Por consiguiente se considera, en un todo de acuerdo con Somoza Lopez y

Vallverdu Calafell (2006), que la responsabilidad social corporativa lejos de
ser una moda, es el resultado de considerar a la empresa plenamente y
verdaderamente integrada en la sociedad que se desenvuelve, en un
contexto en el que se aplica, en sentido amplio, la relación costo beneficio
social.
733
La expresión analítica del modelo a estudiar es:

PLt   1   2 RSCt 1   3 KLt
DH t  1   2 RSCt   3 KLt
RSCt  RSCt 1   1 DH t 1  PLt 
donde
variables endógenas:
PLt , producto físico medio del trabajo
RSCt , responsabilidad social corporativa
DH t , desarrollo humano
Variables exógenas o predeterminadas
KLt , relación capital trabajo
RSCt 1 , responsabilidad social corporativa observada
DH t 1 , desarrollo humano observado
parámetros
 1 , nivel promedio del producto físico del trabajo,  1  0
 2 , respuesta del producto medio del trabajo a los cambios en la
responsabilidad social corporativa,  2  0
 3 , respuesta del producto medio del trabajo a los cambios en la

relación capital trabajo,  3  0
1 , nivel promedio de desarrollo humano, 1  0

 2 , respuesta del desarrollo humano ante cambios en la responsabilidad
social corporativa,  2  0
 3 , respuesta del desarrollo humano ante cambios en la relación capital

trabajo,  3  0
 1 , coeficiente de ajuste,  1  0
En este modelo, la relación beneficio costo social queda definida por la

diferencia entre el desarrollo humano observado en el periodo anterior y el
producto físico medio del trabajo de este periodo; por lo que el coeficiente
 1 mide la respuesta de la responsabilidad social corporativa ante cambios
en la relación beneficio costo social.
734
A partir del modelo económico planteado:
1. Encuentre las derivadas de estática comparativa
2. Analice la trayectoria temporal de la responsabilidad social

corporativa
3. Verifique las condiciones de orden y rango para identificar el

modelo
BIBLIOGRAFIA
□ Barbancho, A. G. (1971). “Complementos de Econometria”. Ediciones Ariel.

Barcelona, España.
□ Fernández Sainz, A.I.; González Casimiro, P.; Regules Castillo, M.; Moral
Zuazo, M.P. y Esteban González, M.V.; (2005): “Ejercicios de
Econometría”. McGrawHill, Colección Schaum.
□ Goldberger, A. (1970) “Teoría Econométrica”. Editorial Tecnos. Madrid.
Vives. Barcelona.

Manualeconometriaparte 2

Hochgeladen von

Dokumentinformationen

Originalbeschreibung:

Originaltitel

Copyright

Verfügbare Formate

Dieses Dokument teilen

Dokument teilen oder einbetten

Freigabeoptionen

Stufen Sie dieses Dokument als nützlich ein?

Sind diese Inhalte unangemessen?

Copyright:

Verfügbare Formate

Manualeconometriaparte 2

Hochgeladen von

Copyright:

Verfügbare Formate

ALFREDO BARONIO - ANA VIANCO

FACULTAD DE CIENCIAS ECONÓMICAS - UNIVERSIDAD NACIONAL DE RÍO CUARTO

FACULTAD DE CIENCIAS ECONÓMICAS - UNIVERSIDAD NACIONAL DE RÍO CUARTO

Capítulo 12. El Modelo Lineal General 507

Capítulo 13. Inferencia estadística en el Modelo Lineal General 581

Capítulo 14. Extensiones al Modelo de Regresión Lineal 613

Capítulo 15. Modelo de Regresión Lineal Generalizado 655

Capítulo 16. Modelos Dinámicos 679

Capítulo 17. Modelos de Probabilidad 709

Capítulo 18. Sistemas de Relaciones Lineales 715

Capítulo 12. EL MODELO LINEAL GENERAL .................. 509

12.1. Introducción ............................................................... 509

12.2. Especificación del modelo ............................................. 512

12.3. Estimación ................................................................. 517

12.4. Distribuciones teóricas de probabilidad ........................... 534

12.5. Distribuciones multivariables ......................................... 540

12.6. Formas Cuadráticas ..................................................... 551

12.7. Normalidad de la perturbación aleatoria ......................... 563

12.8. Criterio de máxima verosimilitud ................................... 566

12.9. Utilidad del modelo econométrico .................................. 572

CASOS DE ESTUDIO, PREGUNTAS Y PROBLEMAS ............... 573

Caso 12.1: Correlación de muestras ....................................... 573

Caso 12.2: Estimación de parámetros .................................... 573

Caso 12.3: Consumo de cerveza y mortalidad infantil ............... 574

Caso 12.4: Primeros pasos en Eviews ..................................... 574

BIBLIOGRAFIA .............................................................. 579

Capítulo 12. EL MODELO LINEAL GENERAL

Recordemos que la Econometría es la aplicación de métodos matemáticos

Para lograr estos objetivos, se utiliza como instrumento básico un modelo

Ejemplo 12.1 Si queremos estudiar como se determina el consumo

Donde:  representa el consumo autónomo y  la propensión

En este modelo se pretende explicar el consumo por medio de una

De acuerdo a esta especificación, se debería haber consumido una

Este modelo de consumo se puede utilizar:

 A nivel agregado, en cuyo caso las variables ct e yt serán

 A nivel desagregado, por ejemplo relacionando los gastos

un dato obtenido de una muestra de un conjunto de familias y se

 Una combinación de observaciones a través de una muestra de

Ejemplo 12.2 Si queremos estimar, por ejemplo, la función de

El valor de la suma B  G va a determinar si la empresa tiene

El segundo paso es estimar los parámetros de interés del modelo a partir

Ejemplo 12.3 si hemos estimado una función de producción

Por último, el modelo econométrico estimado y validado se puede utilizar

El Análisis de Regresión, es una de las técnicas más utilizadas en el

Con el modelo de regresión tratamos de describir la relación existente

Estas relaciones pueden ser de carácter determinista, como las

Ejemplo 12.4 El modelo de consumo supone que, dada una renta

Desarrollaremos el modelo de regresión lineal general en sus distintas

 Especificación del modelo econométrico.

 Estimación de los parámetros.

 Validación del modelo.

Observación: a los fines de ilustrar cada paso usaremos una aplicación

12.2. Especificación del modelo

Supongamos que tenemos la siguiente tabla de datos

 la variable Yt , t  1, ,T es la variable endógena

 las variables X jt , j  2,  , k ; t  1,  , T son las variables explicativas o

 t , t 1,,T es la perturbación aleatoria,

Es decir, el modelo se podría expresar como un sistema de ecuaciones,

Que es un sistema de T ecuaciones con k incógnitas, por lo que el

Los coeficientes de regresión  j , j  1,  , k se suponen constantes para

Donde cada uno de los elementos se definen según:

Ejemplo 12.5.a Con la información de la tabla 12.1: