Cap 4

CAPITULO 4
INFERENCIA ESTADÍSTICA EN EL MODELO

LINEAL GENERAL
4.1. INTRODUCCIÓN
Hasta el momento hemos estudiado una de las formas más usadas de realizar la estimación
de un modelo lineal. El estimador adecuado para dichos casos es el de mínimos cuadrados
ordinarios del cual hemos mostrado todas sus propiedades, así como considerado todas sus
implicancias.
Sin embargo, todo modelo debe estimarse con algún propósito dado que si no fuera así la
modelación econométrica sería solamente un ejercicio estadístico que carecería de sentido y la
interpretación de los resultados se limitaría a la aplicación de reglas mecánicas que no dejan
ningún espacio para el raciocinio del investigador.
Lo anterior nos debe llevar a pensar en los propósitos de la investigación econométrica.

Hasta ahora sólo hemos mencionado tangencialmente los propósitos de la modelación
económica. Ya es hora de ponernos a pensar con mayor detenimiento la siguiente pregunta
¿para qué estimamos un modelo? En este capítulo intentaremos empezar a dar respuestas en
dicho sentido.
De esta manera, podemos iniciar la discusión de los usos de un modelo estableciendo los
principales propósitos de la modelación econométrica, los cuales pueden agruparse en tres
categorías:
1. Inferencia: Esto implica verificar si ciertas restricciones que imponen las diferentes
teorías económicas o nuestra intuición1 son válidas o no para la muestra que utilizamos
1
La cual se desarrolla paulatinamente a través de la observación y la experiencia acerca de un tema o fenómeno
económico.
Econometría Moderna Inferencia Estadística en el Modelo Lineal General
en la estimación de nuestro modelo. Esto implica en la práctica verificar si dentro del

período muestral (en series de tiempo) o al interior de una muestra (si estamos en un
estudio de corte transversal) cierta hipótesis inicial se cumple o no. En este sentido el
análisis se limita a la muestra que nosotros tenemos. Por ello podemos decir que este tipo
de restricciones verifican la existencia de restricciones en el pasado (si hablamos de
series de tiempo) o para un grupo específico de individuos (en datos de corte transversal).
Es un análisis ex-post.
2. Predicción: Un modelo puede ser utilizado con el propósito de estimar el valor de la

variable dependiente más allá de la muestra. Por ejemplo, si hemos estimado la demanda
de un producto para el período 1940-1999 quizás nos interese conocer cuál será el nivel
de la demanda en el año 2000 y más allá. Ello nos permitirá realizar una mejor
planificación de las acciones a tomar como empresa si es que nuestro principal giro es
producir precisamente dicho producto. De la misma manera, el Estado o los hacedores de
política pueden estar interesados en hacer proyecciones macroeconómicas que por
ejemplo se usan para la planificación de las acciones de política económica a las cuales
se pueden comprometer esta autoridades en la firma de una carta de intención con el FMI
o en la elaboración del presupuesto general de la República.
Debe aclararse que el realizar el ejercicio de predicción implica suponer que las
condiciones subyacentes en la economía en general o en el mercado en particular
permanecerán inalterables cuando salgamos fuera de la muestra. Podemos utilizar nuestro
ejemplo anterior para ilustrar esta idea: si la predicción que queremos realizar
corresponde al año 2000, lo que vamos a suponer es que nuestro modelo es válido para
dicho año, lo que en la práctica implica suponer que las condiciones que prevalecieron
para el periodo muestral considerado en la etapa de estimación se mantendrán en el
futuro. Entonces el ejercicio de pronóstico significa hacer una predicción suponiendo que
las condiciones estructurales se mantienen constantes.
3. Simulación de Políticas: Esta categoría implica un uso mucho más atrevido del modelo
que en los demás casos. El ejercicio de simulación consiste en realizar predicciones
futuras de nuestra variable dependiente permitiendo que los factores estructurales2
varíen. Así bajo esta categoría se podría responder a la pregunta ¿Qué pasaría con el
producto bruto interno en el Perú si pasamos a un régimen mucho más intervencionista
que el actual? Obviamente un cambio en las condiciones estructurales afectará el
comportamiento de los agentes económicos y, por tanto, la respuesta de éstos variará. Si
hacemos un ejercicio de simulación de políticas debemos tener un elevado grado de
certidumbre con respecto a la idoneidad de nuestro modelo para tal fin. La crítica de
Lucas3 precisamente cuestiona el uso indiscriminado que se le daba a los modelos
macroeconométricos estimados a fines de la década del 60 y principios de los 70 para
este fin.
Cada uno de los usos mencionado implica ciertas condiciones sobre las variables que
intervienen en nuestro modelo que estudiaremos más adelante. Por ahora nos centraremos en el
primer uso de nuestro modelo que es el de la inferencia. Desarrollaremos las técnicas y
metodologías existentes para la realización de pruebas de inferencia estadística.
4.2. PRINCIPIOS DE LA INFERENCIA
2
También podemos utilizar la expresión factores subyacentes de la economía o régimen imperante.
3
Lucas, Robert E. (1977) “Econometric Policy Evaluation: A Critique” reimpreso en Lucas (1980) Studies in
Business-Cycle Theory, MIT Press.
82
En general, lo que se busca con la inferencia estadística es obtener un estadístico muestral

que nos permita responder, con cierto grado de certeza, si ciertas restricciones que impone una
teoría son respaldadas por los datos de una muestra en particular. En general, las restricciones
que se plantean están referidas a la población o el proceso generador de datos. Si los datos son
generados por dicha población, a partir de ellos podemos analizar si cumplen o no con las
características planteadas. Es decir, del análisis de los datos muestrales intentamos inferir si la
población presenta las características que nosotros planteamos a partir de nuestras hipótesis.
Entonces podemos decir que nosotros sospechamos que ciertos datos (nuestra muestra) son
consistentes con determinada teoría económica (que impone ciertas restricciones sobre la
población) y para ello necesitamos realizar pruebas a fin de contrastar la hipótesis que se
plantea. En ello se basa el conocimiento científico: plantear hipótesis que pueden ser refutadas
empíricamente a través de la experimentación. Si no hubiera forma de someter a prueba las
diferentes hipótesis estaríamos en el terreno de los dogmas y ello está más relacionado con la
fe4.
Varios ejemplos pueden ilustrar las ideas que estamos esbozando:
En primer lugar podemos pensar en que un investigador está estudiando cuáles son los
determinantes del consumo y para ello plantea la siguiente ecuación:
p
C t = β 0 + β1Yt + β 2 Yt + β 3 rt + β 4 Wt + µ t
donde:
Yt = Ingreso Corriente
Ypt = Ingreso Permanente
rt = Tasa de interés real
Wt = Riqueza
Según el modelo que piensa estimar el investigador se están incluyendo una serie de factores
que responden a diversas teorías que se han esbozado sobre el consumo. El investigador lo que
busca es identificar para el caso de la muestra que analiza (por ejemplo data peruana de 1940 a
1999) los principales determinantes de la variable económica mencionada. Sin embargo, ¿cómo
en la práctica puede discernir entre una teoría y la otra? Supongamos que piensa preguntar si
las teorías del ingreso permanente y del ciclo de vida son relevantes para el caso peruano. Para
ello necesita plantear alguna hipótesis que se puede comprobar sobre la base del modelo.
Como ya hemos mencionado, es relevante mencionar que una teoría implica imponer ciertas
restricciones sobre los datos. Nosotros podemos observar, por ejemplo, que la correlación entre
la cantidad saldos reales y el producto es positiva. Sin embargo, sabemos que dicha correlación
no implica ninguna causalidad. Por ello, algún teórico planteará ciertas relaciones entre las
variables y propondrá dicho esquema como una explicación convincente de lo que ocurre en la
realidad. Este esquema resumido en ciertas ecuaciones matemáticas será la teoría propuesta y
deberá comprobarse empíricamente su relevancia o no. Las pruebas de hipótesis no nacen de la
nada sino que son inspiradas por alguna teoría. El arte de la modelación está en plantear un
modelo que nos permita verificar en forma de restricciones (expresadas en hipótesis) las
explicaciones que propone alguna teoría. En este sentido se ve claramente que la economía guía
a la medición económica, de lo contrario sería un mero ejercicio estadístico que carecería de
sentido.
4
De hecho la base de todas las religiones es el dogma en donde lo que predomina es la fe. Los creyentes no piden
pruebas sino que han decidido creer, basado no en pruebas contrastables sino en otros elementos más espirituales.
83
En función de lo expresado en el párrafo anterior, el camino más utilizado para la

modelación econométrica consiste en el planteamiento de alguna hipótesis que se quiere
refutar. Este tipo de hipótesis recibe el nombre de hipótesis nula. En el caso de nuestro modelo
la hipótesis nula sería la siguiente:
H o : β2 = 0
H1 : β 2 ≠ 0
En este caso lo que estamos planteando es que el ingreso permanente no es un factor

determinante del consumo para el Perú durante el periodo 1940 – 1999 dado que el parámetro
que lo multiplica es igual a cero. Por tanto, lo que vamos a poder comprobar a través de la
inferencia es la validez de esta restricción, lo cual implicaría la eliminación de esta variable de
la ecuación.
La pregunta ahora es la siguiente ¿cómo vamos a comprobar esta hipótesis? Para ello
necesitamos aclarar un poco más qué implica la hipótesis planteada. En todo ejercicio de
inferencia estadística debemos tomar en cuenta cierta distribución de probabilidad conocida
para identificar si, en términos de esta distribución, la probabilidad de que se cumpla la
hipótesis nula es alta o no. Por tanto, debemos hacer ciertos supuestos de cómo se distribuyen
las variables consideradas. Entonces la hipótesis nula o planteada implica preguntar si el valor
del parámetro estimado proviene de una función de distribución probabilística centrada en el
valor que se plantea en la hipótesis nula.
El gráfico que se presenta a continuación nos da una idea de la metodología de

comprobación de una hipótesis. El planteamiento de la Ho mencionada arriba implica plantear
una función de distribución de probabilidad cuya media sería cero. Ello implica que si
pudiéramos repetir el proceso de estimación con diferentes muestras aleatorias generadas a
partir de la misma distribución el promedio de los parámetros estimados para cada muestra es
cero. De ninguna manera implica necesariamente que cada estimado sea igual a cero. Por lo
tanto, se va a buscar comprobar a través de la prueba de hipótesis si la diferencia observada
entre el estimado y la media supuesta de la distribución (Ho) se debe a factores meramente
aleatorios o a factores estructurales. Si el caso fuera el primero de los mencionados entonces no
se puede rechazar la hipótesis nula5. Si fuera el segundo caso, no podríamos aceptar la Ho6.
Sin embargo, ¿Cómo en la práctica respondemos la pregunta formulada o, en términos más

precisos, qué criterio utilizamos para decir que no rechazamos o aceptamos una hipótesis nula?
5
Lo que comúnmente mencionamos como aceptar la hipótesis.
6
Esto lo conocemos también como rechazo de la hipótesis nula o planteada.
84
Aquí es donde cobra importancia el supuesto que hacemos con respecto a la función de
distribución válida. En términos del gráfico que presentamos, podemos esperar que una
diferencia aceptable entre el valor estimado y el valor que se plantea en la hipótesis nula sea de
2 desviaciones estándar. De hecho en muchas funciones de distribución en el rango µ ± 2σ se
encuentra el 95% de las observaciones7. Si la diferencia fuera mayor a dicha cifra entonces
diríamos que la probabilidad de que se cumpla la nula es muy baja y por tanto no podríamos
aceptar la Ho.
A estas alturas deben preguntarse por qué se habla de no poder rechazar o aceptar las
hipótesis en vez de afirmar tajantemente si acepto o rechazo. Esto se debe a que la conclusión a
la que llegamos no es una afirmación sobre la cual se tenga certeza absoluta. Es un criterio
arbitrario el que se ha usado para establecer el límite entre dos zonas (una llamada de
aceptación y otra de rechazo). Pero ¿Qué pasa si en verdad el parámetro proviene de una
distribución centrada en el valor que plantea la hipótesis nula pero la diferencia grande se debe
a la presencia de un shock o factor aleatorio muy fuerte? La respuesta es que seguramente se
rechazaría (siguiendo el criterio establecido) la hipótesis nula pero en verdad sería cierta.
Este tipo de problema que surge con la inferencia recibe el nombre de Error Tipo I. Esto es,
la probabilidad de que rechacemos una hipótesis que es cierta. En la metodología convencional,
el usuario escoge el nivel de Error Tipo I que más le acomode. El nivel que suele escogerse
generalmente es de un 5%. Esto es lo que se llama el nivel de significación estadística (o el α).
En cada prueba también se verifica la existencia de un Error Tipo II. Este error mide la
probabilidad que se acepte una hipótesis que es falsa8. Como vemos, la presencia de estos dos
tipos de errores indican que al aplicar la prueba no tenemos la absoluta certeza de nuestras
conclusiones sino que lo que buscamos es tratar de obtener un resultado con la mayor
probabilidad de que sea cierto. Una buena prueba es aquella que tiene el mayor poder, donde
poder se define como la probabilidad de rechazar correctamente una hipótesis falsa (en
términos de probabilidades, la mayor proporción 1 - β). Por ello, una prueba más poderosa será
aquella que para el mismo nivel de significación estadística tiene el mayor poder.
Generalmente, cuando se propone una prueba, su uso se justifica en la medida que sea más
poderosa que otras.
Estos conceptos pueden ser esquematizados en el siguiente cuadro:
Situación real de Decisión utilizando la información muestral

la población Acepto Ho Rechazo Ho
Ho cierta No hay error Error Tipo I

Prob()= 1-α Prob(Error Tipo I) = α
Ho falsa Error Tipo II No hay error

Prob(Error Tipo II) = β Prob()=1-β
Si todo lo anterior suena un poco complicado, el ejemplo del sistema judicial puede
ayudarnos. En todo juicio se parte de una premisa. Esta consiste en suponer que el acusado es
inocente y el trabajo del fiscal es demostrar a través de la presentación de pruebas contundentes
7
En otros términos ello implica que debajo de ese rango se concentra el 95% del área por debajo de la curva de
distribución.
8
Esta probabilidad tiene como símbolo la letra β generalmente.
85
que la premisa de la cual se parte es falsa. La premisa de la que se habla sería la hipótesis nula
o planteada. El juicio en sí sería todo el proceso de la realización de la prueba.
Si el fiscal no logra presentar pruebas suficientes usualmente se dice que el acusado no es

culpable, no se afirma que sea inocente. Ello porque si las pruebas no fueron suficientes para
demostrar su culpabilidad no quiere decir que la persona sea inocente. En la práctica se tiene
muchos asesinos que no pueden ser sentenciados porque no se comprobó su culpabilidad.
Los problemas con este tipo de sistema es que algunos acusados pueden ser declarados
culpables cuando son inocentes (Error Tipo I) y otros pueden ser declarados inocentes cuando
en verdad son culpables (Error Tipo II). En todo caso, de la discusión anterior se desprende que
el sistema judicial está diseñado para que se minimice la probabilidad que un inocente sea
declarado culpable. Como sabemos esto se mide por la probabilidad del Error Tipo I. Entonces
debe quedar claro que el α lo escoge la sociedad y vendría a representar la valla que debe
superar el fiscal para comprobar que el acusado es culpable. De la misma manera, al realizar
una prueba el usuario escoge el nivel de significancia con lo que está decidiendo cuál debe ser
el grado de evidencia en contra que debe presentarse a fin de no aceptar la hipótesis de la cual
se parte.
Una cuestión adicional que debe notarse es que la no aceptación de la hipótesis nula o
planteada no significa que se esté aceptando lo contrario. Lo único que se puede discutir es la
relevancia de la hipótesis planteada o nula. Por ello, las pruebas deben interpretarse como qué
tan relevante es la restricción que se está planteando en la hipótesis nula dada la evidencia que
se maneja, la cual está representada por la muestra (los datos) que se utiliza.
Por otro lado, si cierta restricción planteada por alguna teoría no es aceptada no quiere decir
que la teoría esté errada. Lo único que se podría afirmar es que para la muestra que nosotros se
tiene los datos no son consistentes con dicha teoría. Para rechazar una teoría tenemos que
acumular mucha evidencia en contra. Ello implica realizar el ejercicio estadístico de la
estimación de un modelo para distintas muestras, por ejemplo en otros periodos y para otros
países.
Si se acumulara mucha evidencia en contra, recién se podría empezar a sospechar de la

idoneidad de la teoría planteada y, por tanto, surgiría la necesidad de la proposición de una
teoría alternativa la cual luego debería ser contrastada empíricamente con los datos de distintos
países y/o muestras. De esta manera va avanzando el proceso de conocimiento económico.
4.3. LA METODOLOGÍA DE LAS PRUEBAS DE HIPÓTESIS
Como ya hemos mencionado, para realizar la inferencia estadística se debe partir de suponer
una función de distribución probabilística conocida. En este caso supondremos que los errores
se distribuyen de la siguiente manera:
e ~ N (0, σ µ2 ) (4.1)
Esta expresión debe leerse como “e se distribuye como una normal con media 0 y varianza
σ µ2 ”9. Dado que los errores se distribuyen de esta manera, ello implica que la variable
dependiente también sigue una distribución normal. Se deja como ejercicio determinar qué tipo
de media y varianza tendrá esta distribución.
9
Debe notarse que sólo se está describiendo a la función por sus dos primeros momentos. En el caso de una
distribución normal sólo es necesario ello dado que presenta ciertas propiedades dadas para los momentos superiores.
86
Como sabemos, nuestro estimador es: βˆ = (X ′X) −1 X ′Y . Esta expresión implica que existe
una relación entre el estimador y la variable dependiente. Como ya se ha visto en secciones
anteriores, el estimador es una función de los datos y, en especial, es una función lineal de la
variable dependiente. Por tanto, podemos concluir que nuestro estimador es también una
variable aleatoria.
Un elemento que puede ayudar a aclarar el punto que está detrás de la conclusión anterior
es el siguiente: la muestra que tenemos es aleatoria. La variable dependiente es la suma de dos
componentes: el componente determinístico que está representado por la combinación lineal de
las variables independientes (las cuales consideramos fijas) más un término de error que es
aleatorio. Lo anterior implica que los valores que tome la variable dependiente estarán en
función de los valores que tomen los errores. Si se tomara otra muestra, los valores de las X
seguirían siendo los mismos (por ello el supuesto de que las X son fijas) pero los valores de los
errores podrían cambiar (dado que son variables aleatorias) dando como resultado valores de la
variable dependiente ligeramente distintos a los de la primera muestra. El suponer que la media
de los errores es cero implica de cierto modo que los nuevos valores muestrales no serán muy
distintos de los de otra muestra. Por tanto, si los valores de Y pueden variar ligeramente en
muestras distintas, el estimado obtenido a partir de cada muestra será distinto a los de otras
muestras.
Así, si la muestra es aleatoria, ello implica que para cada muestra (que será ligeramente
distinta a otras), tendremos un estimado distinto. Por ello se dice que el estimador es una
variable aleatoria dado que para cada valor de muestra específico tendremos un valor distinto
del parámetro. Al plantear una hipótesis nula lo que estamos diciendo es que si se repitiera el
proceso de estimación con distintas muestras un gran número de veces, el promedio de los
estimados sería igual al valor planteado en la hipótesis. Esto nos indica, de hecho, que el
estimado obtenido en una muestra particular no tiene que ser igual al valor planteado en la
hipótesis que se quiere analizar en un sentido estricto sino en un sentido probabilístico.
En vista de lo explicado anteriormente podemos decir que nuestro estimador de MCO se

distribuirá de la siguiente forma:
(
β̂ ~ N k β , σ µ2 ( X ′X ) −1 ) (4.2)
El resultado anterior se deriva del supuesto inicial de los errores. Además, se ha demostrado
que el parámetro es insesgado y se ha hallado la varianza del mismo.
Por otro lado, ya hemos comprobado que el término de error estimado es una transformación
lineal del error teórico o poblacional según la siguiente expresión:
!
[ ]
e = Y - Xβ = I n − X (X ′X ) −1 X ′ µ = Mµ (4.3)
Donde M es una matriz simétrica e idempotente conocida como la matriz de proyección

ortogonal de la variable dependiente sobre el espacio donde están definidos los errores y que
fue ya presentada en el Capítulo 3. Los elementos descritos hasta el momento serán útiles para
construir la expresión que permita evaluar empíricamente las diversas hipótesis planteadas.
Lo que queremos analizar es cuán lejos está nuestro estimado del valor que proponemos
como cierto en nuestra hipótesis nula. Como ya se ha mencionado, si la diferencia es pequeña
podremos interpretar nuestros resultados como que el valor estimado proviene de una
distribución que está centrada en el valor propuesto en la hipótesis planteada. Si la diferencia es
87
grande se tendrá algún grado de certeza (no absoluta) de que dicho valor proviene de una
distribución distinta.
Por tanto, la expresión a analizar será la siguiente:
(βˆ − β) (4.4)
en este caso β estará representado por el valor propuesto en la hipótesis nula. Esta expresión no
pierde sus propiedades si es que se multiplica por la matriz X que contiene las observaciones de
nuestras variables independientes:
X(βˆ − β)
Ahora se verá la conveniencia de plantear en estos términos la diferencia que se quiere

analizar.
Se sabe que:
X (βˆ − β) = (Y − Mµ) − Xβ = µ − Mµ = Pµ
(4.5)
P = X (X ′X ) −1 X ′
P es la matriz de proyección ortogonal de la variable dependiente en el espacio definido por

las variables independientes que ya fue presentada en el Capítulo 3. Como se sabe es una matriz
simétrica e idempotente de dimensión N x N.
La conveniencia de plantear de esta forma la expresión a analizar radica en las siguientes

propiedades que se presenta a continuación:
En una matriz simétrica e idempotente, su rango es igual a su traza:
En este caso:
[ ] [ ]
Rango (P) = Tr (P) = Tr X (X ′X ) −1 X ′ = Tr (X ′X ) −1 X ′X = Tr (I k ) = k (4.6)
Por otro lado, ya comprobamos en el Capítulo 3 que la traza de M es igual a (n-k)
Si x ~ N(0, σ 2x I n ) entonces:
x ′Ax
~ χ 2 ( m) (4.7)
σ 2x
lo cual quiere decir que la expresión definida en esta expresión se distribuye como una variable
chi-cuadrado con m grados de libertad. Donde m es el rango de la matriz A si es que esta es
simétrica e idempotente.
Si se toma en cuenta estas propiedades, se podrá plantear la siguiente expresión:
1 1
(βˆ − β)′X ′X (βˆ − β) = µ′Pµ (4.8)
σ µ2 σ µ2
88
esta expresión se distribuirá como una chi cuadrado con k grados de libertad. Ello se desprende
del hecho que cumple con los requisitos planteados en las propiedades mencionadas
anteriormente.
Adicionalmente se define la siguiente expresión:
σˆ µ2 1 1
(n − k ) = e ′e = µ ′Mµ (4.9)
σ µ2 σ µ2 σ µ2
la cual también cumple con las condiciones establecidas anteriormente, por lo que se distribuye
según una chi-cuadrado con n-k grados de libertad.
La razón por la cual se define estas dos expresiones es que si se utiliza la primera de ellas
para realizar la inferencia estadística afrontamos un problema: todas las expresiones son
conocidas a excepción de σ µ2 . Para eliminar dicha dificultad se debe buscar una forma de
eliminar esta expresión. Aquí es donde se encuentra la utilidad de la segunda expresión
definida. Nótese que si se divide la primera por la segunda, se elimina σ µ2 y se obtiene una
expresión en función de puras magnitudes conocidas.
Como se sabe, la división de dos variables chi-cuadrado divididas cada una por sus grados
de libertad da una variable que se distribuye como una F de Fisher. Sin embargo, para poder
estar seguros que la expresión resultante se distribuye como una F primero se debe demostrar
que ambas expresiones son independientes entre sí.
Para tal fin planteamos la siguiente proposición:
PROPOSICIÓN 4.1: Los estimadores MCO de β y σ µ2 son independientes entre sí.

Para realizar la demostración de esta proposición se debe mencionar la siguiente propiedad:
Supongamos que:
x ~ N (0, σ µ2 I n )
x ′Ax es una forma cuadrática en la que A es una matriz cuadrada simétrica e idempotente de
orden n.
Lx es un vector de m elementos, siendo cada elemento una combinación lineal de las x. L es

de orden m x n y no necesita ser ni cuadrada ni simétrica.
Si las covarianzas entre las variables de Ax y Lx son cero, esto supondrá que:
E{Axx ′L ′} = σ 2 AL ′ = 0 (4.10)
o de forma equivalente LA = 0
Utilizando esta propiedad se debe buscar equivalentes en términos de las expresiones

planteadas anteriormente de tal forma que se pueda aplicar la propiedad descrita.
Para tal fin debemos recordar la expresión:
89
(βˆ − β) = (X ′X) −1 X ′µ
en esta expresión µ vendría a representar el x y (X ′X) −1 X ′ sería el equivalente del L.
Por otro lado, se tiene la expresión de los errores mínimos cuadráticos que se sabe son una
transformación lineal del verdadero término de error:
e = Mµ
en este caso M juega el papel de la matriz A. A partir de esta expresión se obtiene la suma de
errores al cuadrado e ′e = µ ′Mµ que es una forma cuadrática que cumple con las condiciones
requeridas. Entonces para poder aplicar el resultado anterior se debe demostrar que los
equivalentes de A y L son ortogonales entre sí (recordar LA = 0). Utilizando los términos
definidos anteriormente, planteamos la siguiente expresión, la cual será igual a cero:
(X ′X ) −1 X ′M = 0 (4.11)
Esto se desprende del hecho que X y la matriz de proyección ortogonal M son ortogonales
entre sí. El resultado presentado indica que ambas expresiones son independientes entre sí. Si
se analiza las expresiones, vemos que (βˆ − β) incluye el estimador mínimo cuadrático de los
parámetros y en la expresión e ′e , dicha magnitud se utiliza para la estimación de la varianza de
los errores. Por lo tanto los estimadores MCO de β y σ µ2 son independientes entre sí. LQQD.
Una vez demostrada la independencia entre ambas expresiones se puede construir el

estadístico F de la siguiente forma:
(βˆ − β) ′X ′X (βˆ − β)
µ ′Pµ (βˆ − β) ′X ′X (βˆ − β)
k = σ µ2 k k
= ~ F(k, n-k) (4.12)
µ ′Mµ (n − k )σˆ µ2 e ′e
n−k (n − k )
σ µ2 (n − k )
Como se ve en la última expresión se han eliminado aquellos elementos desconocidos y se

plantea todo en términos de magnitudes conocidas o que se pueden obtener a partir del proceso
de estimación. Los grados de libertad son k para el numerador y n-k para el denominador.
Con este procedimiento se puede ilustrar cuál era la motivación de la creación de la prueba
F. Usualmente las pruebas originales estaban basadas en la distribución normal y su
transformación chi-cuadrado. Sin embargo, estas pruebas incluyen magnitudes desconocidas.
La búsqueda de expresiones que estuvieran en función de magnitudes estimables a partir de la
muestra con que se cuenta llevó al planteamiento de distribuciones como la F de Fisher y la t de
Student, las cuales se derivan de una distribución normal tal como sabemos.
Una forma más compacta de las magnitudes anteriores viene dada por la siguiente
expresión:
[
(βˆ − β)′ σˆ µ2 (X ′X ) −1 ]
−1
(βˆ − β) / k ~ F(k, n-k) (4.13)
90
donde lo que se ha hecho es incluir la varianza estimada del error dentro del corchete. Esta
expresión contiene toda la intuición que se necesita para entender lo que está detrás de un
ejercicio de inferencia estadística. Como vemos, la expresión (βˆ − β) mide la diferencia
existente entre el estimado de mínimos cuadrados ordinarios y el valor que se plantea en la
hipótesis nula. Esta diferencia en términos absolutos no indica mucho dado que debe ser
evaluada en términos de la varianza del parámetro que es justamente la expresión que está entre
corchetes. Así, si la diferencia es pequeña en términos de la varianza quiere decir que en
términos relativos podemos pensar que los estimados provienen de una distribución que está
centrada en el valor que se propone en la hipótesis nula o planteada. Por el contrario si la
diferencia relativa es considerable se puede concluir (nunca con certeza absoluta) que los
parámetros obtenidos provienen de una distribución diferente.
Es importante señalar aquí el papel que juega la varianza de los errores o el grado de
dispersión de las X. Ya en los capítulos precedentes se mencionó el rol que desempeñan ambos
en la varianza de los parámetros. Así, si la varianza calculada de los estimados es elevada, ello
implica que el grado de precisión de los mismos es bajo. Ello llevará a que cualquier diferencia
absoluta del numerador sea pequeña en términos relativos si la varianza es elevada.
Un ejemplo puede ayudar a entender el punto. Si se plantea una demanda de dinero según el
enfoque de Cambridge y se supone que la relación es lineal, se puede llegar a la siguiente
expresión:
ln m = βˆ 1 + βˆ 2 ln Y + βˆ 3 ln r + e (4.14)
supongamos que existen dos investigadores que utilizan distintas muestras para estimar esta
demanda para el Perú y los estimados que obtienen cada uno son los siguientes:
Investigador A Investigador B
β̂1 0.44 0.67
β̂ 2 0.96 -0.15
β̂ 3 -0.34 0.65
Por otro lado, tenemos que la matriz de varianzas y covarianzas de los estimadores en cada
caso tienen los siguientes componentes:
35 45 36  65 56 76

(X ′X ) −1A = 45 65 57  (X ′X ) −1B = 56 84 65
36 57 64 76 65 72
σˆ µ2 = 2.5 σˆ µ2 = 3.6
A B
Nótese que según estos datos, la varianza de la elasticidad del ingreso en ambos casos es
162.5 (65x2.5) y 302.4 (84x3.6) la cual es muy alta si se considera los valores calculados en
cada caso (0.96 y –0.15 respectivamente). Si se plantea la siguiente hipótesis:
 β1  0
Ho: β 2  = 0
β 3  0
91
H1: al menos uno es distinto de cero
y se realiza el cálculo correspondiente se verá que no se puede rechazar la hipótesis nula (el
cálculo se deja al lector) en ninguno de los dos casos. Por otro lado si se plantea la siguiente
hipótesis:
 β1   0.5 
Ho: β 2  =  1 
β 3  − 0.5
H1: al menos una de las anteriores no se cumple
La cual tiene un planteamiento más realista se verá que tampoco se puede rechazar esta
hipótesis en ninguno de los dos casos. Así, cada investigador podrá comprobar que sus
resultados estén correctos. Sin embargo, los resultados indicarían que casi cualquier valor
planteado no podría ser rechazado lo cual no da mucha seguridad con respecto al ejercicio de
inferencia. La raíz del problema radica en la amplia varianza de los resultados en cada caso.
Dado el tamaño de esta vemos que casi cualquier valor plausible según distintas teorías no
podría ser rechazado. De esta manera, los resultados son pobres y no conducirían a ninguna
conclusión con respecto a las distintas teorías alternativas que se estarían verificando. Por ello
es importante obtener estimadores eficientes a fin de poder realizar buenos ejercicios de
inferencia estadística. Con una varianza muy grande el ejercicio carece de utilidad.
A manera de resumen se puede decir que la expresión (4.13) será la que marque la pauta
para todas las pruebas que se plantearán más adelante. La discusión anterior solamente ha
intentado aclarar la intuición detrás de la realización de un ejercicio de inferencia estadística.
Los pasos para realizar una prueba son los siguientes:
1. La estimación del modelo lineal a través del algoritmo de mínimos cuadrados ordinarios
nos provee de estimados relativos a la muestra con que contamos. Estos estimados
reemplazan a β̂ en la expresión planteada.
2. El β será reemplazado por los valores supuestos como ciertos que se establecen al plantear
la hipótesis nula.
3. (X ′X) −1 se reemplaza por su equivalente muestral.
4. σˆ µ2 se obtiene a partir de la estimación del modelo tomando los errores, elevándolos al

cuadrado, sumándolos y dividiéndolos entre (n-k).
5. El valor calculado se compara contra el valor F de tabla con k grados de libertad en el

numerado y n-k en el denominador.
Los criterios que se seguirán para analizar los resultados son los siguientes:
Si Fcalc < Ftabla (k, n-k) no se puede rechazar Ho

Si Fcalc > Ftabla (k, n-k) no se puede aceptar Ho
92
El nivel de significación estadística (el α ) lo escoge el usuario, aunque lo usual es escoger

un nivel de 5% ( α = 0.05). Se recuerda que esta es la probabilidad de error tipo I que se está
dispuestos a aceptar.
Debe quedar claro que si la restricción que se está analizando no puede ser rechazada ello
quiere decir que debe ser incorporada al modelo.
4.4. PRUEBAS ESPECÍFICAS DE INFERENCIA ESTADÍSTICA
Luego de analizar los principios que están detrás de la realización de un ejercicio de

inferencia estadística es muy útil revisar el planteamiento de las pruebas más utilizadas en el
análisis empírico cotidiano. Cada una de ellas tiene características y objetivos distintos y se
debe estar atentos a la idoneidad de cada una de ellas ante situaciones particulares.
4.4.1 Prueba de hipótesis para un sólo parámetro
Esta es la prueba más utilizada en el análisis econométrico empírico. Implica el análisis de

alguna restricción planteada para un sólo parámetro. La hipótesis planteada se puede establecer
de la siguiente manera:
Ho : β i = β i0
H1 : β i ≠ β i0
donde β i0 es una constante.
El primer paso para poder hallar una expresión que permita analizar esta hipótesis es
conocer la función de distribución de la variable aleatoria a analizar. En este caso, la variable
aleatoria es el estimador del parámetro individual i.
Nosotros sabemos que:
β̂ ~ N k (β, σ µ2 (X ′X) −1 ) (4.15)
lo cual muestra la distribución con respecto al estimador de todo el vector de parámetros. Sin
embargo, interesa conocer la distribución del estimador del parámetro i. Esta se puede obtener
fácilmente a partir de (4.15):
β̂ i ~ N (β i , σ µ2 a ii )
Si todo el vector se distribuye según una distribución normal es de esperarse que cada uno
de sus elementos también lo haga. La media será el verdadero valor dado que sabemos que el
estimador MCO es insesgado. a ii es el elemento i-ésimo de (X ′X ) −1 el cual corresponde a la
varianza del estimador de βi .
Si se quiere construir una expresión que sea comparable con una distribución conocida lo
mejor en este caso será estandarizar las observaciones (esto es, restarle la media y dividirla
entre su desviación estándar):
93
(βˆ i − β i0 )
~ N(0,1) (4.16)
σ µ a ii
Esta expresión se distribuye como una normal estandarizada (lo que implica que tiene una
media de cero y una varianza igual a uno). Debe notarse que la media que se está restando es
justamente el valor propuesto en la hipótesis nula lo que refleja el supuesto que se realiza en
todo ejercicio de inferencia: se parte suponiendo que la hipótesis nula es cierta y sobre la base
de ello se construye el estadístico a utilizar.
Como en el caso de nuestra prueba general, surge el problema que σ µ es desconocido y por
lo tanto, no se puede realizar el ejercicio de inferencia estadística con la información muestral
de la cual disponemos. La solución a esta dificultad pasa por intentar eliminar este término
desconocido a través de una transformación que permita obtener una expresión la cual tenga
una distribución conocida.
Esto lo podemos lograr dividiendo la expresión anterior por la expresión que ya hemos
utilizado anteriormente para obtener la prueba F:
(n − k )σˆ µ2
σ µ2
Como sabemos esta expresión se distribuye como una chi-cuadrado con (n-k) grados de
libertad. La ventaja de esta magnitud reside –como en el caso general- en que la división de una
distribución normal estándar entre la raíz de una chi-cuadrado dividida por sus grados de
libertad es una distribución t de student:
βˆ i − β i0
σ µ a ii βˆ i − β i0
= ~ t (n − k ) (4.17)
(n − k )σˆ µ2 σˆ µ a ii
σ µ2 (n − k )
La nueva expresión obtenida está en términos de magnitudes observables. Si se analiza en

detalle en el numerador se tendrá la diferencia entre el valor estimado y el valor que se supone
es la media de la distribución. En el denominador se tiene la desviación estándar estimada del
estimador. Nuevamente se cumple el principio de que el análisis de la diferencia que se
presenta en el numerador debe hacerse en términos de la dispersión del mismo.
Esta prueba es una de las más utilizadas por todos los paquetes econométricos. La hipótesis
que se quiere analizar es que los distintos parámetros son iguales a cero ( β i0 = 0 ). Con ello se
estaría comprobando si los parámetros de cada una de las variables independientes son en
términos probabilísticos iguales a cero. De no poderse rechazar estas hipótesis la conclusión es
que aquellas variables asociadas a cada uno de los parámetros deberían eliminarse del modelo.
4.4.2 Prueba para Restricciones Generales (Rβ − r )
Las pruebas que se han analizado hasta el momento implican restricciones relativamente
sencillas. En la mayoría de los casos, las hipótesis se han referido a ciertos valores para cada
94
uno de los parámetros a estimar. Sin embargo, las restricciones que puede imponer la teoría
económica pueden ser en la práctica más complicadas que las consideradas hasta ahora.
Un ejemplo de ello se puede observar en la formulación de una función de demanda para

cualquier producto. Como sabemos, la teoría económica plantea que la cantidad demandada de
un bien está en función de tres argumentos: el precio relativo (Px) del bien en cuestión, el
ingreso (I) y el precio de los bienes relacionados (Py). Dados los valores de estos tres
argumentos, el consumidor decide qué cantidad consumir de dicho bien. En términos
estadísticos podemos plantear el siguiente modelo:
LnX d = βˆ 1 + βˆ 2 LnPx + βˆ 3 LnI + βˆ 4 LnPy + e (4.18)
La ventaja de plantear el modelo en términos del logaritmo de las variables10 es que nos
permite calcular directamente las elasticidades de la demanda y hace el supuesto de que éstas
son constantes.
Como sabemos para que una demanda sea consistente con los principios de la teoría del
consumidor debe cumplir con una serie de propiedades. La homogeneidad de grado cero es una
de ellas. Como deben recordar, esta propiedad implica que si los precios y el ingreso cambian
en la misma proporción, no habrá ningún cambio en la elección que realice el consumidor.
En términos de nuestro modelo esta restricción se puede plantear de la siguiente manera:
β 2 + β3 + β 4 = 0
Lo cual en términos teóricos ello implica que la suma de las elasticidades debe ser igual a
cero.
Según lo que sabemos hasta el momento no es posible plantear una prueba que nos permita
verificar este tipo de restricciones.
Para tal efecto, se realizará un planteamiento general que permita la suficiente flexibilidad
como para verificar cualquier restricción que implique una combinación lineal de los
parámetros estimados.
Supongamos que para nuestro modelo (4.18), se plantean las siguientes hipótesis nulas:
H 0 : β 2 + β3 + β 4 = 0
β2 = β4
β 3 = β1
H1 : Al menos una no se cumple
Estas tres hipótesis pueden plantearse por alguna teoría en particular. La primera restricción
indica la propiedad de homogeneidad de grado cero ya mencionada. La segunda indica que la
elasticidad precio y la cruzada son iguales. Como sabemos, la elasticidad precio es casi siempre
negativa, si la elasticidad cruzada tiene el mismo valor y signo, entonces el bien relacionado
será un complementario. Por último, la tercera restricción indica que el valor de la elasticidad
ingreso es igual a la demanda autónoma. Suponemos que la teoría que está detrás de esta
demanda es la misma por lo que la validez de la misma implica que las tres restricciones se
10
En términos de la jerga econométrica este modelo se conoce como un modelo doble logarítmico
95
cumplen a la vez. El rechazo de cualquiera de ellas implica que la teoría no sería válida en el
contexto de nuestra muestra.
En términos matriciales estas restricciones se pueden plantear de la siguiente forma:
 β1 
0 1 1 1    0
0 1 0 − 1 β 2  = 0
  β   
1 0 − 1 0   3  0
β 4 
R β = r
La primera matriz, R, es la que resume las restricciones planteadas. Nótese que el número de
filas de R corresponde al número de restricciones. El vector β corresponde a todos los
parámetros estimados. Por último el vector r resume las constantes a las que son iguales las
restricciones. En este caso particular los tres valores son iguales a cero pero pueden ser
distintos a estos valores en función a las restricciones que se plantean.
Una vez descrita la forma general en que se puede plantear restricciones que impliquen
combinaciones lineales de los parámetros se debe plantear ciertas condiciones que aseguren que
la prueba pueda realizarse correctamente. Estos son los supuestos:
Las matrices R y r son conocidas. Es obvio que si se desea plantear alguna restricción
debemos saber cuáles son estas. Por otro lado, conocer los valores de estas matrices permite
construir el test sin el problema de tener términos desconocidos que obligan a transformaciones
adicionales.
El número de restricciones lineales (q) es menor o igual al número de parámetros del modelo
(k). Esta especificación está relacionada con la identificación de un sistema de ecuaciones.
El rango de la matriz R debe ser igual a q. Ello implica que las restricciones lineales serán
linealmente independientes. Esto previene el hecho de estar comprobando dos veces la misma
hipótesis.
Para la construcción del test estadístico se parte suponiendo que la distribución del
estimador es normal:
(
β̂ ~ N β, σ µ2 (X ′X) −1 )
Si R tiene rango q entonces:
(
Rβ̂ ~ N q Rβ, σ µ2 R (X ′X ) −1 R ′ )
entonces:
R (βˆ − β) ~ N q (0, σ µ2 R (X ′X ) −1 R ′)
Si suponemos que la hipótesis nula es cierta (como es el caso en la construcción de

cualquier estadístico que nos permita verificar cierta hipótesis): Rβ = r . De cumplirse esta
condición el estadístico quedaría convertido en:
96
Rβˆ − r ~ N q (0, σ µ2 R ( X ′X ) −1 R ′)
Ahora, dado que la distribución está centrada en cero, si realizamos la siguiente operación:
[
(Rβˆ − r )′ σ µ2 R (X ′X ) −1 R ′ ]
−1
(Rβˆ − r ) ~ χ (2q ) (4.19)
Se obtiene una distribución chi-cuadrado con q grados de libertad dado que el rango del
elemento entre corchetes es igual a q, lo cual quiere decir que se suman q veces distribuciones
normales elevadas al cuadrado.
Sin embargo, como se sabe el problema con esta expresión es que no se conoce σ µ2 por lo
que se debe eliminar este término. Para tal fin se utiliza lo que a estas alturas ya debe ser un
procedimiento estándar, es decir, se divide por (4.9). Si la intención es obtener una distribución
conocida la candidata ideal es una F:
[
(Rβˆ − r ) ′ σ µ2 R (X ′X) −1 R ′ ]−1
( Rβˆ − r )
q
~ F(q, n-k)
e ′e
(n − k )σ µ2
Esta expresión permite eliminar la varianza teórica del modelo. Por otro lado, dado que
e′e /(n − k ) es el estimador de la varianza, se puede rescribir la anterior expresión como:
[
(Rβˆ − r )′ σˆ µ2 R (X ′X ) −1 R ′ ]
−1
(Rβˆ − r ) / q ~ F(q, n-k) (4.20)
Esta expresión tiene toda la intuición que se requiere. En términos matriciales en el

numerador tenemos la diferencia elevada al cuadrado entre la restricción planteada –r- y la
aplicación de las mismas a los estimadores de los parámetros no restringidos. Esta diferencia se
evalúa en términos de la varianza relevante. Para cumplir con la condición que se distribuya
como una F se divide entre el número de restricciones impuestas.
Como en todas las pruebas anteriores si el Fcalc < Ftab no se puede rechazar la Ho . Por otro
lado, si Fcalc > Ftab no se puede rechazar la Ho.
Utilicemos un ejemplo que pueda ilustrar lo que se ha planteado. Vamos a corroborar las
hipótesis presentadas como introducción a esta prueba. Se ha procedido a estimar un modelo y
se han obtenido los siguientes resultados:
LnQ d = 2.097 − 0.785 ln Px + 0.739LnI − 0.350LnPy

(0.151) (0.045) (0.048) (0.049)
(13.86) (−17.32) (15.12) (−7.04)
Los valores que están entre paréntesis son las desviaciones estándar y los estadísticos t
calculados para las hipótesis nulas que los parámetros son cero.
Por otro lado, se tiene la siguiente información:
97
200.00 333.22 312.96 317.20

333.22 914.91 496.10 508.87 
XX=
′
312.96 496.10 797.87 501.20
 
317.20 508.87 501.20 799.89
 0.0312 − 0.0053 − 0.0054 − 0.0056 

 − 0.0053 0.0028 0.0002 0.0001 
( X ′X ) −1 =
− 0.0054 0.0002 0.0032 − 0.00003
 
− 0.0056 0.0001 − 0.00003 0.0033 
σˆ µ2 = 0.8556
con esta información y aquella que ya se conoce (R y r) y se puede construir la siguiente

expresión:
 0.0101 − 0.0003 − 0.0198

R (X ′X ) −1 R ′ =  − 0.0003 0.0058 0.00002 
− 0.0198 0.00002 0.0453 
a partir de esto, el estadístico F es 36.20, lo cual es mayor al valor de tablas con 3 grados de
libertad en el numerador y 196 en el denominador (2.6). Por lo tanto no se puede aceptar la
hipótesis nula. La conclusión del ejercicio es que con un 95% de confianza los resultados de la
muestra no son consistentes con las restricciones que impone la teoría del consumidor. Esto no
invalida la teoría necesariamente sino que simplemente nos quiere decir que la teoría no se
aplica a estos datos.
4.4.3 Prueba de hipótesis para un coeficiente del modelo
Esta prueba ya se ha desarrollado en el contexto de una distribución t. Sin embargo, para

demostrar la generalidad de la prueba F para restricciones que implican combinaciones lineales
de los parámetros, se verá esta prueba como un caso particular.
Si en el caso que sirve de ejemplo planteamos la siguiente hipótesis:
H o : β 3 = 0.5
H 1 : β 3 ≠ 0.5
Esta restricción se podrá escribir siguiendo el esquema general ya planteado, de la siguiente

forma:
 β1 
β 
[0 0 1 0] 2  = 0.5
β3
 
β 4 
R β = r
98
Si se siguen los pasos detallados para la prueba general, un paso adicional es construir la
expresión R (X ′X) −1 R ′ . Se debe notar que realizar esta operación implica que se está
extrayendo el 0.0032 (elemento 3,3 de la matriz cuadrada o a33). Si esto se multiplica por la
varianza estimada del error, se obtendría la varianza estimada de β 3 . Entonces la prueba
quedará reducida en este caso a la siguiente expresión:
(Rβˆ − r ) 2
~ F(1, n − k ) (4.21)
Var (βˆ 3 )
dado que Var (βˆ 3 ) = σˆ µ2 a 33 . Para los datos de nuestro ejemplo se obtiene lo siguiente:
(Rβˆ − r ) 2 (0.739 − 0.5) 2 0.057

= = = 21.11
Var(β 3 )
ˆ 0.8556 * 0.0032 0.0027
Este valor calculado es mayor al valor de tablas que es cercano a 2. Por lo tanto la
conclusión en este caso es que no se puede aceptar la hipótesis de que la elasticidad ingreso de
la demanda es igual a 0.5.
Algo que debe notarse es la similitud entre (4.21) y la expresión (4.17): la primera es el
cuadrado de la segunda. Así la prueba que se ha discutido anteriormente acerca de la relevancia
de un solo estimador se puede derivar de nuestro planteamiento general. Algo que se debe
recordar de estadística básica es la siguiente propiedad:
F(1, n − k ) = (t (n − k ) )2
lo cual implica que un estadístico t que se eleva al cuadrado se distribuye como una F con 1
grado de libertad en el numerador y n-k grados de libertad en el denominador.
4.4.4 Prueba de Hipótesis referente a aquellos parámetros del modelo distintos del
intercepto
Si la hipótesis nula establece que todo el subvector de pendientes de un modelo ( β 2 ) es

igual a un vector de constantes, se puede especificar la hipótesis de la siguiente manera:
H 0 : β 2 = β 02
H1 : β 2 ≠ β 02
En este caso tenemos k-1 restricciones dado que no se incluye el intercepto. Por lo tanto, la
matriz de restricciones queda de la siguiente manera:
0 1 0 . . 0
0 0 1 . . 0

R = . . . . . .
 
. . . . . 0
0 0 0 0 0 1
99
Esta matriz tiene k-1 filas (recordar que las filas vienen dadas por el número de
restricciones) y k columnas. Nótese que la primera fila es de puros ceros lo que indica que no
estamos tomando en cuenta el intercepto. La matriz identidad de orden k-1 que acompaña al
vector de ceros nos indica que se está planteando una restricción por cada parámetro
independientemente de los demás. Esto quiere decir que cada restricción considerada toma en
cuenta a un solo parámetro y no a una combinación lineal de los mismos. Nuestro vector r sería
igual a los valores planteados en la expresión ( β 02 ).
Dado que sólo se está refiriendo a restricciones sobre las pendientes se puede particionar la
matriz de variables independientes de la siguiente forma:
X = [1 , X 2 ]
en esta partición el 1 corresponde a un vector n-dimensional compuesto de escalares iguales

a 1. X 2 corresponde a las variables asociadas a las k-1 pendientes, por tanto tiene k-1
columnas. Siguiendo con la exposición la matriz X´X queda de la siguiente manera:
 n 1′X 2 
X ′X =  
 X ′2 1 X ′2 X 2 
Si se quiere hallar la expresión R (X ′X) −1 R ′ esta equivale a hallar la inversa de la porción

inferior derecha de (4.21). Ello porque aplicar R y R´ implica eliminar la primera fila y
columna de la inversa de X ′X . Recordando las expresiones de inversa de matrices
particionadas vistas en el Capítulo 3 se obtendrá que la inversa del término inferior derecho es
igual a:
1
(X ′2 X 2 − X ′21 1′X 2 ) −1 = (X ′2 M 0 X 2 ) −1
n
1
donde M 0 = I n − 1′n1n . Esta matriz es la presentada en el Capítulo 3 y lo que hace es
n
transformar las variables del modelo a desviaciones. Dados los anteriores resultados el
estadístico quedaría de la siguiente forma:
(βˆ 2 − β 02 )′( X′2 M 0 X 2 )(βˆ 2 − β 02 ) /(k − 1)

~ F(k-1, n-k) (4.22)
e′e /(n − k )
Si el vector β 02 fuera cero, entonces la prueba se convierte en la prueba de significación

estadística global del modelo. Entonces el estadístico quedaría transformado de la siguiente
forma:
βˆ 2 (X ′2 M 0 X 2 )βˆ 2 /(k − 1)
~ F(k-1, n-k)
e′e /(n − k )
La significación estadística conjunta del modelo tiene el significado que de no poderse

rechazar la hipótesis nula entonces ello implica que debería imponerse la restricción de que
todas las pendientes son iguales a cero. Ello significa que el modelo estadístico relevante para
el ejemplo sería el siguiente:
100
LnQ d = β1 + µ
Lo cual muestra que ninguna relación se puede establecer entre la variable dependiente y las
variables que se creían la explicaban. Si se realiza la estimación, se obtendrá como resultado
que la constante sería igual a la media de la variable independiente (queda como ejercicio al
lector), lo cual es una identidad, dado que el modelo dirá que cada observación de la variable
dependiente es igual a su media más un término de error, algo que no agrega mayor
información.
Esta prueba es reportada en todos los programas estadísticos bajo el nombre de estadístico F
(F-Statistic). Debemos notar que la expresión βˆ ′2 (X ′2 M 0 X 2 )βˆ 2 es igual a la suma explicada de
cuadrados que se derivó para el caso del modelo lineal general cuando incluía intercepto. Por
otro lado, e′e es la suma de residuos al cuadrado. Si existe intercepto, se sabe que la suma de
las dos expresiones es igual a la suma total de cuadrados; por lo tanto, se puede realizar la
siguiente transformación:
βˆ ′2 (X ′2 M 0 X 2 )βˆ 2 /(k − 1) SEC /(k − 1) R 2 /(k − 1)

= = (4.23)
e′e /(n − k ) SRC /( n − k ) (1 − R 2 ) /( n − k )
La última expresión se obtiene al multiplicar y dividir la expresión por la suma total de

cuadrados (STC). Debe entenderse que esta interpretación es válida cuando el modelo incluye
un intercepto. Esta prueba también recibe el nombre de prueba de significación estadística del
R 2 . Verifiquemos esta hipótesis para el modelo que se ha planteado y estimado:
′
 − 0.785  359.71 − 25.347 − 19.624  − 0.785
  − 25.347 308.13 4.841   0.739  / 3
βˆ ′2 (X ′2 M 0 X 2 )βˆ 2  0.739  
 − 0.350  − 19.624 296.81  − 0.350
=
k −1 4.841
= 172
e′e 1.145
n−k
el valor de tablas (α = 0.05) es 2.6 por lo que no se puede aceptar la hipótesis nula. La
conclusión es que el modelo es estadísticamente significativo con un 95% de confianza. Este
resultado da la tranquilidad de poder seguir adelante con el análisis de la estimación.
4.4.5 Prueba de hipótesis para un subvector de parámetros
Se puede estar interesados en realizar un ejercicio de inferencia estadística para un

subconjunto de parámetros que no necesariamente comprende a todas las pendientes ni a un
solo parámetro. Aquí suponemos que interesa la prueba acerca de d parámetros donde
1 < d < k −1.
En este caso la prueba de hipótesis se puede plantear de la siguiente manera:
H 0 : β 2 = β 02
H1 : β 2 ≠ β 02
101
donde en este caso β 02 corresponde a un vector de orden d. Se va a suponer por conveniencia

que los parámetros que se quieren analizar son los últimos d parámetros. En el caso de este
ejemplo vamos a verificar hipótesis referentes sólo a la elasticidad ingreso y la elasticidad
cruzada por lo que el d sería igual a 2.
El planteamiento general de esta hipótesis implica la construcción de la siguiente matriz R:
0 . 0 1 0 . . 0
. . . 0 1 . . 0

R = [O k − d , I d ] =  . . . . . . . .
 
. . . . . . 1 0
0 . 0 0 . . . 1
Como se aprecia, las primeras k-d columnas de la matriz están llenas de cero indicando que
no se quiere analizar los primeros k-d parámetros. A continuación tenemos una matriz identidad
de orden d indicando que se analizarán cada uno de los d últimos parámetros.
Dado este orden, se puede escribir el modelo general como uno particionado de la siguiente
forma:
Y = X1β1 + X 2β 2 + µ
donde X1 es una matriz con k-d columnas, X 2 es de d columnas. Los vectores β1 y β 2 son
particiones que conforman el vector original β . En este caso la expresión Rβ̂ es igual a β̂ 2 .
Por otro lado:
 X′ X X1′ X 2 
X ′X =  1 1
X ′2 X1 X ′2 X 2 
Por tanto R (X ′X) −1 R ′ será la inversa del elemento inferior derecho de nuestra matriz X ′X ,
es decir, la premultiplicación por R y la postmultiplicación por R´ eliminan las primeras k-d
columnas y las k-d primeras filas.
Recordando la fórmula de la inversa de una matriz particionada, se obtiene que la inversa de

la expresión que nos interesa será:
( X 2′ X 2 − X 2′ X 1 ( X 1′ X 1 ) −1 X 1′ X 2 ) −1 = ( X 2′ M 1 X 2 ) −1
donde M1 = I n − X1 (X1′ X1 ) −1 X1′ es la matriz de proyección ortogonal sobre el espacio

definido por la variables que conforman la matriz X1 . Entonces el estadístico F para este caso
será igual a:
(βˆ 2 − β 02 ) ′(X ′2 M1X 2 )(βˆ 2 − β 02 ) / d

~ F(d, n-k) (4.24)
e ′e /( n − k )
En el caso en que β 02 = O d se reemplaza en la expresión anterior a β 02 por un vector de

ceros de orden d.
102
Para el ejemplo se puede estar interesados en verificar la siguiente hipótesis conjunta:
H o : β 3 = 0.800
β 4 = −0.35
H1 : al menos una no se cumple
Con los datos que se tiene, el valor calculado del estadístico F sería:
′
(βˆ 2 − β 02 )′(X ′2 M1X 2 )(βˆ 2 − β 02 )  0.739 − 0.8  306.3 3.45   0.739 − 0.8 
− 0.35 + 0.35  3.45 295.7  − 0.35 + 0.35
d =      = 0.65
e′e 1.145
n−k
Si se compara este valor con el valor de tabla que es de 3.00 se verá que no se puede
rechazar la hipótesis nula y por tanto se podrá imponer estas restricciones en el modelo.
4.4.6 Pruebas de Hipótesis Mediante la Utilización de Sumas Residuales
Dada la existencia de programas econométricos que facilitan algunos cálculos, se puede

plantear la prueba general que se ha planteado para Rβˆ − r bajo otra perspectiva tomando en
cuenta la intuición que está detrás de cada modelo y su relación con las sumas residuales.
Como se sabe cualquier ejercicio de inferencia estadística implica preguntar si cierta

restricción puede ser impuesta en un modelo. Hasta ahora se ha construido un estadístico sobre
la base del supuesto de que la hipótesis nula o planteada es cierta y se ha visto si nuestros datos
avalan o no estas restricciones.
Sin embargo, podría existir otro camino que considere el siguiente ejercicio: estimar el
modelo inicial y compararlo con otro modelo en donde se hayan impuesto las restricciones que
se plantean en la hipótesis nula. Así, se llamará al primero el modelo sin restringir y al segundo
el modelo restringido. Las magnitudes que se utilizarán para comparar ambos modelos serán
las sumas de residuos al cuadrado.
La intuición detrás del ejercicio es que si no se imponen restricciones, la suma de residuos al

cuadrado alcanzará un mínimo global que es justamente lo que hace el estimador de mínimos
cuadrados ordinarios. Por otro lado la suma de residuos al cuadrado del modelo restringido
alcanzará un mínimo que está limitado justamente por las restricciones que se plantean. Si la
restricción es avalada por los datos, ambas magnitudes deberán ser similares por lo que su
diferencia será pequeña. En el límite podrían ser iguales. Sin embargo, si la restricción no es
válida, la diferencia de las sumas de residuos al cuadrado será muy grande por lo que
estadísticamente no se podrá aceptar la hipótesis propuesta.
Sobre la base de la intuición descrita, nuestra prueba F se puede plantear de la siguiente

manera:
(SRR − SRS) / q
~ F(q, n-k)
e′e /(n − k )
103
donde SRR es la suma de residuos al cuadrado del modelo restringido, SRS es la suma de
cuadrados del modelo sin restringir. Las demás expresiones son las usuales.
Como ya se ha mencionado la SRR será siempre mayor o igual a la SRS, por lo que se
asegura que el numerador sea positivo o cero. Ahora ¿cómo se llega a esta expresión? Para
poder demostrar la similitud entre esta prueba y la prueba general que se ha planteado se
trabajará con el caso especial para 1<d<k-1 que se ha visto líneas arriba. Además, se trabajará
con el caso en que β 02 = 0 d
Si tenemos un modelo particionado estimado de la forma planteada en el acápite anterior, el

primer paso será multiplicarlo por M1 :
M1Y = M1X1βˆ 1 + M1X 2βˆ 2 + M1e
Antes de continuar podemos utilizar dos propiedades ya establecidas en capítulos anteriores:
1. M1X1 = 0 . La proyección ortogonal de un conjunto de variables sobre el espacio

definido por los errores que representan el complemento ortogonal al espacio definido
por las mismas variables es nula. En otras palabras, si se filtra a X1 por sí misma, no
quedará ningún porción de ella sin explicar.
2. [ ]
M1e = I n − X1 (X1′ X1 ) −1 X1′ e = e . Los errores estimados son ortogonales a todas las
variables independientes incluidas en el modelo por lo que X1′ e e igual a cero lo que
anula el segundo término de la multiplicación y sólo queda la matriz identidad que
multiplica a los errores estimados.
Dados estos resultados nuestra expresión se simplifica a:
M 1Y = M 1 X 2 β 2 + e
Si se premultiplica esta expresión por su transpuesta se tendrá:
Y ′M1Y = β′2 X ′2 M1X 2 β 2 + 2β′2 X ′2 M1e + e ′M1e
el segundo término de la derecha se elimina dado que M1e = e y X ′2 e = 0 con lo cual la

expresión queda de la siguiente forma:
Y ′M1Y = β′2 X ′2 M1X 2β 2 + e ′e (4.25)
Analicemos esta expresión. Y ′M1Y es la suma de residuos al cuadrado de un modelo

donde se ha regresionado Y sólo contra las variables contenidas en X 1 , lo cual quiere decir que
se ha impuesto la restricción β 2 = 0 . Ello significa que es la suma de residuos al cuadrado del
modelo restringido. Por otro lado, e ′e es la suma de residuos al cuadrado del modelo original
el cual fue estimado sin restricciones. El primero es SRR y el segundo es SRS. Por lo tanto,
nuestra expresión (4.25) se puede expresar de la siguiente manera:
SRR = β′2 X ′2 M1X 2β 2 + SRS

(4.26)
β′2 X ′2 M1X 2β 2 = SRR − SRS
104
Comparemos este resultado con (4.24). Si en dicha expresión se analizó el caso especial en
que se verifica la hipótesis que los d parámetros de interés son iguales a cero, dicha expresión
es igual a (4.26). entonces (4.24) quedaría transformado en
(SRR − SRS) / d
(4.27)
e′e /(n − k )
donde el único cambio es que q ha sido reemplazada por d. Esta demostración se está haciendo
para un caso particular de la prueba F para restricciones lineales y se ha mostrado la
equivalencia de las dos estrategias planteadas para la realización de la prueba. Sin embargo,
puede comprobarse que el resultado se aplica para todos los casos de la prueba F.
En resumen, existen dos estrategias para la realización de la prueba F:
1. La primera consiste en trabajar con expresiones como (4.20) en donde se utiliza para la
construcción del Estadístico las matrices R y q, o
2. Se estiman dos modelos: uno restringido y uno no restringido y se comparan las sumas de
residuos al cuadrado de ambos modelos.
El camino que se utilice dependerá de las preferencias del usuario. Para restricciones
simples quizás sea más recomendable utilizar la segunda estrategia. El siguiente ejemplo
puede ayudar:
Si se plantea un modelo de la siguiente forma:
Yt = β1 + β 2 X 2 t + β 3 X 3t + β 4 X 4 t + β 5 X 5 t + µ t (4.28)
y si se quiere verificar la hipótesis nula siguiente:
H o : β3 = 3
β4 = 2
H1 : al menos una restricción no se cumple
una estrategia conveniente sería estimar el modelo (4.28), el cual sería el modelo sin restringir.
A través de la estimación se obtiene la SRS. Para la estimación del modelo restringido se tiene
que imponer las restricciones de la siguiente manera:
Yt − 3X 3t − 2X 4 t = β1 + β 2 X 2 t + β 5 X 5t + µ t
en este modelo las restricciones son impuestas y pasan a restar al lado derecho multiplicadas
por sus respectivas variables. A partir de este modelo se halla la SRR y se procede a la
construcción del test.
Sin embargo, se debe notar que esta estrategia es relativamente fácil cuando las hipótesis
son sencillas. Si las restricciones son combinaciones lineales de los parámetros una estrategia
factible es calcular el estadístico F de la primera forma. Cuando queremos trabajar con la
segunda alternativa (comparación de las sumas de residuos al cuadrado) la estrategia señalada
líneas arriba no es tan sencilla. La estimación del modelo restringido implica pasos más
complicados que los reseñados en nuestro ejemplo. La forma de resolver esta dificultad es
105
estudiar el estimador de mínimos cuadrados restringidos el cual permitirá el cálculo de SRR en

situaciones más complejas.
4.5. ESTIMADOR DE MÍNIMOS CUADRADOS RESTRINGIDOS
Para la formulación del estimador MCO se minimizaron la suma de los errores al cuadrado
sin imponer ninguna restricción. La lógica del estimador de mínimos cuadrados restringidos es
minimizar la suma de errores al cuadrado pero sujeto a una restricción. Por lo tanto, la función
a minimizar quedaría de la siguiente manera:
" = (Y − Xβ r )′(Y − Xβ r ) − 2λ ′(Rβ r − r )
en este caso la función objetivo aumentada incluye las restricciones multiplicadas por la
expresión − 2λ ′ que representa el vector de multiplicadores de Lagrange. El valor –2 que se
incluye se hace simplemente con fines de hacer más sencillos los cálculos en cuyo caso la
interpretación de los multiplicadores de Lagrange se modifica ligeramente. Se considera la
transpuesta del vector de los multiplicadores de Lagrange debido a que el criterio a minimizar
es un escalar.
Las condiciones de primer orden en este caso serían:
δ"
= −2 X ′Y + 2 X ′Xβ r − 2 R ′λ = 0
δβ r′
δ"
= −2( Rβ r − r ) = 0
δλ
A partir de estas condiciones de primer orden se obtienen las siguientes expresiones:
(X ′X)β r − X ′Y − R ′λ = 0 (i)
Rβ r − r = 0 (ii)
Premultiplicamos (i) por R (X ′X ) −1 :
Rβˆ r − R (X ′X) −1 X ′Y − R (X ′X ) −1 R ′λ = 0
esta expresión puede reducirse notando lo siguiente:
1. (X ′X ) −1 X ′Y es el estimador MCO (sin restringir)

2. Si la restricción se cumple entonces: Rβˆ r = r
Utilizando estos resultados obtenemos:
r − Rβˆ = R (X ′X ) −1 R ′λ
[
λ = R (X ′X ) −1 R ′] −1
( r − Rβˆ )
reemplazando λ en (i) tenemos la siguiente expresión:
106
[
(X ′X)βˆ r − X ′Y − R ′ R (X ′X) −1 R ′ ]
−1
(r − Rβˆ ) = 0 k
despejando β̂ r de la expresión anterior llegamos al estimador de Mínimos Cuadrados

Restringidos (MCR):
[ −1
]
βˆ r = ( X ′X ) −1 X ′Y + ( X ′X ) −1 R ′ R( X ′X ) −1 R ′ (r − Rβˆ ) (4.29)
Si nos detenemos a analizar esta expresión notaremos que el primer término de la derecha es
el estimador MCO al que se le realiza una corrección. La magnitud de la corrección será una
función directa de la expresión (r − Rβˆ ) . Esta expresión nos indica cuán cerca está el estimador
no restringido de cumplir con la restricción. Si la restricción es correcta esta expresión será
cercana a cero, por lo que el estimador MCR será muy parecido (o igual en el límite) al
estimador MCO. Por el contrario, si el estimador MCO no cumple con las restricciones, ello
implica que la corrección que debe realizarse es grande para obtener el estimador MCR y por
tanto ambos serán diferentes.
Como tarea se deja al lector analizar el insesgamiento del estimador MCR. Como ayuda
puede mencionarse que debemos suponer que la restricción se cumple para probar el
insesgamiento. Por otro lado, debe sobreentenderse que el estimador MCR cumple con las
restricciones dado que ha sido construido sobre la base de imponer en la minimización de los
errores al cuadrado con las restricciones. Esto se puede comprobar de la siguiente manera:
[ −1
]
Rβˆ r = Rβˆ + R( X ′X ) −1 R ′ R( X ′X ) −1 R ′ (r − Rβˆ ) = Rβˆ + r − Rβˆ = r
La varianza del estimador MCR corresponde a la siguiente expresión:


[ −1
] 
Var (βˆ r ) = σˆ µ2 (X ′X) −1 − (X ′X) −1 R ′ R (X ′X) −1 R ′ R (X ′X ) −1 

(4.30)
A estas alturas del libro, ustedes deben estar familiarizados con el cálculo de las varianzas
de diferentes estimadores por lo que queda como tarea la derivación de esta expresión. Sin
embargo, algo que debe notarse es que la varianza del estimador MCR es menor que la del
estimador MCO. La intuición de este resultado descansa en la imposición de las restricciones.
Estas lo que hacen en la práctica es acotar el espacio donde están definidos los parámetros por
lo que la varianza será menor. Ojo: esto no quiere decir que el estimador MCR sea más
eficiente que el estimador MCO. Nosotros hemos comprobado por el teorema de Gauss-Markov
la eficiencia del estimador MCO. En este caso debido al acotamiento del espacio la varianza
resulta menor pero no implica una superioridad del estimador MCR sino que es un resultado
matemático.
Regresando al modelo de demanda que ha servido de ejemplo en este capítulo, se realizará

el ejercicio inicial de las restricciones lineales sobre los parámetros por la vía de la
comparación de las sumas de los residuos al cuadrado. Como se recuerda las hipótesis nulas
son:
H 0 : β 2 + β3 + β 4 = 0
β2 = β4
β 3 = β1
H1 : Al menos una no se cumple
107
Dados los resultados que ya se conocen los valores restringidos estimados serían:
LnQ d = 1.057 − 0.528 ln Px + 1.057 LnI − 0.528LnPy

(0.036) (0.018) (0.036) (0.018)
(29.34) (−29.34) ( 29.34) ( −29.34)
Como se aprecia los estimados cumplen con las tres restricciones planteadas: la suma de los
tres últimos parámetros es igual a cero, la elasticidad precio y cruzada son iguales y la
constante y la elasticidad ingreso son iguales.
Otro resultado es que las desviaciones estándar son menores que los estimados no
restringidos y los estadísticos t son mayores. Una cosa adicional a notar es que todos los
estadísticos t son iguales en valor absoluto. Ello se debe a que el grado de significación es de
alguna forma forzado por las restricciones y como los cuatro estimados están sujetos a
restricciones el grado de significación estadística es el mismo.
Sobre la base de los estimados anteriores se procedió a realizar las pruebas mediante la
utilización de las sumas residuales. Los resultados se presentan a continuación:
(SRR − SRS) / q (268.32 − 167.69) / 3

= = 39.208
e ′e /(n − k ) 0.8556
el estadístico F calculado no es igual al obtenido anteriormente (36.2) pero son similares, por
lo que los resultados de ambas pruebas son equivalentes y las conclusiones las mismas: No se
pueden aceptar las restricciones planteada en la hipótesis nula.
4.6. LA INFERENCIA ESTADÍSTICA Y LOS PAQUETES ECONOMÉTRICOS
Para la realización de estimaciones econométricas existen distintos software en el mercado.

Los programas más utilizados son el Econometric Views, Rats (Regression Analysis of Time
Series), Gauss, PcGive, Shazam, etc. Todos estos programas realizan estimaciones de mínimos
cuadrados ordinarios. El resultado estándar que arrojan estos paquetes es más o menos es el
siguiente:
Variable dependiente: Ln Qd
Regresores: LnPx LnI, LnPy
Número de observaciones: 200
Estimación por MCO
Variable Estimado Desv. Estándar Estadístico t Prob(est t)
C (constante) 2.0973 0.1512 13.8667 0.0000

LnPx -.07853 0.0453 -17.3273 0.0000
LnI 0.7395 0.0488 15.1276 0.0000
LnPy -0.3505 0.0497 -7.0463 0.0000
R cuadrado 0.7253 Med. de Var Dep 1.3901
R cuadrado aj. 0.7211 Desv. Est. Var. Dep. 1.7517
Error St. Regresión 0.9249 Estadístico F 172.5799
108
Sum Res al Cuadrado 167.6981 Prob(Estadístico F) 0.0000
Como se aprecia, en el encabezado se especifica cuál es la variable dependiente, el número

de observaciones, las variables explicativas y el método de estimación. Más abajo se tienen los
estimados que arroja el programa. La primera columna se refiere a qué parámetro está
estimando. Debe entenderse que el parámetro en cuestión es aquel que acompaña a la variable
que se señala. En la segunda columna se tienen los valores estimados de los parámetros. La
tercera columna muestra la desviación estimada de los parámetros.
La cuarta columna es la que interesa en esta sección del libro. En ella se presentan los
valores calculados de los estadísticos t donde la hipótesis nula es que cada uno de los
parámetros es igual a cero. Por ello los valores t calculados para cada parámetro son la división
de los respectivos valores de la segunda y tercera columna. Se recuerda que la prueba
individual de significación estadística para un parámetro es justamente el valor del parámetro
calculado dividido por la desviación estándar calculada y ello es lo que se obtiene en la cuarta
columna.
La quinta columna presenta una probabilidad. Esta debe interpretarse como la probabilidad
de que la hipótesis nula sea aceptada con los datos que tenemos. Al escoger el nivel de
significación estadística estamos escogiendo el punto de quiebre. Si se escoge el α = 5% , ello
quiere decir que si la probabilidad de que la hipótesis nula sea cierta es mayor al 5% no
podemos rechazar la hipótesis nula. Por el mismo razonamiento, si la probabilidad es menor al
5% ello quiere decir que no podemos aceptar la hipótesis nula. En el caso presentado se observa
que las probabilidades son iguales a cero, por lo que la conclusión es que con un nivel de
confianza de 5% los parámetros estimados son diferentes de cero, por lo cual debemos
mantener las variables dentro del modelo.
Usualmente lo que se realiza es una comparación entre el valor calculado y el valor de tabla.
Si el valor calculado es mayor al valor de tabla no se puede aceptar la hipótesis nula y
viceversa. Lo que hace el programa es realizar la comparación en términos de las
probabilidades de la distribución relevante que en este caso es una distribución t de Student.
Así, como la distribución t de Student es una distribución simétrica y con media cero, lo que
hace el programa es calcular el estadístico t y halla la probabilidad de los valores mayores al
valor calculado. Si la probabilidad es menor a 0.05, nos indica que el valor está muy alejado de
la media y por tanto, la diferencia entre el valor calculado y el valor de tabla es alto y no se
podrá aceptar la hipótesis nula. Por el contrario, si la probabilidad es mayor a 0.05, ello nos
señala que el valor calculado no está tan alejado de la media y se entenderá que proviene de
dicha distribución. Por ello se dice que no se puede rechazar la hipótesis nula. En conclusión, si
la probabilidad es menor a 0.05, nuestro estadístico calculado cae en lo que usualmente se
denomina zona de rechazo y si la probabilidad es mayor a 0.05 se dirá que cae en la llamada
zona de aceptación11
Si regresamos a la tabla presentada notaremos que se reporta un estadístico F. Este

estadístico evalúa la hipótesis nula de significación estadística conjunta de todo el modelo, es
decir la prueba que analiza si todas las pendientes del modelo son iguales a cero. La
probabilidad que se reporta tiene la misma interpretación antes mencionada, es decir, mide la
probabilidad de que la hipótesis nula sea cierta dado la muestra que utilizamos. Si la
probabilidad es menor a 0.05 quiere decir que no podemos aceptar la hipótesis nula y viceversa.
11
Como ya se ha mencionado al inicio de este capítulo esta terminología no es la más adecuada, pero es la que se
usa comúnmente.
109
Al momento de sacar las conclusiones, algo que debe haber llamado la atención es que el
punto de corte sea por ejemplo 0.05. Ello significa que solamente cuando la probabilidad es
menor al 5% no se puede aceptar la hipótesis nula. Algunos de ustedes probablemente se
preguntarán ¿por qué el punto de corte es 0.05 y no 0.5 como indicaría el sentido común? La
respuesta está en el significado del α . Recordemos que lo que mide esta expresión es la
probabilidad del error tipo I y esto lo escoge el usuario. Escoger 0.05 implica aceptar que existe
un 5% de probabilidad de rechazar una hipótesis verdadera. Recordemos el ejemplo del juicio
que mencionamos al inicio del capítulo. Lo que se hace al escoger un 0.05 como punto de
quiebre es exigir que la evidencia en contra de la hipótesis nula sea tan fuerte que la
probabilidad de que sea cierta la nula sea menor al 5%. Sólo así nos arriesgaremos a decir que
no podemos aceptar la hipótesis nula a pesar que existe un 5% de probabilidad de que sea
cierta.
Como ya se ha mencionado, el nivel de significación estadística lo escoge el usuario. Aquí

se ha mencionado el 5% porque es lo estándar en todos los paquetes pero de hecho uno podría
aumentar o disminuir el α según su criterio. Si alguien se pone más exigente probablemente
escogerá un α de 0.01 o alguien menos exigente escogerá un nivel de 10%.
4.7. UNA REFLEXIÓN FINAL
Habiendo hecho una revisión de la forma de realizar un ejercicio de inferencia estadística se

quiere presentar algunos resultados de una simulación realizada con el modelo que se ha
utilizado como ejemplo. Esto permitirá entender mejor lo que está en juego.
Como ya se ha mencionado lo que se hace al realizar una prueba de hipótesis es analizar si

la diferencia que se observa entre el valor calculado y el valor que se supone verdadero en la
hipótesis planteada o nula se explica por factores meramente aleatorios o se debe a factores
estructurales.
Una hipótesis que se planteó a lo largo del capítulo era la referida a la homogeneidad de
grado cero de la demanda. Ello implicaba verificar si la suma de las tres elasticidades era igual
cero. El modelo estimado arrojó valores de –0.855, 0.817 y –0.359 para las elasticidades precio,
ingreso y cruzada de la demanda respectivamente. La suma de las tres elasticidades estimadas
es de –0.397 para nuestro modelo. La conclusión que obtuvimos era que nuestros datos no
soportaban la implicación de la homogeneidad de grado cero.
¿Qué implica en términos empíricos la conclusión que acabamos de mencionar? Un gráfico

nos puede ayudar. En él se presenta la distribución de la suma de las tres elasticidades para
10,000 estimaciones del mismo modelo.
110
cuando se habla de 10,000 estimaciones se está refiriéndo a que se han generado 10,000
muestras aleatorias y con dichos datos se ha procedido a la estimación del modelo. Sin
embargo, estas muestras han sido generadas siguiendo un patrón: las elasticidades
“verdaderas”12 son -0.75, 0.8 y -0.35, por lo que la suma de las tres es igual a -0.3. Si nos
detenemos un momento a observar el gráfico se verá que justamente el -0.3 es el centro de la
distribución. No todos los valores son iguales a -0.3 porque interviene un factor aleatorio que
puede hacer que difieran los resultados de manera no sistemática. Pero lo que conviene resaltar
es el hecho que la distribución está centrada en el valor “verdadero”(-0.3).
Recordando la hipótesis nula, ésta se refería al cumplimiento de la homogeneidad de grado

cero o que la suma de las elasticidades es igual a 0. Como se ve el cero está ubicado en el
extremo derecho de la distribución por lo que está muy alejada del verdadero centro de la
distribución. Por ello es que la conclusión es que no se puede aceptar la hipótesis nula.
Por otro lado, dados los resultados se sabe que la elasticidad precio estimada es –0.785 y se
desea verificar si este valor es congruente con una distribución cuya media es igual a –0.75
(que es el valor que se ha supuesto como verdadero cuando hemos generado la muestra). Si se
quiere aplicar una prueba t para ello el valor calculado se halla de la siguiente forma:
(−0.785 + .75)
= −0.773
0.0453
12
El término verdadero está entre comillas debido a que el modelo fue generado de la siguiente forma:
LnQd= 2 - 0.75lnPx + 0.8LnI - 0.35LnPy + rndn. El último término rndn indica que a la anterior expresión se le está
agregando un término aleatorio. A su vez, LnPx, LnI y LnPy también han sido construidas a través del generador de
números aleatorios. Con este tipo de procedimiento estamos generando muestras aleatorias pero que responden a un
proceso generador de datos similar.
111
como se sabe los valores críticos para más de 100 grados de libertad son aproximadamente 2 y
–2 respectivamente. La conclusión es que no se puede rechazar la hipótesis nula. Si se observa
el siguiente gráfico se ve que la distribución está centrada en –0.75 (que es el valor con el cual
fueron generados los datos). Un valor de –0.785 si bien no es igual a –0.75 se observa que en
términos de la distribución que se presenta cae dentro de la zona de aceptación.
Sin embargo, debe mencionarse que un valor de –0.95 aparecería como muy lejano, y
seguramente se tendería a no aceptar la hipótesis nula. Pero se observa que todos los valores
reportados en el gráfico responden a un modelo “verdadero” con una elasticidad precio igual a
–0.75, pero por factores meramente aleatorios el valor calculado en un modelo específico (una
muestra en particular) es de –0.95 y en términos de la distribución se tendería a no aceptar la
hipótesis nula cuando es verdadera. Esto ilustra el error tipo I en el cual se puede caer y por
ello es que algunos investigadores tienden a ser muy exigentes y elevan el nivel de significación
de ciertas pruebas. No obstante, como ya se mencionó el nivel de significación estándar es 0.05.
Algo que debe quedar en claro a partir de todo lo discutido en este capítulo es que cualquier
ejercicio de inferencia implica cierto grado de incertidumbre. La idea de las pruebas de
hipótesis es someter al juicio de los datos las afirmaciones que se pueden derivar de la teoría
(expresadas en forma de restricciones). Sin embargo, nunca podemos estar seguros sino hasta
cierto grado de certeza el cual no será absoluto.
112

Cap 4

Hochgeladen von

Dokumentinformationen

Copyright

Verfügbare Formate

Dieses Dokument teilen

Dokument teilen oder einbetten

Freigabeoptionen

Stufen Sie dieses Dokument als nützlich ein?

Sind diese Inhalte unangemessen?

Copyright:

Verfügbare Formate

Cap 4

Hochgeladen von

Copyright:

Verfügbare Formate

CAPITULO 4

INFERENCIA ESTADÍSTICA EN EL MODELO

Lo anterior nos debe llevar a pensar en los propósitos de la investigación econométrica.

en la estimación de nuestro modelo. Esto implica en la práctica verificar si dentro del

2. Predicción: Un modelo puede ser utilizado con el propósito de estimar el valor de la

4.2. PRINCIPIOS DE LA INFERENCIA

En general, lo que se busca con la inferencia estadística es obtener un estadístico muestral

Varios ejemplos pueden ilustrar las ideas que estamos esbozando:

En función de lo expresado en el párrafo anterior, el camino más utilizado para la

En este caso lo que estamos planteando es que el ingreso permanente no es un factor

El gráfico que se presenta a continuación nos da una idea de la metodología de

Sin embargo, ¿Cómo en la práctica respondemos la pregunta formulada o, en términos más

Estos conceptos pueden ser esquematizados en el siguiente cuadro:

Situación real de Decisión utilizando la información muestral

Ho cierta No hay error Error Tipo I

Ho falsa Error Tipo II No hay error

Si el fiscal no logra presentar pruebas suficientes usualmente se dice que el acusado no es

Si se acumulara mucha evidencia en contra, recién se podría empezar a sospechar de la

4.3. LA METODOLOGÍA DE LAS PRUEBAS DE HIPÓTESIS

En vista de lo explicado anteriormente podemos decir que nuestro estimador de MCO se

Donde M es una matriz simétrica e idempotente conocida como la matriz de proyección

Por tanto, la expresión a analizar será la siguiente:

Ahora se verá la conveniencia de plantear en estos términos la diferencia que se quiere

P es la matriz de proyección ortogonal de la variable dependiente en el espacio definido por

La conveniencia de plantear de esta forma la expresión a analizar radica en las siguientes

En una matriz simétrica e idempotente, su rango es igual a su traza:

Por otro lado, ya comprobamos en el Capítulo 3 que la traza de M es igual a (n-k)

Si se toma en cuenta estas propiedades, se podrá plantear la siguiente expresión:

Adicionalmente se define la siguiente expresión:

Para tal fin planteamos la siguiente proposición:

PROPOSICIÓN 4.1: Los estimadores MCO de β y σ µ2 son independientes entre sí.

Lx es un vector de m elementos, siendo cada elemento una combinación lineal de las x. L es

Utilizando esta propiedad se debe buscar equivalentes en términos de las expresiones

Para tal fin debemos recordar la expresión:

en esta expresión µ vendría a representar el x y (X ′X) −1 X ′ sería el equivalente del L.

Una vez demostrada la independencia entre ambas expresiones se puede construir el

Como se ve en la última expresión se han eliminado aquellos elementos desconocidos y se

35 45 36  65 56 76

H1: al menos uno es distinto de cero

Los pasos para realizar una prueba son los siguientes:

3. (X ′X) −1 se reemplaza por su equivalente muestral.

4. σˆ µ2 se obtiene a partir de la estimación del modelo tomando los errores, elevándolos al

5. El valor calculado se compara contra el valor F de tabla con k grados de libertad en el

Si Fcalc < Ftabla (k, n-k) no se puede rechazar Ho

El nivel de significación estadística (el α ) lo escoge el usuario, aunque lo usual es escoger

4.4. PRUEBAS ESPECÍFICAS DE INFERENCIA ESTADÍSTICA

Luego de analizar los principios que están detrás de la realización de un ejercicio de

4.4.1 Prueba de hipótesis para un sólo parámetro

Esta es la prueba más utilizada en el análisis econométrico empírico. Implica el análisis de

donde β i0 es una constante.

Nosotros sabemos que:

β̂ ~ N k (β, σ µ2 (X ′X) −1 ) (4.15)

La nueva expresión obtenida está en términos de magnitudes observables. Si se analiza en

4.4.2 Prueba para Restricciones Generales (Rβ − r )

Un ejemplo de ello se puede observar en la formulación de una función de demanda para

LnX d = βˆ 1 + βˆ 2 LnPx + βˆ 3 LnI + βˆ 4 LnPy + e (4.18)

En términos de nuestro modelo esta restricción se puede plantear de la siguiente manera:

En términos matriciales estas restricciones se pueden plantear de la siguiente forma:

Si suponemos que la hipótesis nula es cierta (como es el caso en la construcción de

Esta expresión tiene toda la intuición que se requiere. En términos matriciales en el

LnQ d = 2.097 − 0.785 ln Px + 0.739LnI − 0.350LnPy

Por otro lado, se tiene la siguiente información:

200.00 333.22 312.96 317.20

 0.0312 − 0.0053 − 0.0054 − 0.0056 