Sie sind auf Seite 1von 44

Estadstica Actuarial y Analisis de Regresion

Autor:
M. Victoria Esteban Gonzalez
Departamento de Economa Aplicada III. Econometra y Estadstica
Facultad de Ciencias Econ omicas y Empresariales
Universidad del Pas Vasco/Euskal Herriko Unibertsitatea
Queda terminantemente prohibida la reproducci on no autorizada de este material docente, y la
distribucion no autorizada de copias de la misma, as como cualquier otra infracci on de los derechos
que sobre esta recopilacion corresponden a la Profesora M
a
Victoria Esteban junto con el Departa-
mento de Econometra y Estadstica de la Facultad de Ciencias Economicas y Empresariales de la
UPV/EHU.
c UPV/EHU 2012.
Estadstica Actuarial: An alisis de Regresi on
ii
Presentaci on
El objetivo de este documento es introducir un conjunto de tecnicas estadsticas y econometricas
para la estimaci on de modelos lineales en situaciones donde se cumplen las hipotesis estadsticas de
comportamiento habituales. Se pretende introducir al alumno en el analisis de regresion, por lo que
previo a un repaso de aspectos fundamentales de la estimaci on de parametros y sus propiedades y
de la inferencia estadstica se estudia en detalle el Modelo de Regresi on Lineal General. El objetivo
fundamental del curso es que, al nal del mismo, los estudiantes sean capaces de utilizar el modelo
de regresion para resolver un problema sencillo que se les plantee: desde la especicacion, estimaci on
y validacion del modelo hasta contrastar hipotesis de relevancia econ omica y predecir. Este objetivo
se ha de satisfacer tanto desde un punto de vista te orico, resolver cuestiones y explicar resultados ya
obtenidos, como practico: estimar un modelo con una base de datos concreta y realizar los contrastes
pertinentes.
Estas notas incluyen seis temas mas un tema nal con orientaciones dirigidas al desarrollo por parte
de los alumnos de un proyecto nal donde se muestre la evoluci on de un caso practico de interes. Los
contenidos se estructuran entorno a dos n ucleos centrales, el analisis de la informacion que podemos
extraer de una unica variable y el estudio de como se relacionan las variable entre s. El analisis de
una unica variable ocupa los contenidos de los tres primeros temas. En el tema uno se estudian los
conceptos de variable aleatoria, discreta y continua, junto con sus distribuciones de probabilidad.
Se estudian las distribuciones, normal, chi-cuadrado, t-student y F-Snedecor as como los conceptos
de poblacion y muestra. El tema 2 introduce la estimaci on por punto y por intervalo. El tema 3
aborda el dise no de pruebas estadsticas y el contraste de hipotesis.
Como se relaciona una variable con otras ocupa el contenido de los temas cuatro a seis. El tema
cuatro introduce la nomenclatura y conceptos m as habituales a manejar en el contexto del analisis
de regresion. El tema cinco aborda el analisis de regresi on a traves del modelo de regresion lineal
general. Su especicacion, estimaci on y el contraste de hipotesis ocupan este tema. El estimador de
referencia es el estimador de Mnimos Cuadr ados Ordinarios. Se estudiaran sus propiedades y como
compararlo con otros estimadores de interes. El ultimo tema muestra como analizar si alguna de las
hipotesis estadsticas de comportamiento habituales no se cumplen y cu ales son las consecuencias
de su incumplimiento para nalizar abordando la predicci on de la variable de interes.
A lo largo de los temas se va mostrando como utilizar un sofware libre, el programa gretl, espe-
cialmente indicado para el analisis econometrico y que permite un aanzamiento de los contenidos
teoricos. Por ello, al nal de los temas tres, cinco y seis se incluye una secci on que muestra como
utilizar este programa en relacion a los contenidos vistos. En cada tema se muestran ejemplos que
ilustran los diferentes escenarios de trabajo as como se recomienda la realizaci on de ejercicios. Al
iii
Estadstica Actuarial: An alisis de Regresi on
termino de cada tema se muestra la bibliografa correspondiente. Al nal del documento aparece la
bibliografa completa.
Las notas tienen como objetivo servir de apoyo al proceso de aprendizaje de los estudiantes de la
asignatura Estadstica Actuarial: Regresi on del Grado en Finanzas y Seguros. Sin embargo, dada
su tematica basica de estadstica y analisis de regresion pueden ser utiles en asignaturas anes
de los Grados en Economa, Administraci on y Direcci on de Empresas, Marketing y Fiscalidad y
Administracion P ublica. As mismo sirven de apoyo a estudiantes de master por ejemplo el Master
Universitario en Economa: Instrumentos del An alisis econ omico o el M aster Universitario en Banca
y Finanzas Cuantitativas.
Las competencias especcas de la asignatura y la evaluacion
Lo que escucho olvido, lo que veo recuerdo, lo que hago entiendo (Proverbio Chino)
La asignatura de Estadstica Actuarial: Regresi on es una asignatura de 6 creditos ECTS que conlleva
60 horas de trabajo presencial en el aula y 90 horas de trabajo no presencial. La metodologa y
modalidades docentes a utilizar estan sujetas al criterio del docente y pueden variar cada curso
academico. Hay que tener en cuenta que la organizacion de la metodologa docente junto con el
dise no de los contenidos de los temas del curso van dirigidos a que los alumnos alcancen las siguientes
competencias especcas de la asignatura:
1. Conocer distintos procedimientos de estimaci on de par ametros, as como sus propiedades para
poder seleccionar adecuadamente la mejor alternativa de analisis.
2. Aplicar la metodologa estadstica adecuada para el dise no de contrastes de hipotesis para la
toma de decisiones en el ambito profesional.
3. Analizar de forma crtica los elementos basicos de los modelos econometricos para comprender
la l ogica de la modelizaci on econometrica y poder especicar relaciones causales entre variables
econ omicas.
4. Aplicar la metodologa econometrica basica para estimar y validar relaciones econ omicas en
base a la informacion estadstica disponible sobre variables econ omicas y utilizando los ins-
trumentos inform aticos apropiados.
5. Obtener e interpretar los resultados de un analisis estadstico de datos econ omicos haciendo
uso de las fuentes de informacion apropiadas y de los instrumentos inform aticos necesarios.
6. Presentar de forma clara y concisa, tanto oralmente como por escrito, las conclusiones obte-
nidas en un caso de estudio particular.
El sistema actual de docencia dentro del EEES tiene como ejes fundamentales el proceso de en-
se nanza-aprendizaje y la adquisicion no solo de conocimientos, sino tambien, y fundamentalmente,
de destrezas implica directamente la valoraci on del trabajo diario del alumno y su evoluci on en la
adquisicion de las competencias. La utilizaci on de la evaluacion continua en la evaluacion de los
iv
Estadstica Actuarial: An alisis de Regresi on
alumnos implica la realizacion, junto con otras pruebas y tareas que el docente crea de interes, de
test rapidos o de preguntas cortas en relacion a todo lo visto en las clases, conceptos te oricos y
ejercicios practicos incluido el software gretl que permitan evaluar al alumno y saber si han adqui-
rido los resultados del aprendizaje alcanzando as las competencias especcas. Parte de las pruebas
tendr an componente de sorpresa, es decir sin previo aviso, y parte ser an pactadas en cuanto a fecha.
Como se indicaba anteriormente estas notas sirven de apoyo al estudio. Analizan los problemas en
profundidad y permiten al alumno profundizar en los temas que conforman el contenido del curso.
As mismo tienen una fuerte vertiente practica que permitira al alumno no solo saber sino tambien
saber hacer. En ning un caso deben utilizarse como sustituto de los libros incluidos en la bibliografa.
De igual manera se recomienda la realizaci on de ejercicios tanto los recomendados en clase como los
que aparecen en la bibliografa. La union del estudio de los conceptos y la utilizaci on de los mismos
en los ejercicios permite adquirir la agilidad necesaria para el dominio de la asignatura y alcanzar
las competencias especcas de la misma.
Sobre el software gretl
A lo largo del curso se muestra como utilizar un software gretl que permite al alumno un aan-
zamiento de los contenidos teoricos del curso de Econometra como la puesta en practica de casos
reales con la utilizaci on del software gretl
1
.
gretl es software libre especialmente dirigido hacia la practica de la econometra y la estadstica,
muy facil de utilizar. Ha sido elaborado por Allin Cottrell (Universidad Wake Forest) y existen
versiones en ingles, castellano y euskera, ademas de en otros idiomas. Junto con el programa se
pueden cargar los datos utilizados como ejemplos de aplicaciones econometricas en los siguientes
libros de texto Davidson y Mackinnon (2004), Greene (2008), Gujarati (1997), Ramanathan (2002),
Stock y Watson (2003), Verbeek (2004), Wooldridge (2003). Al instalar gretl autom aticamente se
cargan los datos utilizados en Ramanathan (2002) y Greene (2008). El resto se pueden descargar
de la pagina:
http: //gretl.sourceforge.net/gretl

data.html
en la opci on textbook datasets. Este curso se estructura sobre casos practicos presentados en Rama-
nathan (2002) y en Wooldridge (2003) y ejercicios a resolver con ayuda de gretl.
Tambien da acceso a bases de datos muy amplias, tanto de organismos p ublicos, como el Banco de
Espa na, como de ejemplos recogidos en textos de Econometra. En la pagina
http: //gretl.sourceforge.net/gretl

espanol.html
se encuentra la informacion en castellano relativa a la instalacion y manejo del programa. Tambien
hay versiones de esta ayuda en euskera y en ingles.
Una pagina web interesante sobre las posibilidades del programa para el aprendizaje de Econometra
es:
http://www.learneconometrics.com/gretl.html
1
Acronimo de Gnu Regression, Econometric and Time Series (Biblioteca Gnu de Regresion Econometra y Series
Temporales)
v
Estadstica Actuarial: An alisis de Regresi on
vi
Contenido
1. Variables Aleatorias. Poblaci on y muestra 1
1.1. Variables aleatorias y distribuciones de probabilidad. Ejemplos . . . . . . . . . . . . 3
1.1.1. Variables aleatorias discretas y distribuciones de probabilidad . . . . . . . . 3
1.1.2. Variables aleatorias continuas y distribuciones de probabilidad . . . . . . . . 4
1.1.3. Esperanzas y variables aleatorias . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.1.4. Dos variables aleatorias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.1.5. M as de dos variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.2. La distribucion normal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
1.2.1. La distribucion normal estandarizada . . . . . . . . . . . . . . . . . . . . . . 18
1.2.2. La distribucion chi-cuadrado . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
1.2.3. La distribucion t-Student . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
1.2.4. La distribucion F-Snedecor . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
1.3. Muestreo de una poblacion. Muestras aleatorias . . . . . . . . . . . . . . . . . . . . . 23
1.4. Estadsticos y distribuciones en el muestreo . . . . . . . . . . . . . . . . . . . . . . . 24
1.5. La distribucion de la media muestral . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
1.6. Bibliografa del tema . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
2. Estimaci on por punto y por intervalo 29
2.1. Introducci on a la inferencia estadstica . . . . . . . . . . . . . . . . . . . . . . . . . . 31
2.2. Estimadores puntuales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
2.2.1. Propiedades . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
2.2.2. Estimadores de la media y la varianza . . . . . . . . . . . . . . . . . . . . . . 34
2.3. Estimacion por intervalo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
2.3.1. Intervalos de conanza y nivel de conanza . . . . . . . . . . . . . . . . . . . 36
vii
Estadstica Actuarial: An alisis de Regresi on
2.3.2. Intervalos de conanza para la media de una poblacion normal con varianza
conocida . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
2.3.3. Intervalos de conanza para la media de una poblacion normal con varianza
desconocida. La distribucion t de Student . . . . . . . . . . . . . . . . . . . . 37
2.3.4. Otros ejemplos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
2.4. Bibliografa del tema . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
3. Contraste de hip otesis 43
3.1. Concepto de hipotesis nula e hipotesis alternativa . . . . . . . . . . . . . . . . . . . . 45
3.2. Tipos de error en el contraste y potencia de un contraste . . . . . . . . . . . . . . . . 46
3.3. El p-valor y conclusiones del contraste . . . . . . . . . . . . . . . . . . . . . . . . . . 47
3.4. Pasos en la realizacion de un contraste . . . . . . . . . . . . . . . . . . . . . . . . . . 48
3.5. Aplicaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
3.5.1. Contrastes de la media de una distribucion normal . . . . . . . . . . . . . . . 48
3.5.2. Otros ejemplos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
3.6. Tratamiento de la informacion con gretl : inclusion de datos en gretl y analisis des-
criptivo basico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
3.7. Bibliografa del tema . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
4. Modelo econometrico: introducci on 61
4.1. Modelo econ omico y modelo econometrico . . . . . . . . . . . . . . . . . . . . . . . . 63
4.2. Etapas en la elaboracion de un modelo econometrico . . . . . . . . . . . . . . . . . . 65
4.3. Tipologa de datos y variables en Econometra . . . . . . . . . . . . . . . . . . . . . 66
4.3.1. Conceptos basicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
4.3.2. Fuentes de datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
4.4. Bibliografa del tema . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
5. Modelo de Regresi on Lineal General 73
5.1. Especicacion del Modelo de Regresi on Lineal General (MRLG): supuestos basicos . 76
5.1.1. Hipotesis basicas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78
5.2. Forma funcional. Interpretaci on de los coecientes. . . . . . . . . . . . . . . . . . . . 81
5.3. Estimacion por Mnimos Cuadrados Ordinarios (MCO) . . . . . . . . . . . . . . . . 88
5.3.1. Metodo de estimaci on de Mnimos Cuadrados Ordinarios (MCO) . . . . . . . 89
5.3.2. Propiedades de la Funci on de Regresi on Muestral, FRM . . . . . . . . . . . . 95
viii
Estadstica Actuarial: An alisis de Regresi on
5.3.3. Medidas de bondad del ajuste . . . . . . . . . . . . . . . . . . . . . . . . . . . 96
5.4. Propiedades de los estimadores MCO . . . . . . . . . . . . . . . . . . . . . . . . . . . 100
5.4.1. Propiedades de los estimadores MCO . . . . . . . . . . . . . . . . . . . . . . 100
5.4.2. Estimacion de la varianza de las perturbaciones . . . . . . . . . . . . . . . . . 102
5.4.3. Consecuencias del incumplimiento de algunos supuestos: colinealidad . . . . . 104
5.4.4. Consecuencias del incumplimiento de algunos supuestos: omision de variables
relevantes e inclusion de variables irrelevantes . . . . . . . . . . . . . . . . . . 108
5.5. Utilizaci on de variables explicativas cualitativas . . . . . . . . . . . . . . . . . . . . . 110
5.5.1. Modelo que recoge solo efectos cualitativos: comparando medias. Solo un con-
junto de variables cticias. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111
5.5.2. Dos o mas conjuntos de variables cticias . . . . . . . . . . . . . . . . . . . . 114
5.5.3. Inclusion de variables cuantitativas . . . . . . . . . . . . . . . . . . . . . . . . 115
5.5.4. Comportamiento estacional . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116
5.5.5. Efectos de interacci on . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116
5.6. Distribuci on del estimador MCO. Estimacion por intervalo . . . . . . . . . . . . . . . 118
5.6.1. Distribuci on del estimador de MCO bajo Normalidad . . . . . . . . . . . . . 118
5.6.2. Estimacion por intervalo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 118
5.7. Contraste de hipotesis sobre los coecientes de la regresion . . . . . . . . . . . . . . . 119
5.7.1. Contraste de restricciones sobre los coecientes de regresion individuales . . . 119
5.7.2. Contraste de restricciones sobre los coecientes de regresion . . . . . . . . . . 121
5.7.3. Contrastes basados en sumas de cuadrados de residuos . . . . . . . . . . . . . 125
5.8. Estimacion del MRLG con gretl : principales resultados, contraste de hipotesis . . . . 142
5.8.1. Tratamiento de las variables cticias en gretl. . . . . . . . . . . . . . . . . . . 145
5.9. Apendice . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 151
5.9.1. Anexo 1. Distintas expresiones de SCT, SCE y SCR . . . . . . . . . . . . . . 151
5.9.2. Anexo 2. Demostraci on de la insesgadez de
2
. . . . . . . . . . . . . . . . . . 151
5.9.3. Anexo 3. Distribuciones que nos interesan . . . . . . . . . . . . . . . . . . . . 153
5.10. Bibliografa del tema . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 154
6. Validaci on 155
6.1. Forma funcional . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 157
6.2. Sobre constancia de los coecientes: contraste de cambio estructural . . . . . . . . . 159
6.3. Sobre las perturbaciones: contrastes de heterocedasticidad y ausencia de correlacion 160
ix
Estadstica Actuarial: An alisis de Regresi on
6.3.1. Contraste de heterocedasticidad . . . . . . . . . . . . . . . . . . . . . . . . . 160
6.3.2. Deteccion gr aca. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 164
6.3.3. Contraste de White . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 167
6.3.4. Contraste de ausencia de correlacion temporal . . . . . . . . . . . . . . . . . 168
6.4. Prediccion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 176
6.5. Validacion en gretl . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 179
6.5.1. Contraste de Ramsey con gretl . . . . . . . . . . . . . . . . . . . . . . . . . . 179
6.5.2. Contraste de cambio estructural o Chow con gretl . . . . . . . . . . . . . . . 181
6.5.3. Contraste de heterocedasticidad con gretl . . . . . . . . . . . . . . . . . . . . 184
6.5.4. Contraste de ausencia de correlacion con gretl . . . . . . . . . . . . . . . . . . 186
6.5.5. Prediccion en gretl . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 190
6.6. Bibliografa del tema . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 192
7. Gua para el desarrollo de un proyecto emprico 193
7.1. Caractersticas basicas del proyecto . . . . . . . . . . . . . . . . . . . . . . . . . . . . 193
Bibliografa 197
x
Figuras
1.1. Distribuci on normal bivariante . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.2. Ejemplos de funci on de densidad de la distribucion normal . . . . . . . . . . . . . . 16
1.3. Funci on de distribucion acumulada de la distribuci on normal . . . . . . . . . . . . . 17
1.4. Probabilidades correspondientes a Z = 1, 65 y Z = 1, 65 en la distribucion normal
estandar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
1.5. Funci on de densidad de la distribucion Chi-cuadrado . . . . . . . . . . . . . . . . . . 21
1.6. Funci on de densidad de la distribucion t-Student . . . . . . . . . . . . . . . . . . . . 22
1.7. Funci on de densidad de la distribucion F-Snedecor . . . . . . . . . . . . . . . . . . . 22
2.1. Sesgo y varianza de estimadores . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
2.2. Ejemplos de distribucion de estimadores . . . . . . . . . . . . . . . . . . . . . . . . . 33
3.1. Gr acos de las observaciones para las variables price y sqft . . . . . . . . . . . . . . 57
5.1. Perturbaciones homoced asticas versus heteroced asticas . . . . . . . . . . . . . . . . . 79
5.2. Funci on de regresion poblacional y funci on de regresion muestral . . . . . . . . . . . 89
6.1. Relaciones econ omicas no lineales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 157
6.2. Perturbaciones homoced asticas versus heteroced asticas . . . . . . . . . . . . . . . . . 161
6.3. Residuos MCO versus POP . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 165
6.4. Residuos MCO versus POP . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 165
6.5. Residuos MCO y sus cuadrados versus SEN . . . . . . . . . . . . . . . . . . . . . . . 166
6.6. Perturbaciones homoced asticas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 166
6.7. Residuos MCO frente a una variable cticia . . . . . . . . . . . . . . . . . . . . . . . 167
6.8. Proceso autorregresivo de orden uno . . . . . . . . . . . . . . . . . . . . . . . . . . . 172
6.9. Perturbaciones AR(1) positivo versus AR(1) negativo . . . . . . . . . . . . . . . . . 173
xi
Estadstica Actuarial: An alisis de Regresi on
6.10. Variable endogena versus exogena . . . . . . . . . . . . . . . . . . . . . . . . . . . . 181
6.11. Gasto sanitario real y ajustado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 185
6.12. Residuos MCO versus RENTA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 186
6.13. Residuos versus tiempo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 187
6.14. Residuos en t versus residuos en t-1 . . . . . . . . . . . . . . . . . . . . . . . . . . . 188
6.15. Variable endogena versus exogena . . . . . . . . . . . . . . . . . . . . . . . . . . . . 189
6.16. Residuos modelo (6.20) versus tiempo . . . . . . . . . . . . . . . . . . . . . . . . . . 190
xii
Tablas
1.1. Funci on de densidad de probabilidad conjunta f(x, y) . . . . . . . . . . . . . . . . . 11
1.2. Distribuciones marginales para X e Y . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.1. Datos sobre salario medio por hora . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
2.2. Tama no de la cadera para 50 individuos. . . . . . . . . . . . . . . . . . . . . . . . . . 41
5.1. Datos de caractersticas de viviendas. Fichero 4-1.gdt. . . . . . . . . . . . . . . . . . 94
5.2. observaciones muestrales de la prima pagada y renta . . . . . . . . . . . . . . . . . . 135
6.1. Observaciones sobre rendimiento y t/i por pas . . . . . . . . . . . . . . . . . . . . . 179
7.1. Modelos estimados para el precio de la vivienda PRICE . . . . . . . . . . . . . . . 196
7.2. Funci on de Salarios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 196
xiii
Tema 1
Variables Aleatorias. Poblacion y muestra
En las clases del tema de Variables Aleatorias vamos a revisar y/o introducir los principales concep-
tos de probabilidad. Comenzaremos deniendo el concepto de variable aleatoria discreta y continua
as como sus funciones de distribucion de probabilidad. Revisaremos las propiedades de las funciones
de distribucion de probabilidad prestando especial atenci on al concepto de valor esperado y al con-
cepto de varianza. En general, no estudiaremos el comportamiento de una unica variable por lo que
necesitaremos introducir el concepto de distribucion de probabilidad conjunta, probabilidad condi-
cionada e independencia estadstica. Dentro de las muchas distribuciones de probabilidad especcas
de que disponemos mostraremos las principales funciones de distribucion de probabilidad utilizadas
en Econometra: la normal, la normal estandar, la chi-cuadrado, la t-Student y la F-Snedecor.
Los metodos estadsticos centran la atenci on en la realizaci on de inferencias sobre grandes pobla-
ciones de objetos utilizando una peque na muestra de los mismos. Por ello para nalizar el tema
introduciremos el concepto de muestreo aleatorio, estadsticos muestrales y distribuciones en el
muestreo para nalizar mostrando la distribucion del estadstico media muestral.
A lo largo del tema se han introducido ejemplos ilustrativos de los conceptos a aprender as como
ejercicios basicos que han de ser resueltos por el alumno.
Competencias a trabajar en estas sesiones:
5. Obtener e interpretar los resultados de un analisis estadstico de datos econ omicos haciendo
uso de las fuentes de informacion apropiadas y de los instrumentos inform aticos necesarios.
Al nal de este tema deberais ser capaces de:
1. Explicar la diferencia entre una variable aleatoria discreta y una variable aleatoria continua
proporcionando ejemplos de cada una de ellas.
2. Explicar la diferencia entre la funci on de densidad de probabilidad de una variable aleatoria
discreta y a funci on de densidad de probabilidad de una variable aleatoria continua.
1
Estadstica Actuarial: An alisis de Regresi on
3. Explicar el concepto de media o valor esperado de una variable aleatoria.
4. Calcular la media y varianza de funciones de variables aleatorias.
5. Calcular probabilidades utilizando la distribucion normal.
6. Denir los principales estadsticos muestrales.
7. Obtener la distribucion de la media muestral.
Bibliografa Recomendada:
Al nal del tema teneis recogida la bibliografa correspondiente. En particular se os recomienda leer
los captulos correspondientes a la bibliografa basica detallados a continuaci on:
Gujarati, D. y Porter, D.C. (2010). Apendice A.
Newbold, P., Carlson, W.L. y Thorne, B. (2008). Cap. 5 sec. 5.1; 5.2; 5.3 y 5.7; Cap. 6 salvo
la sec. 6.5 y Cap. 7 sec. 7.1 y 7.2.
Ramanathan, R. (2002). Cap. 2.
Ruiz Maya, L. y Martn Pliego, F.J. (2005). Cap. 1
Wooldridge, J.M. (2006). Apendice B.
2
Estadstica Actuarial: An alisis de Regresi on
1.1. Variables aleatorias y distribuciones de probabilidad. Ejemplos
Una variable aleatoria es una variable que toma valores numericos determinados por el azar.
Desde el punto de vista de la notaci on es importante distinguir entre una variable aleatoria y los
valores posibles que esta puede tomar. Denotamos en may uscula, X a la variable aleatoria y con su
correspondiente min uscula un valor posible de la misma.
Ejemplo 1.1
Se mide la altura de un individuo y el peso corporal, dos variables aleatorias son, X =
altura, Y = peso y sus valores posibles por ejemplo seran: x = 156 cm, x = 179 cm, . . .;
y = 60 kg, y = 87 kg, . . .
Ejemplo 1.2
Consideremos el lanzamiento de un dado. Sea el espacio muestral = {1, 2, 3, 4, 5, 6} la
variable X = N
o
de puntos, puede tomar los valores: x = {1, 2, 3, 4, 5, 6} cada uno con
probabilidad P(x = 1) = P(x = 2) = . . . = P(x = 6) =
1
6
.
Hay que distinguir entre variables aleatorias discretas y variables aleatorias continuas.
Una variable aleatoria es discreta si no puede tomar m as que una cantidad numerable de valores.
El conjunto de realizaciones es nito o innito pero numerable. Por ejemplo el n umero de hijos de
una familia, el n umero de clientes de un bar en un da, el n umero de veces que sale cara al lanzar
diez veces una moneda al aire. En el Ejemplo 1.2 X es una variable discreta.
Una variable aleatoria es continua si puede tomar cualquier valor de un intervalo. El conjunto
de realizaciones es innitamente divisible y por tanto no numerable. Por ejemplo la renta anual de
una familia, la temperatura, la variaci on en el precio de las acciones ordinarias de IBM en un da.
En el Ejemplo 1.1 las variables peso y altura son variables continuas.
En la practica se consideran variables discretas cuando tiene sentido asignar probabilidades a los
resultados individuales posibles. La contabilidad de los sucesos genera observaciones de variables
aleatorias discretas mientras que mediciones como tiempo, renta, generan observaciones sobre va-
riables aleatorias continuas. Muchos indicadores econ omicos y empresariales como las ventas, la
inversion, el consumo, los ingresos, etc. pueden representarse como variables aleatorias continuas.
1.1.1. Variables aleatorias discretas y distribuciones de probabilidad
Sea X una variable aleatoria discreta y x uno de sus posibles valores. La probabilidad de que la va-
riable aleatoria X tome el valor especco x se denota por P(X = x). El conjunto de probabilidades
se denomina funci on de densidad de probabilidad, fdp y se denota f(x).
Funcion de densidad de probabilidad de una variable aleatoria discreta. La funci on de distribu-
ci on de probabilidad, P(x), de una variable aleatoria discreta X expresa la probabilidad de que X
3
Estadstica Actuarial: An alisis de Regresi on
tome el valor x, como una funci on de x:
f(x) = P(X = x), para todos los valores de x
Dado que la funci on de probabilidad solo toma
valores distintos de 0 en puntos discretos x, a
veces se la llama funci on de masa de probabi-
lidad. Se puede representar gr acamente. A la
derecha se muestra la funci on de densidad de
una variable discreta que toma valores 1, 2 y 3
con probabilidad 0,2; 0,3 y 0,5 respectivamen-
te. Adem as se debe cumplir 0 P(x) 1 para
cualquier valor de x, es decir las probabilidades
no pueden ser negativas ni superiores a la unidad
y

x
P(x) = 1, las probabilidades individuales
suman 1.
0
0,1
0,2
0,3
0,4
0,5
0,6
0,7
0,8
0 0,5 1 1,5 2 2,5 3 3,5 4
f
(
x
)
X
Funcion de distribucion acumulada. La funci on de probabilidad acumulada F(x
0
) de una variable
aleatoria X expresa la probabilidad de que X no tenga un valor superior a x
0
, como una funci on
de x
0
. Es decir,
F(x
0
) = P(X x
0
)
donde la funci on se eval ua en todos los valores de x
0
.
Relaci on entre la funcion de densidad de probabilidad y la funcion de distribucion acumulada.
Sea X una variable aleatoria con funci on de probabilidad P(x) y funci on de probabilidad acumulada
F(x
0
). Se puede demostrar que
F(x
0
) =

xx
0
P(x)
1.1.2. Variables aleatorias continuas y distribuciones de probabilidad
Muchos indicadores econ omicos y empresariales como las ventas, la inversion, el consumo, los in-
gresos, etc. pueden representarse como variables aleatorias continuas, por ello vamos a dedicar este
punto a su estudio.
Sea X una variable aleatoria y x un valor determinado de la misma. Podemos denir una funci on
de densidad de probabilidad para variables aleatorias continuas y al igual que con las variables
aleatorias discretas la fdp nos informa de la probabilidad asociada a los resultados posibles de
la variable aleatoria. Sin embargo no tiene sentido hablar de la probabilidad de que una variable
aleatoria continua tome un valor determinado, usaremos la fdp de la variable aleatoria continua solo
para calcular la probabilidad de los sucesos referidos a un intervalo de valores. Si X es continua
la probabilidad asociada a cualquier punto en particular es cero por lo que nos referimos a la
probabilidad de que X tome valores en un intervalo. Para calcular probabilidades para variables
aleatorias continuas es mas sencillo trabajar con la funci on de distribuci on acumulada, fda.
4
Estadstica Actuarial: An alisis de Regresi on
Funcion de distribucion acumulada. La funci on de distribucion acumulada F(x) de una variable
aleatoria continua X expresa la probabilidad de que X no sea mayor que el valor x, en funci on de
x:
F(x) = P(X x)
Para entender el concepto de funci on de distribucion, se suele recurrir a un smil fsico: una masa
igual a la unidad, distribuida a lo largo del campo de variaci on de la variable. En esta situaci on,
la funci on de distribucion F(x) = P(X x) proporciona la cantidad de masa que hay en el punto
x y a su izquierda hasta el extremo inferior del campo de variaci on de la variable. La funci on de
distribucion, por su denici on no puede ser negativa, al ser una probabilidad, ni decreciente, pues
es acumulativa. Adem as por ser una probabilidad esta acotada: 0 F(x) 1.
Probabilidad de un intervalo utilizando una funcion de distribucion acumulada. Sea X una
variable aleatoria continua que tiene una funci on de distribucion acumulada F(x) y sean a y b dos
valores posibles de X, siendo a < b. La probabilidad de que X se encuentre entre a y b es
P(a < X < b) = F(b) F(a)
Una variable aleatoria es continua si su funci on de distribucion, F(x) es continua, la primera derivada
existe y es continua. Esto signica que el dominio de la variable aleatoria es un continuo, y que
ademas no existe ning un punto de la recta con probabilidad no nula. Suponemos, por simplicidad,
que en las variables aleatorias continuas la funci on de distribucion es derivable en el interior del
dominio. En este caso, a su derivada le llamamos funci on de densidad de probabilidad y la
denotamos por f(x). La relacion existente con la funci on distribucion es:
F(x) =
_

f(x)dx, f(x) = F

(x)
La funci on de densidad de probabilidad, f(x), de la variable aleatoria es una funci on que tiene las
siguientes propiedades:
1. f(x) > 0 para todos los valores de x.
2. El area situada debajo de la funci on de densidad
de probabilidad f(x), cuando se abarcan todos
los valores de la variable aleatoria, X, es igual a
la unidad.
3. El gr aco de la derecha representa gr acamente
la funci on de densidad de una variable aleatoria
continua. Sean a y b dos valores posibles de la
variable aleatoria X, siendo a < b. En este caso
la probabilidad de que X se encuentre entre a
y b es el area situada debajo de la funci on de
densidad entre estos puntos.
P(a X b) =
_
b
a
f(x)dx
0
0,05
0,1
0,15
0,2
0,25
0,3
0,35
0,4
-5 -4 -3 -2 -1 0 1 2 3 4 5
f
(
X
)
X
N(0, 1)
a b
P(a<X<b)
5
Estadstica Actuarial: An alisis de Regresi on
1.1.3. Esperanzas y variables aleatorias
La distribucion de probabilidad de una variable aleatoria contiene toda la informacion sobre propie-
dades probabilsticas de una variable aleatoria. Su examen gr aco puede servir para describirla, sin
embargo, es necesario establecer medidas estadsticas que sirvan para caracterizar la distribucion.
Las medidas mas importantes son la media o valor esperado y la varianza.
Media de una variable aleatoria. La media o valor esperado de una variable aleatoria se
denota como E(X) y se dene como:
E(X) =
X
=
_
_
_

x
xP(x) si X es discreta
_
x
xf(x)dx si X es continua
(1.1)
donde E se conoce como el operador de esperanza matem atica.
La media es un promedio ponderado de los valores x que toma la variable donde las ponderaciones
son las probabilidades respectivas. La media recoge el centro de gravedad sobre el que se distribuye
la variable. Cuanto mayor es la media, mayor es el valor que se espera que tomen las realizaciones
de la variable. En la practica la media no tiene porque coincidir con un valor que tome la variable.
Ejemplo 1.3
Sea X variable aleatoria discreta que puede tomar los valores 1, 2 y 3 con proba-
bilidades 0,20; 0,30 y 0,50 respectivamente. Su esperanza matem atica es:
E(X) =

x
xP(x) = 1 0, 20 + 2 0, 3 + 3 0, 50 = 2, 30
Consideremos la variable continua denida por: f(x) = 4x
3
0 x 1. Su
esperanza matem atica es:
E(X) =
_
x
xf(x)dx =
_
1
0
x4x
3
dx = 4
_
x
5
5
_
1
0
=
4
5
Varianza de una variable aleatoria. La varianza de una variable aleatoria se denota como
V (X) =
2
X
y se dene como:
V (X) =
2
X
= E[(X
X
)
2
] =
_
_
_

x
(x
X
)
2
P(x) si X es discreta
_
x
(x
X
)
2
f(x)dx si X es continua
(1.2)
La varianza es una medida de dispersion de la distribucion, siendo la dispersion la mayor o menor
variabilidad de los valores de la variable aleatoria alrededor de su valor medio.
6
Estadstica Actuarial: An alisis de Regresi on
La varianza tambien puede expresarse como:

2
X
= E(X
2
)
2
X
(1.3)
De donde trabajando la expresi on anterior obtenemos un resultado util: E(X
2
) =
2
X
+
X
.
La desviaci on tpica o estandar es la raz cuadrada positiva de la varianza y se denota por
X
.
En general es el valor que se utiliza para describir una distribucion.
La varianza es una medida de dispersion, siendo la dispersion la mayor o menor variabilidad de los
valores de la variable aleatoria alrededor de su valor medio. Si la varianza es peque na ser a porque
las desviaciones de la variable aleatoria en torno a su valor medio son peque nas, con lo que la
media ser a representativa del conjunto de valores de la distribucion y por consiguiente, la dispersion
ser a peque na. Si la varianza es grande, la dispersion ser a grande y la media de la variable aleatoria
no ser a representativa. Cuanto mayor sea la varianza mayor es la probabilidad de obtener valores
alejados de
X
.
Ejemplo 1.4
Supongamos que X es la variable rendimiento de una cartera de valores.
X
mide el
rendimiento, en media, que esperamos obtener de esa cartera y
2
X
nos da la dispersion
de los posibles rendimientos. Si
2
X
es grande entonces tendremos una gran probabilidad
de obtener rendimientos mucho mayores o mucho menores de lo esperado
X
. Por lo
tanto
2
X
mide el riesgo de la cartera. Cuanto mayor es
2
X
m as arriesgada es la cartera.
La media y la varianza constituyen dos importantes indicadores sinteticos de una distribucion de
probabilidad. La media es una medida del centro de la distribucion mientras que la varianza es una
medida de su dispersion. Otras dos medidas que tambien se utilizan habitualmente para describir
una distribucion de probabilidad desde el punto de vista de su forma son el coeciente de asimetra
y el coeciente de curtosis.
Asimetra. El coeciente de asimetra es:

1
=
E[(X
X
)
3
]

3
=

3

3
(1.4)
donde
3
es el momento de orden 3 respecto a la media. Si
1
= 0 la distribucion es simetrica y por
tanto las desviaciones por la derecha tienen el mismo peso que las desviaciones por la izquierda. Si

1
> 0 la distribucion es asimetrica (+). Si
1
< 0 la distribucion es asimetrica ().
Curtosis. La curtosis hace referencia al apuntamiento o achatamiento de una distribucion de pro-
babilidad cuando se compara con la normal. El coeciente de curtosis se dene:
E[(X
X
)
4
]

4
=

4

4
7
Estadstica Actuarial: An alisis de Regresi on
Para evaluar la curtosis es necesario que la distribucion tenga perl campaniforme y sea modera-
damente asimetrica ya que la curtosis trata de analizar la zona central de la distribucion; la mayor
o menor presencia de valores de la variable aleatoria alrededor de su valor medio, es decir en su
zona central, dara lugar a una distribucion m as o menos apuntada. En general se eval ua el exceso
de curtosis:

2
=

4

4
3 (1.5)
Esta medida esta basada en la distribucion normal cuyo exceso de curtosis es cero. Si
2
= 0
la distribucion tendr a el perl de la distribucion normal y se le dice mesoc urtica. Si
2
> 0 la
distribucion es mas apuntada que la distribucion normal y se le denomina leptoc urtica. Si
2
< 0
la distribucion es mas achatada que la distribucion normal y se le denomina platic urtica.
Ejercicio 1.1
Calcular media, varianza y desviacion tpica de la variable aleatoria discreta X cuya
funci on de probabilidad es:
x 0 1 2 3
P(x) 0,1 0,3 0,4 0,2
1.1.4. Dos variables aleatorias
Para responder a preguntas relativas a dos o m as variables aleatorias debemos conocer su funci on de
densidad conjunta. La funci on de densidad conjunta describe las probabilidades de que se puedan
producir combinaciones de valores de ambas variables. Si las variables aleatorias X e Y son discretas,
a cada posible par de resultados (x
i
, y
j
) podemos asignar una probabilidad p(x
i
, y
j
). El conjunto
de probabilidades es la funci on de probabilidad conjunta, cumpliendose que 0 p(x
i
, y
j
) 1 y

j
p(x
i
, y
j
) = 1.
Si las variables aleatorias son continuas, su distribucion conjunta se recoge mediante la funci on de
densidad conjunta f(x, y). Si las dos variables siguen una distribucion normal, la forma tpica de su
funci on de densidad conjunta se encuentra en la Figura 1.1.
El volumen total recogido bajo esta supercie es la masa de probabilidad total que es igual a la
unidad, es decir,
_
x
_
y
f(x, y) dxdy = 1. Adem as, la funci on no toma valores negativos, f(x, y) 0.
As, el volumen debajo del rectangulo denido por dos puntos (a, b) mide la probabilidad de que X
tome valores por debajo de a e Y por debajo de b. Es decir,
P(X a, Y b) =
_
a

_
b

f(x, y) dxdy
Por ejemplo, el volumen recogido bajo la supercie marcada en la Figura 1.1 es la probabilidad
de que X 2 e Y 5. La funci on de densidad marginal de cada variable puede obtenerse
mediante integracion. As:
f(x) =
_

f(x, y) dy f(y) =
_

f(x, y) dx (1.6)
8
Estadstica Actuarial: An alisis de Regresi on
Figura 1.1: Distribuci on normal bivariante
La distribucion conjunta de dos variables aleatorias se puede resumir mediante:
El centro de gravedad de cada variable, es decir, las medias (
X
,
Y
), que se obtienen de las
distribuciones marginales recogidas en (1.6).
Medidas de dispersion de cada variable alrededor de su media, por ejemplo, las varianzas de
X e Y ,
2
X
y
2
Y
, que se derivan de las distribuciones marginales recogidas en (1.6).
Medida de la relacion lineal entre las dos variables aleatorias, para lo que se utiliza la covarianza

XY
:
Cov(X, Y ) =
XY
= E[(X
X
)(Y
Y
)] = E(XY )
X

Y
o bien el coeciente de correlacion entre las variables,
corr(X, Y ) =
XY
=
Cov(X, Y )
desv(X)desv(Y )
=

XY

Y
[1, 1]
La covarianza mide la variaci on conjunta de dos variables. As, si
XY
=
XY
= 0 se dice
que las variables X e Y estan incorrelacionadas. El coeciente de correlacion mide el grado
de asociacion lineal entre dos variables. Su valor se encuentra entre 1 y 1, un valor de 1
indica asociacion perfecta negativa y un valor de 1 asociacion perfecta positiva.
La distribucion conjunta se resume en el vector de medias y la matriz de varianzas y covarianzas
denotada por o V :
=
_

X

Y
_
=
_
V (X) Cov(X, Y )
Cov(X, Y ) V (Y )
_
=
_

2
X

XY

XY

2
Y
_
Distribucion condicionada. Al estudiar un conjunto de variables, interesa evaluar la posibilidad
de que un suceso ocurra dado que otro suceso ha tenido lugar. Por ejemplo, cual es la probabilidad
de que una mujer casada y con hijos en edad escolar participe en el mercado de trabajo? La pro-
babilidad condicionada permite responder este tipo de preguntas. Si las variables son discretas,
9
Estadstica Actuarial: An alisis de Regresi on
se dene la distribucion condicional de Y dado que la variable aleatoria X toma el valor x
i
como:
P(Y = y
j
|X = x
i
) =
P(Y = y
j
, X = x
i
)
P(X = x
i
)
=
p(x
i
, y
j
)

j
p(x
i
, y
j
)
para P(X = x
i
) > 0
Si las variables son continuas, se dene la funci on de densidad de Y condicionada a que la variable
aleatoria X tome el valor x (para f(x) > 0):
f(y|X = x) =
f(x, y)
f(x)
De esta forma se obtiene una nueva distribucion, con las propiedades ya vistas. Los momentos de
interes de esta distribucion se denominan media y varianza condicionada de Y para el valor dado
de X = x, y se denotan E(Y |X = x) y V (Y |X = x).
Independencia. Dos variables aleatorias X y Y son estadsticamente independientes o estan inde-
pendientemente distribuidas si conocido el valor que toma una de ellas, no aporta ninguna informa-
ci on sobre el valor que puede tomar la segunda. Si las variables X e Y son independientes, entonces
su funci on de densidad conjunta puede descomponerse seg un:
f(x, y) = f(x) f(y) < x, y <
Adem as, se tiene que f(y|X = x) = f(y). Se demuestra que si X e Y son independientes, entonces
Cov(X, Y ) = 0. Tambien se demuestra que, si las variables X e Y se distribuyen conjuntamente
seg un una normal y Cov(X, Y ) = 0, entonces X e Y son independientes.
Ejemplo 1.5
Distribuci on de probabilidad conjunta de dos variables aleatorias discretas:
Supongamos que queremos conocer la probabilidad de que un individuo seleccionado
aleatoriamente de una poblacion posea una licenciatura y haya tenido rentas salariales
en el a no 2003. La Tabla 5.2 recoge la funci on de probabilidad conjunta de dos variables.
La variable X caracteriza los niveles de educaci on que pueden alcanzar los individuos.
Toma los valores 1, 2, 3, 4 seg un el grado de estudios alcanzado por el individuo. El valor
1 indica alcanzar educaci on secundaria obligatoria, 2 indica alcanzar bachiller, 3 indica
poseer educaci on superior y 4 tener un master. La variable Y es una variable dicot omica
que toma valor 1 si el individuo ha tenido rentas salariales en el a no 2003 y 0 en caso
contrario. Esta tabla permite obtener los siguientes resultados:
Probabilidad conjunta:
La probabilidad de que una persona seleccionada al azar tenga estudios superiores y
haya obtenido rentas salariales en el a no 2003 es P(X = 3, Y = 1) = f(3, 1) = 0, 14.
Distribuciones marginales:
La distribucion marginal de X se dene: f
X
(x) =

y
f(x, y) para cada valor que X
10
Estadstica Actuarial: An alisis de Regresi on
x
y 1 2 3 4
0 0,19 0,06 0,04 0,02
1 0,28 0,19 0,14 0,08
Tabla 1.1: Funci on de densidad de probabilidad conjunta f(x, y)
puede tomar. La distribucion marginal de Y se dene: f
Y
(y) =

x
f(x, y) para cada
valor que Y puede tomar.
Por tanto f
Y
(y) =

4
x=1
f(x, y) y = 0, 1 luego f
Y
(0) =

4
x=1
f(x, y) = 0, 19 + 0, 06 +
0, 04 + 0, 02 = 0, 31.
En general las funciones de distribucion conjunta y marginales se suelen mostrar como
a continuacion:
x
y 1 2 3 4 f
Y
(y)
0 0,19 0,06 0,04 0,02 0,31
1 0,28 0,19 0,14 0,08 0,69
f
X
(x) 0,47 0,25 0,18 0,10 1
Tabla 1.2: Distribuciones marginales para X e Y
Probabilidad condicionada:
Podemos contestar a preguntas como cual es la probabilidad de que un individuo tenga
renta salarial en el a no 2003 dado que tiene estudios superiores? En este caso debemos
de utilizar la funci on de densidad de Y condicionada a X: f(y|x) = P(Y = y|X = x), en
realidad el efecto de condicionar es reducir el conjunto de posibles resultados. Dada la
Tabla 1.2 consideramos solo el 18 % de la poblacion con ttulo superior. La tabla siguiente
recoge la probabilidad condicionada de Y dado X = 3. Dada la tabla la probabilidad
de seleccionar a un individuo con renta salariales dado que tenga estudios superiores es
de 0,78. Notar sin embargo que la probabilidad de seleccionar a un individuo, de entre
toda la poblacion, que tenga rentas salariales es de 0,69.
y f(y|X = 3)
0 0,04/0,18=0,22
1 0,14/0,18=0,78
Ejercicio 1.2
En la tabla se recoge la funci on de densidad conjunta de dos variables aleatorias discretas
X e Y . Se pide:
1. La funci on de densidad de probabilidad marginal de Y .
11
Estadstica Actuarial: An alisis de Regresi on
2. La funci on de densidad de probabilidad conjunta de Y dado que X = 2.
3. La covarianza de X e Y .
4. Son las variables independientes?
Y
1 3 9
2 1/8 1/24 1/12
X 4 1/4 1/4 0
6 1/8 1/24 1/12
1.1.5. Mas de dos variables
Los resultados anteriores se pueden generalizar a un conjunto de n variables, X
1
, X
2
, . . . , X
n
, que
se recogen en un vector
X =
_
_
_
_
_
X
1
X
2
.
.
.
X
n
_
_
_
_
_
La distribucion conjunta de estas variables se resume en el vector de medias E(X) o y la matriz
de varianzas y covarianzas V (X) o
X
. As:
E(X) = =
_
_
_
_
_
E(X
1
)
E(X
2
)
.
.
.
E(X
n
)
_
_
_
_
_
=
_
_
_
_
_

2
.
.
.

n
_
_
_
_
_
y

X
=
_
_
_
_
_
V (X
1
) Cov(X
1
, X
2
) . . . Cov(X
1
, X
n
)
Cov(X
1
, X
2
) V (X
2
) . . . Cov(X
2
, X
n
)
.
.
.
.
.
.
.
.
.
.
.
.
Cov(X
1
, X
n
) Cov(X
2
, X
n
) . . . V (X
n
)
_
_
_
_
_
=
_
_
_
_
_

2
1

1,2
. . .
1,n

1,2

2
2
. . .
2,n
.
.
.
.
.
.
.
.
.
.
.
.

1,n

2,n
. . .
2
n
_
_
_
_
_
donde
X
es una matriz cuadrada de orden n, simetrica y denida no negativa. Esto implica que
los elementos de la diagonal principal son no negativos,
2
i
0, i.
Si las variables son mutuamente independientes, entonces estan incorrelacionadas, es decir,
i,j
=
0, i = j, por lo que la matriz
X
es diagonal:

X
=
_
_
_
_
_
_

2
1
0 . . . 0
0
2
2
. . . 0
.
.
.
.
.
.
.
.
.
.
.
.
0 0 . . .
2
n
_
_
_
_
_
_
12
Estadstica Actuarial: An alisis de Regresi on
Si, ademas, X
1
, . . . , X
n
siguen la misma distribucion, con la misma media y la misma varianza:
E(X) =
_
_
_
_
_

.
.
.

_
_
_
_
_

X
=
_
_
_
_
_
_

2
0 . . . 0
0
2
. . . 0
.
.
.
.
.
.
.
.
.
.
.
.
0 0 . . .
2
_
_
_
_
_
_
=
2
I
entonces se dice que son variables aleatorias identica e independientemente distribuidas con media
y varianza
2
y se denota X
i
iid(,
2
), i = 1, . . . , n.
Si X
1
, . . . , X
n
son variables aleatorias normales, se dice que el vector X sigue una distribuci on
normal multivariante, y queda caracterizada por su vector de medias y su matriz de varianzas
y covarianzas
X
. Se denota X N( ,
X
). Si ademas las variables son independientes, con media
y varianza com un, se denota X
i
NID(,
2
), i = 1, . . . , n.
Propiedades de la esperanza matematica
La esperanza matem atica de una constante es igual a la misma constante: E(c) = c
La esperanza matem atica de una suma de variables aleatorias es igual a la suma de las espe-
ranzas matem aticas de cada una de las variables aleatorias:
E(X
1
X
2
. . . X
n
) = E(X
1
) E(X
2
) . . . E(X
n
) =
1

2
. . .
n
La esperanza matem atica de un producto de variables aleatorias es igual al producto de las
esperanzas de cada una de las variables aleatorias, si y solo si son estadsticamente indepen-
dientes:
E(X
1
X
2
X
3
. . . X
n
) = E(X
1
) E(X
2
) E(X
3
) . . . E(X
n
) =
1

2

3
. . .
n
Notar que si X e Y son independientes E(XY ) = E(X) E(Y ) pero E(X/Y ) = E(X)/E(Y )
aunque X e Y lo sean.
El valor medio, o esperanza matem atica, de las desviaciones de los valores de la variable
aleatoria respecto a su media es cero. Sea E(X) = entonces E(X ) = 0
Si a una variable aleatoria se le suma una constante su esperanza matem atica queda modicada
en esa misma constante: E(X +c) = E(X) +c = +c
Si una variable aleatoria se multiplica por una constante su esperanza matem atica queda
multiplicada por esa misma constante, E(X c) = c E(X) = c
Propiedades de la varianza
La varianza es siempre no negativa.
13
Estadstica Actuarial: An alisis de Regresi on
Varianza de una suma de variables aleatorias:
V (X Y ) = V (X) +V (Y ) 2Cov(X, Y ) =
2
X
+
2
Y
+ 2
XY
Generalizando:
V (X
1
+X
2
+. . . +X
n
) = V (X
1
) +V (X
2
) +. . . +V (X
n
) + 2
n1

i=1
n

j=i+1
Cov(X
i
, X
j
) =
=
2
1
+
2
2
+. . . +
2
n
+ 2
n1

i=1
n

j=i+1

X
i
X
j
Si X
1
, X
2
, . . . , X
n
son independientes:
V (X
1
+X
2
+. . . +X
n
) = V (X
1
) +V (X
2
) +. . . +V (X
n
) =
2
1
+
2
2
+. . . +
2
n
Si a una variable aleatoria se le suma una constante, su varianza no vara: V (X +c) = V (X)
ya que V (c) = 0
V (cX) = c
2
V (X)
V (aX +bY ) = a
2
V (X) +b
2
V (Y ) + 2 ab Cov(X, Y )
Ejemplo 1.6
Sea X una variable aleatoria continua de media
X
y varianza
2
X
y sean a y b dos
constantes cualesquiera. La media y varianza de la funci on lineal W = a +bX son:
E(W) =
W
= E(a +bX) = a +bE(X) = a +b
X
V (W) =
2
W
= V (a +bX) = b
2

2
X
Ejercicio 1.3
Sea X una variable aleatoria continua de media
X
y varianza
2
X
y sean a y b dos
constantes cualesquiera. Calcular la media y varianza de las siguientes funciones:
Y = a
Z = bX
W =
X
X

X
14
Estadstica Actuarial: An alisis de Regresi on
Ejercicio 1.4
Sea X una variable aleatoria discreta que toma valores 0, 1, 2 con probabilidad P(X =
0) = 0, 30; P(X = 1) = 0, 60; P(X = 2) = 0, 10 respectivamente. Se pide:
1. Buscar E(X), E(X
2
), V (X)
2. El valor esperado y varianza de g(X) = 3X + 2.
Ejercicio 1.5
Sea la variable aleatoria X el precio de las acciones de la empresa Biltox y sea la variable
aleatoria Y el precio de las acciones de la empresa Baltat. El Sr. Martnez ha comprado
50 y 80 acciones de cada empresa respectivamente. El valor de mercado de la cartera
del Sr. Martnez es W = 50X + 80Y . Calcular el valor medio y varianza de la cartera
siendo X (
X
,
2
X
) , Y (
Y
,
2
Y
) y
XY
= cov(X, Y ).
Ejemplo 1.7
Supongamos que el Sr. Alonso quiere crear una cartera de valores con acciones de dos
empresas. Dispone de un capital de 3000 e para invertir en acciones de las dos empresas
cuyos rendimientos por e invertido son las variables aleatorias X e Y , independientes
entre s y con igual media, , y varianza,
2
. C omo debera construir el Sr. Alonso la
cartera para minimizar el riesgo de perdida?
Supongamos que asignamos euros a la inversion en una de las empresas y (3000 )
a la otra. El rendimiento total de la inversion es:
r = X + (3000 ) Y
El rendimiento esperado de la inversion es:
E(r) = E(X) + (3000 ) E(Y ) = + (3000 ) = 3000
luego el rendimiento esperado de la inversion no depende de como este este asignado
sino exclusivamente de la media de los rendimientos . Calculamos ahora la varianza
esperada de la inversion:
V (r) =
2
V (X)+(3000)
2
V (Y ) =
2

2
+(3000)
2

2
= (2
2
6000+9000000)
2
Si se asigna = 0 o = 3000, asignando toda la inversion a acciones en una de las dos
empresas la varianza de la inversion es 9000000
2
. Si se asigna la mitad del dinero, 1500
e, a invertir en cada empresa, la varianza del rendimiento es la m as peque na posible
4500000
2
. Luego repartiendo la inversion entre las dos empresas reduce la varianza
del rendimiento de la inversion y por lo tanto puede reducir los efectos de que los
rendimientos de las acciones de una de las empresas sean muy bajos o muy altos. Si el
15
Estadstica Actuarial: An alisis de Regresi on
Sr. Alonso solo esta interesado en el rendimiento esperado que cantidad de dinero invierte
en cada empresa no es relevante, pero si ademas de estar interesado en el rendimiento
esperado tambien le preocupa el riesgo de la inversion puede minimizarlo dividiendo su
inversion a partes iguales en acciones de las dos empresas. Cualquier otra combinaci on
aumenta el riesgo de la inversion.
1.2. La distribuci on normal
Algunas situaciones experimentales dan lugar a distribuciones de probabilidad especcas. Sin em-
bargo, en economa, en la mayora de los casos, las distribuciones utilizadas son simplemente modelos
de los fen omenos observados. Una de las distribuciones m as utilizadas en economa y en las apli-
caciones empresariales es la distribucion normal ya que se adec ua a una gran variedad de variables
aleatorias, por ejemplo: las ventas de una empresa, la producci on, los precios de las acciones y bonos,
los precios de viviendas, la renta, etc.
La funci on de densidad de una variable aleatoria X con distribucion normal de media y
desviacion tpica es:
f(x) =
1

2
2
e
(x)
2
/2
2
para < x < (1.7)
La distribucion normal representa una gran familia de distribuciones, cada una con una especica-
ci on unica de los parametros y
2
. La media de la variable aleatoria es: E(X) = . La varianza de
la variable aleatoria es: V (X) = E[(X)
2
] =
2
. La forma de la funci on de densidad es una curva
simetrica en forma de campana centrada en su media y exceso de curtosis cero. Habitualmente
se denota
X N(,
2
)
0
0,05
0,1
0,15
0,2
0,25
0,3
0,35
0,4
-6 -4 -2 0 2 4 6 8 10 12
f
(
X
)
X
Igual varianza y distinta media
N(0, 1)
N(6, 1)
0
0,02
0,04
0,06
0,08
0,1
-40 -30 -20 -10 0 10 20 30 40 50
f
(
X
)
X
Igual media y distinta varianza
N(3, 81)
N(3, 16)
Figura 1.2: Ejemplos de funci on de densidad de la distribucion normal
La Figura 1.2 muestra ejemplos de la funci on de densidad de la distribucion normal. A la izquierda
se muestran dos funciones de densidad normal con igual varianza,
2
= 1, y distinta media. Notar
16
Estadstica Actuarial: An alisis de Regresi on
que cuanto mayor es la media, mayor es el valor que se espera que tomen las realizaciones del
experimento. En la derecha se muestran dos distribuciones con igual media y distinta varianza. Notar
que cuanto menor es la varianza de la variable, mayor es la probabilidad concentrada alrededor de
la media.
Funcion de distribucion acumulada de la distribucion normal. Supongamos que X N(,
2
).
La funci on de distribucion acumulada es
F(x
0
) = P(X x
0
) (1.8)
y se representa por el area debajo de la funci on de densidad normal a la izquierda de x
0
en el
gr aco de la izquierda en la Figura 1.3. A la derecha se muestra la la forma general de la funci on
de distribucion acumulada.
0
0,05
0,1
0,15
0,2
0,25
0,3
0,35
0,4
-5 -4 -3 -2 -1 0 1 2 3 4 5
f
(
X
)
X
N(0, 1)
Xo
0
0,1
0,2
0,3
0,4
0,5
0,6
0,7
0,8
0,9
1
-4 -3 -2 -1 0 1 2 3 4
f
(
X
)
X
FDA normal
Figura 1.3: Funci on de distribucion acumulada de la distribucion normal
Probabilidades de intervalos de variables
aleatorias normales. Sea X una varia-
ble aleatoria con funci on de distribucion
F(x
0
) y a y b son dos posibles valores de
la misma tal que a < b. Entonces:
P(a < X < b) = F(b) F(a) (1.9)
La probabilidad es el area situada debajo
de la correspondiente funci on de densidad
entre a y b como muestra la Figura de la
derecha.
0
0,01
0,02
0,03
0,04
0,05
0,06
0,07
0,08
-25 -20 -15 -10 -5 0 5 10 15 20 25
f
(
X
)
X
N(0, 25)
a
b
Ejercicio 1.6
Sea X N(,
2
) se pide obtener la distribucion de la variable Y = a +bX siendo a y
b dos constantes cualesquiera.
17
Estadstica Actuarial: An alisis de Regresi on
Ejercicio 1.7
Sean X N(50, 10) e Y N(20, 40). La covarianza entre ambas es 0,5. Calcula la
media y varianza de la variable aleatoria Z = 5X 4Y .
1.2.1. La distribuci on normal estandarizada
El calculo de la probabilidad de cualquier distribucion normal de media y varianza determinadas es
engorroso. Sin embargo es mas sencillo si la convertimos en una variable normal estandarizada, es
decir de media cero y varianza 1. Para ello debemos utilizar la transformaci on
Z =
X

donde X N(,
2
). Habitualmente la funci on de densidad de la variable Z normal estandarizada
se denota, (Z):
(Z) =
1

2
e
Z
2
/2
(1.10)
Una vez realizada la transformaci on podemos utilizar la tabla normal estandar para calcular las
probabilidades de cualquier variable aleatoria distribuida normalmente. Como la forma de la dis-
tribucion no vara bajo transformaciones lineales, no es necesario tabular la distribucion para otros
valores de y . Para cualquier variable normalmente distribuida se cumple:
P(a < X < b) = P
_
a

<
X

<
b

_
Adem as dado que la distribucion es simetrica (Z) = 1 (Z) donde (Z) denota funci on de
distribucion de la variable Z normal estandarizada. Por tanto las tablas de la distribucion mostraran
unicamente la cola positiva de la distribucion. A continuaci on mostraremos como utilizar las tablas
de la normal estandar para el calculo de probabilidades. La tabla da los valores de
(Z) = P(Z z) (1.11)
correspondientes a valores no negativos de z. Ver la Figura 1.4 para los ejemplos siguientes:
La probabilidad acumulada de un valor de Z = 1, 65 es (1, 65) = P(Z 1, 65) = 0, 9505.
Dado que la distribucion es simetrica la probabilidad de que Z > 1, 65 es tambien 0, 9505;
P(Z > 1, 65) = P(Z 1, 65) = 0, 9505.
La probabilidad acumulada de un valor Z = 1, 65 es (1, 65) = 1(1, 65) = 10, 9505 =
0, 0495.
18
Estadstica Actuarial: An alisis de Regresi on
0
0,05
0,1
0,15
0,2
0,25
0,3
0,35
0,4
-5 -4 -3 -2 -1 0 1 2 3 4 5
f
(
X
)
X
N(0, 1)
1,65
0,9505
0
0,05
0,1
0,15
0,2
0,25
0,3
0,35
0,4
-5 -4 -3 -2 -1 0 1 2 3 4 5
f
(
X
)
X
N(0, 1)
1-F(1,65)=1-0,0495=0,9505
F(-1,65)=0,0495
Figura 1.4: Probabilidades correspondientes a Z = 1, 65 y Z = 1, 65 en la distribucion normal
estandar
Ejemplo 1.8
Suponiendo X N(8, 4) Cual es la probabilidad de que X tome un valor entre X
1
= 4
y X
2
= 12? Cual es la probabilidad de que exceda de 12?
Para calcular la probabilidad obtenemos los valores de Z tal que:
Z
1
=
X
1

=
4 8
2
= 2 Z
2
=
X
2

=
12 8
2
= +2
Luego P(4 < X < 12) = P(2 < Z < 2) = (2) (2) = (2) (1 (2)) =
0, 9772 (1 0, 9772) = 0, 9544. La probabilidad de que X exceda el valor 12 es la
misma que la probabilidad de que Z exceda de 2, luego (P(X > 12) = P(Z > 2) =
P(Z < 2) = 1 0, 9772 = 0, 0228.
Ejemplo 1.9
Un inversor tiene una cartera cuyo valor medio es de 650.000e y su desviacion tpica
es 18.000e. Cual es la probabilidad de que el valor de la cartera este entre 632.000e y
686.000e?
Para calcular la probabilidad de que el valor de su cartera este entre 632.000e y 686.000e
utilizaremos el resultado:
P(a < X < b) = P
_
a

<
X

<
b

_
=
= P
_
a

< Z <
b

_
= F
_
b

_
F
_
b

_
Tenemos que calcular primero probabilidad de la cartera tenga una valor de 632.000 y
686.000e respectivamente.
Z
(632000)
=
632000 650000
18000
= 1
19
Estadstica Actuarial: An alisis de Regresi on
Z
(686000)
=
686000 650000
18000
= 2
Luego la probabilidad de que el valor de la cartera este entre 632.000e y 686.000e es
igual a la probabilidad de que Z este entre 1 y 2.
P(632000 X 686000) = P
_
632000 650000
18000
< Z <
686000 650000
18000
_
=
= P(1 Z 2) = (2) (1) =
= (2) (1 (1)) =
= 0, 9772 (1 0, 8413) = 0, 8185
luego la probabilidad de que el valor de la cartera este entre 632.000e y 686.000e es
del 81, 85 %.
Ejemplo 1.10
Supongamos dos inversiones cuya funci on de incertidumbre es una distribucion normal.
La inversion A N(10,4, (1,2)
2
) y la inversion B N(11, (4)
2
), cual se debe elegir
para maximizar la probabilidad de generar un rendimiento de al menos un 10 %?
En la inversion A la probabilidad de que el rendimiento sea m as del 10 % es:
P
_
Z >
10 10, 4
1, 2
_
= P(Z > 0, 33) = P(Z < 0,33) = (0, 33) = 0, 6293
En la inversion B la probabilidad de que el rendimiento sea m as del 10 % es:
P
_
Z >
10 11
4
_
= P(Z > 0, 25) = P(Z < 0, 25) = (0, 25) = 0, 5987
La inversion A maximiza la probabilidad, luego es m as interesante que la B.
Ejercicio 1.8
La sociedad MaxBolsa gestiona una cartera con 20 acciones de la empresa A y 30 acciones
de la empresa B. Denotamos por X al precio de las acciones de la empresa A tal que
X N(25, 81). Denotamos por Y al precio de las acciones de la empresa A tal que
Y N(40, 121). La correlacion entre los precios de las acciones de -0,40. Cu al es la
probabilidad de que el valor de la cartera sea m as de 2000 e? Si la correlacion entre los
precios es de 0,40, cual es la probabilidad de que el valor de la cartera sea m as de 2000
e? Cual es la relacion entre el riesgo de una cartera y la correlacion de los activos que
la componen?
Derivadas de la distribucion normal existen otras muchas distribuciones. Tres de ellas, las distribu-
ciones chi-cuadrado, t-Student y F-Snedecor, son muy utiles en econometra. Surgen como sumas de
n variables adicionales. Estas tres distribuciones tienen asociados uno o dos parametros de nomina-
dos grados de libertad que en nuestros terminos ser an el n umero de variables en la suma relevante.
20
Estadstica Actuarial: An alisis de Regresi on
1.2.2. La distribuci on chi-cuadrado
Si Z N(0, 1), entonces X = Z
2

2
(1)
y se lee X sigue una distribucion chi-cuadrado con
un grado de libertad. Esta es una distribucion asimetrica, solo tiene cola positiva, con media 1 y
varianza 2.
Sea Z
i
NID(0, 1) i = 1, . . . , n variables aleatorias independientes con distribucion normal
estandar, entonces:
X =
n

i=1
Z
2
i

2
(n)
(1.12)
y se dice que X es una variable aleatoria chi-cuadrado con n grados de libertad. Es una distribucion
simetrica, con media igual a n y varianza 2n.
Para valores negativos de X, f(x) = 0 y la forma general de su funci on de densidad se muestra en la
Figura 1.5. Existen tablas que proporcionan la probabilidad acumulada hasta un punto P(X x)
en funci on de los grados de libertad. A la hora de buscar en las tablas es necesario una tabla
distinta de la distribucion chi-cuadrado para cada n. En la tabla correspondiente aparecen los
valores de la distribucion correspondientes a diferentes puntos de corte especcos en la unica cola
de la distribucion para distintos valores de los grados de libertad.
0
0,05
0,1
0,15
0,2
0,25
0 2 4 6 8 10 12 14 16 18 20
f
(
X
)
X
Chi-cuadrado(3)
Chi-cuadrado(6)
n=3
n=6
Figura 1.5: Funci on de densidad de la distribucion Chi-cuadrado
1.2.3. La distribuci on t-Student
Sean Z N(0, 1) y X
2
(n)
independientes entonces:
Z
_
X/n
t
(n)
(1.13)
y se lee distribucion t-Student con n grados de libertad. La Figura 1.6 incluye ejemplos de la funci on
de densidad de la t-Student comparandolas con la distribucion normal estandar:
La distribucion t-Student tiene la misma forma que la distribucion normal, es campaniforme y
simetrica pero las colas son mas anchas, el exceso de curtosis es positivo. A medida que aumentan
21
Estadstica Actuarial: An alisis de Regresi on
0
0,05
0,1
0,15
0,2
0,25
0,3
0,35
0,4
0,45
0,5
-5 -4 -3 -2 -1 0 1 2 3 4 5
f
(
X
)
X
t(2)
t(4)
t(25)
N(0, 1)
Figura 1.6: Funci on de densidad de la distribucion t-Student
los grados de libertad la distribucion t converge a la normal estandar. En su tabla correspondiente
aparecen los valores de la distribucion correspondientes a diferentes puntos de corte especcos en
las colas para distintos valores de los grados de libertad.
1.2.4. La distribuci on F-Snedecor
Sean X
1

2
(n
1
)
y X
2

2
(n
2
)
independientes, entonces
X
1
/n
1
X
2
/n
2
F
(n
1
, n
2
)
(1.14)
y se lee distribucion F-Snedecor con n
1
y n
2
grados de libertad. La Figura 1.7 muestra su funci on
de densidad para distintos grados de libertad. Las tablas de la distribucion F-Snedecor se computan
para cada par de valores (n
1
, n
2
), donde n
1
son los grados de libertad del numerador y n
2
son
los grados de libertad del denominador. En general solo se tabulan para valores especcos como
95 % y 99 % de la cola superior. A medida que aumentan los grados de libertad del denominador la
distribucion n
1
F
(n
1
,n
2
)
converge a la una
2
(n
1
)
.
0
0,2
0,4
0,6
0,8
1
1,2
0 0,5 1 1,5 2 2,5 3 3,5 4 4,5
f
(
X
)
X
F(15, 15)
F(15, 100)
F(100, 15)
Figura 1.7: Funci on de densidad de la distribucion F-Snedecor
Hay que notar la relacion entre la distribucion t y la distribucion F:
Si t t
(n)
entonces t
2
F
(1, n)
(1.15)
22
Estadstica Actuarial: An alisis de Regresi on
Ejercicio 1.9
Suponiendo X N(3, 9) Cual es la probabilidad de que X tome un valor entre X
1
= 4
y X
2
= 6?
1.3. Muestreo de una poblaci on. Muestras aleatorias
En este punto vamos a construir modelos de probabilidad para distintos estadsticos calculados a
partir de datos muestrales. Estos modelos de probabilidad se llaman distribuciones en el muestreo
y se utilizan para desarrollar diversos metodos de inferencia estadstica. Los metodos estadsticos se
centran en la realizacion de inferencia sobre grandes poblaciones de objetos utilizando una peque na
muestra de objetos.
En general el analisis estadstico y el analisis econometrico se basan en el estudio de una muestra.
Medir una variable para la poblacion en ocasiones es imposible y en otras ocasiones muy costoso.
Pensemos que ejemplos de una poblacion son todas las familias que viven en un pas, regi on o ciudad;
el n umero de hogares de una autonoma, todas las empresas que declaran su actividad en el sector
servicios, etc. Luego la poblaci on son todos los elementos objeto de estudio. Medir por ejemplo la
renta en todas las familias de un pas resulta excesivamente costoso en terminos de tiempo y coste.
Sin embargo, quiza no lo sea tanto hacerlo en una muestra aleatoria extrada de dicha poblacion.
Luego muestra sera la parte de la poblacion que vamos a utilizar en el estudio para extraer
conclusiones. Por tanto la muestra esta contenida en la poblacion y nosotros la utilizaremos para
establecer conclusiones que puedan extrapolarse a la poblacion. Para ello la muestra extrada debe
ser representativa de la poblacion. Una forma de conseguirlo es usando una muestra aleatoria
simple. Para ello seleccionamos una muestra de n objetos de una poblacion de N objetos. En el
supuesto de las familias la poblacion son todas las familias, que supongamos son N, y la muestra
un subconjunto de las misma de tama no n. En la muestra seleccionada todos los objetos tienen la
misma probabilidad de ser seleccionados y se seleccionan independientemente, luego la seleccion de
uno de ellos no altera la probabilidad de que sean seleccionados otros objetos.
Denici on. Muestra aleatoria simple: Una muestra de n observaciones de una o m as variables,
designadas por X
1
, X
2
, . . . , X
n
es una muestra aleatoria si las n observaciones son extradas indepen-
dientemente de la misma poblacion o distribucion de probabilidad. La muestra puede ser univariante
si X
i
es la unica variable aleatoria o multivariante si cada observaci on contiene varias variables. La
muestra, designada como (X
1
, X
2
, . . . , X
n
) o {X
i
}
i=1,...,n
se dice que esta independientemente e
identicamente distribuida, se denota iid.
Dada una poblacion podemos muestrearla repetidamente mediante un muestreo aleatorio. El mues-
treo aleatorio protege de que una parte de la poblacion este subrepresentada o sobrerepresentada
en la muestra. Por otra parte cada muestra obtenida de una poblacion con el mismo n umero de
observaciones tendr a una media muestral

X distinta, luego

X es una variable aleatoria con una
distribucion de probabilidad. La distribuci on en el muestreo de este estadstico,

X, es la distri-
buci on de probabilidad de las medias muestrales obtenidas de estas muestras posibles extradas de
la poblacion con el mismo n umero de observaciones. La distribucion en el muestreo de las medias
muestrales posibles es la base para realizar inferencia sobre la poblacion. Utilizamos la informacion
muestral para hacer inferencia sobre la poblacion. Por ejemplo, utilizando la media y la varianza
23
Estadstica Actuarial: An alisis de Regresi on
muestral podemos hacer inferencia sobre la media y varianza poblacional, que son desconocidas y
caracterizan la distribucion poblacional.
1.4. Estadsticos y distribuciones en el muestreo
Antes de intentar estimar los parametros de una poblacion se examinan los datos. Visualizarlos
gr acamente es util pero si la muestra es de tama no grande debemos usar estadsticos para descri-
birla. Los mas interesantes son las medidas de posici on, es decir el valor central de los datos, y de
escala o dispersion de los datos.
Medidas de tendencia central o posici on:
Media muestral:

X =
1
n

n
i=1
X
i
Mediana: m = valor de posici on central
Amplitud muestral: amm =
M aximo-Mnimo
2
Medidas de dispersi on o escala:
Varianza muestral: S
2
X
=

n
i=1
(X
i

X)
2
n1
Desviaci on estandar: S
X
=
_
n
i=1
(X
i

X)
2
n1
_
1/2
En muestras multivariantes, por ejemplo con dos variables X e Y , ademas pueden resultar inte-
resantes las siguientes medidas:
Covarianza: S
XY
=

n
i=1
(X
i

X)(Y
i

Y )
n1
Correlacion: r
XY
=
S
XY
S
X
S
Y
La covarianza mide la variacion conjunta de dos variables, y su signo indica la direccion de la
variacion, depende de las escalas de medida. El coeciente de correlacion mide al grado de asociacion
lineal y no se ve afectado por la escala de las variables, siempre esta comprendido entre 1 y 1.
Cuando hay mas de dos variables es m as util ordenar estas covarianzas y correlaciones en las matrices
correspondientes como se vera mas adelante.
Cada una de las medidas anteriores tienen su correspondiente medida poblacional basada en la dis-
tribucion a partir de la cual han sido generados los datos. Los valores muestrales se corresponden con
esperanzas poblacionales y esperamos que los valores de estos estadsticos tiendan a parecerse a los
valores de los parametros poblacionales. La manera en que se aproximan a los valores poblacionales
viene dada por la distribucion muestral del estadstico.
Un estadstico es una funci on que se calcula a partir de los datos contenidos en una muestra. La
media muestral es un estadstico, la varianza muestral es otro estadstico. Como ya se ha indicado
24
Estadstica Actuarial: An alisis de Regresi on
cuando hacemos un muestreo aleatorio simple repetido cada muestra obtenida de una poblacion con
el mismo n umero de observaciones tendr a una media muestral

X distinta, luego el estadstico

X es
una variable aleatoria con una distribucion de probabilidad a la que se llama distribuci on en el
muestreo o distribuci on muestral. La distribucion muestral es la base para realizar inferencia
sobre la poblacion. Los parametros que caracterizan a la distribucion de la poblacion, la media
y varianza poblacionales son desconocidos. Podemos decir algo de ellos utilizando los estadsticos
muestrales homonimos mediante la inferencia estadstica.
Los momentos muestrales por ser funci on de la muestra recogida son variables aleatorias y su valor
cambia de una muestra a otra. La media muestral,

X como variable aleatoria que es tiene una
esperanza matem atica que coincide con la de la distribuci on de que se obtuvo la muestra, es decir
E(

X) =
X
. Adem as si las observaciones muestrales son independientes la varianza de la media
muestral es igual a la varianza de la variable aleatoria de la que se obtuvo la muestra dividida por
el tama no muestral, es decir V (

X) =

2
X
n
Tanto la media poblacional como la muestral son medidas de localizaci on.
X
reeja el valor alre-
dedor del cual se van a situar todas las posibles observaciones que podamos obtener de la variable
aleatoria X. La media muestral

X reeja lo mismo pero relativo a los valores de la muestra.
Con respecto a la varianza, debemos recordar que es una medida de dispersion, siendo la dispersion
la mayor o menor variabilidad de los valores de la variable aleatoria alrededor de su valor medio. Si
la varianza es peque na ser a porque las desviaciones de la variable aleatoria en torno a su valor medio
son peque nas, con lo que la media ser a representativa del conjunto de valores de la distribucion y
por consiguiente, la dispersion ser a peque na. Si la varianza es grande, la dispersion ser a grande y
la media de la variable aleatoria no ser a representativa. Cuanto mayor sea la varianza mayor es la
probabilidad de obtener valores alejados de
X
.
1.5. La distribuci on de la media muestral
Sean X
1
, X
2
, . . . , X
n
observaciones de una muestra aleatoria extrada de una poblacion de media
y varianza
2
. La media muestral

X es una variable aleatoria de media y varianza

2
n
. Prueba
1
:

X =
1
n

n
i=1
X
i
E(

X) = E
_
1
n

n
i=1
X
i
_
= E(
1
n
(X
1
+X
2
+. . . +X
n
)) =
1
n

n
i=1
E(X
i
) =
1
n

n
i=1
=
n
n
=
V (

X) = V
_
1
n

n
i=1
X
i
_
= V (
1
n
(X
1
+X
2
+. . . +X
n
)) =
1
n
2

n
i=1
V (X
i
) =
1
n
2

n
i=1

2
=
n
2
n
2
=

2
n
Por tanto la media de la distribucion de la media muestral es la media poblacional y la varianza de la
distribucion de la media muestral es la varianza poblacional dividida por el n umero de observaciones
o tama no de la muestra, n. Si X
i
NID(,
2
) i = 1, . . . , n entonces

X es una combinaci on lineal
1
Para calcular el resultado sobre la varianza de la distribucion se ha utilizado el hecho de que las distribuciones
de los miembros de muestras aleatorias son aproximadamente independientes cuando la poblacion es muy grande en
relacion al tama no de la muestra.
25
Estadstica Actuarial: An alisis de Regresi on
de n variables aleatorias independientes, por lo que su distribucion muestral es:

X N
_
,

2
n
_
(1.16)
Analicemos el signicado del resultado sobre la media de la distribucion. Que la media de la distri-
buci on de la media muestral sea la media poblacional indica que a medida que aumenta el n umero
de muestras la media de las medias muestrales se aproxima a la verdadera media poblacional. Una
unica media muestral puede ser mayor o menor que la poblacional pero en promedio no hay razones
para esperar que una media muestral sea mayor o menor que la poblacional. Con respecto a la
varianza de la distribucion de la media muestral vemos que esta disminuye a medida que aumenta
el tama no muestral. Luego mas concentrada esta la distribucion en el muestreo. En resumen cuanto
mayor es el tama no muestral mas seguros estamos de la inferencia sobre la media poblacional.
Si denotamos por
2

X
a la varianza de la media muestral podemos denir la desviacion tpica de
la misma como
X
=

n
.
Si el tama no de la muestra no es peque no en relacion al de la poblacion los miembros de la
muestra no se distribuyen independientemente. En este caso la varianza de la media muestral es
V (

X) =

2
n
Nn
N1
donde N es el tama no de la poblacion y el termino
Nn
N1
se denomina factor de
correccion en el caso de una poblacion nita.
La distribucion muestral se utiliza para hacer inferencia sobre la poblacion. Para ello se utilizan
estimadores. Un estimador es un estadstico calculado a partir de la muestra que pretende ser una
aproximacion a un parametro desconocido. Obviamente del ejemplo anterior podemos deducir que
un estimador de la media poblacional es la media muestral dado que la distribucion muestral de la
media de un conjunto de observaciones de variables normales tine media . La inferencia estadstica
nos permitira obtener conclusiones sobre la media poblacional desconocida utilizando la distribucion
de la media muestral.
26
Estadstica Actuarial: An alisis de Regresi on
1.6. Bibliografa del tema
Referencias bibliogracas basicas:
Teorica:
[1] Gujarati, D. y Porter, D.C. (2010). Econometra. Editorial McGraw-Hill, Madrid. 5
a
edici on.
[2] Newbold, P., Carlson, W.L. y Thorne, B. (2008). Estadstica para administraci on y economa.
Prentice Hall. Madrid.
[3] Wooldridge, J.M. (2006). Introducci on a la Econometra. Ed. Thomson Learning, 2
a
edici on.
[4] Ruiz Maya, L. y Martn Pliego, F.J. (2005). Fundamentos de inferencia estadstica, 3
a
edici on,
Editorial AC, Madrid.
Ejercicios con gretl:
[1] Ramanathan, R. (2002), Instructors Manual to accompany, del libro Introductory Econometrics
with applications, ed. South-Western, 5th edition, Harcourt College Publishers.
[2] Wooldridge, J. M. (2003), Student Solutions Manual, del libro Introductory Econometrics: A
modern Approach, ed. South-Western, 2nd edition.
Referencias Bibliogracas Complementarias:
[1] Esteban, M.V.; Moral, M.P.; Orbe, S.; Reg ulez, M.; Zarraga, A. y Zubia, M. (2009). An alisis de
regresion con gretl. Open Course Ware. UPV-EHU. (http : //ocw.ehu.es/ciencias sociales y
juridicas/analisis de regresion con greti/Course
l
isting).
[2] Esteban, M.V.; Moral, M.P.; Orbe, S.; Reg ulez, M.; Zarraga, A. y Zubia, M. (2009). Econometra
Basica Aplicada con Gretl. Sarriko On Line 8/09. http://www.sarriko-online.com. Publicaci on on-
line de la Facultad de C.C. Economicas y Empresariales.
[3] Esteban, M.V. (2007). Estadstica Actuarial y An alisis de Regresi on. Material docente. Servicio
de Publicaciones.
[4] Esteban, MV (2008). Estadstica Actuarial: Regresi on Lineal, Sarriko On Line 3/08. Publica-
ci on on-line de la Facultad de CC. Economicas y Empresariales, UPV/EHU. http://www.sarriko-
online.com.
[5] Esteban, M.V. (2007). Colecci on de ejercicios y examenes. Material docente. Servicio de Publi-
caciones.
[6] Fern andez, A., P. Gonzalez, M. Reg ulez, P. Moral, V. Esteban (2005). Ejercicios de Econometra.
Editorial McGraw-Hill.
[7] Greene, W. (1998), An alisis Econometrico, Ed. Prentice Hall, 3
a
edici on.
[8] Ramanathan, R. (2002), Introductory Econometrics with applications, Ed. South-Western, 5th.
edition.
[9] Verbeek, M. (2004). A Guide to Modern Econometrics. Wiley.
27
Estadstica Actuarial: An alisis de Regresi on
28