Taller 1.modelos de Generación de Viajes

PLANIFICACIÓN DE SISTEMAS DE TRANSPORTE
TALLER 1: Modelos de generación de viajes
Estudiante: Clara Milena Velasco Pombo

CC. 1.152.194.032
Profesor: Carlos González Calderón
Universidad Nacional de Colombia -Sede Medellín

Facultad de Minas - Departamento de Ingeniería Civil
Especialización en vías y transporte
2019-01
Taller 1 – Modelos de generación de viajes
TABLA DE CONTENIDO
Introducción............................................................................................................................2
I. Estimación de modelos de generación de viajes basados en zonas ...............................3
1.1. Análisis de los datos ....................................................................................................3
1.2. Modelos realizados ....................................................................................................10
1.3. Análisis de regresión .................................................................................................10
1.4. Elección del modelo ...................................................................................................26
II. Estimación de modelos de generación de viajes basados en el hogar. .........................28
2.1 Método de clasificación cruzada .....................................................................................32
2.1. Método de regresión ..................................................................................................35
2.2. Comparación de modelos (Clasificación cruzada y regresión) ...................................42
III. Conclusiones .............................................................................................................42
IV. Bibliografía.................................................................................................................43
Introducción
En los siguientes ejercicios se desarrolla el tema “Modelos de generación de viajes” donde se

describirá el proceso realizado para obtener el modelo más adecuado de acuerdo a unos
datos obtenidos de encuestas Origen-Destino y de esta manera se analiza lo obtenido y se
plantearán conclusiones o recomendaciones.
2
I. Estimación de modelos de generación de viajes basados en zonas
1.1. Análisis de los datos

En el archivo Anexo 1. Taller 1_Datos, la Tabla 1 tiene diferentes datos obtenidos de una
encuesta origen-destino (O-D real) de una ciudad, estos datos están discriminados por zonas
para las cuales se presentan características como: ID, área, número de viajes producidos (Trip
production), población (Population), sexo (Female, Male), población por edad (Age), edad
media (Median Age), raza, conformación del hogar, número de hogares (Households),
conformación de los hogares, tamaños de los hogares, tamaño de las familias, número de las
familias, cantidades unidades habitacionales, rango de ingresos (HH_income) entre otras.
Inicialmente se realizó una evaluación general para determinar si los datos que se tienen
pueden usarse de manera coherente para un análisis de regresión y estimación de modelos
que puedan predecir de mejor manera la generación de viajes; se buscó corroborar la
consistencia del conjunto de datos, por ejemplo que la población femenina y masculina fuera
igual a la población general, que la suma de la población distribuida en edades fuera igual a
la población general. Para esto se realizó el cálculo de los valores medios, máximos y
mínimos, media, moda y desviación, para las variables o características de los datos antes
mencionados.
A continuación se presentad cada uno de los análisis realizados en esta etapa:
- Verificación de la consistencia de los datos:

Sexo: Para cada zona, la suma de la población de hombres y población de mujeres debe
ser igual al total de la población de cada zona.
Población por rango de edad: Para cada zona la sumatoria de la población en cada
rango de edad debe ser igual a la población total de cada zona.
Número de hogares: Para cada zona, el número de hogares, deberá ser inferior a la
población y de manera general se observó que se tiene 231.964 hogares y 574.724
personas.
Tamaño del hogar: La sumatoria del número de hogares, multiplicado por el tamaño
promedio del hogar para cada zona, es aproximado el valor total de la población.
Personas en los hogares: El número de personas dentro de los hogares, es menor o igual
a la población de cada zona.
- Cálculo de valores máximos, mínimos, promedio, media y desviación para algunas

variables consideradas representativas:
Población por zona:
Total: 574.724 personas
Promedio: 3.909,69 personas/zona
Máxima: 9.303 personas
Mínima: 320 personas
Área por zona:
Total: 1006,1 mi2
Promedio: 6,8 mi2
Máxima: 72 mi2
Mínima: 0,09 mi2
3
Viajes por zona

Total: 318.954,2 viajes
Promedio: 2.169,76 viajes/zona
Máxima: 5971,15 viajes
Mínima: 18,1 viajes
Población de sexo masculino:
Total: 277.614 hombres
Promedio: 1.888,5 hombres/zona
Máximo: 4.480 hombres
Mínimo: 177 hombres
Población de sexo femenino:
Total: 297.110 mujeres
Promedio: 2021,2 mujeres/zona
Máxima: 4.823 mujeres
Mínima: 143 mujeres
Promedio de viajes por habitante
Promedio: 0,6
Máxima: 3,9
Mínima: 0,01
Densidad de Población
Promedio: 3.885,7 personas/mi2
Máximo: 24 266 personas/mi2
Mínimo: 44 personas/mi2
*(Área en millas cuadradas, mi2)
Después de analizar la consistencia del conjunto de datos, se observó que existen series de
datos que pueden tener correlación entre ellas o entre la variable que nos interesa predecir,
que es los viajes producidos a cada zona, estos datos pueden ser o no variables
independientes, por lo que se analiza la correlación entre las variables seleccionadas con las
más representativas que permitan estimar un modelo adecuado.
Para determinar cuáles variables son más representativas que otras y cuales se analizarán
dentro de los modelos estimados, se revisó una a una las 250 columnas que aportan datos
de las zonas encuestadas y se observó que hay información que según criterio ingenieril no
es representativa con respecto a los viajes producidos y recopilados en la encuesta Origen-
Destino.
Por ejemplo, se considera, que las variables como población clasificada por su descendencia
o ascendencia de cualquier país o por raza blanca, negra o asiática, o por el tipo de trabajo
como manufactura, ventas y demás; no son representativas en la generación de viajes de una
zona, por lo que se descartaron 172 variables y se consideraron 78 variables que datan
información de: hogares con rangos de ingresos y edad de la población por rangos, número
de hogares dentro de la población, sexo de la población, personas que estudian o trabajan,
trabajadores que usan o no carro particular, que si pueden tener relación con la generación o
producción de viajes.
En la siguiente tabla se muestra los resultados de correlación entre todas las variables
previamente seleccionadas y además se muestra algunos estadísticos que analizan cada
variable:
4
Tabla 1. Estadísticos de algunas variables – Elaboración propia.

Trip Densidad viajes / Median In Average Average Housing
Area Population Male Female Households
Production Poblacional habitantes Age Households HH Size Family Size Units
TOTAL 1006,08 318954,20 574724,00 277614,0 297110,0 5470,50 549928,00 231964,00 347,90 437,31 250744,00
MEDIA 6,84 2169,76 3909,69 3885,66 0,58 1888,53 2021,16 37,21 3741,01 1577,99 2,37 2,97 1705,74
MÍNIMO 0,09 18,05 320,00 44,02 0,01 177,00 143,00 19,70 51,00 22,00 1,37 2,34 22,00
MÁXIMO 72,01 5971,15 9303,00 24265,95 3,86 4480,00 4823,00 54,10 9139,00 3949,00 3,00 3,41 4152,00
DESVIACIÓN
13,17 1446,32 1841,14 4364,58 0,43 887,80 964,36 5,75 1864,96 764,14 0,31 0,16 793,12
ESTÁNDAR
COEFICIENTE
192% 67% 47% 112% 74% 47% 48% 15% 50% 48% 13% 6% 46%
DE VARIACIÓN*
*Desviación estándar/media
Se observa que la variable “Área” tiene gran variabilidad de sus datos, se muestra un
coeficiente de variación de 192% a diferencia de la variable “Average Family Size” - tamaño
promedio de Familias (según cantidad de personas en la familia), que tiene un coeficiente de
variación de apenas el 6%.
Las variables población y número de viajes producidos, se supone tienen una relación directa
(lineal positiva), como es de esperarse, a medida que aumenta la población de una zona,
aumenta los viajes producidos de esta.
La siguiente gráfica muestra la tendencia lineal de los datos y con esto la correlación que
tienen estas variables:
7000
6000
5000
Trip Production
4000
3000
2000
1000 Trip Production
0
0 2000 4000 6000 8000 10000
Population
Figura 1. Grafica de dispersión de los datos entre las variables población y viajes.
De forma similar, graficamente las variables asociadas al sexo de las personas y los hogares,
demuestran tener una relación lineal positiva con la generación de viajes, las siguientes
gráficas muestran la dispersión de sus datos y su tendencia:
5
7000
Trip Productión (vaies) 6000
5000
4000
Female
3000
Male
2000
1000
0
0 1000 2000 3000 4000 5000 6000
Población (habitantes)
Figura 2. Grafica de dispersión de los datos entre las variables población femenina y masculina y
viajes.
7000
6000
Trip Productión (vaies)
5000
4000
Households
3000
2000
1000
0
0 1000 2000 3000 4000 5000
Población (Hogares)
Figura 3. Grafica de dispersión de los datos entre las variables hogares y viajes.
6
7000
6000
5000
4000
3000
2000
1000
Employed civilian population 16+
0
0 1000 2000 3000 4000 5000 6000
Población (Habitantes de más de 16 años con empleo.)
Figura 4. Grafica de dispersión de los datos entre las variables empleados mayores de 16 años y
viajes.
7000
6000
5000
4000
3000
2000
1000
HH_Income $150K-199,999
0
0 50 100 150 200 250
Población (Hogares con ingresos entre 150 y 199 mil dolares.)
Figura 5. Grafica de dispersión de los datos entre los variables hogares con ingresos entre 150mil y
199mil dólares anuales y viajes.
Como se observó en las anteriores gráficas, existen valores alejados de la tendencia lineal,
se pueden atribuir a errores de la encuesta al realizarla, o simplemente no tener relación lineal,
como la figura 5 que según la ispersión de los datos, se observa que no se correlacionan
linealmente, sin embargo a continuación se verificará la correlación de las vaiables mediante
el análisis de regresiones:
7
Tabla 2. Correlación de variables (data 1) – Elaboración propia

Trip HH_Pe In Average In Employed HH_Inco HH_Inco HH_Inco HH_Inco HH_Inco HH_Inco HH_Inco HH_Incom HH_Incom
Popul Fema Median Populat HH_Peo Househol Average Housing
ID Area Product Male ople Househol Family Sch_Nurs civilian me me $10K- me $15K- me $25K- me $35K- me $50K- me $75K- e $100K- e $150K-
ation le Age ion 15+ ple <18 ds HH Size Units
ion 65+ ds Size ery/presc populatio <$10K 14,999 24,999 34,999 49,999 74,999 99,999 149,999 199,999
ID 1,00
Area -0,07 1,00
Trip Production 0,29 0,07 1,00
Population 0,30 0,16 0,74 1,00
Male 0,31 0,19 0,73 0,99 1,00
Female 0,29 0,14 0,74 0,99 0,98 1,00
Median Age -0,06 0,15 0,01 -0,01 -0,05 0,02 1,00
Population 15+ 0,30 0,14 0,74 0,99 0,99 0,98 -0,02 1,00
HH_People <18 0,27 0,25 0,65 0,91 0,89 0,91 0,08 0,85 1,00
HH_People 65+ 0,17 0,01 0,54 0,78 0,74 0,81 0,34 0,78 0,70 1,00
In Households 0,29 0,19 0,70 0,96 0,95 0,97 0,10 0,93 0,95 0,81 1,00
Households 0,27 0,09 0,71 0,94 0,92 0,94 0,06 0,92 0,87 0,84 0,97 1,00
Average HH Size 0,16 0,40 0,06 0,21 0,22 0,20 0,11 0,15 0,40 0,03 0,24 0,03 1,00
0,16 0,24 0,03 0,13 0,13 0,12 -0,13 0,04 0,37 -0,04 0,20 0,04 0,73 1,00
Average Family Size
Housing Units 0,26 0,08 0,70 0,92 0,90 0,93 -0,01 0,90 0,86 0,81 0,95 0,99 -0,01 0,07 1,00
In
Sch_Nursery/presch 0,28 0,08 0,52 0,74 0,72 0,75 0,10 0,67 0,83 0,58 0,77 0,70 0,37 0,38 0,69 1,00
ool
Employed civilian
0,30 0,20 0,73 0,97 0,96 0,96 0,08 0,96 0,90 0,76 0,97 0,95 0,19 0,07 0,92 0,69 1,00
population 16+
HH_Income <$10K 0,03 -0,23 0,09 0,11 0,10 0,11 -0,50 0,10 0,05 0,08 0,11 0,24 -0,44 0,01 0,34 0,09 0,01 1,00
HH_Income $10K-
0,09 -0,17 0,17 0,24 0,22 0,25 -0,40 0,23 0,18 0,28 0,25 0,38 -0,43 -0,01 0,47 0,17 0,14 0,86 1,00
14,999
HH_Income $15K-
0,18 -0,17 0,41 0,53 0,51 0,54 -0,32 0,53 0,44 0,53 0,55 0,67 -0,30 -0,06 0,73 0,35 0,48 0,66 0,77 1,00
24,999
HH_Income $25K-
0,21 -0,04 0,58 0,71 0,69 0,72 -0,14 0,71 0,64 0,62 0,75 0,83 -0,16 -0,08 0,84 0,43 0,74 0,33 0,43 0,73 1,00
34,999
HH_Income $35K-
0,23 0,13 0,65 0,87 0,84 0,88 0,07 0,85 0,82 0,78 0,90 0,91 0,07 0,02 0,90 0,62 0,89 0,10 0,30 0,59 0,83 1,00
49,999
HH_Income $50K-
0,24 0,23 0,63 0,86 0,85 0,87 0,29 0,86 0,82 0,80 0,90 0,87 0,21 0,02 0,83 0,61 0,92 -0,15 0,04 0,39 0,67 0,88 1,00
74,999
HH_Income $75K-
0,22 0,29 0,59 0,80 0,80 0,80 0,34 0,78 0,80 0,67 0,83 0,75 0,37 0,14 0,69 0,62 0,86 -0,28 -0,19 0,12 0,43 0,67 0,81 1,00
99,999
HH_Income $100K-
0,17 0,17 0,56 0,73 0,73 0,73 0,36 0,72 0,71 0,60 0,75 0,68 0,32 0,10 0,62 0,61 0,79 -0,30 -0,24 0,05 0,33 0,54 0,70 0,88 1,00
149,999
HH_Income $150K-
0,20 0,11 0,49 0,61 0,61 0,61 0,30 0,60 0,60 0,51 0,63 0,59 0,22 0,08 0,54 0,57 0,66 -0,24 -0,17 0,05 0,24 0,42 0,54 0,76 0,85 1,00
199,999
Los valores de la correlación superior a 0,7 se consideraron que están linealmente dependientes o son variables muy correlacionadas, por lo tanto
no deberán ser incluidas en el modelo a realizar, debido a que disminuirán la precisión de las estimaciones efectuadas. Sin embargo para las
variables que están muy correlacionadas entre sí, se considera que pueden ser eliminadas del modelo y explicadas por otra variable más
representativa.
En la anterior tabla se observa que las variables asociadas a los niveles de ingresos entre 25 mil 150 mil dólares están muy correlacionadas,
además de la población por diferentes rangos de edades, por lo que se decide convertir estas variables en una única que reúna los datos de estas
en una sola variable.
8
Se unifica la variable de ingresos en los hogares, sumando los ingresos entre 25 mil y 150
mil dólares por hogar, además las variables de la edad, se unificaron en personas mayores
de 15 años menos los mayores de 65 años:

Población > 15 In Employed HH_Income HH_Income HH_Income HH_Income HH_Income
Trip HH_Income
Area Population Median Age años excepto Households Sch_Nurser civilian $10K- $15K- $25K-- $150K- $25K-
Production <$10K
> 85 años y/preschool population 16+ 14,999 24,999 149,999 199,999 34,999
Area 1,000
Trip Production 0,072 1,000
Population 0,164 0,738 1,000
Median Age 0,146 0,013 -0,011 1,000
Población > 15 años
excepto > 85 años 0,147 0,739 0,991 -0,036 1,000
Households 0,090 0,710 0,936 0,061 0,921 1,000
In
Sch_Nursery/preschool 0,077 0,521 0,735 0,101 0,669 0,696 1,000
Employed civilian
population 16+ 0,195 0,728 0,968 0,084 0,962 0,950 0,691 1,000
HH_Income <$10K -0,230 0,093 0,108 -0,505 0,099 0,242 0,094 0,012 1,000
HH_Income $10K-
14,999 -0,172 0,174 0,241 -0,396 0,229 0,379 0,172 0,144 0,856 1,000
HH_Income $15K-
24,999 -0,168 0,411 0,532 -0,315 0,526 0,670 0,352 0,480 0,660 0,768 1,000
HH_Income $25K--
149,999 0,194 0,693 0,923 0,234 0,910 0,936 0,671 0,974 -0,092 0,063 0,420 1,000
HH_Income $150K-
199,999 0,110 0,492 0,611 0,304 0,600 0,586 0,569 0,657 -0,236 -0,172 0,050 0,650 1,000
HH_Income $25K-
34,999 -0,043 0,577 0,714 -0,142 0,712 0,828 0,433 0,739 0,326 0,431 0,731 0,738 0,238 1,000
Luego de eliminadas las variables correlacionadas, y unificadas unas de ellas, la anterior tabla
muestra que las variables que están correlacionadas con los viajes son: Población, población
entre 15 y 85 años, habitantes de más de 16 años con empleo y hogares.
Se observa también que las variables con un coeficiente de correlación más alta con respecto
a la población son: hogares, habitantes de más de 16 años con empleo y hogares con
ingresos entre $25000 $149.999 (dólares) anuales.

Trip Median Average Población entre
ID Area Population Households
Production Age HH Size 15 y 85 años
ID 1
Trip Production 0,29 1
Area -0,07 0,07 1
Population 0,3 0,74 0,16 1
Median Age -0,06 0,01 0,15 -0,01 1
Households 0,27 0,71 0,09 0,94 0,06 1
Average HH Size 0,16 0,06 0,4 0,21 0,11 0,03 1
Población entre
0,3 0,74 0,16 1 -0,01 0,93 0,2 1
15 y 85 años
9

Trip Median Average
Area Population Male Female Households
Production Age HH Size
Area 1
Trip Production 0,072 1
Population 0,164 0,738418685 1
Male 0,186 0,732859115 0,99354047 1
Female 0,142 0,735105195 0,99452814 0,976 1
Median Age 0,146 0,012639371 -0,01119537 -0,05 0,021 1
Households 0,09 0,710009828 0,9364595 0,917 0,9441 0,06074 1
Average HH Size 0,404 0,060143683 0,21279147 0,221 0,2027 0,11375 0,02899757 1
Por lo que se puede concluir, que entre estas variables se puede elegir un modelo que
represente muy bien el número de viajes.
1.2. Modelos realizados

Se realizó regresión lineal con diferentes variables y se observó que:
Entre más variables, el coeficiente F tenía valores menores, que los coeficientes de muchas
variables siempre fueron negativas, por lo que teniendo en cuenta lo hallado del análisis
anterior, se seleccionan los siguientes modelos, los cuales están conformes por 4 variables
que no tienen correlación entre sí (correlación menores al 70%) y son: área, edad promedio,
tamaño promedio de hogar, tamaño promedio de familias. Junto con estas variables se
analizará con una variable que si esté correlacionada como la población, los hogares, edad
entre 15 y 85 años y hogares con ingresos entre $25000 $149.999 (dólares) anuales.
Tabla 6. Modelos realizados seleccionados para analizar - Elaboración propia.

Modelo 1 Area Median Age Average HH Size Average Family Size Population
Modelo 2 Area Median Age Average HH Size Average Family Size Households
Modelo 3 Area Median Age Average HH Size Average Family Size Población entre 15 y 85 años
Modelo 4 Area Median Age Average HH Size Average Family Size HH_Income $25K--149,999
1.3. Análisis de regresión

En este análisis de regresión lineal realizado, se desarrolló modelos de regresión vinculando
la producción de viajes (viajes/día) a las variables independientes mencionadas
anteriormente, se probó con diferentes combinaciones y teniendo las siguientes
consideraciones iniciales:
- Los coeficientes asociados a cada una de las variables a incluir en los modelos, no
podrán asumir valores negativos. Con excepción del costo y el tiempo que son
conceptualmente válidos que tengan coeficientes negativos.
- Se utiliza nivel de confianza 95%
- Se emplea un intercepto igual a cero para que no se creen constantes que de
valores de viajes sin variaciones en las demás variables.
- Los valores de las variables X, no pueden ser estocásticos
10
Modelo 1.
Como primer modelo se analizó la regresión lineal entre las variables Edad Media, Tamaño
promedio del hogar, Tamaño promedio de Familias, área y población. Con ayuda del análisis
de datos del programa de Office Excel 2013, se analizó mediante una regresión lineal múltiple
y las siguientes tablas presentan los resultados obtenidos:
Estadísticas de la regresión
Coeficiente de correlación múltiple 0,93
Coeficiente de determinación R^2 0,86
R^2 ajustado 0,85
Error típico 982,98
Observaciones 147,00
ANÁLISIS DE VARIANZA
Grados de Suma de Promedio de Valor crítico
F
libertad cuadrados los cuadrados de F
Regresión 6 863313453,6 143885575,6 148,912 3,24361E-58
Residuos 141 136240292,7 966243,211
Total 147 999553746,3
Error Estadístico Inferior Superior Inferior Superior

Coeficientes Probabilidad
típico t 95% 95% 95,0% 95,0%
Intercepción 0,00 #N/A #N/A #N/A #N/A #N/A #N/A #N/A
Area -1,98 6,77 -0,29 0,77 -15,37 11,41 -15,37 11,41
Population 0,64 0,16 3,95 0,00 0,32 0,96 0,32 0,96
Median Age 11,89 13,71 0,87 0,39 -15,21 38,99 -15,21 38,99
Average HH Size -630,13 463,28 -1,36 0,18 -1546,00 285,75 -1546,00 285,75
Households -0,09 0,38 -0,25 0,81 -0,85 0,66 -0,85 0,66
Average Family Size 297,37 362,16 0,82 0,41 -418,58 1013,33 -418,58 1013,33
Como resultado de la regresión se presenta la ecuación:
−1,98 𝐴𝑟𝑒𝑎 0.64 𝑃𝑜𝑝𝑢𝑙𝑎𝑡𝑖𝑜𝑛 11,89 𝑀𝑒𝑑𝑖𝑎𝑛𝐴𝑔𝑒 630,13 𝑇𝑎𝑚𝑎ñ𝑜𝐻𝑜𝑔𝑎𝑟𝑒𝑠 0,09𝐻𝑜𝑔𝑎𝑟𝑒𝑠 297,37𝑇𝑎𝑚𝑎ñ𝑜𝑓𝑎𝑚𝑖𝑙𝑖𝑎
𝑣𝑖𝑎𝑗𝑒𝑠 = + + − − +
(−0,29) (3,95) (0,87) (−1,36) (−0,25) (0,82)
F: 148,92 y R2: 0,86
Como se observa el coeficiente R2 es menor a 1 (0,86), el coeficiente F es igual a 148,92
De la anterior ecuación muestra que el coeficiente asociado a las variables área, hogares, y
tamaño promedio de los hogares es negativo, de acuerdo con las consideraciones iniciales
estas variables deberán ser excluidas del modelo puesto que no presentan consistencia con
la realidad. También se observa que el valor del estadístico t para todas las variables excepto
población, edad media y tamaño promedio de las familias, el t es inferior a |1.96| lo cual indica
que las variables no son representativas para el modelo para el grado de confianza asumido
en el modelo inicialmente (95%).
11
A continuación se corre nuevamente el modelo eliminando la variable “Average HH Size” –

tamaño promedio de los hogares que no es conceptualmente válidas porque tiene el
coeficiente menor a cero ni estadísticamente significativas (t menor a |1.96|). Las siguientes
tablas presentan los resultados del modelo 1.1:
R^2 ajustado 0,85
Grados de Suma de Promedio de Valor
F
libertad cuadrados los cuadrados crítico de F
Regresión 5 861525910 172305182 177,2638 5,7556E-59
Residuos 142 138027837 972027,0182
Total 147 999553746
Estadístico Inferior Superior Inferior Superior

Coeficientes Error típico Probabilidad
t 95% 95% 95,0% 95,0%
Area -4,959 6,429 -0,771 0,442 -17,669 7,750 -17,669 7,750
Population 0,516 0,135 3,825 0,000 0,249 0,783 0,249 0,783
Median Age 7,435 13,350 0,557 0,578 -18,955 33,825 -18,955 33,825
Households 0,192 0,321 0,598 0,551 -0,442 0,826 -0,442 0,826
Average Family Size -132,990 176,712 -0,753 0,453 -482,316 216,336 -482,316 216,336
−4,95 𝐴𝑟𝑒𝑎 0.52𝑃𝑜𝑝𝑢𝑙𝑎𝑡𝑖𝑜𝑛 7,43 𝑀𝑒𝑑𝑖𝑎𝑛𝐴𝑔𝑒 0,192𝐻𝑜𝑔𝑎𝑟𝑒𝑠 132,9𝑇𝑎𝑚𝑎ñ𝑜𝑓𝑎𝑚𝑖𝑙𝑖𝑎

𝑣𝑖𝑎𝑗𝑒𝑠 = + + + −
(−0,77) (3,82) (0,56) (0,59) (−0.75)
F: 177,2 y R2: 0,86
Aunque el F aumentó, se sigue presentado variables que no son estadísticamente

significativas, con coeficientes menores a 0. A continuación se corre nuevamente el modelo
eliminando la variable “Average Family Size” – tamaño promedio de las familias que no es
conceptualmente válidas porque tiene el coeficiente menor a cero ni estadísticamente
significativas (t menor a |1.96|). Las siguientes tablas presentan los resultados del modelo 1.2:
R^2 ajustado 0,85
12
F
Regresión 4 860975376 215243844 222,112 4,8036E-60
Residuos 143 138578370 969079,5135
Total 147 999553746

típico t 95% 95% 95,0% 95,0%
Area -4,607 6,402 -0,719 0,473 -17,262 8,049 -17,262 8,049
Population 0,483 0,127 3,793 0,000 0,231 0,734 0,231 0,734
Median Age -1,904 4,915 -0,387 0,699 -11,619 7,811 -11,619 7,811
Households 0,247 0,311 0,795 0,428 -0,368 0,863 -0,368 0,863
−4,6 𝐴𝑟𝑒𝑎 0,48 𝑃𝑜𝑝𝑢𝑙𝑎𝑡𝑖𝑜𝑛 1,9 𝑀𝑒𝑑𝑖𝑎𝑛𝐴𝑔𝑒 0,24 𝐻𝑜𝑔𝑎𝑟𝑒𝑠

𝑣𝑖𝑎𝑗𝑒𝑠 = + − +
(−0,72) (3,79) (−0,38) (0,79)
F: 222,1 y R2: 0,86
Aunque el F aumentó, se sigue presentado variables que no son estadísticamente

significativas, con coeficientes menores a 0. En este modelo aunque la edad media se estaba
comportando como una variable significativa, en este modelo ya presenta valor negativo en el
coeficiente, pero es probable que con otro modelo, esta variable pueda ser conceptualmente
válida.
A este punto se puede observar y concluir, que las variables, población y hogares, son las
principales y que mejor se ajustan, por lo que para el modelo 1, seguiremos evaluando las
variables correlacionadas a la población y el modelo 2 a los hogares.
A continuación se corre nuevamente el modelo eliminando la variable “Average Family Size”

– tamaño promedio de las familias que no es conceptualmente válidas porque tiene el
coeficiente menor a cero ni estadísticamente significativas (t menor a |1.96|). Las siguientes
tablas presentan los resultados del modelo 1.3:
Coeficientes Error típico Estadístico t Probabilidad Inferior 95%Superior 95% Inferior 95,0% Superior 95,0%
Area -3,80 6,35 -0,60 0,55 -16,35 8,75 -16,35 8,75
Population 0,60 0,04 13,44 0,00 0,51 0,69 0,51 0,69
Median Age 15,00 11,51 1,30 0,19 -7,76 37,76 -7,76 37,76
Average HH Size -305,97 197,71 -1,55 0,12 -696,79 84,85 -696,79 84,85
Promedio de
Grados de Suma de Valor
los F
libertad cuadrados crítico de F
cuadrados
Regresión 4 862656245,5 215664061,4 225,2777486 2,0218E-60
Residuos 143 136897500,8 957325,1806
Total 147 999553746,3
13
R^2 ajustado 0,85
−3.80 𝐴𝑟𝑒𝑎 0.60 𝑃𝑜𝑝𝑢𝑙𝑎𝑡𝑖𝑜𝑛 15.00 𝑀𝑒𝑑𝑖𝑎𝑛𝐴𝑔𝑒 305.97 𝑇𝑎𝑚𝑎ñ𝑜𝐻𝑜𝑔𝑎𝑟𝑒𝑠

𝑣𝑖𝑎𝑗𝑒𝑠 = + + −
(−0.60) (13.44) (1.30) (−1.55)
F: 225,28 y R2 :0,86
Como se observa el coeficiente R2 es menor a 1 (0,86), el coeficiente F es igual a 225,28.
De la anterior ecuación muestra que el coeficiente asociado a las variables área y tamaño
promedio de los hogares es negativo, de acuerdo con las consideraciones iniciales estas
variables deberán ser excluidas del modelo puesto que no presentan consistencia con la
realidad. También se observa que el valor del estadístico t para todas las variables excepto
población es inferior a |1.96| lo cual indica que las variables no son representativas para el
modelo para el grado de confianza asumido en el modelo inicialmente (95%).
A continuación se corre nuevamente el modelo eliminando la variable Área que no es


t 95% 95% 95,0% 95,0%
Population 0,60 0,04 13,45 0,00 0,51 0,69 0,51 0,69
Median Age 15,81 11,41 1,39 0,17 -6,74 38,36 -6,74 38,36
Average HH Size -327,81 193,88 -1,69 0,09 -711,04 55,41 -711,04 55,41
Promedio
de los F
cuadrados
Regresión 3 862313074 287437691 301,5945 1,2811E-61
Residuos 144 137240673 953060,227
Total 147 999553746
R^2 ajustado 0,85
14
0.60 𝑃𝑜𝑝𝑢𝑙𝑎𝑡𝑖𝑜𝑛 15,81 𝑀𝑒𝑑𝑖𝑎𝑛𝐴𝑔𝑒 327,8 𝑇𝑎𝑚𝑎ñ𝑜𝐻𝑜𝑔𝑎𝑟𝑒𝑠

𝑣𝑖𝑎𝑗𝑒𝑠 = + −
(13.45) (1.39) (−1,69)
F: 301,6 y R2 :0,86
Como se observa el coeficiente R2 es menor a 1 (0,86), el coeficiente F es igual a 301,6, con

este modelo se aumentó el F. Similar al análisis realizado para el modelo 1, se observa que
para este modelo las variables Edad Media a y tamaño promedio de los hogares no son
estadísticamente significativas, adicionalmente la variable tamaño promedio de los hogares
no es conceptualmente válida.
A continuación se corre nuevamente el modelo eliminando la variable tamaño promedio de
los hogares que no es conceptualmente válida porque tiene el coeficiente menor a cero ni
estadísticamente significativas (t menor a |1.96|). Es decir se realiza una regresión lineal
múltiple con dos variables X.
Las siguientes tablas presentan los resultados del modelo 1.5:

típico t 95% 95% 95,0% 95,0%
Population 0,57 0,04 13,73 0,00 0,49 0,66 0,49 0,66
Median Age -1,72 4,79 -0,36 0,72 -11,18 7,75 -11,18 7,75
Grados Promedio
Suma de Valor
de de los F
cuadrados crítico de F
libertad cuadrados
Regresión 2 859588570 429794285 445,2548345 2,1939E-62
Residuos 145 139965176 965277,077
Total 147 999553746
R^2 ajustado 0,85
0,57 𝑃𝑜𝑝𝑢𝑙𝑎𝑡𝑖𝑜𝑛 1,72 𝑀𝑒𝑑𝑖𝑎𝑛𝐴𝑔𝑒

𝑣𝑖𝑎𝑗𝑒𝑠 = −
(13,73) (−0,36)
F: 445,25 y R2: 0,86
Con este nuevo modelo, la variable “Edad media” se convirtió en una variable
conceptualmente inválida y no es estadísticamente significativa, debido a su coeficiente y el
estadístico t. También se observa que son solo dos variables en X, el F de Fisher aumentó
considerablemente con respecto al primer modelo generado.
15
Por lo anterior, nuevamente se correrá el modelo 1.6 quitando la variable Edad Media y
realizando la regresión lineal entre las dos variables población y producción de viajes, las
siguientes tablas muestran lo obtenido:

t 95% 95% 95,0% 95,0%
Population 0,56 0,02 29,93 0,00 0,52 0,60 0,52 0,60
Promedio Valor
Grados de Suma de
de los F crítico
libertad cuadrados
cuadrados de F
Regresión 1 859464537 859464537 895,7280 6,2E-64
Residuos 146 140089209 959515,133
Total 147 999553746
R^2 ajustado 0,85
0,56 𝑃𝑜𝑝𝑢𝑙𝑎𝑡𝑖𝑜𝑛
𝑣𝑖𝑎𝑗𝑒𝑠 =
(29,93)
F: 895,73 y R2 :0,86
Para ver el comportamiento de los datos, la siguiente gráfica de residuos, muestra su

comportamiento teniendo en cuenta los valores de los viajes observados y esperados
mediante el modelo obtenido:
16
Population Gráfico de los residuales

2000
1500
1000
500
Residuos
0
-500 0 2000 4000 6000 8000 10000
-1000
-1500
-2000
Population
Figura 6. Dispersión de datos residuales viajes vs población
Se observa de esta gráfica, que los residuos no tienen una tendencia sistemática por su
distribución, no se puede descartar la hipótesis de un modelo homocedástico, es decir, las
varianzas de los residuos son constantes.
Modelo 2.
Para este modelo, se analizará las variables Edad media, Tamaño promedio de hogar, Área,
Hogares y tamaño promedio de los hogares.
R^2 ajustado 0,84
F
Regresión 5 848275234 169655046,8 159,25 3,6285E-56
Residuos 142 151278512 1065341,637
Total 147 999553746

típico t 95% 95% 95,0% 95,0%
Area -1,70 7,11 -0,24 0,81 -15,76 12,36 -15,76 12,36
Median Age -6,93 13,49 -0,51 0,61 -33,60 19,74 -33,60 19,74
Households 1,36 0,11 12,08 0,00 1,13 1,58 1,13 1,58
Average Family Size -206,76 355,81 -0,58 0,56 -910,14 496,61 -910,14 496,61
Average HH Size 385,73 404,39 0,95 0,34 -413,68 1185,14 -413,68 1185,14
17
−1,7 𝐴𝑟𝑒𝑎 6,93 𝑀𝑒𝑑𝑖𝑎𝑛𝐴𝑔𝑒 1,36 𝐻𝑜𝑔𝑎𝑟𝑒𝑠 206,7 𝑇𝑎𝑚𝑎ñ𝑜𝑓𝑎𝑚𝑖𝑙𝑖𝑎 385,7 𝑇𝑎𝑚𝑎ñ𝑜𝐻𝑜𝑔𝑎𝑟𝑒𝑠
𝑣𝑖𝑎𝑗𝑒𝑠 = − + − +
(−0,24) (−0,51) (12,08) (−0.58) (0,95)
F: 159,2 y R2: 0,85
Similar al caso de las variaciones del modelo 1, se observa que las variables edad media,
área y tamaño promedio de las familias, resultan conceptualmente invalidas y
estadísticamente no representan al modelo. En cada variación del modelo se buscó dejar las
variables conceptualmente válidas y estadísticamente significativas.
En la siguiente tabla se presentan los resultados de las regresiones realizadas para cada
caso, así como las observaciones a cada modelo obtenido.
Tabla 7. Regresiones lineales realizadas, variaciones al modelo 2.

Modelos Ecuación de la regresión F R
−1,7 𝐴𝑟𝑒𝑎 6,93 𝑀𝑒𝑑𝑖𝑎𝑛𝐴𝑔𝑒 1,36 𝐻𝑜𝑔𝑎𝑟𝑒𝑠 206,7 𝑇𝑎𝑚𝑎ñ𝑜𝑓𝑎𝑚𝑖𝑙𝑖𝑎 385,7 𝑇𝑎𝑚𝑎ñ𝑜𝐻𝑜𝑔𝑎𝑟𝑒𝑠
2 𝑣𝑖𝑎𝑗𝑒𝑠 =
(−0,24)
−
(−0,5𝑞)
+
(12,08)
−
(−0.58)
+
(0,95)
159,2 0,85
−0,28 𝐴𝑟𝑒𝑎 10,08 𝑀𝑒𝑑𝑖𝑎𝑛𝐴𝑔𝑒 1,34 𝐻𝑜𝑔𝑎𝑟𝑒𝑠 181,0 𝑇𝑎𝑚𝑎ñ𝑜𝐻𝑜𝑔𝑎𝑟𝑒𝑠
2.1 𝑣𝑖𝑎𝑗𝑒𝑠 = − + + 199,9 0,85
(−0,04) (−0,8) (12,2) (0,9)
0,36 𝐴𝑟𝑒𝑎 1,32 𝐻𝑜𝑔𝑎𝑟𝑒𝑠 33,45 𝑇𝑎𝑚𝑎ñ𝑜𝐻𝑜𝑔𝑎𝑟𝑒𝑠
2.2 𝑣𝑖𝑎𝑗𝑒𝑠 =
(0,05)
+
(12,27)
+
(0,4)
266,92 0,85
1,01 𝐴𝑟𝑒𝑎 0,15 𝑀𝑒𝑑𝑖𝑎𝑛𝐴𝑔𝑒 1,36 𝐻𝑜𝑔𝑎𝑟𝑒𝑠
2.3 𝑣𝑖𝑎𝑗𝑒𝑠 = + + 266,56 0,85
(0,15) (0,03) (12,6)
1,05 𝐴𝑟𝑒𝑎 1,36 𝐻𝑜𝑔𝑎𝑟𝑒𝑠
2.4 𝑣𝑖𝑎𝑗𝑒𝑠 = + 402,62 0,85
(0,16) (25,26)
1,369 𝐻𝑜𝑔𝑎𝑟𝑒𝑠
(28,47)
810,62 0,85
Para el modelo 2.5, que tiene los mejores coeficientes de correlación como el F más grande
y la t mayor a |1.96|, a este modelo se analizará si es un homoscedástico o heterocedástico:
4000
Households Gráfico de los residuales
3000
2000
Residuos
1000
0
0 500 1000 1500 2000 2500 3000 3500 4000 4500
-1000
-2000
Households
-3000
Figura 7. Dispersión de los datos residuales viajes vs hogares.
Los resultados no presentan una distribución “desordenada” es decir tiene valores arriba y
debajo de la línea de cero, sin embargo se observa más datos por encima del cero e incluso
18
se observan valores dispersos que pueden referirse a errores en la toma de los datos en la
encuesta. Con lo anterior no se puede descartar que sea un modelo homocedástico.
Modelo 3.
Se analiza a continuación un modelo que contenga, Área, Edad Media, tamaño promedio de
los hogares, tamaño promedio de las familias y una variable ajustada entre otras
correlacionadas que es la Población entre 15 y 85 años, esta última variable se ajustó, usando
la variable “Population 15+” y “Age 85+”, debido a que se observó que están más
correlacionados los viajes de las personas en el grupo de esas edades y no las menores de
15 años y mayores de 65 años.
La variable “población entre 15 y 85 años” es la resta de “Población mayor de 15 años” y
“población mayor de 85 años”, la siguiente tabla muestra un ejemplo de la variable y los datos
obtenidos para esta:
Tabla 8. Ejemplo de la obtención de la variable unificada “población entre 15 y 85 años”

Población de más
de 15 años
Population Age
ID excepto los
15+ 85+
mayores de 85
años
37099215 2254 2282 28
37099559 2959 3005 46
37099414 1704 1723 19
37099393 4480 4522 42
37099256 2642 2701 59
37099236 2045 2063 18
37123820 4126 4232 106
37123801 4864 4925 61
37099370 1352 1370 18
37099331 1815 1840 25
37130218 4157 4195 38
37123920 3757 3945 188
Entonces con estas variables, se realizó la regresó lineal y se obtuvo los siguientes análisis
estadísticos:
Error Estadístico Inferior Superio Inferior Superior

típico t 95% r 95% 95,0% 95,0%
Area -1,46 6,78 -0,22 0,83 -14,87 11,95 -14,87 11,95
Median Age 9,59 12,82 0,75 0,46 -15,75 34,93 -15,75 34,93
Average HH Size -433,73 386,66 -1,12 0,26 -1198,08 330,61 -1198,08 330,61
Average Family Size 191,73 335,04 0,57 0,57 -470,59 854,05 -470,59 854,05
Población entre 15 y 85 años 0,74 0,06 13,21 0,00 0,63 0,85 0,63 0,85
19
F
Regresión 5 861898090 172379617,9 177,820 4,76011E-59
Residuos 142 137655657 969406,0338
Total 147 999553746
R^2 ajustado 0,851
−1,46 𝐴𝑟𝑒𝑎 9,59 𝑀𝑒𝑑𝑖𝑎𝑛𝐴𝑔𝑒 433,7 𝑇𝑎𝑚𝑎ñ𝑜𝐻𝑜𝑔𝑎𝑟𝑒𝑠 191,7 𝑇𝑎𝑚𝑎ñ𝑜𝑓𝑎𝑚𝑖𝑙𝑖𝑎 0,74 𝑃𝑜𝑏𝑙𝑎𝑐𝑖ó𝑛15𝑦85𝑎ñ𝑜𝑠
𝑣𝑖𝑎𝑗𝑒𝑠 = + − + +
(−0,22) (0,75) (−1,12) (0,57) (13,21)
F: 177,82 y R2: 0,86
Con esta regresión se observó que la variable “tamaño promedio de familias” y “área” tienen
coeficientes negativos, lo que las hacen variables conceptualmente inválidas, por lo que se
harán variaciones al modelo, eliminando esas variables, a continuación se presentan los
resultados de los modelos realizados:

Model Ecuación de la regresión F R
−1,46 𝐴𝑟𝑒𝑎 9,59 𝑀𝑒𝑑𝑖𝑎𝑛𝐴𝑔𝑒 433,7 𝑇𝑎𝑚𝑎ñ𝑜𝐻𝑜𝑔𝑎𝑟𝑒𝑠 191,7 𝑇𝑎𝑚𝑎ñ𝑜𝑓𝑎𝑚𝑖𝑙𝑖𝑎 0,74 𝑃𝑜𝑏𝑙𝑎𝑐𝑖ó𝑛15𝑦85𝑎ñ𝑜𝑠
𝑣𝑖𝑎𝑗𝑒𝑠 = + − + +
3 (−0,22) (0,75) (−1,12) (0,57) (13,21) 177,82 0,86
−4,37 𝐴𝑟𝑒𝑎 8,82 𝑀𝑒𝑑𝑖𝑎𝑛𝐴𝑔𝑒 131,4 𝑇𝑎𝑚𝑎ñ𝑜𝑓𝑎𝑚𝑖𝑙𝑖𝑎 0,737 𝑃𝑜𝑏𝑙𝑎𝑐𝑖ó𝑛15𝑦85𝑎ñ𝑜𝑠
(−0,69)
+
(0,68)
−
(−0,77)
+
(13,15) 221,55 0,86
−4,28 𝐴𝑟𝑒𝑎 0,29 𝑀𝑒𝑑𝑖𝑎𝑛𝐴𝑔𝑒 0,72 𝑜𝑏𝑙𝑎𝑐𝑖ó𝑛15𝑦85𝑎ñ𝑜𝑠
(−0,68)
−
(−0,06)
+
(13,68) 296,06 0,86
13,32 𝑀𝑒𝑑𝑖𝑎𝑛𝐴𝑔𝑒 259,9 𝑇𝑎𝑚𝑎ñ𝑜𝑓𝑎𝑚𝑖𝑙𝑖𝑎 0,745 𝑃𝑜𝑏𝑙𝑎𝑐𝑖ó𝑛15𝑦85𝑎ñ𝑜𝑠
(1,16)
−
(−1,34)
+
(13,37) 299,27 0,86
0,74 𝑀𝑒𝑑𝑖𝑎𝑛𝐴𝑔𝑒 0,718 𝑃𝑜𝑏𝑙𝑎𝑐𝑖ó𝑛15𝑦85𝑎ñ𝑜𝑠
3.4 𝑣𝑖𝑎𝑗𝑒𝑠 = −
(−0,15)
+
(13,733) 445,49 0,86
0,711 𝑃𝑜𝑏𝑙𝑎𝑐𝑖ó𝑛15𝑦85𝑎ñ𝑜𝑠
(29,94) 896,95 0,86
Entre las variables analizadas, se observó que las variables “Tamaño promedio de las
familias”, “tamaño promedio de los hogares” y “área” son conceptualmente inválidas, por lo
que en algunos modelos, se fueron eliminando para obtener de diferentes variaciones de
modelos hasta llegar a uno estadísticamente aceptable.
y la t mayor a |1.96|, a este modelo se analizará si es un homoscedastico o heterocedastico:
20
Población entre 15 y 85 años Gráfico de los residuales

2000
1500
1000
500
Residuos
0
-500 0 1000 2000 3000 4000 5000 6000 7000 8000
-1000
-1500
-2000
Población entre 15 y 85 años
Figura 8. Dispersión de datos residuales. Población entre 15 y 85 años.
encuesta. Con lo anterior no se puede descartar que sea un modelo homocedástico. Por lo
que el modelo se considera conceptualmente válido y estadísticamente significativo para un
nivel de confianza de un 95%.
Modelo 4.
Se analiza a continuación un modelo que contenga, Área, Edad Media, tamaño promedio de
los hogares, tamaño promedio de las familias y una variable ajustada entre otras
correlacionadas que es la “Ingresos en los hogares entre 25mil a 149,9 mil dólares al año”.,
esta última variable se ajustó, usando las variables “HH_Income $25K-34,999”, “HH_Income
$35K-49,999”, “HH_Income $50K-74,999”, “HH_Income $75K-99,999”, “HH_Income $100K-
149,999” sumándolas entre sí, debido a que se correlacionan los viajes generados por estos
grupos de “ingresos en el hogar”, de la siguiente manera:
Tabla 10. Ejemplo de la obtención de la variable unificada “Hogares con ingresos anuales entre 25 mil
y 149,9 mil dólares”
HH_Income HH_Income HH_Income HH_Income HH_Income
HH_Income
$25K-- $35K- $50K- $75K- $100K-
$25K-34,999
149,999 49,999 74,999 99,999 149,999
841 145 203 283 144 66
1162 182 193 510 126 151
646 84 145 203 133 81
1769 254 339 511 433 232
1020 127 285 388 142 78
788 101 159 285 168 75
1685 223 379 409 375 299
1959 241 369 482 430 437
540 72 123 129 101 115
685 107 85 218 132 143
21
Entonces con estas variables, se realizó la regresó lineal y se obtuvo los siguientes análisis
estadísticos:

típico t 95% 95% 95,0% 95,0%
Area -3,194 7,119 -0,449 0,654 -17,267 10,878 -17,267 10,878
Median Age -29,447 13,779 -2,137 0,034 -56,685 -2,209 -56,685 -2,209
Average HH Size -616,978 406,999 -1,516 0,132 -1421,538 187,582 -1421,538 187,582
Average Family Size 965,350 351,198 2,749 0,007 271,097 1659,602 271,097 1659,602
HH_Income $25K--149,999 1,718 0,142 12,102 0,000 1,437 1,998 1,437 1,998
Grados de Suma de Promedio de los Valor crítico
F
libertad cuadrados cuadrados de F
Regresión 5 848490637 169698127,4 159,517 3,28256E-56
Residuos 142 151063109 1063824,715
Total 147 999553746
R^2 ajustado 0,8376
−3,19 𝐴𝑟𝑒𝑎 29,44 𝑀𝑒𝑑𝑖𝑎𝑛𝐴𝑔𝑒 616,97 𝑇𝑎𝑚𝑎ñ𝑜𝐻𝑜𝑔𝑎𝑟𝑒𝑠 965,36 𝑇𝑎𝑚𝑎ñ𝑜𝑓𝑎𝑚𝑖𝑙𝑖𝑎 1,718 𝐼𝑛𝑔𝑟. 𝐻𝑜𝑔𝑎𝑟25𝑎149𝑚𝑖𝑙
𝑣𝑖𝑎𝑗𝑒𝑠 = − − + +
(−0,45) (−2,137) (−1,51) (2,74) (12,1)
F: 159,517 y R2: 0,848
Con esta regresión se observó que la variable “tamaño promedio de familias”, “área” y “edad
media”, tienen coeficientes negativos, lo que las hacen variables conceptualmente inválidas,
por lo que se harán variaciones al modelo, eliminando esas variables, a continuación se
presentan los resultados de los modelos realizados:
Tabla 11 Regresiones lineales realizadas, variaciones al modelo 4

−3,19 𝐴𝑟𝑒𝑎 29,44 𝑀𝑒𝑑𝑖𝑎𝑛𝐴𝑔𝑒 616,97 𝑇𝑎𝑚𝑎ñ𝑜𝐻𝑜𝑔𝑎𝑟𝑒𝑠 965,36 𝑇𝑎𝑚𝑎ñ𝑜𝑓𝑎𝑚𝑖𝑙𝑖𝑎 1,718 𝐼𝑛𝑔𝑟. 𝐻𝑜𝑔𝑎𝑟25𝑎149𝑚𝑖𝑙
𝑣𝑖𝑎𝑗𝑒𝑠 = − − + +
4 (−0,45) (−2,137) (−1,51) (2,74) (12,1) 159,52 0,85
−7,22 𝐴𝑟𝑒𝑎 29,87 𝑀𝑒𝑑𝑖𝑎𝑛𝐴𝑔𝑒 498,97 𝑇𝑎𝑚𝑎ñ𝑜𝑓𝑎𝑚𝑖𝑙𝑖𝑎 1,68 𝐼𝑛𝑔𝑟. 𝐻𝑜𝑔𝑎𝑟25𝑎149𝑚𝑖𝑙
(−1,09)
−
(−2,159)
+
(2,93)
+
(11,95) 197,03 0,85
−7,638 𝐴𝑟𝑒𝑎 153,43 𝑇𝑎𝑚𝑎ñ𝑜𝑓𝑎𝑚𝑖𝑙𝑖𝑎 1,618 𝐼𝑛𝑔𝑟. 𝐻𝑜𝑔𝑎𝑟25𝑎149𝑚𝑖𝑙
(−1,138)
+
(2,628)
+
(11,625) 254,68 0,84
30,30 𝑀𝑒𝑑𝑖𝑎𝑛𝐴𝑔𝑒 496,53 𝑇𝑎𝑚𝑎ñ𝑜𝑓𝑎𝑚𝑖𝑙𝑖𝑎 1,66 𝐼𝑛𝑔𝑟. 𝐻𝑜𝑔𝑎𝑟25𝑎149𝑚𝑖𝑙
4.3 𝑣𝑖𝑎𝑗𝑒𝑠 = −
(−2,189)
+
(2,916)
+
(11,927) 261,97 0,84
145,57 𝑇𝑎𝑚𝑎ñ𝑜𝑓𝑎𝑚𝑖𝑙𝑖𝑎 1,59 𝐼𝑛𝑔𝑟. 𝐻𝑜𝑔𝑎𝑟25𝑎149𝑚𝑖𝑙
4.4 𝑣𝑖𝑎𝑗𝑒𝑠 = +
(2,50)
+
(11,59) 380,60 0,84
1,88 𝐼𝑛𝑔𝑟. 𝐻𝑜𝑔𝑎𝑟25𝑎149𝑚𝑖𝑙
(26,99) 728,52 0,83
22
Entre las variables analizadas, se observó que las variables “tamaño promedio de los hogares”
, “edad media” y “área” son conceptualmente inválidas, por lo que en algunos modelos, se
fueron eliminando para obtener de diferentes variaciones de modelos hasta llegar a uno
estadísticamente aceptable.
y la t mayor a |1.96|, sin embargo tiene un R2 menor a los demás modelos a este modelo se
analizará si es un homoscedastico o heterocedastico:
HH_Income $25K--149,999 Gráfico de los residuales

4000
3000
2000
Residuos
1000
0
0 500 1000 1500 2000 2500 3000 3500
-1000
-2000
-3000
HH_Income $25K--149,999
Figura 9. Dispersión de datos residuales. Hogares con ingresos anuales entre 25mil y 149,9mil
dólares
encuesta. Con lo anterior no se puede descartar que sea un modelo homocedástico. Por lo
que el modelo se considera conceptualmente válido y estadísticamente significativo para un
nivel de confianza de un 95%.
Modelo 5.
Como último modelo se analizó la regresión lineal entre las variables “Employed civilian
population 16+” Habitantes de más de 16 años con empleo”, porque queremos ver la relación
entre los viajes cuando hay personas con trabajo, como queriendo divisar los viajes generados
por trabajo, además las variables “Population”, “Households” y “Area”. Con ayuda del análisis
de datos del programa de Office Excel 2013, se analizó mediante una regresión lineal múltiple
y las siguientes tablas presentan los resultados obtenidos:

típico t 95% 95% 95,0% 95,0%
Intercepción 0 #N/A #N/A #N/A #N/A #N/A #N/A #N/A
Employed civilian population 16+ 0,3253 0,3400 0,9567 0,3403 -0,3467 0,9972 -0,3467 0,9972
Population 0,3799 0,1620 2,3447 0,0204 0,0596 0,7002 0,0596 0,7002
Households 0,0707 0,3458 0,2044 0,8384 -0,6129 0,7543 -0,6129 0,7543
Area -6,3350 6,4681 -0,9794 0,3290 -19,1205 6,4506 -19,1205 6,4506
23
F
Regresión 4 861712307 215428076,7 223,4902 3,2912E-60
Residuos 143 137841439 963926,1501
Total 147 999553746
R^2 ajustado 0,8522
Observaciones 147
0,325 𝐸𝑚𝑝𝑙𝑒𝑎𝑑𝑜𝑠 > 16𝑎ñ𝑜𝑠 0.379 𝑃𝑜𝑝𝑢𝑙𝑎𝑡𝑖𝑜𝑛 0,07𝐻𝑜𝑔𝑎𝑟𝑒𝑠 6,33 𝐴𝑟𝑒𝑎

(0,956) (2,34) (0,2) (−0,979)
F: 223,49 y R2: 0,86
Como se observa el coeficiente R2 es menor a 1 (0,86)
De la anterior ecuación muestra que el coeficiente asociado a la variable área negativo, de

acuerdo con las consideraciones iniciales estas variables deberá ser excluido del modelo
puesto que no presentan consistencia con la realidad. También se observa que el valor del
estadístico t para todas las variables excepto población, edad media y tamaño promedio de
las familias, el t es inferior a |1.96| lo cual indica que las variables no son representativas para
el modelo para el grado de confianza asumido en el modelo inicialmente (95%).
A continuación se corre nuevamente el modelo eliminando la variable “Area” que no es

Estadístico Superior Inferior Superior

Coeficientes Error típico Probabilidad Inferior 95%
t 95% 95,0% 95,0%
Intercepción 0 #N/A #N/A #N/A #N/A #N/A #N/A #N/A
Employed civilian population 16+ 0,25247 0,33169 0,76118 0,44780 -0,40313 0,90807 -0,40313 0,90807
Population 0,37126 0,16177 2,29492 0,02318 0,05150 0,69102 0,05150 0,69102
Households 0,15653 0,33450 0,46796 0,64052 -0,50462 0,81769 -0,50462 0,81769
F
Regresión 3 860787669 286929223 297,7515035 2,8235E-61
Residuos 144 138766077 963653,3139
Total 147 999553746
24
R^2 ajustado 0,852299359
Observaciones 147
0,25,24 𝐸𝑚𝑝𝑙𝑒𝑎𝑑𝑜𝑠 > 16𝑎ñ𝑜𝑠 0.371 𝑃𝑜𝑝𝑢𝑙𝑎𝑡𝑖𝑜𝑛 0,156 𝐻𝑜𝑔𝑎𝑟𝑒𝑠

𝑣𝑖𝑎𝑗𝑒𝑠 = + +
(0,76) (2,29) (0,46)
F: 297.75 y R2: 0,861
A continuación se corre nuevamente el modelo eliminando la variable “Hogares”, aunque

todas las variables no son estadísticamente significativas (t menor a |1.96|). Las siguientes
tablas presentan los resultados de los modelos obtenidos:

0,325 𝐸𝑚𝑝𝑙𝑒𝑎𝑑𝑜𝑠 > 16𝑎ñ𝑜𝑠 0.379 𝑃𝑜𝑝𝑢𝑙𝑎𝑡𝑖𝑜𝑛 0,07𝐻𝑜𝑔𝑎𝑟𝑒𝑠 6,33 𝐴𝑟𝑒𝑎
5 (0,956) (2,34) (0,2) (−0,979) 223.49 0,86
0,25,24 𝐸𝑚𝑝𝑙𝑒𝑎𝑑𝑜𝑠 > 16𝑎ñ𝑜𝑠 0.371 𝑃𝑜𝑝𝑢𝑙𝑎𝑡𝑖𝑜𝑛 0,156 𝐻𝑜𝑔𝑎𝑟𝑒𝑠

5.1 𝑣𝑖𝑎𝑗𝑒𝑠 = + + 297.75 0,86
(0,76) (2,29) (0,46)
0,32 𝐸𝑚𝑝𝑙𝑒𝑎𝑑𝑜𝑠 > 16𝑎ñ𝑜𝑠 0.4 𝑃𝑜𝑝𝑢𝑙𝑎𝑡𝑖𝑜𝑛
5.2 𝑣𝑖𝑎𝑗𝑒𝑠 = + 448,93 0,86
(1.07) (2,68)
1,11 𝐸𝑚𝑝𝑙𝑒𝑎𝑑𝑜𝑠 > 16𝑎ñ𝑜𝑠
5.3 𝑣𝑖𝑎𝑗𝑒𝑠 = 854,31 0,85
(29,22)
Para el modelo 5.3 se obtuvo la gráfica de dispersión de los residuos para analizar si es
homocedástica o heterocedástica:
3000
Employed civilian population 16+ Gráfico de los
residuales
2000
1000
Residuos
0
0 1000 2000 3000 4000 5000 6000
-1000
-2000
-3000
Employed civilian population 16+
Figura 10. Dispersión de datos residuales. Empleados mayores a 16 años.
debajo de la línea de cero, sin embargo se observa más datos por encima del cero. No se
25
puede descartar que sea un modelo homocedástico. Por lo que el modelo se considera
conceptualmente válido y estadísticamente significativo para un nivel de confianza de un 95%.
1.4. Elección del modelo
Con los 31 modelos desarrollados se observa que la dispersión de los datos está entre el
rango entre 2000 y -2000, algunos con un F mayor o R2, con las regresiones realizadas y las
ecuaciones obtenidas, se realiza una comparación entre los modelos más representativos de
cada variación resultantes:
Tabla 13. Modelos elegidos de las 31 variaciones realizadas.

Model Ecuación de la regresión F R Observación
La gráfica de dispersión de datos nos
muestra los valores muy acumulados
73,56 𝐴𝑟𝑒𝑎
0 𝑣𝑖𝑎𝑗𝑒𝑠 = 31,05 0,175 en un solo punto tendiendo a cero y
(5,57)
otros muy dispersos. por lo que sería
un modelo heteroscedastico
57,019 𝐸𝑑𝑎𝑑 𝑚𝑒𝑑𝑖𝑎 muestra los valores muy acumulados
0 𝑣𝑖𝑎𝑗𝑒𝑠 = 307.39 0,677
(17,53) en un rango entre 30 y 40, por lo que
sería un modelo heteroscedastico
0,559 𝑃𝑜𝑝𝑢𝑙𝑎𝑡𝑖𝑜𝑛 La gráfica de dispersión de datos nos
1.6 𝑣𝑖𝑎𝑗𝑒𝑠 = 895,72 0,859 muestra los valores bien distribuidos
(29,928)
entre 1500 y -1500.
1,369 𝐻𝑜𝑔𝑎𝑟𝑒𝑠 muestra los valores bien distribuidos
2,5 𝑣𝑖𝑎𝑗𝑒𝑠 = 810.618 0.847 entre 2000 y -2000, pero con valores
(28,47)
dispersos que pueden atribuirse a
errores en la encuesta.
0,711 𝑃𝑜𝑏𝑙𝑎𝑐𝑖ó𝑛15𝑦85𝑎ñ𝑜𝑠 La gráfica de dispersión de datos nos
3.5 𝑣𝑖𝑎𝑗𝑒𝑠 = 896.95 0.860 muestra los valores bien distribuidos
(29,94)
entre 1800 y -1800.
1,88 𝐼𝑛𝑔𝑟. 𝐻𝑜𝑔𝑎𝑟25𝑎149𝑚𝑖𝑙 muestra los valores bien distribuidos
4.5 𝑣𝑖𝑎𝑗𝑒𝑠 = 728.52 0.833 entre 2100 y -2100, pero con valores
(26,99)
1,11 𝐸𝑚𝑝𝑙𝑒𝑎𝑑𝑜𝑠 > 16𝑎ñ𝑜𝑠 muestra los valores bien distribuidos
5.3 𝑣𝑖𝑎𝑗𝑒𝑠 = 854.312 0.854 entre 2000 y -2000, pero con valores
(29,22)
De los modelos analizados anteriormente, se puede observar que los modelos que tienen en
cuenta la variable población (ya sea un grupo representativo de la población como los que
tienen entre 15 y 85 años), tienen un modelo que mejor describe el número de viajes
producido, debido a que tienen un estadístico t mayor con respecto a los otros modelos, un F
muy parecido, y la dispersión de los datos residuales están dentro del mismo rango, sin
embargo, elegimos el modelo 1.6, por el rango más ajustado de los datos dispersos:
0,559 𝑃𝑜𝑝𝑢𝑙𝑎𝑡𝑖𝑜𝑛
(29,928)
F: 895,73 y R2 :0,86
26
Population Gráfico de los residuales

2000
1500
1000
500
Residuos
0
0 2000 4000 6000 8000 10000
-500
-1000
-1500
-2000
Population
Figura 11. Dispersión de datos residuales. Población.
Sin embargo la diferencia obtenida entre los modelos es mínima y la toma de información para
cumplir con los requerimientos de los demás modelos puede ser más compleja de conseguir,
que solo el número de personas o población de cada zona. Tener información más detallada
en las encuestas puede aumentar el valor de la misma y prestarse para errores como que los
encuestados digan valores que no son reales como la edad y los ingresos, por eso los modelos
según la teoría podrían funcionar bien, pero en la aplicación para la planificación de los
sistemas de transporte, ya puede generar complicaciones o decisiones que no sean
funcionales.
27
II. Estimación de modelos de generación de viajes basados en el hogar.
En este ejercicio se estimará el número de viajes según los hogares en una población
determinada, basados en los datos plasmado en la Tabla 3 (Ver Anexo 1. Taller1_Datos), en
esta tabla están los datos de una muestra correspondiente al 20% de los hogares de la zona,
se tienen los datos de “número de vehículos”, “ingreso”, “estado civil” y “si tienen o no hijos”.
Los datos de calibración tienen además los viajes realizados por hogar.
Lo primero a realizar es la comparación de los datos entre la calibración y los de la población

determinada, para identificar si son datos de población similares y así poder realizar
comparaciones. La siguiente gráfica muestra la correlación entre las variables de los datos en
cada grupo:
Tabla 14. Correlación de los datos - Características socioeconómicas de la muestra del 20% de una
zona.
Married no Married 1+
Household Income Cars Single
children children
Household 1,000
Income 0,176 1,000
Cars 0,244 0,810 1,000
Single -0,360 -0,593 -0,441 1,000
Married no children -0,019 0,150 -0,011 -0,429 1,000
Married 1+ children 0,354 0,415 0,423 -0,535 -0,535 1,000
Tabla 15. Correlación de los datos – Calibración.

Household Trips Income Cars Single
children children
Household 1,000
Trips 0,180 1,000
Income 0,084 0,793 1,000
Cars 0,233 0,727 0,701 1,000
Single -0,135 -0,471 -0,570 -0,507 1,000
Married no children -0,056 0,168 0,154 -0,033 -0,408 1,000
Married 1+ children 0,17550071 0,2842 0,389068 0,500979 -0,55708601 -0,53066863 1
Se analizará una a una las variables para identificar que tan semejantes son:
- Ingresos por hogares – “Income”: Estadísticamente se comparan los valores, como

se reparten los ingresos, el ingreso promedio y su desviación, las siguientes tablas
muestran el resultado de estos análisis estadísticos obtenidos del programa Excel.
28
Tabla 16. Estadísticos “Ingresos” - Características socioeconómicas de 20% de muestra de zona y

Datos de calibración
Income - Socio Economic
Income - Calibration data
Characteristics of 20% Sample of Zone
Media 44644,1 Media 44041,3
Error típico 3996,09046 Error típico 2621,75729
Mediana 44923,5 Mediana 44000
Desviación estándar 17871,0598 Desviación estándar 18538,6236
Varianza de la muestra 319374779 Varianza de la muestra 343680564
Coeficiente de asimetría 0,28946926 Coeficiente de asimetría 0,37636064
Coeficiente de variación 0,4003006 Coeficiente de variación 0,42093725
Rango 58899 Rango 62884
Mínimo 17107 Mínimo 16000
Máximo 76006 Máximo 78884
Suma 892882 Suma 2202065
Cuenta 20 Cuenta 50
Nivel de confianza(95,0%) 8363,91345 Nivel de confianza(95,0%) 5268,61852
La anterior tabla permite comparar los datos de calibración y los del 20% de la muestra
y se observa que la media es cercana entre los dos grupos de datos, el coeficiente de
variación y la desviación estándar es también cercanos, por lo que se puede concluir
que ambas poblaciones u hogares, tienen un nivel de ingreso similar igual que el
reparto de este ingreso en la población.
- Número de carros – “Cars”:

Tabla 17. Estadísticos “Carros” - Características socioeconómicas de 20% de muestra de zona y
Datos de calibración.
Cars - Socio Economic Characteristics
Cars - Calibration data
of 20% Sample of Zone
Media 1,35 Media 1,48
Mediana 1 Mediana 1,5
Moda 2 Moda 2
Varianza de la muestra 1,08157895 Varianza de la muestra 0,94857143
Coeficiente de asimetría 0,13335335 Coeficiente de asimetría -0,01060328
Rango 3 Rango 3
Mínimo 0 Mínimo 0
Máximo 3 Máximo 3
Suma 27 Suma 74
Cuenta 20 Cuenta 50
Se observa que la media es diferente entre los dos grupos de datos, por lo que es
importante analizar los datos en detalle; en promedio el número de vehículos por hogar
en la población determinada (20% de la población) es 1,35 lo que corresponde a 27
vehículos en los 20 hogares y por otro lado, los datos de calibración tiene un promedio
de 1.48 vehículos por hogar y un total de 74 vehículos por los 50 hogares encuestados.
29
Esto indica que la diferencia es del 10% entre los datos de calibración y la población
en estudio.
En ambos grupos de datos, se puede observar, que la cantidad de carros por hogar es
de 0 a 3, por esto, se reunió los datos de manera gráfica para identificar la similitud de
los datos:
16%
3
30%
Nro. de Vevhiculos/hogar
34%
2
15%
32%
1
30%
18%
0
25%
0% 5% 10% 15% 20% 25% 30% 35% 40%

Calibración Muestra 20% Población
Figura 12. Reparto de los vehículos en los hogares dentro de la muestra 20% de la población vs los
datos de calibración.
De la anterior gráfica se puede observar algunas diferencias entre el reparto de los datos, pero
de manera general se puede concluir que hay relación entre la probabilidad de que los hogares
no tengan, tengan 1, 2 o 3 carros.
- “Single” - “Married no children” - “Married 1+ children” – Solteros, casados sin

hijos y casados con hijos
Tabla 18. Estadísticos “Solteros” - Características socioeconómicas de 20% de muestra de zona y
Datos de calibración.
Single- Socio Economic
Single- Calibration data
Media 0,3 Media 0,3

Mediana 0 Mediana 0
Rango 1 Rango 1
Mínimo 0 Mínimo 0
Máximo 1 Máximo 1
Suma 6 Suma 15
Cuenta 20 Cuenta 50
30
Tabla 19. Estadísticos “Casados sin hijos” - Características socioeconómicas de 20% de muestra de
zona y Datos de calibración.
Married no children - Socio Economic
Married no children - Calibration data
Mediana 0 Mediana 0
Rango 1 Rango 1
Mínimo 0 Mínimo 0
Máximo 1 Máximo 1
Suma 6 Suma 14
Cuenta 20 Cuenta 50
Tabla 20. Estadísticos “Casados con hijos” - Características socioeconómicas de 20% de muestra de
zona y Datos de calibración.
Married 1+ children- Socio Economic
Married 1+ children- Calibration data

Mediana 0 Mediana 0
Curtosis -2,01797386 Curtosis -1,9686965
Rango 1 Rango 1
Mínimo 0 Mínimo 0
Máximo 1 Máximo 1
Suma 8 Suma 21
Cuenta 20 Cuenta 50
El valor promedio de las 3 variables es muy parecido en ambos grupos de datos, por lo que
se analizará el reparto de las 3 variables dentro de los grupos de datos:
31
42.0%
Casados con hijos
40.0%
28.0%
Casados sin hijos
30.0%
30.0%
Solteros
30.0%
0.0% 10.0% 20.0% 30.0% 40.0% 50.0%

Calibración Muestra 20% Población
Figura 13. Reparto de los hogares en las dos muestras con respecto a si son “solteros” “casados sin
hijos” y “casados con hijos”
Se puede observar la alta correlación que tienen estas variables entre los grupos de datos,
por lo tanto se pueden usar los datos de calibración para representar la muestra.
2.1 Método de clasificación cruzada
Usando los valores de la tabla de datos de calibración, se eligen 6 intervalos de ingresos

que reúnen los valores de la tabla, teniendo el valor mínimo, máximo y promedio:
Tabla 21. Intervalos para la clasificación de los ingresos en los datos de calibración.
Límite Limite
Intervalo
Inferior Superior
1 $ 16.000,00 $ 32.000,00
2 $ 32.000,00 $ 40.000,00
3 $ 40.000,00 $ 48.000,00
4 $ 48.000,00 $ 56.000,00
5 $ 56.000,00 $ 64.000,00
6 $ 64.000,00 $ 79.000,00
Con la anterior clasificación, se obtiene la siguiente distribución de hogares y número de

vehículos (se obtuvo mediante una tabla dinámica de Excel que clasifico la suma de los
hogares con 0, 1, 2 o 3 vehículos, dentro de los rangos de ingresos establecidos
anteriormente:
32
Tabla 22. Número de hogares con o sin vehículo con ingresos dentro de los rangos establecidos.
Número de vehículos por hogar 0 1 2 3
Total
Intervalos de Ingresos por general
Número de hogares
hogar
$16000-$32000 5 9 1 1 16
$32000-$40000 2 4 2 8
$40000-$48000 2 1 6 9
$48000-$56000 2 2 4
$56000-$64000 2 2
$64000-$79000 4 7 11
Total general 9 16 17 8 50
El total general, nos muestra el total de datos tomados para esta clasificación que es igual al
total de los datos de calibración (50). Teniendo ya el número de hogares clasificados como se
presenta anteriormente, se puede calcular a continuación los viajes que se realizan en esta
misma clasificación, ósea, por intervalos de ingresos y cantidad de vehículos en el hogar. La
siguiente tabla muestra lo obtenido:
Tabla 23. Número de viajes de los hogares que tienen o no vehículo, con ingresos dentro de los
rangos establecidos.
Total
Número de viajes
hogar
$16000-$32000 21 59 7 6 93
$32000-$40000 9 26 13 48
$40000-$48000 11 7 60 78
$48000-$56000 16 23 39
$56000-$64000 25 25
$64000-$79000 49 84 133
Total general 41 108 177 90 416
Tabla 24. Estadísticos variable Trips.

Trips - Calibration data
Media 8,32
Mediana 8
Desviación estándar 3,35297614
Varianza de la muestra 11,242449
Coeficiente de asimetría 0,50502751
Coeficiente de variación 0,40300194
Rango 14
Mínimo 2
Máximo 16
Suma 416
Cuenta 50
Nivel de confianza(95,0%) 0,95290527
En la tabla anterior se ve que en total son 416 viajes realizados por los 50 hogares del grupo
de datos de calibración.
33
Con lo anterior obtenido, se pueden relacionar los valores para obtener las tasas de viajes
realizados de acuerdo a los rangos de ingresos del hogar y el número de vehículos.
Tabla 25. Tasa de viajes por hogar según la clasificación de ingresos y vehículos.
Total
Tasa de viajes/hogar
hogar
$16000-$32000 4,20 6,56 7,00 6,00 23,76
$32000-$40000 4,50 6,50 6,50 17,50
$40000-$48000 5,50 7,00 10,00 22,50
$48000-$56000 8,00 11,50 19,50
$56000-$64000 12,50 12,50
$64000-$79000 12,25 12,00 24,25
Total general 14,20 28,06 59,75 18,00 120,01
Estos valores ahora pueden ser utilizados en la aproximación de viajes para el grupo de datos
“Socio Economic Characteristics of 20% Sample of Zone” en la Tabla 2 (Ver Anexo 1.
Taller1_Datos). A estos valores de la tabla, se le añade una columna que pueda clasificar los
datos en los intervalos o rangos de ingresos ya elegidos de los datos de calibración y así se
clasifican los hogares que se corresponden con este nivel de ingresos. Lo obtenido se
presenta en la siguiente tabla:
Tabla 26. Número de hogares de acuerdo al rango de ingresos dependiendo de la cantidad de carros
que tenga.
Número de vehículos por hogar 0 1 2 3 Total
Intervalos de Ingresos por hogar Número de hogares general
$16000-$32000 3 3 6
$32000-$40000 1 2 3
$40000-$48000 1 3 4
$48000-$56000 1 1 2
$56000-$64000 1 1
$64000-$79000 1 3 4
Total general 5 6 6 3 20
Usando la tasa de viajes por hogares obtenidos del grupo de datos de calibración, se
obtiene la cantidad de viajes que se proyecta se realizarán, para esto se debe multiplicar
cada valor de hogar, con la tasa de viajes por hogar, los resultados se presentan en la
siguiente tabla:
Tabla 27. Número de viajes de los hogares que tienen o no vehículo, con ingresos dentro de los
rangos establecidos para la muestra del 20% de la población.
Número de vehículos por hogar 0 1 2 3 Total
Intervalos de Ingresos por hogar Número de viajes/hogar general
$16000-$32000 12,60 19,67 0,00 0,00 32,27
$32000-$40000 4,50 13,00 0,00 0,00 17,50
$40000-$48000 5,50 0,00 30,00 0,00 35,50
$48000-$56000 0,00 8,00 11,50 0,00 19,50
$56000-$64000 0,00 0,00 12,50 0,00 12,50
$64000-$79000 0,00 0,00 12,25 36,00 48,25
Total general 22,60 40,67 66,25 36,00 165,52
34
2.1. Método de regresión
Tomando la información de la tabla 2 y 3, se realizará la estimación de un modelo de

producción de viajes basados en los hogares y usando regresión múltiple:
Trips Income Cars Single children children
Trips 1,00
Income 0,79 1,00
Cars 0,73 0,70 1,00
Single -0,47 -0,57 -0,51 1,00
Married no children 0,17 0,15 -0,03 -0,41 1,00
Married 1+ children 0,28 0,39 0,50 -0,56 -0,53 1,00
Las variables “Income” Ingresos y rango de ingresos no tienen correlación igual 1, debido a la
modificación que se le hizo a la variable, por los rangos que se redujo; también se puede
observar, que las variables, Ingreso, rango de ingresos, y carros, no se pueden usar para la
generación de los modelos pues presentan correlación altas superior al 0,7.
Se destaca que la correlación más alta observa es la de la variable “ingresos” con un valor de
0,79, por lo contrario, se observa la variable “casado sin hijos, tiene muy baja relación con el
número de viajes, por lo que no es conveniente incluirla en todos los modelos.
A continuación se presentan las opciones de modelos con las variables que no tienen
correlación y con una que si lo esté:
Modelo 1 Ingresos Soltero Cars Casado sin hijos Casado con hijos
Modelo 2 Ingresos Soltero Casado sin hijos Casado con hijos
Modelo 3 Ingresos Cars Casado sin hijos Casado con hijos
En los modelos se empleó un nivel de confianza de 95% y no se consideró intercepto en cero,

debido a que la por ejemplo, si no tiene carro, puede hacer viajes en otro modo.
Modelo 1.
En este modelo se tomó las variables “Income”, “Single Cars Married no children.
Married 1+ children para encontrar los viajes, los resultados de la regresión es la siguiente:

t 95% 95% 95,0% 95,0%
Intercepción 1,4066 1,0505 1,3390 0,1873 -0,7091 3,5224 -0,7091 3,5224
Income 0,0001 0,0000 4,5055 0,0000 0,0001 0,0001 0,0001 0,0001
Single 0,7269 0,8176 0,8891 0,3787 -0,9198 2,3736 -0,9198 2,3736
Cars 1,3626 0,4197 3,2465 0,0022 0,5172 2,2079 0,5172 2,2079
Married no children 1,0145 0,6963 1,4571 0,1520 -0,3878 2,4168 -0,3878 2,4168
Married 1+ children 0,0000 0,0000 65535,0000 #¡NUM! 0,0000 0,0000 0,0000 0,0000
35
F
Regresión 5 386,1775747 77,23551494 26,37786 3,22473E-12
Residuos 45 164,7024253 3,660053895
Total 50 550,88
R^2 ajustado 0,65222114
Observaciones 50
Se observa que las variables, casados con y sin hijos y solteros, no son esta dísticamente
significativas debido a su estadístico t obtenido menor a |1,96|. Ocurrió algo curioso con la
variable “casados con hijos” que las variables es 0, por lo que se extrajo del modelo esta
variable y se volvió a correr el modelo y se obtuvo el siguiente modelo 1.1:
Probabili Superior Inferior Superior

Coeficientes Error típico Estadístico t Inferior 95%
dad 95% 95,0% 95,0%
Intercepción 1,407 1,050 1,339 0,187 -0,709 3,522 -0,709 3,522
Income 0,000 0,000 4,506 0,000 0,000 0,000 0,000 0,000
Single 0,727 0,818 0,889 0,379 -0,920 2,374 -0,920 2,374
Cars 1,363 0,420 3,246 0,002 0,517 2,208 0,517 2,208
F
Regresión 4 386,177575 96,54439368 26,37786 2,6704E-11
Residuos 45 164,702425 3,660053895
Total 49 550,88
R^2 ajustado 0,674443362
Observaciones 50
Los valores para “Casados con hijos no varía” con respecto a lo anteriormente moledado, y
el valor F es el mismo, por lo que se plantea otra opción de modelo eliminando la variable
“sin carro” 1.2:
36

típico t 95% 95% 95,0% 95,0%
Intercepción 1,407 1,050 1,339 0,187 -0,709 3,522 -0,709 3,522
Income 0,000 0,000 4,506 0,000 0,000 0,000 0,000 0,000
Cars 1,363 0,420 3,246 0,002 0,517 2,208 0,517 2,208
Single 0,727 0,818 0,889 0,379 -0,920 2,374 -0,920 2,374
F
Regresión 4 386,177575 96,54439368 26,37786121 2,6704E-11
Residuos 45 164,702425 3,660053895
Total 49 550,88
R^2 ajustado 0,674443362
Observaciones 50
La variable “soltero” se mostró que no es estadísticamente significativa, por lo que se eliminará

del modelo, buscando aproximarnos mejor a un modelo adecuado, la siguiente es la
modelación 1.3:
Superior Inferior Superior

Coeficientes Error típico Estadístico t Probabilidad Inferior 95%
95% 95,0% 95,0%
Intercepción 2,1335 0,7093 3,0078 0,0043 0,7049 3,5622 0,7049 3,5622
Income 0,0001 0,0000 4,5055 0,0000 0,0001 0,0001 0,0001 0,0001
Cars 1,3626 0,4197 3,2465 0,0022 0,5172 2,2079 0,5172 2,2079
Married 1+ children -0,7269 0,8176 -0,8891 0,3787 -2,3736 0,9198 -2,3736 0,9198

F
Regresión 4 386,177575 96,54439368 26,37786121 2,6704E-11
Residuos 45 164,702425 3,660053895
Total 49 550,88

R^2 ajustado 0,674443362
Observaciones 50
37
Los modelos no han logrado obtener un F más alto, el siguiente se analizó solo con dos
variables, 1.4:

t 95% 95,0% 95,0%
Intercepción 2,1672 0,7070 3,0652 0,0036 0,7449 3,5896 0,7449 3,5896
Income 0,0001 0,0000 4,8669 0,0000 0,0001 0,0001 0,0001 0,0001
Cars 1,1585 0,3941 2,9395 0,0051 0,3657 1,9514 0,3657 1,9514
Grados de Suma de Promedio Valor
F
libertad cuadrados de los crítico de F
Regresión 2 378,151438 189,075719 51,44811409 1,4562E-12
Residuos 47 172,728562 3,6750758
Total 49 550,88
R^2 ajustado 0,673107185
Observaciones 50
En este se obtuvo mejores estadísticos, y solo con dos variables intervenidas, ingreso y
número de carros de las personas. Como se observa, el coeficiente de ingreso es cercano a
0, por lo que se modelará por separado estas variables, en una regresión simple para ver su
comportamiento, teniendo en cuenta el 95% de confiabilidad y el intercepto igual a 0, 1.5:
Probabilida Superior Inferior Superior

Coeficientes Error típico Estadístico t Inferior 95%
d 95% 95,0% 95,0%
Income 0,0002 0,0000 28,1153 0,0000 0,0002 0,0002 0,0002 0,0002
Promedio
Grados de Suma de Valor crítico
de los F
libertad cuadrados de F
cuadrados
Regresión 1 3777,819692 3777,819692 790,4728033 1,80878E-31
Residuos 49 234,1803084 4,779189968
R^2 ajustado 0,92122187
Observaciones 50
38
0,002 𝐼𝑛𝑔𝑟𝑒𝑠𝑜𝑠
(28,11)
F: 790,47 y R2: 0,94
El modelo resulta estadísticamente significativo y conceptualmente correcto, tiene un F de

gran tamaño, más alto que todos los anteriores.
Income Gráfico de los residuales

6
2
Residuos
0
$ 0.00 $ 20,000.00 $ 40,000.00 $ 60,000.00 $ 80,000.00 $ 100,000.00
-2
-4
-6
Income
Figura 14. Residuos de los viajes vs los ingresos.
Modelo 2.
El modelo 2, comprenderá varias variables “Ingresos”, “Single Married no children”,

“Married 1+ children”. Y variaciones a este modelo que permitirán encontrar la mejor opción,
en la siguiente tabla se muestra el resumen de lo realizado:
Superior Inferior Superior
Coeficientes Error típico Estadístico t ProbabilidadInferior 95%
95% 95,0% 95,0%
Income 0,0001 0,0000 7,1380 0,0000 0,0001 0,0002 0,0001 0,0002
Single 1,9622 0,7773 2,5245 0,0151 0,3977 3,5267 0,3977 3,5267
Married no children 2,3419 1,1147 2,1008 0,0412 0,0980 4,5857 0,0980 4,5857
Married 1+ children 2,0098 1,1361 1,7691 0,0835 -0,2769 4,2966 -0,2769 4,2966
F
Regresión 4 3808,721572 952,180393 215,4695 1,00545E-28
Residuos 46 203,2784281 4,419096264
Total 50 4012
R^2 ajustado 0,924288856
Observaciones 50
39
Por este modelo se están obteniendo mejores estadísticos, pero se tiene problemas con los
coeficientes de “ingreso” y “soltero”, se eliminó el “soltero” para ver el comportamiento:
Inferior Superior Inferior Superior

Coeficientes Error típico Estadístico t Probabilidad
95% 95% 95,0% 95,0%
Income 0,000 0,000 12,134 0,000 0,000 0,000 0,000 0,000
Married 1+ children 0,132 0,906 0,145 0,885 -1,692 1,955 -1,692 1,955
F
Regresión 3 3780,55806 1260,186019 255,9118821 1,0728E-28

Residuos 47 231,441942 4,924296634
Total 50 4012
R^2 ajustado 0,918581197
Observaciones 50
Finalmente, se realiza una regresión linear simple con la variable “Cars” y se obtiene lo
siguiente:

t 95% 95,0% 95,0%
Cars 4,6923 0,2748 17,0754 0,0000 4,1401 5,2445 4,1401 5,2445
Promedio
de los F
cuadrados
Regresión 1 3434,76923 3434,76923 291,5708955 4,991E-22
Residuos 49 577,230769 11,7802198
Total 50 4012
R^2 ajustado 0,835715773
Observaciones 50
4,6823 𝑉𝑒ℎí𝑐𝑢𝑙𝑜𝑠 𝑝𝑜𝑟 ℎ𝑜𝑔𝑎𝑟𝑒𝑠

(17,07)
40
F: 291,57 y R2: 0,856
El modelo resulta estadísticamente significativo y conceptualmente correcto, tiene un F de

gran tamaño, más alto que todos los anteriores del modelo 2 y 3.
Sin embargo, el modelo 1.5, que relaciona linealmente los viajes con los ingresos, tiene
estadísticamente valores mejores, como el F mayor y el R2 cercano a 1.
El modelo elegido es:
0,002 𝐼𝑛𝑔𝑟𝑒𝑠𝑜𝑠
(28,11)
F: 790,47 y R2: 0,94
A continuación se verifica lo resultante de este modelo para estimar los viajes:
Si el ingreso es $ 2.202.065,00 (suma total de los ingresos reportados en la tabla 3)
Los viajes son: 0,00018218273393129*$ 2.202.065,00=401,178 viajes.
Según la tabla 3, los viajes totales son 416 y con la ecuación se obtuvo 401,17 viajes, esto
significa un error del:
401,178−416
E= = 3,7%
401,178
Se concluye que el modelo predice de manera satisfactoria los viajes de los datos de
calibración, y se comprueba que además funcione para los datos de la muestra del
20% de la población:
Si el ingreso es $ 892.882,00 (suma total de los ingresos reportados en la tabla 2)
Los viajes son: 0,00018218273393129* $ 892.882,00= 162,66 viajes.
Y según lo obtenido de la clasificación cruzada, los viajes son 165,52 conservan el mismo
porcentaje de error.
41
2.2. Comparación de modelos (Clasificación cruzada y regresión)
Teniendo en cuenta los viajes de los datos que son el 20% de la población, se estimó el
número de viajes total así;
Los viajes del 100% de la población calculado por clasificación cruzada son:
𝑣𝑖𝑎𝑗𝑒𝑠 𝑑𝑒𝑙 20%

∗ 100%
20%
𝑉20% 165,52
𝑉100% = ∗ 100% = ∗ 100 = 827,58 𝑣𝑖𝑎𝑗𝑒𝑠
20% 20
Los viajes del 100% de la población calculado mediante la ecuación obtenida por el método
de regresión lineal son:
𝑣𝑖𝑎𝑗𝑒𝑠 𝑑𝑒𝑙 20%
∗ 100%
20%
𝑉20% 162,66
𝑉100% = ∗ 100% = ∗ 100 = 813,3 𝑣𝑖𝑎𝑗𝑒𝑠
20% 20
Se calcula el error relativo para comparar los valores obtenidos:
813,33−827,58
E=[ 813,33
] = 1,8%
.
Este error, significa que estos modelos pueden predecir de manera eficaz el comportamiento
de los viajes de la población, sin embargo la regresión lineal solo usó una variable
disminuyendo la posibilidad de erres en la clasificación cruzada.
III. Conclusiones
1. Para estimar la producción de viajes con modelos de regresión lineal en

planificación de sistemas de transporte se requiere de información de calidad con
variables correlacionadas y otras independientes entre sí de tal manera que se
pueda obtener una formula en relación a sus datos. Es posible que se tengan datos
de encuestas realizadas donde la calidad del grupo de datos no es buena y no
permite encontrar esta correlación entre estas variables.
2. Cuando se tiene gran variedad de datos, es posible designar diferentes
combinaciones de modelos con distintas variables, pero la regresión lineal
mostrará estadísticos no tan buenos, sin embargo cuando se formulan modelos
con menos variables se puede llegar a un modelo con buena precisión.
3. En casi todos los modelos de regresión lineal desarrollados donde se incluía la
variable área, esta se convertía en una variable conceptualmente válida, debido a
que asumir que en cuanto haya más área de cada zona entonces se generarán
más viajes y esta premisa no es real, debido a que por ejemplo en zonas
industriales, las zonas se pueden haber definido más grandes, pero no vive mucha
población que genere estos viajes.
4. Se observó que las variables como la edad media de la población de la zona y el
número de hogares dentro de las zonas si pueden tener correlación directa con los
viajes generados en las zonas, por eso los modelos que tuvieron en cuenta estas
variables tienen mejores resultados estadísticos. Sin embargo la edad media tiene
42
en especial valores residuales muy dispersos, lo que hace que se formulen

modelos heteroscedásticos con esta variable. Por esta razón se decidió usar
variaciones y grupos de edades, para comprobar estas condiciones.
5. Para estimar la población mediante el método de regresión lineal, es importante
identificar las variables estadísticamente significativas para no incurrir en errores
cuando se genere los modelos de estimación
IV. Bibliografía
- Ortuzar and Willumsen (2011) Modelling Transport
- http://humanidades.cchs.csic.es/cchs/web_UAE/tutoriales/PDF/Regresion_lineal_
multiple_3.pdf
- Planificación del Transporte Urbano. 2da. Ed. 2000, Michael Meyer y Eric Miller.
- Ingeniería de Tránsito y Carreteras 3era. Ed. 2005, Nicholas Garber y Lester
Hoel.
- Capítulo 7: Vialidad y Transporte, Octubre 2009, Spartaco Ciccarelli.
(www.cianz.org.ve/expo2009)
- http://ingenieria.uncuyo.edu.ar/catedras/clase-3.pdf
43

Taller 1.modelos de Generación de Viajes

Hochgeladen von

Dokumentinformationen

Originalbeschreibung:

Originaltitel

Copyright

Verfügbare Formate

Dieses Dokument teilen

Dokument teilen oder einbetten

Freigabeoptionen

Stufen Sie dieses Dokument als nützlich ein?

Sind diese Inhalte unangemessen?

Copyright:

Verfügbare Formate

Taller 1.modelos de Generación de Viajes

Hochgeladen von

Copyright:

Verfügbare Formate

PLANIFICACIÓN DE SISTEMAS DE TRANSPORTE

TALLER 1: Modelos de generación de viajes

Estudiante: Clara Milena Velasco Pombo

Profesor: Carlos González Calderón

Universidad Nacional de Colombia -Sede Medellín

En los siguientes ejercicios se desarrolla el tema “Modelos de generación de viajes” donde se

I. Estimación de modelos de generación de viajes basados en zonas

1.1. Análisis de los datos

- Verificación de la consistencia de los datos:

- Cálculo de valores máximos, mínimos, promedio, media y desviación para algunas

Viajes por zona

Tabla 1. Estadísticos de algunas variables – Elaboración propia.

1000 Trip Production

Trip Productión (vaies) 6000

Tabla 2. Correlación de variables (data 1) – Elaboración propia

Tabla 3. Correlación de variables (data 2) – Elaboración propia

Tabla 4. Correlación de variables (data 3) – Elaboración propia

Tabla 5. Correlación de variables (data 4) – Elaboración propia

1.2. Modelos realizados

Tabla 6. Modelos realizados seleccionados para analizar - Elaboración propia.

1.3. Análisis de regresión

Error Estadístico Inferior Superior Inferior Superior

Como resultado de la regresión se presenta la ecuación:

F: 148,92 y R2: 0,86

Como se observa el coeficiente R2 es menor a 1 (0,86), el coeficiente F es igual a 148,92

A continuación se corre nuevamente el modelo eliminando la variable “Average HH Size” –

Estadístico Inferior Superior Inferior Superior

Como resultado de la regresión se presenta la ecuación:

−4,95 𝐴𝑟𝑒𝑎 0.52𝑃𝑜𝑝𝑢𝑙𝑎𝑡𝑖𝑜𝑛 7,43 𝑀𝑒𝑑𝑖𝑎𝑛𝐴𝑔𝑒 0,192𝐻𝑜𝑔𝑎𝑟𝑒𝑠 132,9𝑇𝑎𝑚𝑎ñ𝑜𝑓𝑎𝑚𝑖𝑙𝑖𝑎

F: 177,2 y R2: 0,86

Aunque el F aumentó, se sigue presentado variables que no son estadísticamente

Error Estadístico Inferior Superior Inferior Superior

Como resultado de la regresión se presenta la ecuación:

−4,6 𝐴𝑟𝑒𝑎 0,48 𝑃𝑜𝑝𝑢𝑙𝑎𝑡𝑖𝑜𝑛 1,9 𝑀𝑒𝑑𝑖𝑎𝑛𝐴𝑔𝑒 0,24 𝐻𝑜𝑔𝑎𝑟𝑒𝑠

F: 222,1 y R2: 0,86

Aunque el F aumentó, se sigue presentado variables que no son estadísticamente

A continuación se corre nuevamente el modelo eliminando la variable “Average Family Size”

Como resultado de la regresión se presenta la ecuación:

−3.80 𝐴𝑟𝑒𝑎 0.60 𝑃𝑜𝑝𝑢𝑙𝑎𝑡𝑖𝑜𝑛 15.00 𝑀𝑒𝑑𝑖𝑎𝑛𝐴𝑔𝑒 305.97 𝑇𝑎𝑚𝑎ñ𝑜𝐻𝑜𝑔𝑎𝑟𝑒𝑠

Como se observa el coeficiente R2 es menor a 1 (0,86), el coeficiente F es igual a 225,28.

A continuación se corre nuevamente el modelo eliminando la variable Área que no es

Estadístico Inferior Superior Inferior Superior

Como resultado de la regresión se presenta la ecuación:

0.60 𝑃𝑜𝑝𝑢𝑙𝑎𝑡𝑖𝑜𝑛 15,81 𝑀𝑒𝑑𝑖𝑎𝑛𝐴𝑔𝑒 327,8 𝑇𝑎𝑚𝑎ñ𝑜𝐻𝑜𝑔𝑎𝑟𝑒𝑠

Como se observa el coeficiente R2 es menor a 1 (0,86), el coeficiente F es igual a 301,6, con

Las siguientes tablas presentan los resultados del modelo 1.5:

Error Estadístico Inferior Superior Inferior Superior

Como resultado de la regresión se presenta la ecuación:

0,57 𝑃𝑜𝑝𝑢𝑙𝑎𝑡𝑖𝑜𝑛 1,72 𝑀𝑒𝑑𝑖𝑎𝑛𝐴𝑔𝑒

F: 445,25 y R2: 0,86

Estadístico Inferior Superior Inferior Superior

Como resultado de la regresión se presenta la ecuación:

Para ver el comportamiento de los datos, la siguiente gráfica de residuos, muestra su

Population Gráfico de los residuales

Error Estadístico Inferior Superior Inferior Superior

Como resultado de la regresión se presenta la ecuación:

F: 159,2 y R2: 0,85

Tabla 7. Regresiones lineales realizadas, variaciones al modelo 2.

Tabla 8. Ejemplo de la obtención de la variable unificada “población entre 15 y 85 años”

Error Estadístico Inferior Superio Inferior Superior

Como resultado de la regresión se presenta la ecuación:

F: 177,82 y R2: 0,86