Beruflich Dokumente
Kultur Dokumente
TABLA DE CONTENIDO
Introducción............................................................................................................................2
I. Estimación de modelos de generación de viajes basados en zonas ...............................3
1.1. Análisis de los datos ....................................................................................................3
1.2. Modelos realizados ....................................................................................................10
1.3. Análisis de regresión .................................................................................................10
1.4. Elección del modelo ...................................................................................................26
II. Estimación de modelos de generación de viajes basados en el hogar. .........................28
2.1 Método de clasificación cruzada .....................................................................................32
2.1. Método de regresión ..................................................................................................35
2.2. Comparación de modelos (Clasificación cruzada y regresión) ...................................42
III. Conclusiones .............................................................................................................42
IV. Bibliografía.................................................................................................................43
Introducción
2
Taller 1 – Modelos de generación de viajes
3
Taller 1 – Modelos de generación de viajes
Después de analizar la consistencia del conjunto de datos, se observó que existen series de
datos que pueden tener correlación entre ellas o entre la variable que nos interesa predecir,
que es los viajes producidos a cada zona, estos datos pueden ser o no variables
independientes, por lo que se analiza la correlación entre las variables seleccionadas con las
más representativas que permitan estimar un modelo adecuado.
Para determinar cuáles variables son más representativas que otras y cuales se analizarán
dentro de los modelos estimados, se revisó una a una las 250 columnas que aportan datos
de las zonas encuestadas y se observó que hay información que según criterio ingenieril no
es representativa con respecto a los viajes producidos y recopilados en la encuesta Origen-
Destino.
Por ejemplo, se considera, que las variables como población clasificada por su descendencia
o ascendencia de cualquier país o por raza blanca, negra o asiática, o por el tipo de trabajo
como manufactura, ventas y demás; no son representativas en la generación de viajes de una
zona, por lo que se descartaron 172 variables y se consideraron 78 variables que datan
información de: hogares con rangos de ingresos y edad de la población por rangos, número
de hogares dentro de la población, sexo de la población, personas que estudian o trabajan,
trabajadores que usan o no carro particular, que si pueden tener relación con la generación o
producción de viajes.
En la siguiente tabla se muestra los resultados de correlación entre todas las variables
previamente seleccionadas y además se muestra algunos estadísticos que analizan cada
variable:
4
Taller 1 – Modelos de generación de viajes
Se observa que la variable “Área” tiene gran variabilidad de sus datos, se muestra un
coeficiente de variación de 192% a diferencia de la variable “Average Family Size” - tamaño
promedio de Familias (según cantidad de personas en la familia), que tiene un coeficiente de
variación de apenas el 6%.
Las variables población y número de viajes producidos, se supone tienen una relación directa
(lineal positiva), como es de esperarse, a medida que aumenta la población de una zona,
aumenta los viajes producidos de esta.
La siguiente gráfica muestra la tendencia lineal de los datos y con esto la correlación que
tienen estas variables:
7000
6000
5000
Trip Production
4000
3000
2000
0
0 2000 4000 6000 8000 10000
Population
Figura 1. Grafica de dispersión de los datos entre las variables población y viajes.
De forma similar, graficamente las variables asociadas al sexo de las personas y los hogares,
demuestran tener una relación lineal positiva con la generación de viajes, las siguientes
gráficas muestran la dispersión de sus datos y su tendencia:
5
Taller 1 – Modelos de generación de viajes
7000
5000
4000
Female
3000
Male
2000
1000
0
0 1000 2000 3000 4000 5000 6000
Población (habitantes)
Figura 2. Grafica de dispersión de los datos entre las variables población femenina y masculina y
viajes.
7000
6000
Trip Productión (vaies)
5000
4000
Households
3000
2000
1000
0
0 1000 2000 3000 4000 5000
Población (Hogares)
Figura 3. Grafica de dispersión de los datos entre las variables hogares y viajes.
6
Taller 1 – Modelos de generación de viajes
7000
6000
Trip Productión (vaies)
5000
4000
3000
2000
1000
Employed civilian population 16+
0
0 1000 2000 3000 4000 5000 6000
Población (Habitantes de más de 16 años con empleo.)
Figura 4. Grafica de dispersión de los datos entre las variables empleados mayores de 16 años y
viajes.
7000
6000
Trip Productión (vaies)
5000
4000
3000
2000
1000
HH_Income $150K-199,999
0
0 50 100 150 200 250
Población (Hogares con ingresos entre 150 y 199 mil dolares.)
Figura 5. Grafica de dispersión de los datos entre los variables hogares con ingresos entre 150mil y
199mil dólares anuales y viajes.
Como se observó en las anteriores gráficas, existen valores alejados de la tendencia lineal,
se pueden atribuir a errores de la encuesta al realizarla, o simplemente no tener relación lineal,
como la figura 5 que según la ispersión de los datos, se observa que no se correlacionan
linealmente, sin embargo a continuación se verificará la correlación de las vaiables mediante
el análisis de regresiones:
7
Taller 1 – Modelos de generación de viajes
Los valores de la correlación superior a 0,7 se consideraron que están linealmente dependientes o son variables muy correlacionadas, por lo tanto
no deberán ser incluidas en el modelo a realizar, debido a que disminuirán la precisión de las estimaciones efectuadas. Sin embargo para las
variables que están muy correlacionadas entre sí, se considera que pueden ser eliminadas del modelo y explicadas por otra variable más
representativa.
En la anterior tabla se observa que las variables asociadas a los niveles de ingresos entre 25 mil 150 mil dólares están muy correlacionadas,
además de la población por diferentes rangos de edades, por lo que se decide convertir estas variables en una única que reúna los datos de estas
en una sola variable.
8
Taller 1 – Modelos de generación de viajes
Se unifica la variable de ingresos en los hogares, sumando los ingresos entre 25 mil y 150
mil dólares por hogar, además las variables de la edad, se unificaron en personas mayores
de 15 años menos los mayores de 65 años:
Luego de eliminadas las variables correlacionadas, y unificadas unas de ellas, la anterior tabla
muestra que las variables que están correlacionadas con los viajes son: Población, población
entre 15 y 85 años, habitantes de más de 16 años con empleo y hogares.
Se observa también que las variables con un coeficiente de correlación más alta con respecto
a la población son: hogares, habitantes de más de 16 años con empleo y hogares con
ingresos entre $25000 $149.999 (dólares) anuales.
9
Taller 1 – Modelos de generación de viajes
Por lo que se puede concluir, que entre estas variables se puede elegir un modelo que
represente muy bien el número de viajes.
- Los coeficientes asociados a cada una de las variables a incluir en los modelos, no
podrán asumir valores negativos. Con excepción del costo y el tiempo que son
conceptualmente válidos que tengan coeficientes negativos.
- Se utiliza nivel de confianza 95%
- Se emplea un intercepto igual a cero para que no se creen constantes que de
valores de viajes sin variaciones en las demás variables.
- Los valores de las variables X, no pueden ser estocásticos
10
Taller 1 – Modelos de generación de viajes
Modelo 1.
Como primer modelo se analizó la regresión lineal entre las variables Edad Media, Tamaño
promedio del hogar, Tamaño promedio de Familias, área y población. Con ayuda del análisis
de datos del programa de Office Excel 2013, se analizó mediante una regresión lineal múltiple
y las siguientes tablas presentan los resultados obtenidos:
Estadísticas de la regresión
Coeficiente de correlación múltiple 0,93
Coeficiente de determinación R^2 0,86
R^2 ajustado 0,85
Error típico 982,98
Observaciones 147,00
ANÁLISIS DE VARIANZA
Grados de Suma de Promedio de Valor crítico
F
libertad cuadrados los cuadrados de F
Regresión 6 863313453,6 143885575,6 148,912 3,24361E-58
Residuos 141 136240292,7 966243,211
Total 147 999553746,3
−1,98 𝐴𝑟𝑒𝑎 0.64 𝑃𝑜𝑝𝑢𝑙𝑎𝑡𝑖𝑜𝑛 11,89 𝑀𝑒𝑑𝑖𝑎𝑛𝐴𝑔𝑒 630,13 𝑇𝑎𝑚𝑎ñ𝑜𝐻𝑜𝑔𝑎𝑟𝑒𝑠 0,09𝐻𝑜𝑔𝑎𝑟𝑒𝑠 297,37𝑇𝑎𝑚𝑎ñ𝑜𝑓𝑎𝑚𝑖𝑙𝑖𝑎
𝑣𝑖𝑎𝑗𝑒𝑠 = + + − − +
(−0,29) (3,95) (0,87) (−1,36) (−0,25) (0,82)
De la anterior ecuación muestra que el coeficiente asociado a las variables área, hogares, y
tamaño promedio de los hogares es negativo, de acuerdo con las consideraciones iniciales
estas variables deberán ser excluidas del modelo puesto que no presentan consistencia con
la realidad. También se observa que el valor del estadístico t para todas las variables excepto
población, edad media y tamaño promedio de las familias, el t es inferior a |1.96| lo cual indica
que las variables no son representativas para el modelo para el grado de confianza asumido
en el modelo inicialmente (95%).
11
Taller 1 – Modelos de generación de viajes
Estadísticas de la regresión
Coeficiente de correlación múltiple 0,93
Coeficiente de determinación R^2 0,86
R^2 ajustado 0,85
Error típico 985,91
Observaciones 147,00
ANÁLISIS DE VARIANZA
Grados de Suma de Promedio de Valor
F
libertad cuadrados los cuadrados crítico de F
Regresión 5 861525910 172305182 177,2638 5,7556E-59
Residuos 142 138027837 972027,0182
Total 147 999553746
Estadísticas de la regresión
Coeficiente de correlación múltiple 0,93
Coeficiente de determinación R^2 0,86
R^2 ajustado 0,85
Error típico 984,42
Observaciones 147,00
12
Taller 1 – Modelos de generación de viajes
ANÁLISIS DE VARIANZA
Grados de Suma de Promedio de Valor
F
libertad cuadrados los cuadrados crítico de F
Regresión 4 860975376 215243844 222,112 4,8036E-60
Residuos 143 138578370 969079,5135
Total 147 999553746
Coeficientes Error típico Estadístico t Probabilidad Inferior 95%Superior 95% Inferior 95,0% Superior 95,0%
Intercepción 0,00 #N/A #N/A #N/A #N/A #N/A #N/A #N/A
Area -3,80 6,35 -0,60 0,55 -16,35 8,75 -16,35 8,75
Population 0,60 0,04 13,44 0,00 0,51 0,69 0,51 0,69
Median Age 15,00 11,51 1,30 0,19 -7,76 37,76 -7,76 37,76
Average HH Size -305,97 197,71 -1,55 0,12 -696,79 84,85 -696,79 84,85
ANÁLISIS DE VARIANZA
Promedio de
Grados de Suma de Valor
los F
libertad cuadrados crítico de F
cuadrados
Regresión 4 862656245,5 215664061,4 225,2777486 2,0218E-60
Residuos 143 136897500,8 957325,1806
Total 147 999553746,3
13
Taller 1 – Modelos de generación de viajes
Estadísticas de la regresión
Coeficiente de correlación múltiple 0,93
Coeficiente de determinación R^2 0,86
R^2 ajustado 0,85
Error típico 978,43
Observaciones 147,00
F: 225,28 y R2 :0,86
De la anterior ecuación muestra que el coeficiente asociado a las variables área y tamaño
promedio de los hogares es negativo, de acuerdo con las consideraciones iniciales estas
variables deberán ser excluidas del modelo puesto que no presentan consistencia con la
realidad. También se observa que el valor del estadístico t para todas las variables excepto
población es inferior a |1.96| lo cual indica que las variables no son representativas para el
modelo para el grado de confianza asumido en el modelo inicialmente (95%).
ANÁLISIS DE VARIANZA
Promedio
Grados de Suma de Valor
de los F
libertad cuadrados crítico de F
cuadrados
Regresión 3 862313074 287437691 301,5945 1,2811E-61
Residuos 144 137240673 953060,227
Total 147 999553746
Estadísticas de la regresión
Coeficiente de correlación múltiple 0,93
Coeficiente de determinación R^2 0,86
R^2 ajustado 0,85
Error típico 976,25
Observaciones 147,00
14
Taller 1 – Modelos de generación de viajes
F: 301,6 y R2 :0,86
ANÁLISIS DE VARIANZA
Grados Promedio
Suma de Valor
de de los F
cuadrados crítico de F
libertad cuadrados
Regresión 2 859588570 429794285 445,2548345 2,1939E-62
Residuos 145 139965176 965277,077
Total 147 999553746
Estadísticas de la regresión
Coeficiente de correlación múltiple 0,93
Coeficiente de determinación R^2 0,86
R^2 ajustado 0,85
Error típico 982,49
Observaciones 147,00
Con este nuevo modelo, la variable “Edad media” se convirtió en una variable
conceptualmente inválida y no es estadísticamente significativa, debido a su coeficiente y el
estadístico t. También se observa que son solo dos variables en X, el F de Fisher aumentó
considerablemente con respecto al primer modelo generado.
15
Taller 1 – Modelos de generación de viajes
Por lo anterior, nuevamente se correrá el modelo 1.6 quitando la variable Edad Media y
realizando la regresión lineal entre las dos variables población y producción de viajes, las
siguientes tablas muestran lo obtenido:
ANÁLISIS DE VARIANZA
Promedio Valor
Grados de Suma de
de los F crítico
libertad cuadrados
cuadrados de F
Regresión 1 859464537 859464537 895,7280 6,2E-64
Residuos 146 140089209 959515,133
Total 147 999553746
Estadísticas de la regresión
Coeficiente de correlación múltiple 0,93
Coeficiente de determinación R^2 0,86
R^2 ajustado 0,85
Error típico 979,55
Observaciones 147,00
0,56 𝑃𝑜𝑝𝑢𝑙𝑎𝑡𝑖𝑜𝑛
𝑣𝑖𝑎𝑗𝑒𝑠 =
(29,93)
F: 895,73 y R2 :0,86
16
Taller 1 – Modelos de generación de viajes
0
-500 0 2000 4000 6000 8000 10000
-1000
-1500
-2000
Population
Figura 6. Dispersión de datos residuales viajes vs población
Se observa de esta gráfica, que los residuos no tienen una tendencia sistemática por su
distribución, no se puede descartar la hipótesis de un modelo homocedástico, es decir, las
varianzas de los residuos son constantes.
Modelo 2.
Para este modelo, se analizará las variables Edad media, Tamaño promedio de hogar, Área,
Hogares y tamaño promedio de los hogares.
Estadísticas de la regresión
Coeficiente de correlación múltiple 0,92
Coeficiente de determinación R^2 0,85
R^2 ajustado 0,84
Error típico 1032,15
Observaciones 147,00
ANÁLISIS DE VARIANZA
Grados de Suma de Promedio de Valor
F
libertad cuadrados los cuadrados crítico de F
Regresión 5 848275234 169655046,8 159,25 3,6285E-56
Residuos 142 151278512 1065341,637
Total 147 999553746
17
Taller 1 – Modelos de generación de viajes
−1,7 𝐴𝑟𝑒𝑎 6,93 𝑀𝑒𝑑𝑖𝑎𝑛𝐴𝑔𝑒 1,36 𝐻𝑜𝑔𝑎𝑟𝑒𝑠 206,7 𝑇𝑎𝑚𝑎ñ𝑜𝑓𝑎𝑚𝑖𝑙𝑖𝑎 385,7 𝑇𝑎𝑚𝑎ñ𝑜𝐻𝑜𝑔𝑎𝑟𝑒𝑠
𝑣𝑖𝑎𝑗𝑒𝑠 = − + − +
(−0,24) (−0,51) (12,08) (−0.58) (0,95)
Similar al caso de las variaciones del modelo 1, se observa que las variables edad media,
área y tamaño promedio de las familias, resultan conceptualmente invalidas y
estadísticamente no representan al modelo. En cada variación del modelo se buscó dejar las
variables conceptualmente válidas y estadísticamente significativas.
En la siguiente tabla se presentan los resultados de las regresiones realizadas para cada
caso, así como las observaciones a cada modelo obtenido.
Para el modelo 2.5, que tiene los mejores coeficientes de correlación como el F más grande
y la t mayor a |1.96|, a este modelo se analizará si es un homoscedástico o heterocedástico:
4000
Households Gráfico de los residuales
3000
2000
Residuos
1000
0
0 500 1000 1500 2000 2500 3000 3500 4000 4500
-1000
-2000
Households
-3000
Figura 7. Dispersión de los datos residuales viajes vs hogares.
Los resultados no presentan una distribución “desordenada” es decir tiene valores arriba y
debajo de la línea de cero, sin embargo se observa más datos por encima del cero e incluso
18
Taller 1 – Modelos de generación de viajes
se observan valores dispersos que pueden referirse a errores en la toma de los datos en la
encuesta. Con lo anterior no se puede descartar que sea un modelo homocedástico.
Modelo 3.
Se analiza a continuación un modelo que contenga, Área, Edad Media, tamaño promedio de
los hogares, tamaño promedio de las familias y una variable ajustada entre otras
correlacionadas que es la Población entre 15 y 85 años, esta última variable se ajustó, usando
la variable “Population 15+” y “Age 85+”, debido a que se observó que están más
correlacionados los viajes de las personas en el grupo de esas edades y no las menores de
15 años y mayores de 65 años.
La variable “población entre 15 y 85 años” es la resta de “Población mayor de 15 años” y
“población mayor de 85 años”, la siguiente tabla muestra un ejemplo de la variable y los datos
obtenidos para esta:
Entonces con estas variables, se realizó la regresó lineal y se obtuvo los siguientes análisis
estadísticos:
19
Taller 1 – Modelos de generación de viajes
ANÁLISIS DE VARIANZA
Grados de Suma de Promedio de Valor crítico
F
libertad cuadrados los cuadrados de F
Regresión 5 861898090 172379617,9 177,820 4,76011E-59
Residuos 142 137655657 969406,0338
Total 147 999553746
Estadísticas de la regresión
Coeficiente de correlación múltiple 0,929
Coeficiente de determinación R^2 0,862
R^2 ajustado 0,851
Error típico 984,584
Observaciones 147,000
−1,46 𝐴𝑟𝑒𝑎 9,59 𝑀𝑒𝑑𝑖𝑎𝑛𝐴𝑔𝑒 433,7 𝑇𝑎𝑚𝑎ñ𝑜𝐻𝑜𝑔𝑎𝑟𝑒𝑠 191,7 𝑇𝑎𝑚𝑎ñ𝑜𝑓𝑎𝑚𝑖𝑙𝑖𝑎 0,74 𝑃𝑜𝑏𝑙𝑎𝑐𝑖ó𝑛15𝑦85𝑎ñ𝑜𝑠
𝑣𝑖𝑎𝑗𝑒𝑠 = + − + +
(−0,22) (0,75) (−1,12) (0,57) (13,21)
Con esta regresión se observó que la variable “tamaño promedio de familias” y “área” tienen
coeficientes negativos, lo que las hacen variables conceptualmente inválidas, por lo que se
harán variaciones al modelo, eliminando esas variables, a continuación se presentan los
resultados de los modelos realizados:
Entre las variables analizadas, se observó que las variables “Tamaño promedio de las
familias”, “tamaño promedio de los hogares” y “área” son conceptualmente inválidas, por lo
que en algunos modelos, se fueron eliminando para obtener de diferentes variaciones de
modelos hasta llegar a uno estadísticamente aceptable.
Para el modelo 3.5, que tiene los mejores coeficientes de correlación como el F más grande
y la t mayor a |1.96|, a este modelo se analizará si es un homoscedastico o heterocedastico:
20
Taller 1 – Modelos de generación de viajes
0
-500 0 1000 2000 3000 4000 5000 6000 7000 8000
-1000
-1500
-2000
Población entre 15 y 85 años
Figura 8. Dispersión de datos residuales. Población entre 15 y 85 años.
Los resultados no presentan una distribución “desordenada” es decir tiene valores arriba y
debajo de la línea de cero, sin embargo se observa más datos por encima del cero e incluso
se observan valores dispersos que pueden referirse a errores en la toma de los datos en la
encuesta. Con lo anterior no se puede descartar que sea un modelo homocedástico. Por lo
que el modelo se considera conceptualmente válido y estadísticamente significativo para un
nivel de confianza de un 95%.
Modelo 4.
Se analiza a continuación un modelo que contenga, Área, Edad Media, tamaño promedio de
los hogares, tamaño promedio de las familias y una variable ajustada entre otras
correlacionadas que es la “Ingresos en los hogares entre 25mil a 149,9 mil dólares al año”.,
esta última variable se ajustó, usando las variables “HH_Income $25K-34,999”, “HH_Income
$35K-49,999”, “HH_Income $50K-74,999”, “HH_Income $75K-99,999”, “HH_Income $100K-
149,999” sumándolas entre sí, debido a que se correlacionan los viajes generados por estos
grupos de “ingresos en el hogar”, de la siguiente manera:
Tabla 10. Ejemplo de la obtención de la variable unificada “Hogares con ingresos anuales entre 25 mil
y 149,9 mil dólares”
HH_Income HH_Income HH_Income HH_Income HH_Income
HH_Income
$25K-- $35K- $50K- $75K- $100K-
$25K-34,999
149,999 49,999 74,999 99,999 149,999
841 145 203 283 144 66
1162 182 193 510 126 151
646 84 145 203 133 81
1769 254 339 511 433 232
1020 127 285 388 142 78
788 101 159 285 168 75
1685 223 379 409 375 299
1959 241 369 482 430 437
540 72 123 129 101 115
685 107 85 218 132 143
21
Taller 1 – Modelos de generación de viajes
Entonces con estas variables, se realizó la regresó lineal y se obtuvo los siguientes análisis
estadísticos:
ANÁLISIS DE VARIANZA
Grados de Suma de Promedio de los Valor crítico
F
libertad cuadrados cuadrados de F
Regresión 5 848490637 169698127,4 159,517 3,28256E-56
Residuos 142 151063109 1063824,715
Total 147 999553746
Estadísticas de la regresión
Coeficiente de correlación múltiple 0,9213
Coeficiente de determinación R^2 0,8489
R^2 ajustado 0,8376
Error típico 1031,4188
Observaciones 147,0000
−3,19 𝐴𝑟𝑒𝑎 29,44 𝑀𝑒𝑑𝑖𝑎𝑛𝐴𝑔𝑒 616,97 𝑇𝑎𝑚𝑎ñ𝑜𝐻𝑜𝑔𝑎𝑟𝑒𝑠 965,36 𝑇𝑎𝑚𝑎ñ𝑜𝑓𝑎𝑚𝑖𝑙𝑖𝑎 1,718 𝐼𝑛𝑔𝑟. 𝐻𝑜𝑔𝑎𝑟25𝑎149𝑚𝑖𝑙
𝑣𝑖𝑎𝑗𝑒𝑠 = − − + +
(−0,45) (−2,137) (−1,51) (2,74) (12,1)
Con esta regresión se observó que la variable “tamaño promedio de familias”, “área” y “edad
media”, tienen coeficientes negativos, lo que las hacen variables conceptualmente inválidas,
por lo que se harán variaciones al modelo, eliminando esas variables, a continuación se
presentan los resultados de los modelos realizados:
22
Taller 1 – Modelos de generación de viajes
Entre las variables analizadas, se observó que las variables “tamaño promedio de los hogares”
, “edad media” y “área” son conceptualmente inválidas, por lo que en algunos modelos, se
fueron eliminando para obtener de diferentes variaciones de modelos hasta llegar a uno
estadísticamente aceptable.
Para el modelo 4.5, que tiene los mejores coeficientes de correlación como el F más grande
y la t mayor a |1.96|, sin embargo tiene un R2 menor a los demás modelos a este modelo se
analizará si es un homoscedastico o heterocedastico:
1000
0
0 500 1000 1500 2000 2500 3000 3500
-1000
-2000
-3000
HH_Income $25K--149,999
Figura 9. Dispersión de datos residuales. Hogares con ingresos anuales entre 25mil y 149,9mil
dólares
Los resultados no presentan una distribución “desordenada” es decir tiene valores arriba y
debajo de la línea de cero, sin embargo se observa más datos por encima del cero e incluso
se observan valores dispersos que pueden referirse a errores en la toma de los datos en la
encuesta. Con lo anterior no se puede descartar que sea un modelo homocedástico. Por lo
que el modelo se considera conceptualmente válido y estadísticamente significativo para un
nivel de confianza de un 95%.
Modelo 5.
Como último modelo se analizó la regresión lineal entre las variables “Employed civilian
population 16+” Habitantes de más de 16 años con empleo”, porque queremos ver la relación
entre los viajes cuando hay personas con trabajo, como queriendo divisar los viajes generados
por trabajo, además las variables “Population”, “Households” y “Area”. Con ayuda del análisis
de datos del programa de Office Excel 2013, se analizó mediante una regresión lineal múltiple
y las siguientes tablas presentan los resultados obtenidos:
23
Taller 1 – Modelos de generación de viajes
ANÁLISIS DE VARIANZA
Grados de Suma de Promedio de Valor
F
libertad cuadrados los cuadrados crítico de F
Regresión 4 861712307 215428076,7 223,4902 3,2912E-60
Residuos 143 137841439 963926,1501
Total 147 999553746
Estadísticas de la regresión
Coeficiente de correlación múltiple 0,9285
Coeficiente de determinación R^2 0,8621
R^2 ajustado 0,8522
Error típico 981,7974
Observaciones 147
ANÁLISIS DE VARIANZA
Grados de Suma de Promedio de Valor
F
libertad cuadrados los cuadrados crítico de F
Regresión 3 860787669 286929223 297,7515035 2,8235E-61
Residuos 144 138766077 963653,3139
Total 147 999553746
24
Taller 1 – Modelos de generación de viajes
Estadísticas de la regresión
Coeficiente de correlación múltiple 0,927993518
Coeficiente de determinación R^2 0,86117197
R^2 ajustado 0,852299359
Error típico 981,6584508
Observaciones 147
Para el modelo 5.3 se obtuvo la gráfica de dispersión de los residuos para analizar si es
homocedástica o heterocedástica:
3000
Employed civilian population 16+ Gráfico de los
residuales
2000
1000
Residuos
0
0 1000 2000 3000 4000 5000 6000
-1000
-2000
-3000
Employed civilian population 16+
Figura 10. Dispersión de datos residuales. Empleados mayores a 16 años.
Los resultados no presentan una distribución “desordenada” es decir tiene valores arriba y
debajo de la línea de cero, sin embargo se observa más datos por encima del cero. No se
25
Taller 1 – Modelos de generación de viajes
puede descartar que sea un modelo homocedástico. Por lo que el modelo se considera
conceptualmente válido y estadísticamente significativo para un nivel de confianza de un 95%.
Con los 31 modelos desarrollados se observa que la dispersión de los datos está entre el
rango entre 2000 y -2000, algunos con un F mayor o R2, con las regresiones realizadas y las
ecuaciones obtenidas, se realiza una comparación entre los modelos más representativos de
cada variación resultantes:
De los modelos analizados anteriormente, se puede observar que los modelos que tienen en
cuenta la variable población (ya sea un grupo representativo de la población como los que
tienen entre 15 y 85 años), tienen un modelo que mejor describe el número de viajes
producido, debido a que tienen un estadístico t mayor con respecto a los otros modelos, un F
muy parecido, y la dispersión de los datos residuales están dentro del mismo rango, sin
embargo, elegimos el modelo 1.6, por el rango más ajustado de los datos dispersos:
0,559 𝑃𝑜𝑝𝑢𝑙𝑎𝑡𝑖𝑜𝑛
𝑣𝑖𝑎𝑗𝑒𝑠 =
(29,928)
F: 895,73 y R2 :0,86
26
Taller 1 – Modelos de generación de viajes
1500
1000
500
Residuos
0
0 2000 4000 6000 8000 10000
-500
-1000
-1500
-2000
Population
Sin embargo la diferencia obtenida entre los modelos es mínima y la toma de información para
cumplir con los requerimientos de los demás modelos puede ser más compleja de conseguir,
que solo el número de personas o población de cada zona. Tener información más detallada
en las encuestas puede aumentar el valor de la misma y prestarse para errores como que los
encuestados digan valores que no son reales como la edad y los ingresos, por eso los modelos
según la teoría podrían funcionar bien, pero en la aplicación para la planificación de los
sistemas de transporte, ya puede generar complicaciones o decisiones que no sean
funcionales.
27
Taller 1 – Modelos de generación de viajes
En este ejercicio se estimará el número de viajes según los hogares en una población
determinada, basados en los datos plasmado en la Tabla 3 (Ver Anexo 1. Taller1_Datos), en
esta tabla están los datos de una muestra correspondiente al 20% de los hogares de la zona,
se tienen los datos de “número de vehículos”, “ingreso”, “estado civil” y “si tienen o no hijos”.
Los datos de calibración tienen además los viajes realizados por hogar.
Tabla 14. Correlación de los datos - Características socioeconómicas de la muestra del 20% de una
zona.
Married no Married 1+
Household Income Cars Single
children children
Household 1,000
Income 0,176 1,000
Cars 0,244 0,810 1,000
Single -0,360 -0,593 -0,441 1,000
Married no children -0,019 0,150 -0,011 -0,429 1,000
Married 1+ children 0,354 0,415 0,423 -0,535 -0,535 1,000
Se analizará una a una las variables para identificar que tan semejantes son:
28
Taller 1 – Modelos de generación de viajes
La anterior tabla permite comparar los datos de calibración y los del 20% de la muestra
y se observa que la media es cercana entre los dos grupos de datos, el coeficiente de
variación y la desviación estándar es también cercanos, por lo que se puede concluir
que ambas poblaciones u hogares, tienen un nivel de ingreso similar igual que el
reparto de este ingreso en la población.
Se observa que la media es diferente entre los dos grupos de datos, por lo que es
importante analizar los datos en detalle; en promedio el número de vehículos por hogar
en la población determinada (20% de la población) es 1,35 lo que corresponde a 27
vehículos en los 20 hogares y por otro lado, los datos de calibración tiene un promedio
de 1.48 vehículos por hogar y un total de 74 vehículos por los 50 hogares encuestados.
29
Taller 1 – Modelos de generación de viajes
Esto indica que la diferencia es del 10% entre los datos de calibración y la población
en estudio.
En ambos grupos de datos, se puede observar, que la cantidad de carros por hogar es
de 0 a 3, por esto, se reunió los datos de manera gráfica para identificar la similitud de
los datos:
16%
3
30%
Nro. de Vevhiculos/hogar
34%
2
15%
32%
1
30%
18%
0
25%
De la anterior gráfica se puede observar algunas diferencias entre el reparto de los datos, pero
de manera general se puede concluir que hay relación entre la probabilidad de que los hogares
no tengan, tengan 1, 2 o 3 carros.
30
Taller 1 – Modelos de generación de viajes
Tabla 19. Estadísticos “Casados sin hijos” - Características socioeconómicas de 20% de muestra de
zona y Datos de calibración.
Married no children - Socio Economic
Married no children - Calibration data
Characteristics of 20% Sample of Zone
Media 0,30 Media 0,28
Error típico 0,1051315 Error típico 0,0641427
Mediana 0 Mediana 0
Desviación estándar 0,47016235 Desviación estándar 0,45355737
Varianza de la muestra 0,22105263 Varianza de la muestra 0,20571429
Coeficiente de asimetría 0,94529995 Coeficiente de asimetría 1,01053001
Coeficiente de variación 1,56720782 Coeficiente de variación 1,61984774
Rango 1 Rango 1
Mínimo 0 Mínimo 0
Máximo 1 Máximo 1
Suma 6 Suma 14
Cuenta 20 Cuenta 50
Nivel de confianza(95,0%) 0,22004275 Nivel de confianza(95,0%) 0,12889958
Tabla 20. Estadísticos “Casados con hijos” - Características socioeconómicas de 20% de muestra de
zona y Datos de calibración.
Married 1+ children- Socio Economic
Married 1+ children- Calibration data
Characteristics of 20% Sample of Zone
El valor promedio de las 3 variables es muy parecido en ambos grupos de datos, por lo que
se analizará el reparto de las 3 variables dentro de los grupos de datos:
31
Taller 1 – Modelos de generación de viajes
42.0%
Casados con hijos
40.0%
28.0%
Casados sin hijos
30.0%
30.0%
Solteros
30.0%
Se puede observar la alta correlación que tienen estas variables entre los grupos de datos,
por lo tanto se pueden usar los datos de calibración para representar la muestra.
Tabla 21. Intervalos para la clasificación de los ingresos en los datos de calibración.
Límite Limite
Intervalo
Inferior Superior
1 $ 16.000,00 $ 32.000,00
2 $ 32.000,00 $ 40.000,00
3 $ 40.000,00 $ 48.000,00
4 $ 48.000,00 $ 56.000,00
5 $ 56.000,00 $ 64.000,00
6 $ 64.000,00 $ 79.000,00
32
Taller 1 – Modelos de generación de viajes
Tabla 22. Número de hogares con o sin vehículo con ingresos dentro de los rangos establecidos.
Número de vehículos por hogar 0 1 2 3
Total
Intervalos de Ingresos por general
Número de hogares
hogar
$16000-$32000 5 9 1 1 16
$32000-$40000 2 4 2 8
$40000-$48000 2 1 6 9
$48000-$56000 2 2 4
$56000-$64000 2 2
$64000-$79000 4 7 11
Total general 9 16 17 8 50
El total general, nos muestra el total de datos tomados para esta clasificación que es igual al
total de los datos de calibración (50). Teniendo ya el número de hogares clasificados como se
presenta anteriormente, se puede calcular a continuación los viajes que se realizan en esta
misma clasificación, ósea, por intervalos de ingresos y cantidad de vehículos en el hogar. La
siguiente tabla muestra lo obtenido:
Tabla 23. Número de viajes de los hogares que tienen o no vehículo, con ingresos dentro de los
rangos establecidos.
Número de vehículos por hogar 0 1 2 3
Total
Intervalos de Ingresos por general
Número de viajes
hogar
$16000-$32000 21 59 7 6 93
$32000-$40000 9 26 13 48
$40000-$48000 11 7 60 78
$48000-$56000 16 23 39
$56000-$64000 25 25
$64000-$79000 49 84 133
Total general 41 108 177 90 416
En la tabla anterior se ve que en total son 416 viajes realizados por los 50 hogares del grupo
de datos de calibración.
33
Taller 1 – Modelos de generación de viajes
Con lo anterior obtenido, se pueden relacionar los valores para obtener las tasas de viajes
realizados de acuerdo a los rangos de ingresos del hogar y el número de vehículos.
Tabla 25. Tasa de viajes por hogar según la clasificación de ingresos y vehículos.
Número de vehículos por hogar 0 1 2 3
Total
Intervalos de Ingresos por general
Tasa de viajes/hogar
hogar
$16000-$32000 4,20 6,56 7,00 6,00 23,76
$32000-$40000 4,50 6,50 6,50 17,50
$40000-$48000 5,50 7,00 10,00 22,50
$48000-$56000 8,00 11,50 19,50
$56000-$64000 12,50 12,50
$64000-$79000 12,25 12,00 24,25
Total general 14,20 28,06 59,75 18,00 120,01
Estos valores ahora pueden ser utilizados en la aproximación de viajes para el grupo de datos
“Socio Economic Characteristics of 20% Sample of Zone” en la Tabla 2 (Ver Anexo 1.
Taller1_Datos). A estos valores de la tabla, se le añade una columna que pueda clasificar los
datos en los intervalos o rangos de ingresos ya elegidos de los datos de calibración y así se
clasifican los hogares que se corresponden con este nivel de ingresos. Lo obtenido se
presenta en la siguiente tabla:
Tabla 26. Número de hogares de acuerdo al rango de ingresos dependiendo de la cantidad de carros
que tenga.
Número de vehículos por hogar 0 1 2 3 Total
Intervalos de Ingresos por hogar Número de hogares general
$16000-$32000 3 3 6
$32000-$40000 1 2 3
$40000-$48000 1 3 4
$48000-$56000 1 1 2
$56000-$64000 1 1
$64000-$79000 1 3 4
Total general 5 6 6 3 20
Usando la tasa de viajes por hogares obtenidos del grupo de datos de calibración, se
obtiene la cantidad de viajes que se proyecta se realizarán, para esto se debe multiplicar
cada valor de hogar, con la tasa de viajes por hogar, los resultados se presentan en la
siguiente tabla:
Tabla 27. Número de viajes de los hogares que tienen o no vehículo, con ingresos dentro de los
rangos establecidos para la muestra del 20% de la población.
Número de vehículos por hogar 0 1 2 3 Total
Intervalos de Ingresos por hogar Número de viajes/hogar general
$16000-$32000 12,60 19,67 0,00 0,00 32,27
$32000-$40000 4,50 13,00 0,00 0,00 17,50
$40000-$48000 5,50 0,00 30,00 0,00 35,50
$48000-$56000 0,00 8,00 11,50 0,00 19,50
$56000-$64000 0,00 0,00 12,50 0,00 12,50
$64000-$79000 0,00 0,00 12,25 36,00 48,25
Total general 22,60 40,67 66,25 36,00 165,52
34
Taller 1 – Modelos de generación de viajes
Married no Married 1+
Trips Income Cars Single children children
Trips 1,00
Income 0,79 1,00
Cars 0,73 0,70 1,00
Single -0,47 -0,57 -0,51 1,00
Married no children 0,17 0,15 -0,03 -0,41 1,00
Married 1+ children 0,28 0,39 0,50 -0,56 -0,53 1,00
Las variables “Income” Ingresos y rango de ingresos no tienen correlación igual 1, debido a la
modificación que se le hizo a la variable, por los rangos que se redujo; también se puede
observar, que las variables, Ingreso, rango de ingresos, y carros, no se pueden usar para la
generación de los modelos pues presentan correlación altas superior al 0,7.
Se destaca que la correlación más alta observa es la de la variable “ingresos” con un valor de
0,79, por lo contrario, se observa la variable “casado sin hijos, tiene muy baja relación con el
número de viajes, por lo que no es conveniente incluirla en todos los modelos.
A continuación se presentan las opciones de modelos con las variables que no tienen
correlación y con una que si lo esté:
Modelo 1 Ingresos Soltero Cars Casado sin hijos Casado con hijos
Modelo 2 Ingresos Soltero Casado sin hijos Casado con hijos
Modelo 3 Ingresos Cars Casado sin hijos Casado con hijos
Modelo 1.
En este modelo se tomó las variables “Income”, “Single Cars Married no children.
Married 1+ children para encontrar los viajes, los resultados de la regresión es la siguiente:
35
Taller 1 – Modelos de generación de viajes
ANÁLISIS DE VARIANZA
Grados de Suma de Promedio de Valor crítico
F
libertad cuadrados los cuadrados de F
Regresión 5 386,1775747 77,23551494 26,37786 3,22473E-12
Residuos 45 164,7024253 3,660053895
Total 50 550,88
Estadísticas de la regresión
Coeficiente de correlación múltiple 0,837269021
Coeficiente de determinación R^2 0,701019414
R^2 ajustado 0,65222114
Error típico 1,913126733
Observaciones 50
Se observa que las variables, casados con y sin hijos y solteros, no son esta dísticamente
significativas debido a su estadístico t obtenido menor a |1,96|. Ocurrió algo curioso con la
variable “casados con hijos” que las variables es 0, por lo que se extrajo del modelo esta
variable y se volvió a correr el modelo y se obtuvo el siguiente modelo 1.1:
ANÁLISIS DE VARIANZA
Grados de Suma de Promedio de Valor
F
libertad cuadrados los cuadrados crítico de F
Regresión 4 386,177575 96,54439368 26,37786 2,6704E-11
Residuos 45 164,702425 3,660053895
Total 49 550,88
Estadísticas de la regresión
Coeficiente de correlación múltiple 0,837269021
Coeficiente de determinación R^2 0,701019414
R^2 ajustado 0,674443362
Error típico 1,913126733
Observaciones 50
Los valores para “Casados con hijos no varía” con respecto a lo anteriormente moledado, y
el valor F es el mismo, por lo que se plantea otra opción de modelo eliminando la variable
“sin carro” 1.2:
36
Taller 1 – Modelos de generación de viajes
ANÁLISIS DE VARIANZA
Grados de Suma de Promedio de Valor
F
libertad cuadrados los cuadrados crítico de F
Regresión 4 386,177575 96,54439368 26,37786121 2,6704E-11
Residuos 45 164,702425 3,660053895
Total 49 550,88
Estadísticas de la regresión
Coeficiente de correlación múltiple 0,837269021
Coeficiente de determinación R^2 0,701019414
R^2 ajustado 0,674443362
Error típico 1,913126733
Observaciones 50
ANÁLISIS DE VARIANZA
Estadísticas de la regresión
37
Taller 1 – Modelos de generación de viajes
Los modelos no han logrado obtener un F más alto, el siguiente se analizó solo con dos
variables, 1.4:
ANÁLISIS DE VARIANZA
Grados de Suma de Promedio Valor
F
libertad cuadrados de los crítico de F
Regresión 2 378,151438 189,075719 51,44811409 1,4562E-12
Residuos 47 172,728562 3,6750758
Total 49 550,88
Estadísticas de la regresión
Coeficiente de correlación múltiple 0,82852263
Coeficiente de determinación R^2 0,686449749
R^2 ajustado 0,673107185
Error típico 1,91704872
Observaciones 50
En este se obtuvo mejores estadísticos, y solo con dos variables intervenidas, ingreso y
número de carros de las personas. Como se observa, el coeficiente de ingreso es cercano a
0, por lo que se modelará por separado estas variables, en una regresión simple para ver su
comportamiento, teniendo en cuenta el 95% de confiabilidad y el intercepto igual a 0, 1.5:
ANÁLISIS DE VARIANZA
Promedio
Grados de Suma de Valor crítico
de los F
libertad cuadrados de F
cuadrados
Regresión 1 3777,819692 3777,819692 790,4728033 1,80878E-31
Residuos 49 234,1803084 4,779189968
Estadísticas de la regresión
Coeficiente de correlación múltiple 0,970376233
Coeficiente de determinación R^2 0,941630033
R^2 ajustado 0,92122187
Error típico 2,186135853
Observaciones 50
38
Taller 1 – Modelos de generación de viajes
0,002 𝐼𝑛𝑔𝑟𝑒𝑠𝑜𝑠
𝑣𝑖𝑎𝑗𝑒𝑠 =
(28,11)
2
Residuos
0
$ 0.00 $ 20,000.00 $ 40,000.00 $ 60,000.00 $ 80,000.00 $ 100,000.00
-2
-4
-6
Income
Figura 14. Residuos de los viajes vs los ingresos.
Modelo 2.
ANÁLISIS DE VARIANZA
Grados de Suma de Promedio de Valor crítico
F
libertad cuadrados los cuadrados de F
Regresión 4 3808,721572 952,180393 215,4695 1,00545E-28
Residuos 46 203,2784281 4,419096264
Total 50 4012
Estadísticas de la regresión
Coeficiente de correlación múltiple 0,974336901
Coeficiente de determinación R^2 0,949332396
R^2 ajustado 0,924288856
Error típico 2,102164661
Observaciones 50
39
Taller 1 – Modelos de generación de viajes
Por este modelo se están obteniendo mejores estadísticos, pero se tiene problemas con los
coeficientes de “ingreso” y “soltero”, se eliminó el “soltero” para ver el comportamiento:
ANÁLISIS DE VARIANZA
Grados de Suma de Promedio de Valor
F
libertad cuadrados los cuadrados crítico de F
Estadísticas de la regresión
Coeficiente de correlación múltiple 0,970727859
Coeficiente de determinación R^2 0,942312577
R^2 ajustado 0,918581197
Error típico 2,219075626
Observaciones 50
Finalmente, se realiza una regresión linear simple con la variable “Cars” y se obtiene lo
siguiente:
ANÁLISIS DE VARIANZA
Promedio
Grados de Suma de Valor
de los F
libertad cuadrados crítico de F
cuadrados
Regresión 1 3434,76923 3434,76923 291,5708955 4,991E-22
Residuos 49 577,230769 11,7802198
Total 50 4012
Estadísticas de la regresión
Coeficiente de correlación múltiple 0,925269656
Coeficiente de determinación R^2 0,856123936
R^2 ajustado 0,835715773
Error típico 3,432232478
Observaciones 50
40
Taller 1 – Modelos de generación de viajes
Sin embargo, el modelo 1.5, que relaciona linealmente los viajes con los ingresos, tiene
estadísticamente valores mejores, como el F mayor y el R2 cercano a 1.
0,002 𝐼𝑛𝑔𝑟𝑒𝑠𝑜𝑠
𝑣𝑖𝑎𝑗𝑒𝑠 =
(28,11)
Según la tabla 3, los viajes totales son 416 y con la ecuación se obtuvo 401,17 viajes, esto
significa un error del:
401,178−416
E= = 3,7%
401,178
Se concluye que el modelo predice de manera satisfactoria los viajes de los datos de
calibración, y se comprueba que además funcione para los datos de la muestra del
20% de la población:
Y según lo obtenido de la clasificación cruzada, los viajes son 165,52 conservan el mismo
porcentaje de error.
41
Taller 1 – Modelos de generación de viajes
Teniendo en cuenta los viajes de los datos que son el 20% de la población, se estimó el
número de viajes total así;
Los viajes del 100% de la población calculado por clasificación cruzada son:
𝑉20% 165,52
𝑉100% = ∗ 100% = ∗ 100 = 827,58 𝑣𝑖𝑎𝑗𝑒𝑠
20% 20
Los viajes del 100% de la población calculado mediante la ecuación obtenida por el método
de regresión lineal son:
𝑣𝑖𝑎𝑗𝑒𝑠 𝑑𝑒𝑙 20%
∗ 100%
20%
𝑉20% 162,66
𝑉100% = ∗ 100% = ∗ 100 = 813,3 𝑣𝑖𝑎𝑗𝑒𝑠
20% 20
813,33−827,58
E=[ 813,33
] = 1,8%
.
Este error, significa que estos modelos pueden predecir de manera eficaz el comportamiento
de los viajes de la población, sin embargo la regresión lineal solo usó una variable
disminuyendo la posibilidad de erres en la clasificación cruzada.
III. Conclusiones
IV. Bibliografía
- Ortuzar and Willumsen (2011) Modelling Transport
- http://humanidades.cchs.csic.es/cchs/web_UAE/tutoriales/PDF/Regresion_lineal_
multiple_3.pdf
- Planificación del Transporte Urbano. 2da. Ed. 2000, Michael Meyer y Eric Miller.
- Ingeniería de Tránsito y Carreteras 3era. Ed. 2005, Nicholas Garber y Lester
Hoel.
- Capítulo 7: Vialidad y Transporte, Octubre 2009, Spartaco Ciccarelli.
(www.cianz.org.ve/expo2009)
- http://ingenieria.uncuyo.edu.ar/catedras/clase-3.pdf
43