Sie sind auf Seite 1von 17

Predicción del precio de las motos Pulsar 180 Gt (Bajaj)

INTRODUCCIÓN

En estadística, una de las herramientas utilizadas para la realización de predicciones, es la

estimación de un modelo de regresión lineal simple, el cual permite obtener una aproximación al

valor que pueda tomar una variable (dependiente) en el futuro o pasado. Para esto es necesario,

en primer lugar, definir la variable a pronosticar (variable dependiente) y la variable que se

tomará como base para realizar el pronóstico (variable independiente). Seguido de esto es

necesario realizar la observación de los datos y organizarlos por medio de tablas para luego poder

representarlos de manera gráfica y por último se realiza la estimación del modelo lineal de la

forma: y i=β 0 + β 1 x i +e i ; Donde y i es el calor de la variable dependiente; x i es el valor

de la variable independiente; β 0 y β 1 son los coeficientes del modelo; e i es el error de la

medición. De este modo será necesario conocer los valores β 0 y β 1 para poder determinar cuál

será el modelo lineal que permitirá realizar las predicciones.


2. OBJETIVO

 Pronosticar mediante la aplicación del modelo de regresión lineal simple el precio de las
motos Auteco Bajaj línea pulsar 180 GT para el mes de Diciembre del 2019.

 Evaluar el modelo diseñado para visualizar la viabilidad del mismo bajo métodos como el
coeficiente de correlación, ANOVA y t de student.

 Verificar la funcionalidad del modelo y el nivel de precisión respecto de lo pronosticado


vs lo real.
3. DESARROLLO ESTADÍSTICO

Para empezar, definiremos las variables de la siguiente forma:

x i : Numero del mes (Variable independiente)


y i : Precio de la moto Pulsar 180 GT (Variable dependiente)

Donde los valores de la variable independiente fueron asignados de una forma determinística,
mediante la numeración de los meses iniciando en 0, como se puede evidenciar en la tabla 1.
Ahora bien, proseguimos a la recopilación y observación de los datos usando como fuente la
“revista motora” en sus diferentes ediciones desde enero del 2005 hasta febrero del 2019. Como
se muestra a continuación:
Seguido de esto se realiza la representación de los datos por medio de una gráfica:

Gráfica del precio de la Pulsar 180 GT durante los últimos años


$7,000,000

$6,000,000

$5,000,000

$4,000,000

$3,000,000

$2,000,000

$1,000,000

$-
0 20 40 60 80 100 120 140 160 180

Para finalizar se realiza la estimación del modelo lineal.

Como se puede apreciar en la tabla 1 se calcularon los valores x 2i y x i y i , con los cuales
realizaremos una sumatoria, además de los valores de la variable tanto independiente como
dependiente de la siguiente manera:

170 170

∑ y i=952.471.000 ; ∑ x i=14.535
i=1 i=1

x 2i =¿ 1.623.245 170

∑¿
170
; ∑ x i yi =79.542.572 .000
i=1
i =1

Con estos valores procedemos a hallar los coeficientes ^β 0 y ^β 1 :

x yi
i
170 170 170

∑ ¿−(∑ xi )(∑ y i )
i=1 i=1 i=1
¿
n¿
^β =¿
1
170 170

∑ yi ∑ xi 952.471.000 14.535
^β 0= i=1
− ^β1 i =0 = −(−2299.027241 ) =5799337,417
n n 170 170

Y así obtenemos la estimación del modelo de regresión lineal simple, que para este caso será:

^y i=5799337,417−2299,03 x i

Y su respectiva gráfica:

Gráfica de Regresión Lineal del precio de las motos con respecto a los últimos años
$7,000,000

$6,000,000
f(x) = - 2299.03x + 5799337.42
$5,000,000 R² = 0.09

$4,000,000

$3,000,000

$2,000,000

$1,000,000

$-
0 20 40 60 80 100 120 140 160 180

Con este modelo podremos predecir el precio de una motocicleta Pulsar 180 GT, tan solo con el
número correspondiente al mes que deseamos predecir; por ejemplo, si deseo predecir el precio
de la moto en diciembre de 2019, remplazo la variable independiente por 179, que sería el
número asignado a este mes:

^y i=5799337,417−2299,03 ( 180 )=5385512,02

De esta manera estimamos que para diciembre de 2019 una motocicleta pulsar 180 GT costara
$5.385.512.

Ahora bien, procedemos a calcular el coeficiente de determinación ( R2 ), del siguiente modo:


170

∑ ( ^y i− ý)2 2163907662401,3
R2= i=1
170
= =0.0874949
24731814052941,2
∑ ( y i− ý)2
i=1

Continuamos ahora con la ANOVA del modelo de regresión simple que planteamos, a cuál tendrá
la siguiente forma:

Tabla Análisis de varianza

Tomando como hipótesis nula de que la pendiente de la recta es cero, es decir, que no existe
relación o dependencia lineal entre las dos variables; así:

H 0 : β1=0
H 1: β1≠ 0

De este modo teniendo en cuenta el valor F encontrado en la tabla ANOVA, y contrastándolo con
el valor F a 1 y 168 grados de libertad con 0.95% de significancia, se rechaza H 0 .

Continuamos ahora con la prueba de T DE STUDENT del modelo de regresión simple que
planteamos, a cuál tendrá la siguiente forma:

Tomando como hipótesis nula de que la pendiente de la recta es cero, es decir, que no existe
relación o dependencia lineal entre las dos variables; así:

H 0 : β1=0
H 1: β1≠ 0

De este modo teniendo en cuenta el valor T encontrado en la tabla, y contrastándolo con el valor
T 168 grados de libertad con 0.95% de significancia, se rechaza H 0 .
CORRECCIÓN:

Con el fin de mejorar el resultado obtenido en cuanto al coeficiente de determinación ( R2 ), se


realizará una división de los datos y a estos les realizaremos su respectivo modelo de predicción.

1- En primer lugar, tomaremos los datos del 1 al 35 y realizaremos la estimación del modelo:
2
35 35 x i =¿ 14.910 35

∑ y i=205.750.000 ; ∑ x i=630 ; 35

∑¿
; ∑ x i yi =3783200000
i=1 i=1 i=1
i=1

Con estos valores procedemos a hallar los coeficientes ^β 0 y ^β 1 :

^β 1= 35 ( 3783200000 ) −(630)(205750000) =22324.92997


35 ( 14910 ) −(630)2

^β 0= 205750000 −( 22324.92997 ) 630 =5476722.689


35 35

Modelo estimado: ^y i=5476722.689+22324.93 xi


Gráfica de Regresión Lineal del precio de las motos con respecto a los últimos años
$6,400,000.00

$6,200,000.00 f(x) = 22324.93x + 5476722.69


R² = 0.92
$6,000,000.00

$5,800,000.00
PRECIO

$5,600,000.00

$5,400,000.00

$5,200,000.00

$5,000,000.00
0 5 10 15 20 25 30 35 40
MES

Procedemos a calcular el coeficiente de determinación ( R2 ):


35

∑ ( ^y i− ý)2 1779296923232,49
R2= i=1
35
= =0.91554
1943428571428,57
∑ ( y i− ý)2
i=1

Para este caso la tabla ANOVA quedara así:

Tabla ANOVA del modelo de regresión simple


G
Fuente de variación suma de cuadrados
L
Varianzas F F(1,33)0,05
por la recta 1779296923232,49 1 1779296923232,49 357,7421
Residual 164131652661,06 33 4973686444 4,1393
Global 1943428571428,57 34 57159663865,55

Tomando como hipótesis:


H 0 : β1=0
H 1: β1≠ 0

Por lo tanto, se rechaza H 0 , lo que indica que la pendiente de la recta no es cero, es decir,
existe dependencia lineal entre las dos variables, precio y mes.

Para este caso la t de student quedara así:


Tomando como hipótesis nula de que la pendiente de la recta es cero, es decir, que no existe
relación o dependencia lineal entre las dos variables; así:

H 0 : β1=0
H 1: β1≠ 0

De este modo teniendo en cuenta el valor T encontrado en la tabla, y contrastándolo con el valor
T 33 grados de libertad con 0.95% de significancia, se rechaza H 0 .

2- En segundo lugar, tomaremos los datos del 61 al 120 y realizaremos la estimación del modelo:

120 120 x 2i =¿ 509.410 120

∑ yi =318.460.000 ; ∑ x i=5430 ; 120

∑¿
; ∑ x i y i=¿ 28.520 .300.000
i=61 i=61 i=61
i=61

Con estos valores procedemos a hallar los coeficientes ^β 0 y ^β 1 :

^β 1= 60 ( 28520300000 ) −(5430)(318460000) =−16689.64


60 ( 509410 ) −(5430)2

^β 0= 318460000 −(−16689.64 ) 5430 =6818078.73


60 60

Modelo estimado: ^y i=6818078.73−16689.64 xi


Gráfica de Regresión Lineal del precio de las motos con respecto a los últimos años
6000000
f(x) = - 16689.64x + 6818078.73
5000000 R² = 0.71

4000000

3000000

2000000

1000000

0
50 60 70 80 90 100 110 120 130

Para este caso la tabla ANOVA quedara así:

Tomando como hipótesis:


H 0 : β1=0
H 1: β1≠ 0

Por lo tanto, se rechaza H 0 , lo que indica que la pendiente de la recta no es cero, es decir,
existe dependencia lineal entre las dos variables, precio y mes.

Para este caso la t de student quedara así:

Tomando como hipótesis nula de que la pendiente de la recta es cero, es decir, que no existe
relación o dependencia lineal entre las dos variables; así:
H 0 : β1=0
H 1: β1≠ 0

De este modo teniendo en cuenta el valor T encontrado en la tabla, y contrastándolo con el valor
T 58 grados de libertad con 0.95% de significancia, se rechaza H 0 .

4. ANÁLISIS

En el modelo de regresión lineal simple planteado anteriormente se pudo observar la línea de

tendencia más óptima que siguen los puntos de dispersión graficados, donde se tuvieron en

cuenta las variables ( x i y i ), xi como variable independiente representando los meses

del año de forma numérica y y i como variable dependiente representando el precio de la línea

de motos pulsar 180 GT de la marca Auteco Bajaj, como ecuación estimada de esta recta se

encontró y i=5797038,39−2299,03 x i mediante el método de cuadrados mínimos cuyo

intercepto Bo es equivalente a 5797038,39 y la pendiente B1 es equivalente a −2299,03 lo

que indica claramente que la inclinación de la línea de tendencia es negativa y por ende
descendente así que entre mayor sea el tiempo en meses de la venta de las motos, el precio será

significativamente menor por lo que se establece una relación inversa, luego se procede a

reemplazar xi con el número de mes propuesto (170 Diciembre) para poder hallar el precio

y i y así realizar el pronóstico del mismo y cuyo valor esperado fue de $5.385.512.

BIBLIOGRAFÍA

Andrews, S. Fastqc, (2010). A quality control tool for high throughput sequence data.
Augen, J. (2004). Bioinformatics in the post-genomic era: Genome, transcriptome, proteome, and
information-based medicine. Addison-Wesley Professional.

Blankenberg, D., Kuster, G. V., Coraor, N., Ananda, G., Lazarus, R., Mangan, M., ... & Taylor, J.
(2010). Galaxy: a web‐based genome analysis tool for experimentalists. Current protocols
in molecular biology, 19-10.

Bolger, A., & Giorgi, F. Trimmomatic: A Flexible Read Trimming Tool for Illumina NGS Data.
URL http://www. usadellab. org/cms/index. php.

Giardine, B., Riemer, C., Hardison, R. C., Burhans, R., Elnitski, L., Shah, P., ... & Nekrutenko, A.
(2005). Galaxy: a platform for interactive large-scale genome analysis. Genome research,
15(10), 1451-1455.

Das könnte Ihnen auch gefallen