Sie sind auf Seite 1von 10

Universidad San Francisco de Quito - Estadstica Inferencial

Informe del Proyecto Titanic


Andrea Banderas1 , David Herreria2 , and David Oa3
1
Universidad San Francisco de Quito, Quito, Ecuador
2
Universidad San Francisco de Quito, Quito, Ecuador
3
Universidad San Francisco de Quito, Quito, Ecuador

Abstract
Este informe del proyecto Titanic tiene como principal objetivo construir un modelo de regre-
sin logstica, mediante el cual se busca evaluar algunas variables cualitativas, de tal forma que
permita identificar la mayor probabilidad de aciertos, de que una persona sobreviva al hun-
dimiento del Titanic. Para obtener la ecuacin de regresin logstica ms acertada, en primer
lugar se transform las variables cualitativas a cuantitativas, luego se realiz varias pruebas em-
pleando modelos de regresin simple con cada una de ellas, buscando obtener la ecuacin que
arroje la probabilidad ms exacta de sobrevivir al accidente. Este proceso de pruebas se realiz
de igual forma con los modelos de regresin mltiple, en los que progresivamente se increment
una variable, hasta finalmente obtener la ecuacin de regresin logstica con la probabilidad de
acierto ms cercana a la realidad. Adicionalmente, para apoyar el anlisis de datos del modelo
de regresin logstica se aplic la regla de oro de este modelo, la cual consiste en dividir la base
de datos en training y pruebas. Finalmente se infiere que las variables independientes de mayor
relevancia son: Clase x1 , Sexo x2 y Sibsp X3 . Debido a los resultados obtenidos en cada ensayo
los cuales superan el 80 % de acierto.
Keywords: Modelo de Regresin logstica simple, mltiple, variables independientes y variables depen-
dientes, Software R.

1. Introduccin.
Para el desarrollo de este proyecto se utiliz el modelo de regresin logstica, el mismo que
es Un modelo clsico de regresin simple o mltiple, pero donde la variable dependiente es
binaria o dicotmica. Es decir, adopta solo dos valores posibles por ejemplo: xito y fracaso,
muerto y vivo, bueno y mal desempeo, aprobado o no aprobado. La regresin logstica es
un tipo especial de regresin que se utiliza para explicar y predecir una variable binaria (dos
grupos), en funcin de varias variables independientes que a su vez pueden ser cuantitativas
o cualitativas Los ensayos de prueba se realizaron con el programa estadstico R. Este es un
software estadstico preferido por los analistas de datos e interesados de la programacin.
De alguna manera, R cambi mi opinin sobre el gnero humano al observar
cuntas personas estn realmente dispuestas a participar en actividades colectivas,

1
Informe del Proyecto Titanic Banderas, Herreria y Oa

buscando algo que trasciende a sus propios intereses. En este mbito, se realizan
muchas actividades sin que haya un reconocimiento individual."

- Ross Ihaka, cofundador de R.

2. Metodologa.
2.1. Objetivo
Construir un modelo de regresin logstico para determinar cules variables son capaces de
explicar la supervivencia de las personas al hundimiento del Titanic.

2.2. Variables.
Las variables que se consideraron para las diferentes pruebas fueron:

Survived: Es la variable dependiente, codificada como 0 si el individuo no sobrevivi y


como 1 si el individuo s lo hizo.

Pclass: Clase del pasaje (primera clase =1, segunda clase=2, tercera clase = 3)

Sex: Gnero del pasajero (male=masculino, female=femenino), para usar esta informa-
cin se podra codificar como 0 para mujeres y 1 para hombres.

Sibsp: Nmero de hermanos/cnyuges a bordo (0, 1, 2, 3 o ms)

Parch: Nmero de padres/hijos que acompaaban al individuo (0, 1, 2, 3 o ms)

2.3. Proceso de Pruebas.


Primero se realiz regresiones lineales simples con todas las variables independientes, para
este caso se consider Survived (y 0 ) como variable dependiente.

Como segundo punto se realiz pruebas de regresin mltiple aumentando en cada ensayo
una variable dependiente ms, como se demostrar posteriormente. Para la variable Sexo
se realiz una transformacin de variable cualitativa a variable cuantitativa (1 o 0).

Finalmente para complementar el anlisis de datos obtenidos se aplic la Regla de Oro


del modelo de regresin logstica, el cual consiste en dividir los datos del proyecto en base
de datos para training y pruebas.

2.4. Nomenclatura.
T2: Variable con nmero de aciertos.

T3: Variable con nmero de aciertos, utilizando la regla de Oro, en donde se divide la
Data Set en dos grupos.

Tporciento: Porcentaje de aciertos.

Ecuacin: Representa el modelo de regresin logstica obtenido.

2
Informe del Proyecto Titanic Banderas, Herreria y Oa

Correlacin: Representa la relacin entre las variables, mientras ms se aproxima a uno


mayor es la relacin.

Correlacin Mxima: Representa la relacin entre las variables independientes, mien-


tras ms alejada de uno, es ms favorable para el modelo de regresin logstica.

mm1: Corresponde a la variable independiente P class (x1 )

mm2: Corresponde a la variable independiente Sex (x2 )

mm3: Corresponde a la variable independiente Sibsp (x3 )

mm4: Corresponde a la variable independiente P arch (x4 )

3. Experimentos
3.1. Modelos de Regresin Simple
3.1.1. Variables Clases vs. Sobrevivientes

Clase (x1 ) vs. Sobrevivientes (y 0 )


Resultado Obtenido Porcentaje
(T2) Aciertos 605 67,90 %
Desaciertos 286 32,10 %
Total 891 100,00
e1,450,85x
Ecuacin y = 1+e1,450,85x
Correlacin 0,34

En el modelo de regresin simple con las variables Clase vs sobrevivientes, se puede observar
que la sumatoria de aciertos (T2 para el presente caso de estudio) es de 605, lo que corresponde
a un 67,90 % de xito. La correlacin obtenida entre las dos variables es negativa 0,338481. En
definitiva, con este primer ensayo no se puede inferir si el aporte de esta variable es significativo.

3
Informe del Proyecto Titanic Banderas, Herreria y Oa

3.1.2. Variable Sexo vs Sobrevivientes

Sexo (x2 ) vs. Sobrevivientes (y 0 )


Resultado Obtenido Porcentaje
(T2) Aciertos 701 78,68 %
Desaciertos 190 21,32 %
Total 891 100,00
e1,45+2,15x
Ecuacin y = 1+e1,45+2,15x
Correlacin 0,54

Se puede observar que con la variable sexo el R nos arroja un total de aciertos de 701, lo
que representa una probabilidad de 78,67 % de sobrevivientes.
La ecuacin del modelo de regresin simple entre las variables (x2 )y (y 0 ) nos infiere una
correlacin positiva de 0,5433, con lo cual se concluye que este ensayo nos entrega una mejor
correlacin que el ensayo anterior.

3.1.3. Variable SibSp vs Sobrevivientes

SibSp (x3 ) vs. Sobrevivientes (y 0 )


Resultado Obtenido Porcentaje
(T2) Aciertos 366 41,08 %
Desaciertos 525 58,92 %
Total 891 100,00
e0,44+0,07x
Ecuacin y = 1+e 0,44+0,07x

Correlacin 0,0353

4
Informe del Proyecto Titanic Banderas, Herreria y Oa

En el ensayo con las variables independientes SibSp vs. Sobrevivientes nos arroja 366 aciertos,
lo que representa un porcentaje del 41,08 % de probabilidad de acierto. De igual manera el
modelo nos demuestra una correlacin negativa y extremadamente baja de 0,0353.

3.1.4. Variable Parch vs Sobrevivientes

Parch (x4 ) vs. Sobrevivientes (y 0 )


Resultado Obtenido Porcentaje
(T2) Aciertos 542 60,83 %
Desaciertos 349 39,17 %
Total 891 100,00
e0,55+0,2x
Ecuacin y = 1+e0,55+0,2x
Correlacin 0,081

Con el ensayo de Parch vs Sobrevivientes se obtuvo una T 2 de 542 aciertos, arrojando un


porcentaje de 60,83 %. El coeficiente de correlacin entre (x4 ) y (y 0 ) es positivo y bajo 0,081.

5
Informe del Proyecto Titanic Banderas, Herreria y Oa

3.2. Modelos de Regresin Mltiple


3.2.1. Variables Independientes Clase, Sexo vs Sobrevivientes

Parch (x4 ) vs. Sobrevivientes (y 0 )


Resultado Obtenido Porcentaje
(T2) Aciertos 701 78,68 %
Desaciertos 190 21,32 %
Total 891 100,00
e0,650,96x1 +2,64x2
Ecuacin y = 1+e0,650,96x1 +2,64x2
Correlacin 0,13 entre x2 y x1

Si se realiza el experimento con un modelo de regresin mltiple con las variables clase,
sexo contra los sobrevivientes el nmero de aciertos que se obtienes es de 701, lo cual indica un
porcentaje de probabilidad del 78,67 %.
Las variables independientes x1 y x2 tienen una correlacin negativa de 0,13, siendo satis-
factorio porque indica que se encuentran muy relacionadas.
Ahora si se compara el resultado obtenido en el ensayo del modelo de regresin simple con
las variables sexo vs sobrevivientes, se observa que los dos modelos tienen el mismo nmero de
aciertos.

3.2.2. Variable Independientes Clase, Sexo, Sibsp vs Sobreviviente

Parch (x4 ) vs. Sobrevivientes (y 0 )


Resultado Obtenido Porcentaje
(T2) Aciertos 713 80,02 %
Desaciertos 178 19,98 %
Total 891 100,00
e0,690,93x1 +2,74x2 0,25x3
Ecuacin y = 1+e 0,690,93x1 +2,74x2 0,25x3

Correlacin 0,13 entre x2 y x1

6
Informe del Proyecto Titanic Banderas, Herreria y Oa

Al modelo de regresin mltiple descrito anteriormente, se le incrementa una variable inde-


pendiente x3 , arrojando como resultado un nmero mayor de aciertos, por ende incrementa el
porcentaje de probabilidad de aciertos a 80,02.
La correlacin mxima entre las variables independientes x1 y x2 se mantiene, favoreciendo
el ensayo, ya que es muy baja.

3.2.3. Variables Independientes Clase, Sexo, SibSp, Parch

Parch (x4 ) vs. Sobrevivientes (y 0 )


Resultado Obtenido Porcentaje
(T2) Aciertos 709 79,57 %
Desaciertos 182 20,43 %
Total 891 100,00
e0,700,94x1 +2,76x2 0,23x3 0,05x4
Ecuacin y = 1+e0,700,94x1 +2,76x2 0,23x3 0,05x4
Correlacin 0,41 entre x3 y x4

7
Informe del Proyecto Titanic Banderas, Herreria y Oa

En este ensayo se aument la variable independiente Parch (x49 ), dando como resultado una
T 2 de 709 aciertos y un porcentaje de 79,57 % de acierto.
Las correlaciones obtenidas en este ensayo son relativamente bajas, siendo la correlacin
entre x3 y x4 la ms alta con 0,41. Sin embargo se pierde un 1 % de acierto con respecto al
ensayo anterior lo que ratifica que le modelo de regresin logstico ms acertado es entre las
variables x1 , x2 y x3 .

3.3. Regla de Oro


Obteniendo un % de aciertos muy alto con las variables Clase (x1 ), Sexo (x2 ), Sibsp (x3 )
vs Sobrevivientes (y 0 ), se procedi a dividir la data set en datos de Training y datos de prueba
para complementar la conclusin con la informacin obtenida.
Como se observa en las tablas a continuacin, al dividir los datos desde el dato 2 al 445
(Training) se obtiene que es un modelo de regresin logstica muy acertado, ya que el porcentaje
de acierto es de 80,22 %. De igual forma para la otra mitad de la data desde 446 al 891 (Prueba)
se obtuvo un porcentaje de acierto del 80,04 %, lo que da un modelo de regresin muy apegado
a la realidad.

3.3.1. Base de Datos Training

Parch (x4 ) vs. Sobrevivientes (y 0 )


Resultado Obtenido Porcentaje
(T2) Aciertos 357 80,22 %
Desaciertos 86 19,78 %
Total 443 100,00
e0,020,67x1 +2,74x2 0,25x3
Ecuacin y = 1+e0,020,67x1 +2,74x2 0,25x3
Datos T2: 446 891

8
Informe del Proyecto Titanic Banderas, Herreria y Oa

3.3.2. Base de Datos Pruebas

Parch (x4 ) vs. Sobrevivientes (y 0 )


Resultado Obtenido Porcentaje
(T2) Aciertos 357 80,04 %
Desaciertos 91 19,96 %
Total 448 100,00
e0,020,67x1 +2,74x2 0,25x3
Ecuacin y = 1+e0,020,67x1 +2,74x2 0,25x3
Datos T2: 2 445

4. Conclusiones
Despus de realizar 7 ensayos con todas las variables del caso de estudio, se lleg a la
conclusin que las variables independientes de mayor relevancia son: Clase (x1 ), Sexo (x2 ) y
Sibsp (x3 ), porque da un porcentaje de acierto superior al 80 %.
El proyecto del Titanic permite observar algunas aplicaciones valiosas de la estadstica in-
ferencial en el entorno administrativo, por ejemplo:

En las finanzas permite identificar la rentabilidad o no de una empresa. De igual forma el


riesgo alto o bajo de un ciudadano para acceder a un crdito o tarjeta de crdito. Como
el ejercicio revisado en la clase.

En el marketing permite predecir el xito o fracaso de un producto en el mercado.

5. Referencias
Ramn Das Uriarte. (2003). Introduccin al uso y programacin del sistema estads-
tico R. 11 04 2017, de Unidad de Bioinformtica Centro Nacional de Investigacio-
nes Oncolgicas del Sitio web: https://cran.r-project.org/doc/contrib/curso-R.
Diaz-Uriarte.pdf.

9
Informe del Proyecto Titanic Banderas, Herreria y Oa

Nelcy Rocio Escobar Moreno. (2013). Anlisis de regresin logstica para investigacin de
mercados. 11-04-2017, de Universidad Nacional de Colombia Facultad de Ciencias Econ-
micas Sitio web http://www.fcenew.unal.edu.co/publicaciones/images/Descanrgue_
documento_EACP_CID_No_18.pdf

Vallejo, Diego. (2017). Notas de clase.

10