Sie sind auf Seite 1von 10

Modelo de Regresion Logística para

predecir si el imputado tendra


condena o sera absuelto
Lo primero que debemos realizar antes de comenzar con la realización de nuestro modelo de
regresión logística, debemos estudiar la base de datos previamente.

Lo primero, dado que esta presentaba muchas variables cualitativas, hemos codificado la mayoría
de estas variables utilizando los siguientes criterios, de manera de poder realizar la regresión, sin
mayores problemas:

ECIVIL GENERO_CODIFICADO NACIONALIDAD DELITOSACUSENDETALLE


SOLTERO 0 F 0 EXTRANJERO 0 ATL 1
CASADO 1 M 1 CHILENO 1 AT 2
DIVORCIADO 2 ATM 3
TRIBUNAL PROFESION A 4
NACIMIENTO NORTE 0 CON PROFESION 0 AM 5
NORTE 0 SANTIAGO 1 CON OFICIO 1 AL 6
SANTIAGO 1 SUR 2 NO SEÑALA 2 ATO 7
SUR 2 CESANTE 3 ATML 8
EXTRANJEROS 3 CONDENA_EFECTIVA ATP 9
A 0 MODIFICAT ATMP 10
C 1 SIN 0 AML 11
UNIVERSIDAD CON 1 ATMR 12
PRIVADA 0 SOLO AGRAVANTES 2 ATR 13
ESTATAL 1 SOLO ATENUANTES 3 ARM 14
ARL 15

Para el caso de nuestra regresión no consideraremos todas las variables, esto porque algunas son
casi únicas por persona como por ejemplo el número identificador, el lugar de delito(que son

1
muchos, por lo que no tiene sentido codificar esa variable), entre otras. Las variables que
ingresaremos a R Project serán las siguientes:

ECIVIL, NACIONALIDAD, EDAD, PROFESION, NACIMIENTO, CIRSMOD, UNEGRESOFISCAL,


TRIBUNALQUESENTENCIA, INSTQUEINVESTIGA, GENERO_CODIFICADO, CONDENA_EFECTIVA,
DELITOSACUSENDETALLE
Hacemos un resumen de las variables para ver si tenemos datos faltantes:

Dado que no tenemos datos faltantes (en el caso que los hubiese saldrían #NA y vemos que no los
hay), veremos ahora de la variable cuantitativa que tenemos (Edad), si esta presenta outliers, es
decir datos atípicos que se escapen al rango de esta.

Para ello veremos si existen outliers con el boxplot:

2
Podemos encontrar un dato que se escapa al rango normal del resto de los datos. Por lo que para
que este no afecte mi proyección será reemplazado por la media de las edades.

Luego de realizar esto tenemos la siguiente distribución de edades:

Ahora vemos que no hay ninguna edad atípica o fuera del rango del resto de las edades. Ahora ya
corregida y trabajada nuestra base de datos procederemos a plantear modelos de regresión
logística, para finalmente decidir cuál será nuestro modelo predictor.

3
Comenzaremos planteando un modelo con todas nuestras variables escogidas mencionadas
anteriormente.

La variable dependiente, es decir que dependerá de las demás y la cual queremos predecir
corresponderá a CONDENA_EFECTIVA. Queremos saber si la persona que ingresa por un delito a
un tribunal, saldrá condenado. En el caso que nuestra proyección sea 1, querrá decir que este
tendrá una condena, en el caso que salga 0 entonces no la tendrá.

Para realizar el modelo se trabajará con una muestra de entrenamiento, la cual tendrá el 70% de
nuestros datos, mientras que se probará con la muestra de prueba, que tendrá el 30% de los datos
restantes.

Trabajaremos con el modelo Stepwise, uno de los más empleados y consiste en una combinación
de los dos anteriores. En el primer paso se procede como en el método forward pero a diferencia
de éste en el que cuando una variable entra en el modelo ya no vuelve a salir, en el procedimiento
stepwise es posible que la inclusión de una nueva variable haga que otra que ya estaba en el
modelo resulte redundante y sea “expulsada” de él. Finalmenteel último que quede, y que tendrá
el menor AIC, será el mejor modelo.

Al aplicar stepwise, R nos arroja los siguientes modelos:

4
5
6
Nos quedamos con este último modelo, el cual tiene un AIC de 192,68 de igual manera ahora
realizaremos este modelo de manera de ver sus coeficientes y como queda definido:

7
Como significativas son solo las variables NACIMIENTO y TRIBUNALQUESENTENCIA (porque su
nivel de significancia es menor al 0,05, es decir se rechaza la hipótesis nula que la variable no es
significativa para el modelo), aunque DELITOACUSENDETALLE_COD nos es menor a 0,005, está tan
cercana que igual la consideraremos significativa, es que veremos cómo queda nuestro modelo
solo con estas dos variables, si mejora el AIC nos quedaremos con el nuevo modelo, de lo
contrario mantendremos el indicado anteriormente. Veamos:

8
El AIC aumentó, ahora es de 202,58, por lo que nos quedaremos con el modelo anterior, es decir,
el modelo para proyectar si el imputado tendrá o no condena efectiva (representado por 𝑌̂) estará
dado por:

Si ̂
Y < 0,5, entonces el resultado será 0, es decir será absuelto, por el contrario si ̂
Y ≥ 0,5,
entonces el resultado será 1, es decir el imputado será condenado.

Por ejemplo si un imputado presenta los siguientes datos:

NACIMIENTO: RANCAGUA (codificada es 2)

INSTQUEINVESTIGA: 0

TRIBUNALQUESENTENCIA: PTOPRANCAGUA (codificada es 2)

9
DELITOSACUSENDETALLE_COD: ATL (codificada es 1)

GENERO_CODIFICADO: F (codificada es 0)

Por lo tanto para saber si este imputado quedará con condena o absuelto es reemplazar
en el modelo de regresión seleccionado, es decir:

𝑒 18.34491−0.54994∗2−17.65003∗0−0.90213∗2+0.12517∗1+0.70279∗0 5.757.074
𝑌̂ = = = 0,9999998
1 + 𝑒 18.34491−0.54994∗2−17.65003∗0−0.90213∗2+0.12517∗1+0.70279∗0 5.757.075

Como ̂
Y ≥ 0,5, entonces este individuo tendrá condena.

10

Das könnte Ihnen auch gefallen