Sie sind auf Seite 1von 17

GESTIÓN DE DATOS MASIVOS

DATA SET: DIABETES

Desarrollado por: xxxxx


Código de estudiante: xxxxx
Docente: xxxx
DESCRIPCIÓN DEL NEGOCIO

El presente trabajo se centra en el desarrollo de un modelo predictivo que permite


pronosticar el diagnóstico de la diabetes mellitus tipo 2 de pacientes o usuario de un
Centro Hospitalario en Lima Sur, siendo soportado por Azure Machine Learning, con el
propósito de definir un modelo predictivo cuya implementación permitirá la
optimización del proceso de diagnóstico de la Diabetes Mellitus tipo 2.
También se podrá verificar la precisión y puntaje F1 del modelo, mediante una
selección de datos disponibles utilizando el algoritmo de regresión de dos clases para
entrenar el conjunto de datos. Además, podrá permitir que el resultado pueda brindar
indicios sobre las acciones que una institución prestadora de servicios de cobertura
de salud (tanto pública como privada) puede tomar por cada paciente en beneficio
del mismo.
COMPRENSIÓN DE LOS DATOS
MODELADO

PASO 1: Buscar Azure Machine


Learning Studio en Google. Iniciar
sesión con las credenciales y
acceder para ver el estudio. Para
crear un nuevo experimento,
hacer clic en NUEVO, que se
encuentra en la barra en la parte
inferior del estudio.
MODELADO

PASO 2: Cuando se hace clic en NUEVO, aparecerán otras opciones. Hacer clic
en Experimento en blanco y seremos redirigidos a nuestro espacio de trabajo donde podemos
comenzar con nuestro experimento.
MODELADO

PASO 3: Antes de continuar,


cambiar el nombre del
experimento. Como el ejemplo es
sobre predecir si una persona
tiene diabetes o no, aquí, el
experimento pasará a
llamarse Predicción de diabetes.
MODELADO
PASO 4: Seleccionar un conjunto de
datos. Hay muchos conjuntos de
datos de muestra disponibles para
experimentar. Tomar el conjunto de
datos de muestra de clasificación
binaria de diabetes
• En el menú de la izquierda,
seleccionar Conjuntos de datos
guardados.
• Para obtener más información
sobre conjuntos de datos de
muestra, hacer clic en Muestras y
revisar la lista de conjuntos de
datos de muestra disponibles
• Seleccionar Pima Indian Diabetes
Binary Classification Dataset ,
arrástraro al centro de la pantalla y
soltarlo
MODELADO
PASO 5: Ahora que tenemos
nuestro conjunto de datos,
veamos qué tiene:
• Hacer clic en ①
• De las opciones, hacer clic
en Visualizar
MODELADO

PASO 6: Ahora, tenemos que seleccionar columnas que sean relevantes para entrenar nuestro
modelo:
• En el lado izquierdo, hay una barra de búsqueda, donde buscaremos Seleccionar columnas
en el conjunto de datos
• Se arrastra y suelta el elemento debajo del conjunto de datos y conecte los dos
• En el lado derecho, hay un cuadro que dice Iniciar selector de columna. Hacer clic en él
para seleccionar columnas.
MODELADO
PASO 7: Después de hacer clic en
esa entidad, podemos ver una
pantalla emergente en las cuales,
todas las columnas son relevantes
y, por lo tanto, todas serán
seleccionadas:
• Seleccionar todos los artículos
• 2. Hacer clic en la flecha que
apunta a la derecha . Esto
indica que las columnas están
seleccionadas
• Navegar a continuación y
haga clic en la marca
de verificación
• Cerrar la ventana
MODELADO SELECCIONADO [EXPERIMENTO PREDICTIVO]

PASO 8: Ahora que hemos seleccionado las columnas en las que queremos entrenar nuestro modelo, necesitamos
dividir los datos en conjuntos de datos de entrenamiento y prueba
• Para eso, busque datos divididos y suéltelos en el espacio de trabajo
• Unir el selector de columnas y dividir datos
• Hacia la derecha, podemos cambiar el porcentaje de trenes y conjuntos de datos de prueba. Inicialmente es
0.5, pero queremos 70 por ciento de datos de entrenamiento y 30 por ciento de datos de prueba. Por lo tanto,
lo cambiaremos a 0.7. Podemos hacer la relación 80-20 también o según nuestro requisito

En esto, ① es nuestro conjunto de datos de entrenamiento y ② es nuestro conjunto de datos de prueba.


MODELADO SELECCIONADO [EXPERIMENTO PREDICTIVO]

PASO 9: Ahora tenemos nuestros conjuntos de datos de capacitación y pruebas. A continuación, necesitamos un
algoritmo para entrenar nuestro modelo. El algoritmo que estamos eligiendo es la regresión logística de dos
clases . La regresión logística se usa para predecir la probabilidad de un resultado. Predice la probabilidad de
aparición de un evento al proporcionar datos a una función logística.
Como hay dos resultados, es una regresión logística de dos clases. Para un solo valor, podemos usar regresión
lineal.
Además, nuestro objetivo de este modelo de predicción es encontrar si una persona es diabética o no. Por lo
tanto, esto cae bajo clasificación. Buscar Clasificación, y bajo la categoría podremos encontrar este algoritmo.
MODELADO SELECCIONADO [EXPERIMENTO PREDICTIVO]

PASO 10: Es hora de que entrenemos nuestro modelo


• Buscar el modelo de tren y suéltelo en el espacio de trabajo.
• Conectar el algoritmo al modelo del tren.
• Conectar el conjunto de datos de entrenamiento de datos divididos al modelo de entrenamiento
• Seleccionar la columna que necesitamos probar
MOSTRAR EL SERVICIO WEB
PASO 11: Ahora, necesitamos
calificar nuestro modelo
entrenado y luego evaluarlo
• Arrastrar y soltar el Modelo de
puntuación en el centro
• Conectar el modelo de tren y

• Conectar el conjunto de datos
de entrenamiento de
datos divididos al modelo de
entrenamiento
• Arrastrar y soltar Evaluar
modelo
• Conectar el modelo de
puntuación con él
• Guardar el experimento
• Ejecutar el experimento
MOSTRAR EL SERVICIO WEB
PASO 12: Después de ejecutar el
modelo, necesitamos visualizar el
resultado y encontrar precisión,
exactitud, etc.
• Hacer clic en Evaluar y luego en ①
• Seleccionar Visualizar y habrá una
ventana emergente como la
siguiente.
• Aquí están los resultados:
MOSTRAR EL SERVICIO WEB

En caso de que queramos establecer el umbral, podemos hacerlo moviendo la escala.


MOSTRAR EL SERVICIO WEB
NOTA: Por lo general, Falso positivo
y Falso negativo deben ser
mínimos. En este caso, la entidad
más importante en la matriz de
confusión es el número de falsos
negativos. Falso negativo es
cuando una persona tiene
diabetes pero la predicción fue
que no la tiene, lo cual es más
fatal. Por lo tanto, establezca el
umbral de manera que obtenga
un número mínimo de falsos
negativos.

Digamos que un paciente se ha practicado un examen para detectar


diabetes. Ahora, su resultado es positivo o negativo. Es positivo si tiene
diabetes y negativo si no lo tiene. Con eso en mente, revisar las
condiciones:
TP: Cuando alguien tiene diabetes y el resultado predicho es positivo.
FN: Cuando alguien tiene diabetes y el resultado predicho es negativo.
FP: Cuando alguien no tiene diabetes y el resultado previsto es positivo.
TF: Cuando alguien no tiene diabetes y el resultado previsto es negativo.

Das könnte Ihnen auch gefallen