Sie sind auf Seite 1von 50

Tema 1.

Introducción

Inteligencia Artificial y Aprendizaje

1
Contenidos

Tema 1. Introducción

1.1 Inteligencia artificial y aprendizaje automático

1.2 Recogida, limpieza y pre-procesamiento de datos

1.3 Ejemplos y aplicaciones biomédicas

2
1.1 Inteligencia artificial y aprendizaje automático

3
1.1 Inteligencia artificial y aprendizaje automático

4
1.1 Inteligencia artificial y aprendizaje automático

5
1.1 Inteligencia artificial y aprendizaje automático

6
1.1 Inteligencia artificial y aprendizaje automático

Data Scientist

7
1.1 Inteligencia artificial y aprendizaje automático

8
1.1 Inteligencia artificial y aprendizaje automático

9
1.1 Inteligencia artificial y aprendizaje automático
Diario “El País” (25/01/2017)

10
1.1 Inteligencia artificial y aprendizaje automático

“La inteligencia artificial es la parte de las ciencias de la


computación que se encarga de hacer que las máquinas
repliquen las funciones cognitivas de la mente humana.
Razonar, aprender, entender, comunicarse…”

Para que las máquinas puedan realizar tareas de una manera considerada
“inteligente y automática”, es necesario que la máquina tenga la
capacidad de aprender.

El aprendizaje automático (machine learning, ML) permite que la


máquina aprenda las relaciones que hay entre los datos.

Conclusión: “El activador de la inteligencia artificial es el aprendizaje


automático”
11
1.1 Inteligencia artificial y aprendizaje automático
Inteligencia Artificial
“De manera común hablamos de Inteligencia Artificial cuando las máquinas
son capaces de aprender y razonar con un resultado similar al que haría un
humano. En realidad es un concepto cambiante, a medida que la tecnología
evoluciona.
Por ejemplo, un sistema de reconocimiento de caracteres, conocido como OCR, fue una de las primera
aplicaciones prácticas de la inteligencia artificial, sin embargo hoy es una tecnología tan habitual y común que
ya no se suele etiquetar como tecnología de inteligencia artificial.”

Aprendizaje Automático
Machine Learning o Aprendizaje
Automático es una rama de la Inteligencia
Artificial dedicada, como el nombre
indica, a aprender. Normalmente es la
rama central en la mayor parte de las
aplicaciones de Inteligencia Artificial, pero
no la única.
12
1.1 Inteligencia artificial y aprendizaje automático

13
1.1 Inteligencia artificial y aprendizaje automático

14
1.1 Inteligencia artificial y aprendizaje automático

Aprendizaje Automático

“Machine Learning at its most basic is


the practice of using algorithms to parse “Machine learning is the science of
data, learn from it, and then make a getting computers to act without being
determination or prediction about explicitly programmed.” – Stanford
something in the world.” – Nvidia

Machine learning research is part of research on artificial


intelligence, seeking to provide knowledge to computers
through data, observations and interacting with the world.
That acquired knowledge allows computers to correctly
generalize to new settings. - Yoshua Bengio
15
1.1 Inteligencia artificial y aprendizaje automático

Actualmente se genera una gran cantidad


de datos (de naturaleza compleja)

16
1.1 Inteligencia artificial y aprendizaje automático
La generación de conocimiento ha estado fundamentada en la práctica médica.

Como resultado de la práctica médica se obtienen nuevos datos, que permite


contrastar hipótesis o modelos, y que pasan a formar parte del conocimiento
del experto en ese ámbito, para ser aplicado en nuevos casos.

17
1.1 Inteligencia artificial y aprendizaje automático

Modelo (RAE): “ Esquema teórico,


generalmente en forma matemática,
de un sistema o de una realidad
compleja … que se elabora para
facilitar su comprensión y el
estudio de su comportamiento.”
Modelos

En el enfoque tradicional, los modelos suelen diseñarse con un número más


o menos limitado de variables y suelen ser modelos lineales (sencillos,
interpretables).
Sin embargo, y especialmente en el ámbito sanitario, la realidad es tan
compleja y está influida por tantos factores, que no es sencillo su modelado
ni siquiera para profesionales del sector con dilatada experiencia.
18
1.1 Inteligencia artificial y aprendizaje automático

19
1.1 Inteligencia artificial y aprendizaje automático
Existen otro tipo de datos, recogidos fuera del ámbito hospitalario, por
ejemplo a través de dispositivos que permiten la monitorización del
paciente, o a través de imágenes y comentarios que los pacientes con una
determinada patología puedan manifestar en la red.

Los modelos que relacionan estos datos son tan complejos que se hace
necesario desarrollar nuevas herramientas de análisis y abordar la
extracción de conocimiento bajo un nuevo paradigma.
20
1.1 Inteligencia artificial y aprendizaje automático

Práctica
Médica

Expertos
Conocimiento Clínicos Gran
(nuevos Volumen de
protocolos) Datos

Analistas y
Investigación Científicos
de Datos
21
1.1 Inteligencia artificial y aprendizaje automático
Práctica
Médica

Conocimiento Gran
Expertos Volumen de
(nuevos
Clínicos Datos
protocolos)

Investigación ¿Qué tipo de


problemas se
pueden
abordar?
22
1.1 Inteligencia artificial y aprendizaje automático
https://www.newscientist.com/article/mg22329814-400-machine-predicts-heart-attacks-4-hours-before-doctors/

23
1.1 Inteligencia artificial y aprendizaje automático
Las técnicas de aprendizaje automático (machine learning) permiten
abordar un problema aprendiendo de la experiencia.
La experiencia se representa a través de
observaciones (también denominadas
casos o ejemplos).
Los ejemplos corresponden a los 133.000
pacientes, cada uno caracterizado con 72
variables.
Para cada paciente también se conoce si
sufrió o no un ataque al corazón a las 4
horas.
Objetivo: aprender la relación (modelo)
entre las 72 variables y el hecho de que el
paciente sufra o no un ataque al corazón.

24
1.1 Inteligencia artificial y aprendizaje automático

Los modelos construidos aplicando herramientas de aprendizaje automático


hacen uso de los casos disponibles para aprender la dinámica
subyacente del proceso a modelar. Por esta razón, también se les denomina
modelos dirigidos por datos (data-driven models).

La disponibilidad masiva de datos y las herramientas de Aprendizaje


Automático suponen una auténtica revolución en el Sector Salud.

¿Estamos preparados para esta revolución?

25
1.1 Inteligencia artificial y aprendizaje automático

c e d a ta
S car ata
• ra l d
T empo a m p l i n g
• u l a r s d a ta
Ir re g io n a l
• im e n s
H i g h - d

r s e d ata
S pa ls
• y l a b e a s e
N o i s d a t a b
• l an c e d
U n b a t i on
• se l e c
ea t u r e
• F
• …
26
Contenidos

Tema 1. Introducción

1.1 Inteligencia artificial y aprendizaje automático

1.2 Recogida, limpieza y pre-procesamiento de datos

1.3 Ejemplos y aplicaciones biomédicas

27
1.2 Recogida, limpieza y pre-procesamiento de datos

Recogida de datos

Historia
Clínica
Electrónica

¿Número de pacientes disponibles?


28
1.2 Recogida, limpieza y pre-procesamiento de datos

Recogida de datos

29
1.2 Recogida, limpieza y pre-procesamiento de datos

Recogida de datos

Algunos son más complejos de obtener

30
1.2 Recogida, limpieza y pre-procesamiento de datos

31
1.2 Recogida, limpieza y pre-procesamiento de datos

El objetivo fundamental de la fase de preparación de los


datos es manipular y transformar los datos originales para
que la información contenida en ellos se pueda descubrir o
estar accesible de forma más fácil.

El éxito del proceso de extracción de conocimiento depende en


gran medida de la calidad de los datos utilizados (GIGO).
32
1.2 Recogida, limpieza y pre-procesamiento de datos
Etapa de “Preparación de los datos”
El éxito de un proceso de aprendizaje máquina/minería de datos/inteligencia
artificial:

• NO sólo depende de tener “muchos datos”,


• sino de que éstos sean de calidad, i.e., que estén íntegros, completos y
sean consistentes.

La preparación de datos también se conoce como preprocesamiento o data


cooking.

33
1.2 Recogida, limpieza y pre-procesamiento de datos
Etapa de “Preparación de los datos”
Challenges cuando se trabaja con datos reales

Los datos reales pueden:

- No estar en la misma base de datos

- Estar almacenados en distintos formatos


- Estar incompletos: valores perdidos, missing data (p.e., edad = ¿?)
- Estar contaminados por ruido, pueden tener errores (p.e., edad= -10)
- Ser inconsistentes: no corresponden al dominio del atributo o son
contradictorios con otro, p.e., edad = 50; año de nacimiento=1995
34
1.2 Recogida, limpieza y pre-procesamiento de datos
Etapa de “Preparación de los datos”
Engloba a todas aquellas técnicas que permiten mejorar la calidad del
conjunto de datos al que se aplicará la herramienta de aprendizaje, con el fin
de facilitar esta tarea.

A grandes rasgos, las principales tareas pueden ser:

Integración de datos Estas tareas se pueden realizar en


distinto, se pueden realizar más de
Limpieza de datos una a la vez, …

Transformación de datos No existe un proceso establecido.

Reducción de datos

35
1.2 Recogida, limpieza y pre-procesamiento de datos
Etapa de “Preparación de los datos”

Integración de datos

Integración de distintas bases de


datos, ficheros, … en una única
base de datos con un formato
único

El primer paso es:


• identificar si existe un identificador único (por ejemplo, DNI) en las
distintas bases de datos
• identificar elementos comunes en distintas bases de datos
36
1.2 Recogida, limpieza y pre-procesamiento de datos
Etapa de “Preparación de los datos”

Limpieza de datos

• Completar registros incompletos

• Identificar y eliminar datos erróneos

• Resolver inconsistencias

• Tratar los valores con ruido

37
1.2 Recogida, limpieza y pre-procesamiento de datos
Etapa de “Preparación de los datos”

Transformación de datos

• Transformación de los atributos Estandarización

• Normalización de rango

• Discretización
Normalización Min-Max

38
1.2 Recogida, limpieza y pre-procesamiento de datos
Etapa de “Preparación de los datos”

Reducción de datos

¡Menos
• Reducir el número de ejemplos y/o de atributos
datos pero
de mejor
• Obteniendo una base de datos más reducida pero que,
calidad!
tras su análisis, produce resultados similares (o incluso
mejores) que los obtenidos con los datos originales

39
1.2 Recogida, limpieza y pre-procesamiento de datos
¿Cómo podemos conocer la calidad de nuestros datos?

1.- Podemos hacer un análisis descriptivo de los mismos:


• Calcular el número de valores distintos
• Calcular estadísticos como la media, la media, la moda

2.- Podemos utilizar herramientas gráficas para detectar y resolver conflictos


en los valores de los datos.
• Histogramas
• Gráficos de barras

3.- Comprobar los resultados obtenidos con los expertos de dominio.

40
1.2 Recogida, limpieza y pre-procesamiento de datos
¿Cómo podemos conocer la calidad de nuestros datos?

Histograma del atributo Total póliza p/a ¿Es un dato erróneo?

Sin analizar el dato en


detalle no se puede
determinar si se trata de
un valor anómalo pero
correcto (p.e. el seguro de
un automóvil muy
especial) o de un dato
erróneo. 41
1.2 Recogida, limpieza y pre-procesamiento de datos
Gráficas de dispersión (scatter plots)

La gráfica de dispersión es un diagrama que representa en un sistema de coordenadas


cartesianas los valores de dos atributos de un mismo individuo.

Permite estudiar el tipo de relación


existente entre dos atributos.

La gráfica de dispersión etiquetada


permite mostrar la relación con un
tercer atributo nominal.
42
1.2 Recogida, limpieza y pre-procesamiento de datos
Limpieza de datos
¿Qué hacer con los registros incompletos? Varias alternativas
§ Ignorarlos
- Algunos algoritmos son robustos a los registros incompletos

§ Eliminar el registro
- No es efectivo cuando el porcentaje de valores perdidos es muy alto.
- Se pierde información disponible en otros atributos del registro.
- No es la mejor solución si el registro es muy significativo.
§ Eliminar sólo los atributos con alta proporción de valores perdidos

§ Reemplazar el valor (imputar)

43
1.2 Recogida, limpieza y pre-procesamiento de datos
Limpieza de datos

Imputar
• Una constante global
• Un estadístico dependiente del atributo, de tal modo que preserve su media o
su moda
• Si el objetivo final es clasificar, se puede utilizar un estadístico dependiente
del atributo y clase
Por ejemplo, el valor medio del atributo para todos los registros de una
misma clase.

Es importante tener en cuenta que los valores utilizados para imputar pueden afectar
al resultado del aprendizaje.

En ocasiones se puede crear un nuevo atributo lógico que indique si el valor


correspondiente del atributo original era incompleto o no. 44
1.2 Recogida, limpieza y pre-procesamiento de datos
Limpieza de datos
Valores anómalos (atípicos o “outliers”)
– No se ajustan al comportamiento estadístico general de los datos. Pueden afectar a
la calidad de los datos.

– Pueden ser:
• valores correctos que representan un dato fidedigno de la realidad
• valores erróneos, por ejemplo porque están contaminados por ruido ( edad =
-200)

– Hay herramientas estadísticas que sugieren valores anómalos. Es el usuario el que


finalmente debe determinar si son valores erróneos o no.

45
Contenidos

Tema 1. Introducción

1.1 Inteligencia artificial y aprendizaje automático

1.2 Recogida, limpieza y pre-procesamiento de datos

1.3 Ejemplos y aplicaciones biomédicas

46
1.3 Ejemplos y aplicaciones biomédicas

2.4.1. Free text. All documents related to both inpatient and outpatient visitsfrom 2004 to
2012 were extracted. The most frequent document types were nurses notes, journal notes,
. discharge letters, and admission notes.
outpatient notes, radiologyreports, referrals,
Preprocesing. All words in the analyzed documents were transformed to lowercase, and all
grammatical symbols, numbers, and stops words were removed. A bag of word (BOW)
model was built based on the relative frequency of each word. Misspelledwords appeared
relatively infrequently, thus, only words appearing at least 10 times were included in the
BOW. This threshold actually reduced the dimensionality of BOW model from 65,328 to
13,188 words.
We considered it and the mean zero and unit variance
47
standardization
1.3 Ejemplos y aplicaciones biomédicas

2.4.2. Blood tests. In this work, we analyzed structured


data from nine different laboratory (blood) tests. These
blood tests were recorded for a period of 10 days before
the surgery and up to 20 days after the surgery. Note that
the blood tests measurements are in general highly
irregularly extracted in time. Hence, the observed data set
is sparse over patients and time, which creates
challenges in the data processing. From a data
processing perspective, the data sparseness is equivalent
to missing data, and the irregular sampling must be
handled.
• When a relatively small number of samples are
missing, skipping features or patients can be an
option, but this was not the case in our problem.
• We followed an imputation method based on the
nearest neighbour algorithm as in [36].

48
1.3 Ejemplos y aplicaciones biomédicas

2.4.3. Vital signs. Three vital signs (temperature, blood pressure -high and low values-, and
pulse) were extracted from different types of nurse’

Vital signs were normally recorded at least three times per day for each patient, for a period of
10 days before the colorectal surgery and up to 20 days after the surgery. However, these data
were irregularly sampled by nature, thus, a causal imputation method based on the nearest
neighbor algorithm was applied to obtain daily measures.

Temperature. The extraction process was restricted between 30.0 and 41.0 as normal values.
Blood pressure. The diastolic and systolic blood pressure of a patient was given as two integers
separated by a /, for instance 120/80. The extraction process constrained it to be: (1) The first
integer larger than the second integer; (2) The first integer larger than 60 and lower than 250;
And (3) the second integer larger than 30 and lower than 200.
Pulse. The number of heart beats per minute was given as an integer. The extraction process
restricted it to be between 41 and 250. Choosing 41 as the lower limit makes medical sense,
though there might be rare cases of lower pulses than this. In these cases, the patient was
probably anyway kept under tight control
49
Referencias
• Witten, I. H., Frank, E., Hall, M. A., & Pal, C. J. (2016). Data Mining: Practical machine
learning tools and techniques. Morgan Kaufmann.

• James, G., Witten, D., Hastie, T., & Tibshirani, R. (2013). An introduction to statistical
learning (Vol. 112, p. 18). New York: springer.

50