Sie sind auf Seite 1von 8

Métodos predictivos

Entre los métodos predictivos más conocidos nos encontramos con los árboles de
decisión y los métodos basados en la regresión matemática. Los árboles de decisión
pueden utilizarse para conocer si, por ejemplo, un día podremos salir a jugar al tenis
utilizando un historial de datos meteorológicos de los días que hemos podido salir a
jugar y aquellos en los que el tiempo no lo ha permitido como base.

Los métodos regresivos pueden utilizarse para predecir compras de clientes por
grupos de edad, dado un historial de compras por edad para un rango de edades,
o incluso, el precio de un vehículo de segunda mano si tenemos como base una
relación de datos sobre coches de segunda mano de similares características con
sus correspondientes precios, características y atributos.

Figura 1. Árbol de decisión


Figura 2. Regresión

Clasificador J48

El algoritmo J48 de WEKA es una implementación del algoritmo C4.5, uno de los
algoritmos de minera de datos más utilizado.

Se trata de un refinamiento del modelo generado con OneR. Supone una mejora
moderada en las prestaciones, y podrá conseguir una probabilidad de acierto
ligeramente superior al del anterior clasificador.

El parámetro más importante que deberemos tener en cuenta es el factor de


confianza para la poda confidence level, que influye en el tamaño y capacidad de
predicción del Árbol construido. Para cada operación de poda, define la probabilidad
de error que se permite a la hipótesis de que el empeoramiento debido a esta
operación es significativo. A probabilidad menor, se exigirá que la diferencia en los
errores de predicción antes y después de podar sea más significativa para no podar.
El valor por defecto es del 25%. Según baje este valor, se permiten más operaciones
de poda.

Redes neuronales

Se trata de un sistema de interconexión de neuronas en una red que colabora para


producir un estímulo de salida. Algunos ejemplos de red neuronal son:

 El Perceptrón
 El Perceptrón multicapa
 Los Mapas Autoorganizados, también conocidos como redes de Kohonen.

Árboles de decisión

Un árbol de decisión es un modelo de predicción utilizado en el ámbito de la


inteligencia artificial, dada una base de datos se construyen estos diagramas de
construcciones lógicas, muy similares a los sistemas de predicción basados en
reglas, que sirven para representar y categorizar una serie de condiciones que
suceden de forma sucesiva, para la resolución de un problema. Ejemplos: Algoritmo
ID3, Algoritmo C4.5.

Series temporales

Una serie de tiempo 𝑍(𝑡) es un conjunto de observaciones secuencialmente


realizadas en el tiempo, de modo que le corresponde un valor 𝑍𝑡 a cada instante de
tiempo 𝑡 observado [1].

Interesa especialmente el caso en que los valores de la serie están influidos por
factores aleatorios. Haciendo uso del lenguaje matemático, una serie de tiempo
puede ser considerada como una colección de variables aleatorias {𝑍𝑡,𝑡 ∈ 𝑇} donde
𝑇 es un conjunto de índices, normalmente el conjunto de los números naturales. Así,
los valores de la serie pueden ser vistos como salidas de un proceso estocástico,
esto significa que cada valor 𝑍𝑡 de la serie de tiempo puede ser considerado como
una observación de una de las variables aleatorias 𝑍𝑡 que integran el proceso. La
serie de tiempo de 𝑛 observaciones sucesivas (𝑍1(𝑡),𝑍2(𝑡),...,𝑍𝑛(𝑡)) puede ser
considerada como una muestra de una población de series temporales
(𝑍1(𝑡),𝑍2(𝑡),...,𝑍𝑛(𝑡)) que podían haber sido generadas por un proceso estocástico.

Análisis de series temporales En la vida real la mayoría de los fenómenos, que se


estudian secuencialmente ordenados en el tiempo, deben tomar en cuenta la
dinámica de los procesos con la finalidad de entenderlos de la mejor manera
posible. Una herramienta muy útil para alcanzar dicho objetivo es el análisis de
series temporales. Los datos en una serie de tiempo tienen un orden natural, esto
hace que su análisis sea un tanto distinto al de otros problemas que no presentan
un orden natural en sus observaciones. El análisis de datos mediante series
temporales es además distinto del análisis espacial de datos en el cual las
observaciones están relacionadas con localizaciones geográficas (por ejemplo,
calcular el precio de una vivienda según sus características y ubicación geográfica).
Sin embargo, su uso se ha extendido a ramas de la ciencia tan diversas como son
la estadística, el procesamiento de señales, reconocimiento de patrones,
econometría, matemática financiera, pronóstico climático, electroencefalografía,
ingeniería y comunicaciones. Por ejemplo, en economía se utilizan estas series en
el control de la calidad, para estudiar índices de precios en el mercado, desempleo,
producto interno bruto (PIB), índices poblacionales etc. En ciencias naturales se
utilizan comúnmente para estudiar el nivel de las aguas de ríos y presas, los
parámetros meteorológicos, las medidas de poblaciones naturales, etc. Un estudio
económico que muestra la correlación causal entre el consumo eléctrico y la
producción económica en Australia se puede consultar en el artículo. El análisis de
series temporales puede ser visto como la tarea de encontrar patrones en los datos
temporales y predecir sus valores. La detección de patrones incluye el análisis de:

 Tendencias: Puede ser visto como cambios sistemáticos no repetitivos


(lineales o no lineales) de algún valor sobre el tiempo. Un ejemplo podría ser
el valor de una acción cuando continuamente esta sube de precio.
 Ciclos: Aquí el comportamiento observado durante el tiempo es cíclico.
 Períodos: Los patrones detectados se repiten durante un período de tiempo
determinado, ya sea anual, mensual o diario (un ejemplo de ello es cuando
los volúmenes de venta aumentan en la temporada navideña).
 Anomalías: Para ayudar a encontrar patrones, la técnica de detección de
anomalías, elimina mucho de los llamados “falsos positivos”.

El objetivo que tradicionalmente ha primado en el análisis de series temporales es


el de describir los datos como cierta función en el tiempo que permita analizar con
detalles el pasado y hacer predicciones futuras. Esto se logra estableciendo
modelos probabilísticos hipotéticos que representen a los datos. En consecuencia,
se lleva a cabo el proceso de ajuste, que incluye desde la estimación hasta la
predicción, para finalmente determinar un modelo satisfactorio. Algunos de los
objetivos secundarios de este tipo de modelos son el suavizado (más conocido por
smoothing en inglés), la interpolación y el modelado de estructuras [3]. Los modelos
de series temporales deben considerar la naturaleza del fenómeno que describen y
determinar los factores que pueden ser incluidos en cada modelo. Por ejemplo, en
muchas series económicas es indispensable considerar los efectos estacionales de
la serie. Si esto no se toma en cuenta, los modelos obtenidos no serán los
apropiados. Los métodos utilizados en el análisis de series temporales son
típicamente divididos en dos clases: los de dominio de frecuencias [4] y los de
dominio de tiempo [5]. El primero incluye el análisis espectral y más recientemente
el análisis de ondulaciones; el segundo incluye autocorrelación y correlación
cruzada. Además, las técnicas de análisis de series temporales pueden ser divididas
según sus métodos en paramétricas y no paramétricas. Los enfoques paramétricos
asumen que la estacionalidad fundamental del proceso estocástico tiene cierta
estructura la cual puede ser descrita usando un reducido número de parámetros
(por ejemplo, usando autorregresión o corrimiento de medias). En estos enfoques,
el objetivo es estimar los parámetros del modelo que mejor describen el proceso
estocástico. Por el contrario, los enfoques no paramétricos estiman explícitamente
la covarianza o el espectro del proceso sin asumir que este tenga alguna estructura
en particular. Adicionalmente otras clasificaciones han sido creadas para describir
series temporales, algunas de ellas son: series lineales y no lineales, univariadas y
multivariadas.

El modelo basado en minería de datos para el análisis de series temporales

La minería de datos para series temporales es una contribución importante a los


campos de estudio de la minería de datos y de las series temporales. Los métodos
utilizados en la minería de datos para series temporales son capaces de caracterizar
satisfactoriamente series periódicas, no periódicas, complejas y caóticas. Estos
métodos cubren las limitaciones de las técnicas tradicionales utilizadas en el análisis
de series temporales, ya que adaptan los conceptos de la minería de datos para
tratar este tipo de series como una clase especial de datos. Su campo de estudio
utiliza lo mejor de las siguientes áreas de investigación: análisis estadístico de series
temporales, minería de datos, procesado adaptativo de señales, análisis
ondulatorio, algoritmos genéticos, sistemas dinámicos y caos.

Tareas de la minería de datos para series temporales

En los últimos años se han llevado a cabo numerosas investigaciones relacionadas


con la minería de datos para series temporales, por ejemplo: el encontrar similitudes
entre series temporales, la búsqueda de subsecuencias, la reducción de su
dimensionalidad y la segmentación. Diferentes “tareas de minería de datos para
series temporales” pueden encontrarse en la literatura, varios autores, para
favorecer su estudio, las clasifican en los siguientes campos:

 representación e indexado
 clasificación
 medidas de similitud
 emparejamiento de subsecuencias
 segmentación
 visualización
 descubrimiento de patrones y conglomerados

Redes neuronales
Las redes neuronales son técnicas de modelado no lineal sofisticadas que son
capaces de modelar funciones complejas. Pueden aplicarse a problemas de
predicción, clasificación o control en un amplio espectro de campos como las
finanzas, la psicología cognitiva/neurociencia, la medicina, la ingeniería y la física.

Las redes neuronales se utilizan cuando no se conoce la naturaleza exacta de la


relación entre los valores de entrada y de salida. Una característica clave de las
redes neuronales es que aprenden la relación entre los valores de entrada y salida
a través del entrenamiento. Existen tres tipos de entrenamiento en redes neuronales
utilizadas por diferentes redes, el aprendizaje por refuerzo, el supervisado y no
supervisado, siendo el supervisado el más común.

Naïve Bayes

El clasificador bayesiano ingenuo se basa en la regla de probabilidad condicional


de Bayes, que se utiliza para la tarea de clasificación. El clasificador bayesiano
asume que los predictores son estadísticamente independientes, lo que hace que
sea una herramienta de clasificación eficaz que sea fácil de interpretar. Se emplea
mejor cuando se enfrenta al problema de la “maldición de la dimensionalidad”, es
decir, cuando el número de predicciones es muy alto.

https://riunet.upv.es/bitstream/handle/10251/10097/PFC_DSIC-
80_AgustínCalleja.pdf

http://www.investigacion.frc.utn.edu.ar/labsis/Publicaciones/congresos_labsis/cynt
hia/CNIT_2009_Aplicacion_Algoritmos_Weka.pdf

http://www.scielo.org.ve/scielo.php?script=sci_arttext&pid=S0798-
40652011000300003
http://openaccess.uoc.edu/webapps/o2/bitstream/10609/59565/6/caresptimTFG01
17memòria.pdf