Sie sind auf Seite 1von 29

Introduccin al anlisis

topolgico de datos
en R. (phom)
Grupo de Inters Local de Madrid 26 de Noviembre.
Alfonso de Ua del Bro.
ndice de materias.

Introduccin
..
Anlisis topolgico de datos

Es una tcnica para el estudio cualitativo de datos.


Desarrollada en los ltimos 15 aos por un grupo de toplogos
Gunnar Carlsson
Herbert Edelsbrunner
Robert Ghrist
John L. Harer
Afra Zomorodian

Objetivo:
Aplicar la topologa algebraica para obtener tcnicas y herramientas que nos permitan
estudiar las propiedades topolgicas y geomtricas de un conjunto de datos.
Paradigma anlisis topolgico de los datos

DATOS
DATOS Se les asocia Estructura
Estructura topolgica
topolgica

Se
Retornamos a estudian
los datos Propiedades
Propiedades topolgicas
topolgicas
ATD como herramienta

Es una herramienta de anlisis de datos meramente heurstica.


Rama muy nueva dentro del desarrollo de la teora de probabilidad y estadstica.
Probabilidad en espacios de Banach
Topologa estocstica
Inferencia estadstica para homologa persistente

Tiene aplicaciones muy concretas en contextos muy variados


En busca de estructuras en los conjunto de datos

A partir de un conjunto de datos queremos obtener informacin sobre que estructura forma en el
espacio.

Uso de la topologa no depende de la geometra sino de las propiedades invariantes


Topologa de anlisis de datos.

Anlisis topolgico de datos segn Carlsson:


Como inferir estructuras de grandes dimensiones desde otras con dimensiones
menores
Como crear una estructura global desde un conjunto de puntos discretos.

Est basado en como nuestro cerebro infiere la informacin del mundo que nos
rodea.
Ejemplo: el ojo como aparato ptico es bastante malo es gracias a nuestro cerebro
que a partir de las formas vagas que nos llegan infiere el mundo tal y como lo
entendemos (visualizacin en 3d).
Concepto Matemtico: Homologa persistente

Homologa

Homologa persistente:
Estructura topolgica: Complejos simpliciales
Propiedades topolgicas: Grupos de homologa, nmeros de Betti.
Complejos simpliciales
Propiedades topolgicas

Tenemos una serie de


propiedades topolgicas que se
van formando a medida que el
radio de los puntos van
creciendo.

Cada una de estas propiedades


tiene un tiempo de vida, ser
interesante para el estudio de los
datos. (Deteccin de ruido).
Nmeros de Betti
Homologa persistente

Descripcin matemtica:
La teora de la homologa persistente crea la homologa simplicial desde el algebra
topolgica, donde la homologa simplicial define un conjunto de invariantes
topolgicos de complejos simpliciales con los que se puede describir las
caractersticas topolgicas de las formas

Gunnar Carlsson, Topology and data, Bulletin of the American Mathematical Society 46 (2009), no2, 255308.
Homologa de persistencia

Dada una nube de puntos X {x1,x2,x3,} queremos obtener informacin sobre la


forma de estos puntos en el espacio. Adems permite la descomposicin
multidimensional de las caractersticas topolgicas de nuestro conjunto de datos
Relativamente nueva que se est incorporando cada vez ms a diferentes campos
de investigacin. (En problemas concretos)
Ecologa
Gentica
Procesamiento de imgenes
Visin artificial (Reconocimiento de objetos en 3D)
Redes de sensores
Machine Learning
Pasos para construer un cdigo de barras

Step 1 Inicio Step 2 Step 3 Step 4


Nube de puntos Complejos homologa Construir
Simpliciales Construir Barcode
Parmetro radio homologa Basado n Betti
persistente
Creacin de un cdigo de barras a travs de complejos
simpliciales
Vdeo creacin de cdigo de barras
Paquete pHom: Persistent Homology in R

Es un paquete de R para generar la homologa persistente de conjunto de datos


en el espacio.
La homologa persistente es una herramienta algebraica que permite acceder a
propiedades topolgicas de un conjunto de datos dados en varias dimensiones.
Clustering de las propiedades homolgicas de los datos en muchas dimensiones.

Version: 1.0.3
Depends: Rcpp ( 0.9.7)
LinkingTo: Rcpp
Published: 2014-02-09
Author: Andrew Tausz
Maintainer: Andrew Tausz <atausz at stanford.edu>
License: BSD_3_clause + file LICENSE
Paquete pHom

> intervals <- pHom(X, max_dim, max_f, metric = "manhattan")


Funcin que genera los intervalos de cada clase en cada dimensin hasta los lmites que nos
interese, solo se le puede pasar le valor mximo de la filtracin (psilon - radio).
Dos modos de filtracin (rips y )

Nos devuelve una matriz con tres columnas con dimensin inicio y fin
Ejemplo

library(phom)
x <- runif(100)
y <- runif(100)
points <- t(as.matrix(rbind(x, y)))

max_dim <- 2
max_f <- 0.2

#Obtencin de los intervalos inicio fin


intervals <- pHom(points, max_dim, max_f, metric="manhattan")

#diagrama de persistencia
plotPersistenceDiagram(intervals, max_dim, max_f,
title="Random Points in Cube with l_1 Norm")
Ejemplo: Diagrama de persistencia

El diagrama de persistencia sera el siguiente:


Observamos ms lazos de dimensin uno
Ejemplo

library(phom)
N <- 50
x1 <- rnorm(N) * 0.1
y1 <- rnorm(N) * 0.1
X1 <- t(as.matrix(rbind(x1, y1)))
x2 <- rnorm(N) * 0.1 + 0.5
y2 <- rnorm(N) * 0.1 + 0.5
X2 <- t(as.matrix(rbind(x2, y2)))
x <- cbind(x1, x2)
y <- cbind(y1, y2)
X <- as.matrix(rbind(X1, X2))
max_dim <- 0
max_f <- 0.8
intervals <- pHom(X, max_dim, max_f, metric =
"manhattan")
Ejemplo de Cdigo de barras

plotBarcodeDiagram(intervals, max_dim, max_f, title = "")


Ejemplo

t <- 2 * pi * runif(100) Diagrama de persistencia


x <- cos(t); y <- sin(t) plotPersistenceDiagram()
X <- t(as.matrix(rbind(x, y)))
Interpretacin del cdigo de barras

https://dreamtolearn.com/ryan/data_analytics_viz/50
Interpretacin del cdigo de barras
Una vez obtenido un cdigo de barras

Y ahora qu?
Tenemos que interpretar el cdigo de barras en nuestro estudio.
Qu significa tener agujeros de dimensin dos en nuestros datos?
Interpretar las diferencias topolgicas de diferentes espacios.
Interpretar las modificaciones de las propiedades en el tiempo con nuestro conjunto de datos.

Cundo es til utilizar ATD (TAD):


Cuanto tenemos una gran cantidad de datos mejora sensiblemente el rendimiento.
Seremos capaces de detectar el ruido en nuestros datos.
Podemos descubrir patrones ocultos en los datos y buscar tales patrones dentro de un
conjunto mayor de datos o otros datos dentro del mismo contexto.
Bibliografa

Conferencia "TDA y Gentica", Jos Mara Ibarra Rodrguez


https://www.youtube.com/watch?v=c7pZpTvpLTY

Conferencia "TDA en nichos ecolgicos", Vidal Al


https://www.youtube.com/watch?v=EZibw3cdcyw

Conferencia "TDA, Persistent homology", Dr. Jos Antonio de la Pea


https://www.youtube.com/watch?v=sB2kA46ALNE

http://cran.r-project.org/web/packages/phom/vignettes/phom.pdf
Barcodes: The persistent topology of data
http://www.math.upenn.edu/~ghrist/preprints/barcodes.pdf
Bibliografa

Topological Data Analysis


http://www.cs.dartmouth.edu/~afra/papers/ams12/tda.pdf (Afra Zomorodian)

Computational Topology and Data Analysis


http://web.cse.ohio-state.edu/~tamaldey/course/CTDA/CTDA.html

Topology and data (Gunnar Carlsson)


http://www.ams.org/journals/bull/2009-46-02/S0273-0979-09-01249-X/
FIN
MUCHAS GRACIAS!

Das könnte Ihnen auch gefallen