You are on page 1of 70

Vladimir G.

Pestov

Mtodos Matemticos na Cincia de


Dados: Introduo Relmpago

Florianpolis, SC

2014
Vladimir G. Pestov

Mtodos Matemticos na Cincia de Dados:


Introduo Relmpago

Minicurso apresentado no IIIo


Colquio de Matemtica da Re-
gio Sul, realizado na Universi-
dade Federal de Santa Catarina,
em maio de 2014.

Florianpolis, SC
2014
Resumo
A cincia de dados, as vezes chamada de a prxima grande coisa
(the next big thing), um campo natural de pesquisa aplicada
para os matemticos. Em particular, a aprendizagem autom-
tica estatstica uma rea de pesquisa fascinante, pelo menos
a trs nveis diferentes: como uma teoria matemtica da grande
profundidade e beleza, como uma direo do desenvolvimento de
algoritmos, e como uma plataforma muito poderosa para aplica-
es prticas.

O ministrante do curso um pesquisador em matemtica pura,


que est interessado tambm do desenvolvimento de novos al-
goritmos para anlise de grandes conjuntos de dados. Em No-
vembro 2013, com uma equipe de 3 de seus estudantes de ps-
graduao, ele ganhou o primeiro lugar na 4a Competio Inter-
nacional de Minerao de Dados de Segurana Ciberntica (4-th
Cybersecurity Datamining Competition CDMC2013, Daegu,
Korea, 37 do Novembro 2013).

Este minicurso uma introduo compacta e no tradicional


aos mtodos modernos de anlise de grandes volumes de dados
atravs da aprendizagem automtica estatstica, explicando a
matemtica para trs de alguns algoritmos que utilizou com sua
equipe para vencer o evento.

Palavras-chaves: cincia de dados, aprendizagem automtica


estatstica, classificador k-NN, consistncia universal, aplicaes
borelianas, reduo de dimensionalidade
Sumrio

1 Problema de classificao binria . . . . . . 5


2 Consistncia universal . . . . . . . . . . . . . 15
3 Maldio de dimensionalidade . . . . . . . . 33

4 Reduo de dimensionalidade . . . . . . . . 53

Referncias . . . . . . . . . . . . . . . . . . . 65
5

1 Problema de classificao bi-


nria

Vamos comear pela noo bsica da aprendizagem su-


pervisonada: o problema de classificao binria. Para tanto, to-
mamos uma experincia simples. Geramos n = 1000 pontos ale-
atrios no quadrado unitrio [0, 1]2 , distribuidos uniformemente
e independamentes um do outro. (A distribuio uniforme sig-
nifica que a probabilidade de que um ponto x pertena a um
pequeno quadrado [a, a + ] [b, b + ] de lado  > 0 proporci-
onal (com efeito, igual) rea do quadrado, 2 .)

Espera ver algo assim?


1

0.9

0.8

0.7

0.6

0.5

0.4

0.3

0.2

0.1

0
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

Figura 1 Uma grade uniforme com 1024 = 322 pontos.

Com efeito, isto no o que o conjunto de dados resul-


tante pode parecer. Em vez disso, veja figura 2.
6 Captulo 1. Problema de classificao binria

0.8

0.6

0.4

0.2

0
0 0.2 0.4 0.6 0.8 1

Figura 2 Uma amostra aleatria de 1000 pontos tirados uni-


formemente do quadrado.

Note, em particular, a presena do que aparece como


uma estrutura interna de dados significativa: os grandes bura-
cos aqui e ali, agrupamentos de pontos... Estas so, na verdade,
desvios aleatrios, no carregando nenhuma informao til.

O nosso conjunto de dados,

X = {x1 , x2 , . . . , x1000 },

uma amostra. O quadrado [0, 1]2 o domnio.

Agora dividimos os dados em duas classes: a classe A dos


pontos sobre ou acima da diagonal (marcados pelos asterscos)
e a classe B dos pontos abaixo da diagonal (marcados pelos
pequenos quadrados). Obtemos o que chamado uma amostra
rotulada (labelled sample). Ver Figura 3.

Observe um efeito visual interessante: parece que a fron-


teira entre as duas classes uma curva ondulada, ao invs de
7

0.8

0.6

0.4

0.2

0
0 0.2 0.4 0.6 0.8 1

Figura 3 Amostra rotulada.

uma linha reta! No entanto, voc pode usar uma rgua para
convencer-se de que no h nenhum erro e os centros de todos
os asterscos esto realmente acima da diagonal, enquanto os
centros de todos os quadrados esto abaixo.

Marcando os elementos de A com 1 e os elementos de


B com 0, a nossa amostra rotulada pode ser escrita da seguinte
maneira:

= (x1 , x2 , . . . , x1000 , 1 , 2 . . . , 1000 ),

onde por valor i do rtulo do ponto xi , temos i {0, 1}, i =


1, 2, . . . , 1000. (Certo, ao lado dos rtulos 0 e 1 pode se usar, por
exemplo, 1 e +1...)

Neste exemplo de brinquedo a dimenso dos dados


2, e o conjunto de dados pode ser visualizado, o que ajuda muito
para determinar a sua estrutura. Cada ponto um elemento
(1) (2)
de R2 , representado por duas coordenadas, xi = (xi , xi ). A
amostra rotulada pode ser tratada como um subconjunto (or-
8 Captulo 1. Problema de classificao binria

denado) de [0, 1] [0, 1] {0, 1}, e escrita como uma matriz de


(1) (2)
dimenso 1, 000 3: cada linha (xi , xi , i ) representa um ele-
mento de X, assim que seu rtulo. Essa representao matricial
dos conjuntos de dados bastante comum. De uma maneira mais
abstrata, podemos escrever

([0, 1] [0, 1])n {0, 1}n .

Chegamos ao sequinte problema de classificao binria:


a partir da amostra rotulada , construir uma funo

T : [0, 1]2 {0, 1}

(chamada classificador, ou preditor, ou funo de transferncia),


definida sobre todo o domnio, que seja capaz de predizer com
confiana um rtulo no s para os dados existentes, mas tam-
bm para novos dados. Podemos dizer que esse o problema
central da aprendizagem automtica estatstica supervisionada.

Claro que sabemos a resposta para nosso problema de


brinquedo: ela dada pelo classificador de verdade

Ttrue (x) = (x(1) x(2) ),

onde a funo de Heaviside,


(
1, se x 0,
(x) =
0, se x < 0.

Mas se o problema for mostrado a alguma outra pes-


soa (ou mquina), que no sabe como as duas classes A e B
foram formadas, voc pode obter outras respostas. Por exemplo,
o seu prprio crtex visual, ao analisar a imagem na figura 3,
sugere separar as duas classes com uma linha ondulada! Um tal
9

classificador poderia no ser exato, mas estar perto da verdade


para ser aceitvel. As chances de classificao errnea (o erro
de classifio) para um novo ponto de dados seriam relavamente
pequenos.

Algum pode sugerir a seguinte soluo simplista: atri-


buir o valor 1 a todos os pontos de dados atuais que esto acima
da diagonal, e o valor 0 a todos os outros pontos, atuais e futuros:
(
1, if x A,
T (x) =
0, otherwise.

Este classificador d uma resposta correta para todos os pontos


atuais xi X, i = 1, 2, . . . , 1, 000. No entanto, se ns gerarmos
aleatoriamente um novo ponto y [0, 1]2 , com probabilidade 1/2
ele ficar acima da diagonal. Ao mesmo tempo, a probabilidade
de escolher um ponto em X zero. Assim, com probabilidade de
1/2, o classificador T ir retornar um valor falso para y. Entre
todos os pontos gerados no futuro,

x1001 , x1002 , . . . , x1000+n , . . . ,

aproximadamente metade deles sero classificados erroneamente.


Para n suficientemente grande, o classificador T fornecer uma
resposta errada aproximadamente na metade dos casos cer-
tamente um fracasso completo. Jogando a moeda equilibrada
podemos conseguir a mesma taxa de sucesso de 1/2, sem usar
qualquer classificador, simplesmente atribuindo a um ponto um
valor aleatrio 0 ou 1.

Como podemos distinguir um bom classificador de um


ruim? Ou seja, dado um classificador, T , existe uma maneira de
verificar se T susceptvel de atribuir a maioria dos pontos de
dados futuros classe correta?
10 Captulo 1. Problema de classificao binria

primeira vista, o problema parece completamente in-


tratvel: como possivelmente podemos mostrar algo sobre os da-
dos que ainda no existem? Na verdade, quase incrvel que
pelo menos dentro de um modelo terico tais predies podem
ser feitas com um grau considervel de certeza.

Todavia, vamos deixar este problema para mais tarde.


Consideremos um exemplo real: um conjunto de dados da com-
petio CDMC2013 de minerao de dados para o problema de
deteo de intrusos numa rede, coletados por um sistema real
IDS (Intrusion Detection System) na Coria. (Para mais infor-
maes, consulte [24]. Este conjunto no est disponvel publica-
mente, mas outros conjuntos semelhantes so, por exemplo [6]).

Cada linha da matriz corresponde a uma sesso, onde


as 7 coordenadas so os valores dos parmetros da sesso. Exis-
tem n = 77, 959 pontos de dados, incluindo 71, 758 sesses nor-
mais (sem intruso), rotuladas +1, e 6, 201 sesses ataque (com
intruso), rotuladas 1. A Figure 4 mostra um extrato das 15
linhas da matriz.

O objetivo de construir um classificador capaz de aler-


tar de um intruso em tempo real com um erro mnimo e uma
confiana alta.

O que seria o classificador mais natural de se usar, ba-


seado em nossa experincia cotidiana e o senso comum?

Suponha que voc queira vender o carro. Para deter-


minar um preo razovel, voc vai buscar algumas informaes
sobre a venda dos carros do mesmo modelo, idade, milhagem,
at a cor. Em outras palavras, voc busca um carro o mais se-
melhante ao seu, e a sua cotao de venda d uma boa idia do
11

............
+1 1:-1.00 2:-0.03 3:-0.09 4:-0.49 5:-0.05 6:-0.15 7:-1.08
+1 1:-1.00 2:-0.03 3:-0.09 4:-0.49 5:-0.05 6:-0.15 7:-1.08
+1 1:-1.00 2:-0.03 3:-0.09 4:-0.49 5:-0.05 6:-0.15 7:-1.08
+1 1:-1.00 2:-0.03 3:-0.09 4:-0.49 5:-0.05 6:-0.15 7:-1.08
+1 1:-0.67 2:-0.03 3:0.04 4:1.95 5:-0.05 6:-0.10 7:1.11
+1 1:-1.00 2:-0.03 3:-0.09 4:-0.49 5:-0.05 6:-0.15 7:-1.08
+1 1:-1.00 2:-0.03 3:-0.09 4:-0.49 5:-0.05 6:-0.15 7:-1.08
+1 1:-0.63 2:-0.03 3:0.03 4:1.89 5:-0.05 6:-0.10 7:1.11
+1 1:-0.59 2:-0.03 3:0.03 4:1.83 5:-0.05 6:-0.09 7:1.11
-1 1:-1.00 2:-0.03 3:-0.09 4:-0.49 5:-0.05 6:-0.15 7:-1.08
+1 1:-1.00 2:-0.03 3:-0.09 4:-0.49 5:-0.05 6:-0.15 7:-1.08
+1 1:-1.00 2:-0.03 3:-0.09 4:-0.49 5:-0.05 6:-0.15 7:-1.08
+1 1:-1.00 2:-0.03 3:-0.09 4:-0.49 5:-0.05 6:-0.15 7:-1.08
-1 1:-1.00 2:-0.03 3:-0.09 4:-0.49 5:-0.05 6:-0.15 7:-1.08
+1 1:1.09 2:-0.03 3:-0.02 4:-0.49 5:-0.05 6:-0.15 7:1.11
............
Figura 4 Fragmente do conjunto de dados para deteo de in-
trusos na rede.

preo a escolher.

exatamente como o classificador de vizinhas mais pr-


ximas, ou o clasificador NN (Nearest Neighbour Classifier) fun-
ciona. Dado um ponto qualquer y do domnio, , buscamos o
ponto x do conjunto de dados atual, X, mais prximo a y. O
classificador N N atribui a y o mesmo rtulo que o rtulo de x.
Obviamente, a fim de determinar o vizinho mais prximo, precisa
de uma funo de semelhana qualquer sobre o domnio:

S: R.

Tipicamente, S uma mtrica, por exemplo, a mtrica euclide-


ana.

Voltando venda do carro, provavelmente mais ra-


12 Captulo 1. Problema de classificao binria


+ +
+
+
+
+
+
+

Figura 5 O voto majoritrio para k = 3, entre +, +, , retorna


+, a para k = 4, entre +, +, , , indeciso.

zovel buscar mais de um carro semelhante ao seu, e determinar


o preo baseado sobre uma variedade dos preos destes carros.
Obtemos o classificador de k vizinhos mais prximos, ou classifi-
cador k-NN, onde k um nmero fixo. Dada a amostra rotulada,

= (x1 , x2 , . . . , xn , 1 , 2 , . . . , n ) n {0, 1}n ,

e o ponto da entrada y , o classificador k-NN escolhe k


vizinhos mais prximos a y, xi1 , xi2 , . . . , xik X, e determina o
rtulo de y pelo voto majoritrio entre os rtulos i1 , i2 , . . . , ik .
Se a votao for indecisa (o que possvel se k for par), o rtulo
de y escolhido aleatoriamente.

Como podemos garantir que as previses dadas por um


classificador so confiveis? Na prtica, a tcnica comumente
usada a validao cruzada. O conjunto de dados dividido
aleatoriamente no conjunto de treinamento (tipicamente, 75 a 90
por cento dos pontos) e o conjunto de avaliao (o restante 10 a
25 por cento). Somente os dados de treinamento so usados pelo
algoritmo, e os dados de avaliao so aplicados para estimar o
erro de predio.
13

Denotameros T : {0, 1} o classificador, Xt o con-


junto de treinamento, e Xa o conjunto de avaliao:

X = Xt Xa , Xt Xa = .

O valor seguinte o estimador estatstico do erro de predio


(ou: erro de classificao) de T :
|{i: xi Xa , T (xi ) 6= i }|
.
|Xa |

O procedimento iterado muitas vezes, e o valor mdio


dos erros cada vez estimados serve como uma boa aproximao
ao valor do erro verdadeiro de classificao do T .

Para aplicar classificadores aos conjuntos de dados con-


cretos, preciso escolher uma linguagem de programao. Te-
oricamente, qualquer linguagem pode ser utilizada: todas so
equivalentes mquina de Turing! Portanto, a linguagem utili-
zada mais comunamente em minerao de dados (at 2/3 dos
casos, de acordo com algumas estimativas) R [22], a lingagem
de programao estatstica, criada no Departamento de Estats-
tica da Universidade de Auckland, Nova Zelndia e baseado em
software livre (no formato do projeto GNU). Duas boas fontes
introdutrias so [18] e [14]. A fonte mais abrangente com in-
formaes sobre R, The R Book, disponvel livremente na web
[5].

Eu sugiro que voc baixe a linguagem R seguindo as


instrues em qualquer uma dessas fontes acima, e comece a
experimentar com ela aps os exerccios dos livros [18, 14].

Existem muitas implementaes disponveis do classifi-


cador k-NN em R, por exemplo, o classificador IBk do pacote
RWeka, ou o do pacote FNN [9].
14 Captulo 1. Problema de classificao binria

Exerccio 1.1. Baixar o conjunto de dados Phoneme [20],


treinar o classificador k-NN em R.

Aplicando o classificador k-NN ao nosso conjunto de


dados para deteo de intrusos na rede, obtemos um classificador
cujo erro de classificao ao torno de 0.3 %.

Certo, um bom resultado. Todavia, se voc partici-


par numa competio, claro que todos outros participantes vo
usar os classificadores padro. Para melhorar o resultado, pre-
ciso combinar as tcnicas conhecidas com as novas abordagens.
E antes de melhorar o desempenho do algoritmo, precisamos
compreender o que pode ser melhorado, onde h um problema
possivel?

Mas antes mesmo de examinar esta pergunta, temos


uma ainda mais fundamental: por que ns esperamos que o clas-
sificador k-NN funcione, d resultados confiveis?

A nica maneira de analisar as perguntas deste tipo


no formato de um modelo matemtico da aprendizagem super-
visionada. Este modelo o tema da prxima aula.
15

2 Consistncia universal

Os dados so modelados pelas variveis aleatrias, o


que a noo bsica da teoria de probabilidade. A fim de com-
prenender esta noo, relembramos primeiramente a noo bem
conhecida de varivel, muito comum na matemtica pura (geo-
metria, lgebra, anlise...) Eis alguns contextos tpicos onde as
variveis fazem a sua apario.

(1) Determinar os valores de x por quais

5x2 x + 3 = 0.

(2) Suponha que t [0, 1]. Ento ....

(3) Sejam x, y, z R quaisquer. Suponha que x < y.


Ento x + z > y + z.

(4) Seja z um nmero complexo qualquer. O valor ab-


soluto de z ....

Uma varivel um elemento qualquer (desconhecido) de


um conjunto (R nos casos (1) e (3), [0, 1] no (2), C no (4), etc.).
As variveis na teoria de probabilidade so de uma natureza
ligeiramente diferente. Elas so denotadas habitualmente pelas
letras maisculas, X, Y, Z, . . ., a fim de distinguir das variveis
usuais. Se X uma varivel aleatria (abreviamos: v.a.) real,
isso significa duas coisas. Primeiramente, tudo como no caso de
uma varivel usual,

- X un nmero real cujo valor exacto desconhecido:


X R.
16 Captulo 2. Consistncia universal

Mas tem mais das informaes adicionais disponveis.


Mesmo se o valor de X desconhecido, se sabe

- a probabilidade de X pertener cada regio A de R.

Em outras palavras, se A R uma parte de R, ento se


conhece um nmero real entre 0 e 1 que fornece a probabilidade
do evento X A. Este nmero denotado por

P [X A],

e as informaes conjuntas sobre os valores P [X A] para todos


A se chamam a lei de probabilidade, ou simplesmente a lei de X.
Ento, uma varivel aleatria uma varivel usual munida de
uma lei. Por exemplo, se a, b R, a b so quaisquer, ento se
sabe a probabilidade

P [a < X < b]

de que o valor de X esteja entre a e b. A lei de uma varivel


aleatria se denota por uma letra grega, por exemplo, ou .
uma aplicao associando cada regio A de R um nmero real,

R A 7 (A) = P [X A] [0, 1].

Eis alguns exemplos.

1. Uma varivel aleatria de Bernoulli toma dois valores:


0 e 1, cada uma com a probabilidade 1/2:
1
P [X = 0] = = P [X = 1].
2
Para calcular a lei de X, seja A R um conjunto qualquer.
Obviamente, se A contm ambos 0 et 1, ento a probabilidade
que X A igual 1, um evento certo. Se A no contm nem
17

0 nem 1, ento o evento X A improvvel, a sua probabilidade


0. Afinal, se A contm exatamente um dos pontos {0, 1}, ento
a probabilidade do evento X A 1/2:



1, se 0, 1 A,
1 , se

0Ae1
/ A,
2
P [X A] = 1


2, se 0
/ A e 1 A,

0, se 0
/ A, 1
/ A.

Uma varivel de Bernoulli modela uma jogada nica de


uma moeda justa, onde a probabilidade de dar coroa (o valor
1) 1/2, a mesma que a probabilidade de dar cara (o valor 0).

De maneira mais geral, se a moeda no justa, ento


a probabilidade de dar coroa pode ser um valor qualquer p
[0, 1],
P [X = 1] = p,

a probabilidade de dar cara

P [X = 0] = 1 p = q.

A lei de probabilidade de uma varivel aleatria real, X,


completamente determinada pela sua funo de distribuio,
. uma funo real dada por

(t) = P [X < t].

facil de calcular a funo de distribuio de uma v.a. de Ber-


noulli, veja Figura 6.

Se o conjunto dos valores da funo de distribuio de


uma varivel aleatria X enumervel, ento X dita discreta.
Por exemplo, a varivel aleatria de Bernoulli discreta.
18 Captulo 2. Consistncia universal

0.5

0 1 x

Figura 6 Funo de distribuio de uma varivel aleatria de


Bernoulli.

2. Uma varivel aleatria de lei uniforme com os valores


no intervalo [0, 1] dada pela frmula seguinte: quaisquer sejam
a, b R, a < b,
Z b
P [X (a, b)] = [0,1] (t) dt. (2.1)
a

Aqui, [0,1] nota a funo indicadora do intervalo [0, 1] (Figura


7):
(
1, se x [0, 1],
[0,1] (t) =
0, caso contrrio.

Por exemplo,
Z 1
P [0 X 1] = [0,1] (t) dt = 1,
0

e
  Z 1
1 1 2 1
P X = [0,1] (t) dt = .
2 2 12 2
19

x
1

Figura 7 Grafo da funo indicadora do intervalo [0, 1].

Se um intervalo (a, b) est contido em [0, 1], ento


Z b
P [X (a, b)] = [0,1] (t) dt
a
Z b
= 1 dt
a
= b a.

Em outras palavras, neste caso a probabilidade de que X per-


tena ao intervalo (a, b) igual ao comprimento do intervalo.

Se a lei de uma varivel aleatria dada pela integral,


como na frmula (2.1), ento a funo sobre integral dita a
densidade de X. A densidade de uma v.a. uniforme a funo
indicadora:
[0,1] (t).

Exerccio 2.1. Mostrar que a lei de Bernoulli no possui den-


sidade.
20 Captulo 2. Consistncia universal

A funo de distribuio de uma v.a. uniforme calcu-


lada facilmente (Figura 8).

0 1 x

Figura 8 A funo de distribuio de uma varivel aleatria


uniforme.

Uma varivel aleatria real X dita contnua se os va-


lores da sua funo de distribuio preenchem o intervalo [0, 1].
A v.a. uniforme obviamente contnua.

Exerccio 2.2. Seja X uma v.a. a qual possui densidade. Mos-


trar que X contnua.

Exerccio 2.3 (). Construir um exemplo de v.a. a qual no


contnua e no possui densidade.

Exerccio 2.4. Construir um exemplo de v.a. nem discreta nem


contnua.

Uma varivel aleatria real gaussiana (ou: segue a lei


normal centrada e reduzida, se X possui densidade dada por
1 2
et /2 .
2
21

Em outras palavras, quais quer sejam a, b R,


Z b
1 2
P [a < X < b] = et /2 dt.
2 a

=
Densit de distribution normale: = 0, 1
0.4
0.3
densit

0.2
0.1
0.0

3 2 1 0 1 2 3

Figura 9 A funo de densidade da lei gaussiana.

A lei semi-circular dada pela funo de densidade


(
2 2
1t , si |t| 1,
f (t) = .
0, se no.

Estritamente falando, o grfo da densidade no um


semi-crculo, mas, melhor, uma semi-elipse o fator normali-
zador 2/ 0.637 necessrio para que a probilidade de um
evento certo seja igual a 1.

A noo de uma varivel aleatria no apenas o nico


conceito mais fundamental da teoria de probabilidade, mas ,
22 Captulo 2. Consistncia universal

0.636...

1 1 x

Figura 10 A densidade da lei semi-circular.

sem dvida, uma das mais importantes noes em todas cin-


cias matemticas. Alguns matemticos argumentam que, even-
tualmente, os fundamentos da matemtica devem ser alterados
de modo que as variveis aleatrias sejam tratadas juntamente
com conjuntos...

At agora, s vimos as variveis aleatrias reais, com


valores em R. Mas elas podem assumir valores em domnios
mais gerais.

Seja um domnio geral. Quais so as propriedades


desejadas da lei, , de uma varivel aleatria X com valores
em ? Claro, os valores da lei pertencem no intervalo [0, 1], e a
probabilidade que X deve ser 1:

(P1) P [X ] = () = 1.

A probabilidade de x pertencer a unio de uma fam-


lia disjunta dos conjuntos Ai , i I deve ser igual soma das
23

probabilidades de que x Ai para todos i:


h [ i X
Pr X Ai = P r[X Ai ].

Qual o tamanho das famlias que devemos considerar?


Se ns restringimos a propriedade s unies finitas, a noo de
probabilidade resultante muito geral e fraca demais. Se, pelo
contrrio, permitimos as unies de todos as famlias, a noo de
probabilidade que obtemos demasiado restritiva.

Exerccio 2.5. Seja X uma varivel aleatria com valores em


um conjunto cuja lei possui a propriedade que, qualquer seja
a famlia disjunta dos conjuntos Ai , i I, Ai Aj = por
todos i, j, i 6= j, temos
X
P [X iI Ai ] = P [X Ai ].
iI

Mostrar que X discreta.

A escolha mais natural e frutfera a das famlias enu-


merveis.

(P2) Se Ai , i = 1, 2, 3, . . . so disjuntos dois-a-dois, ento (


i=1 Ai ) =
P
i=1 (Ai ).

Como um corolrio imediato, obtemos, no caso onde


A1 = A e A2 = Ac = X \ A:

(P20 ) Se A , ento P (Ac ) = 1 P (A).

Se a lei de uma varivel de Bernoulli (mais geral-


mente, de uma varivel discreta), ento o valor

(A) = P [X A]
24 Captulo 2. Consistncia universal

bem definido qual seja um subconjunto A do domnio. Po-


demos esperar o mesmo para cada varivel aleatria? A resposta
negativa. Com efeito, pode se mostrar que se uma v.a. X de lei
no discreta, ento o valor (A) no pode ser definido por
todos subconjuntos do domnio da maneira que as propriedades
(P1) e (P2) sejam satisfeitas (assumindo o Axioma de Escolha).

Por esse motivo, somos forados a restringir a coleo


B dos subconjuntos A , para as quais o valor P [X A]
bem definido. O axioma (P1) implica que sempre pertena
famlia B. Segundo o axioma (P 2), se

A1 , A2 , . . . B,

ento a sua unio pertena a B tambm:


[
Ai B.
i

Tendo em conta o axioma (P20 ), conclumos que, se A B,


ento Ac B. Em breve, a famlia B deve contar , os comple-
mentares de todos os seus membros, e as unies de sub-famlias
enumerveis.

Se um espao mtrico, razovel de exigir que a lei


seja bem-definida para todas as bolas abertas:

Br (x) = {y : d(x, y) < r}.

Isso necessrio, por exemplo, para conhecer a probabilidade do


evento
[d(X, x) < r].

A menor famlia B que contm , todas as bolas abertas,


fechada com relao aos complementares e unies de sub-famlias
25

enumerveis, se chama a famlia de sub-conjuntos borelianos de


.

Um espao mtrico dito separvel se existe um sub-


conjunto enumervel A cujo fecho :

A = .

Exerccio 2.6. Seja um espao mtrico separvel. Mostrar


que cada subconjunto aberto e cada subconjunto fechado de
so borelianos.

Exerccio 2.7. Mostrar os exemplos de subconjuntos borelianos


de [0, 1] que no so nem abertos nem fechados.

Uma funo na classe B dos conjuntos borelianos de


com valores em [0, 1] que satisfaz (P1) e (P2) uma medida
de probabilidade boreliana. Cada medida de probabilidade sobre
a lei de uma varivel aleatria com valores em .

Sejam e W dois espaos mtricos, e f : W uma


funo. Seja X uma varivel aleatria com valores em . Ento
f (X) uma varivel aleatria com valores em W . A lei, , de
f (X) a imagem direita da lei de X pela f : se B W , ento

(B) = (f 1 (B)).

Demonstrao:

P [f (X) B) = P [X f 1 (B)].

A lei as vezes denotada

= f ().
26 Captulo 2. Consistncia universal

A nica condio necessria sobre f que a imagem inversa


de cada sub-conjunto boreliano B W por f seja boreliano.
Uma tal funo se chama funo boreliana. Pode se verificar que
f : W boreliana se e somente se a imagem inversa de
cada sub-conjunto aberto de W boreliana. Em particular, cada
funo contnua boreliana, mas as funes borelianas so muito
mais numerosas.

Exerccio 2.8. Construir uma funo boreliana discontnua.

Se temos mais de uma varivel aleatria,

X1 , X2 , . . . , Xn , . . . ,

tomando os valores, respectivamente, nos espaos 1 , 2 , . . .,


n , . . ., ento elas podem ser combinados numa nica varivel
aleatria, tomando os valores no produto dos espaos i :

X = (X1 , X2 , . . . , Xn , . . .) 1 2 . . . n .

A lei da varivel X chamada a lei conjunto das variveis


X1 , X2 , . . . , Xn , . . .. Notao:

=
i=1 i .

Esta tambm chamada a medida produto das medidas de


probabilidade 1 , 2 , . . ..

As variveis aleatrias X1 , X2 , . . . , Xn , . . . so ditas in-


dependentes se, cada vez que Ai um subconjunto boreliano de
i , i = 1, 2, . . ., temos

P r[X1 A1 , X2 A2 , . . . , Xn An , . . .] =
P r[X1 A1 ] P r[X2 A2 ] . . . P r[Xn An ] . . . .
27

Por exemplo, sejam X e Y duas v.a., cada uma de lei


uniforme sobre o intervalo [0, 1]. Se X e Y so independentes,
isso significa que a varivel aleatria Z = (X, Y ) com valores no
quadrado [0, 1]2 tem lei, , que uniforme no quadrado: quais-
quer sejam a, b, c, d, a b, c d, temos

([a, b] [c, d]) = (b a)(d c).

Ao contrrio, se, por exemplo, Y = X, ento a lei da


varivel Z = (X, Y ) concentrado na diagonal do quadrado: se
A1 , A2 [0, 1] so disjuntos, ento, obviamente,

P [X A1 , Y A2 ] = 0,

de onde fcil de concluir que

() = 1,

onde
= {(x, x): x [0, 1]}.

Se X1 ,2 , . . . , Xn uma sequncia das variveis aleat-


rias independentes distribudas segundo a lei gaussiana em R,
ento sua lei conjunto a lei gaussiana n-dimensional em Rd ,
determinada pela densidade

1 2 2 2

n/2
e(t1 +t2 +...+tn )/2 .
(2)

Isso significa que, qualquer seja um sub-conjunto boreliano A


Rd ,
Z
1 2 2 2
P [X A] = e(t1 +t2 +...+tn )/2 dt1 . . . dtn .
(2)n/2 A
28 Captulo 2. Consistncia universal

Se o espao munido de uma estrutura linear (alm


da boreliana) por exemplo R, ou Rd , ou espao de Hilbert,
etc. ento pode se definir a esperana de X:
Z
EX = x d(x).

A lei dos grandes nmeros o resultado mais bsico de


probabilidade. Seja X1 , X2 , . . . , Xn , . . . uma sequncia de vari-
veis aleatrias reais independentes identicamente distribudas.
Suponha que Xi so limitadas. Ento, os valores mdios de
X1 , X2 , . . . , Xn convergem para a esperana comum de Xi em
probabilidade quando n :
 
X1 + X2 + . . . + Xn
 > 0, P E(X1 ) >  0.

n

Por exemplo, se a lei de Bernoulli com P [X = 1] = p,


X1 , X2 , . . . , Xn , . . . uma sequncia das v.a. independentes que
seguem a lei , ento os valores da frequncia de dar coroa,
X1 + X2 + . . . + Xn
,
n
concentram-se ao torno de p = E(Xi ) quando n .

Agora estamos prontos para descrever o modelo funda-


mental da aprendizagem automtica estatstica. O domnio
um espaco mtrico separvel e completo (como, por exemplo,
Rd ). Um ponto (x, ) de dados rotulado, onde x , {0, 1},
modelado por uma varivel aleatria (X, Y ) com valores no
produto {0, 1}. Aqui, X representa um ponto no do-
mnio, e Y {0, 1}, o rtulo marcando o ponto. A lei conjunto
de (X, Y ) uma medida de probabilidade, , sobre {0, 1}.
Agora, o ponto x dito instncia da v.a. X, e o rtulo
uma instncia da v.a. Y .
29

Pode-se mostrar a existncia de uma medida de pro-


babilidade sobre , e uma funo boreliana : {0, 1}
(chamada a funo de regresso), tais que a escolha de (X, Y )
efetuada como segue: X uma varivel aleatria com a
lei , e uma vez que a instncia x de X escolhida, o valor
de Y escolhido lanando a moeda com a probabilidade (x)
de dar coroa. (A maneira de formalizar tudo isso atravs da
probabilidade condicional...)

importante de ressaltar que, mesmo se sempre supo-


nhamos que a lei existe, ela sempre desconhecida. Tambm,
as vezes o mesmo ponto x pode obter rtulos diferentes.

Um classificador uma funo boreliana

T : {0, 1}.

Dado um classificador, o seu erro de classificao o valor real

err (T ) = P [T (X) 6= Y ]
= {(x, y) {0, 1}: T (x) 6= y}.

O erro de Bayes o nfimo dos erros de classificao de todos os


classificadores possiveis sobre :

` = ` () = inf err (T ).
T

Pode-se mostrar que, com efeito, o nfimo o mnimo, atingido


pelo classificador de Bayes:
(
0, se (x) < 12 ,
Tbayes (x) =
1, se (x) 12 ,

err (Tbayes ) = ` ().


30 Captulo 2. Consistncia universal

O significado do classificador de Bayes puramente terico, por-


que a funo de regresso, , desconhecida, assim como a lei
.

Uma regra da aprendizagem uma aplicao associando


a cada amostra rotulada, , um classificador, T . Dado uma amos-
tra
= (x1 , x2 , . . . , xn , 1 , 2 , . . . , n ),

a regra produz um classificador, T = Ln (), que uma funo


boreliana de dentro {0, 1}.

De maneira mais formal, podemos dizer que uma regra



de aprendizagem uma famlia L = (Ln )n=1 , onde para cada
n = 0, 1, 2, . . .,

Ln : n {0, 1}n {0,1} .

As aplicaes associadas de avaliao

n {0, 1}n 3 (, x) 7 Ln ()(x) {0, 1}

devem ser borelianas.

Por exemplo, o classificador k-NN uma regra de apren-


dizagem.

A amostra rotulada (x1 , x2 , . . . , xn , 1 , . . . , n ) mode-


lada pela sequncia (X1 , Y1 ), (X2 , Y2 ), . . . , (Xn , Yn ) das variveis
independentes com valores em {0, 1}, seguindo a lei fixa po-
rm desconhecida, . Para cada n, a regra de aprendizagem s
v os n primeiros pares de variveis.

A regra de aprendizagem L chamada consistente se


o erro de classificao converge para o erro de Bayes (o menor
31

possvel) em probabilidade quando n :

> 0, P [err Ln > ` () + ] 0 quando n .

Porque no conhecemos a lei subjacente, , precisamos


que a regra de aprendizagem seja consistente para todas as leis
possveis. Isto leva seguinte definio. A regra L universal-
mente consistente se ela consistente para cada medida de pro-
babilidade sobre {0, 1}.

Teorema 2.9 (Stone [25]). Suponha que k = kn e kn /n


0. Ento o classificador k-NN em Rd (com a distncia euclide-
ana) universalmente consistente.

O teorema de Stone falha nos espaos mtricos mais


gerais, mesmo no espao de Hilbert de dimenso infinita (cf. um
exemplo em [4], pginas 351352, baseado sobre a construo de
Preiss [21]).

A prova original de Stone era bastante complexa. No


entanto, vamos delinear a idia vaga de uma prova alternativa
[7], [4], baseada em um resultado importante de anlise real.

Teorema 2.10 (Teorema de densidade de LebesgueBesico-


vitch). Seja uma medida de probabilidade boreliana sobre Rd ,
e f : Rd [0, 1] uma funo boreliana. Ento, o valor mdio de
f numa vizinhana de -quase todo ponto x, converge para f (x),
quando o raio da vizinhana converge para 0:
R
B (x)
f (t) d(t)
f (x) = lim  ,
0 (B (x))

isso , o conjunto dos pontos x Rd onde a igualdade no


valida, tem a -medida zero.
32 Captulo 2. Consistncia universal

Seja x , e suponha que (x) 1/2. Para cada  > 0


bastante pequeno, estritamente mais de metade dos pontos y da
bola B (x) tm a propriedade (y) 1/2. Em particular, se k
bastante grande e k/n bastante pequeno, ento a menor bola
ao torno de y que contm exatamente k pontos de uma amos-
tra aleatria de n pontos possui esta propriedade: a maioria dos
pontos y da bola tem (y) 1/2. Como os k vizinhos mais
prximos de x so elementos aleatrios da bola, segundo a lei
dos grandes nmeros, a maioria deles possuem a mesma propri-
edade ((y) 1/2) com alta probabilidade, e o voto majoritrio
associar a x o rtulo 1. Desta maneira, no limite n , o clas-
sificador k-NN associar a -quase cada ponto x o mesmo
rtulo que o classificador de Stone.

Assim, dentro do modelo atual da aprendizagem estats-


tica, o classificador k-NN, com alta confiana, dar uma resposta
correta a longo prazo, quando o tamanho da amostra bastante
grande.

No prximo captulo analisamos algumas dificuldades


relacionadas dimenso de conjunto de dados.
33

3 Maldio de dimensionalidade

A dimenso do nosso conjunto de dados para deteo


de intrusos na rede somente 7. Mas existem os conjuntos de
dados de uma dimenso muito maior. Por exemplo, a dimenso
do conjunto Phoneme [20] 256, um subconjunto de R256 . Um
exemplo um pouco extremo o conjunto de dados do Instituto
de Cardiologia da Universidade de Ottawa, com o qual nossa
equipe de pesquisa est trabalhando. Os pontos de dados so as
sequncias genmicas,

X {A, T, G, C}d ,

onde a dimenso d 870, 000, enquanto a tamanho do con-


junto no muito grande (n 4, 000, os dados correspondem
aos pacientes individuais).

Para d  1, muitos algoritmos conhecidos na cincia de


dados muitas vezes levam muito tempo e tornam-se ineficientes.
Mesmo em dimenses baixas a mdias (tais como 7) os algorit-
mos tornam-se menos eficientes que em dimenses 1 ou 2. Ento,
o que est acontecendo nos domnios de alta dimenso?

Consideremos um domnio, , potencialmente de alta


dimenso, como a esfera euclideana:

Sd = {x Rd+1 | |x| = 1}.

Suponhamos que o nico meio de estudar o objecto em


questo seja por uma srie dos experimentos aleatrios, do se-
guinte modo. Cada experimento produz um ponto x X tirado
34 Captulo 3. Maldio de dimensionalidade

de maneira aleatria (cuja a distribuo conforme a medida


natural de X, como o volume), e cada vez podemos registrar os
valores f (x) de funes (quantidades observveis)

f: X R

para x. Quanta informao sobre a geometria de X podemos


obter desta maneira?

Por exemplo, o que podemos deduzir sobre o dimetro


de X? O dimetro de X a quantidade

diam X := sup{d(x, y) | x, y X},

onde d(x, y) denota a distncia entre x e y. Nesta situao, como


as observveis f : X R, lgico considerar as funes Lipschitz
contnuas com a constante de Lipschitz 1, isso , as funes que
no aumentam a distncia:

x, y X |f (x) f (y)| d(x, y).

Eis uma fonte das tais funes.

Exerccio 3.1. Seja x0 X um ponto de X qualquer. Mostrar


que a funo distncia definida por

x 7 dist(x0 , x)

Lipschitz contnua com a constante 1.

Por conseguinte, obtemos o resultado seguinte.

Exerccio 3.2. Mstrar que

diam X = sup {|f (x) f (y)| : x, y X,


f : X R e 1-Lipschitz contnua} .
35

Se ns pudssemos medir os valores de todos as obser-


vveis para todos os pares de pontos de X e ento escolher o
supremo, saberamos o dimetro diam X. Mas isto impossvel.
Podemos escolher uma observvel f , e gerar ento a seqncia
mais ou menos longa, mas finita, de pontos aleatrios,

x1 , x2 , . . . , xN ,

registrando cada vez o valor f (xi ), i = 1, 2, 3, . . ..

Depois que produzimos uma srie de nmeros reais

f (x1 ), f (x2 ), . . . , f (xN ),

calcularemos a diferena mxima


N
DN = max |f (xi ) f (xj )| .
i,j=1

imediato que,
DN D,

e o que o valor DN +1 obtenido na etapa seguinte satisfaz

DN DN +1 D,

de modo que os valores DN melhoram cada vez.

Pararemos o experimento quando a probabilidade de


melhorar o valor precedente, DN , se torna demasiado pequena.
Mais precisamente, seja > 0 (um valor limiar) um nmero fixo
muito pequeno, tal como = 1010 (sugerido por Gromov).

Ns pararemos depois que o nmero D = DN satisfaz

{x | |f (x) M | < D} > 1 },


36 Captulo 3. Maldio de dimensionalidade

onde a medida natural sobre X. O valor D = DN obtido


da esta maneira chama-se o dimetro observvel de X. Mais pre-
cisamente, o dimetro observvel obs-diam X definido por

obs-diam X = inf{D > 0: para cada observvel f sobre X,


{x X | |f (x) M | D} }.

Ilustraremos o conceito para as esferas euclideanas Sn .


Neste experimento, substitumos a reta R com uma tela R2 ,
com a projeo coordenada Rd+1 R2 ,

(x1 , x2 , . . . , xd+1 ) (x1 , x2 ),

como a observvel. O nmero dos pontos tirandos N = 1000. A


linha pontilhada representa a projeo da esfera de raio um (o
crculo do raio um), enquanto a linha slida mostra um crculo
de tal raio que a probabilidade de um evento de que a projeo
de um ponto aleatrio na esfera esteja fora deste crculo menos
do que = 1010 . Em outras palavras, o dimetro do crculo
solido o dimetro observvel da esfera Sd . Veja as Figuras 11,
12 e 13.

possvel provar que o dimetro observvel da esfera


satisfaz
 
d 1
obs-diam (S ) = O
d
para cada valor limiar > 0. Em outras palavras, assintotica-

mente, o diametro observvel da esfera Sn de ordem 1/ d.

Come o dimetro atual da esfera Sd 2, uma esfera da


alta dimenso aparece como um cometa formado de um n-
37

1 1

0.8 0.8

0.6 0.6

0.4 0.4

0.2 0.2

0 0

0.2 0.2

0.4 0.4

0.6 0.6

0.8 0.8

1 1
1 0.8 0.6 0.4 0.2 0 0.2 0.4 0.6 0.8 1 1 0.8 0.6 0.4 0.2 0 0.2 0.4 0.6 0.8 1

Figura 11 S2 e S10

1 1

0.8 0.8

0.6 0.6

0.4 0.4

0.2 0.2

0 0

0.2 0.2

0.4 0.4

0.6 0.6

0.8 0.8

1 1
1 0.8 0.6 0.4 0.2 0 0.2 0.4 0.6 0.8 1 1 0.8 0.6 0.4 0.2 0 0.2 0.4 0.6 0.8 1

Figura 12 S30 e S100

cleo muito pequeno e um envoltrio gasoso de grande tamanho


e de densidade baixa. (Figura 14).

Esta observao tpica de outros objetos geomtricos


da alta dimenso. Por exemplo, possvel mostrar que o dime-
tro observvel do cubo unitrio,

Id = {x Rd | i = 1, . . . , d, 0 |xi | 1},
38 Captulo 3. Maldio de dimensionalidade

1 1

0.8 0.8

0.6 0.6

0.4 0.4

0.2 0.2

0 0

0.2 0.2

0.4 0.4

0.6 0.6

0.8 0.8

1 1
1 0.8 0.6 0.4 0.2 0 0.2 0.4 0.6 0.8 1 1 0.8 0.6 0.4 0.2 0 0.2 0.4 0.6 0.8 1

Figura 13 S500 e S2500

R
f
X

} obsdiam X

Figura 14 O dimetro observvel de um espao da alta dimen-


so.

satisfaz
obs-diam (Id ) = O (1) .

Isso , assintoticalemte obs-diam (Id ) constante. Ao mesmo


tempo,

diam (Id ) = d.
39

0.6 1

0.8

0.4
0.6

0.4
0.2

0.2

0 0

0.2

0.2
0.4

0.6
0.4

0.8

0.6 1
1 0.8 0.6 0.4 0.2 0 0.2 0.4 0.6 0.8 1 1 0.8 0.6 0.4 0.2 0 0.2 0.4 0.6 0.8 1

Figura 15 Projees do cubo Id e dos 1, 000 pontos aleatrios


no cubo sobre um plano aleatrio, d = 3, 4.

1.5 1.5

1 1

0.5 0.5

0 0

0.5 0.5

1 1

1.5 1.5
1.5 1 0.5 0 0.5 1 1.5 1.5 1 0.5 0 0.5 1 1.5

Figura 16 O mesmo, d = 5, 10.

Com efeito, em dimenes altas a projeo ortogonal


do cubo Id com seus N = 1000 pontos aleatrios na direo de
um plano aleatrio assemelha-se fortemente projeo da esfera.
Veja as Figuras 15, 16, e 18.

A dependncia do dimetro observvel no valor limiar


no muito sensvel (somente logartmica).
40 Captulo 3. Maldio de dimensionalidade

2 4

1.5 3

1 2

0.5 1

0 0

0.5 1

1 2

1.5 3

2 4
2 1.5 1 0.5 0 0.5 1 1.5 2 5 4 3 2 1 0 1 2 3 4 5

Figura 17 O mesmo, d = 20, 100.

8 15

6
10

5
2

0 0

2
5

10
6

8 15
8 6 4 2 0 2 4 6 8 15 10 5 0 5 10 15

Figura 18 O mesmo, d = 300, 1000.

O fenmeno de concentrao de medida sobre as estru-


turas de alta dimenso pode ser exprimido de seguinte maneira
informal:

O dimetro observvel de um objeto geomtrico de


alta dimenso tipicamente demasiado pequeno com-
parado ao dimetro atual:

obs-diam (X)  diam (X).


41

35 50

45
30

40

25 35

30
20

25

15
20

10 15

10

5
5

0 0
0 0.5 1 1.5 0 0.5 1 1.5 2 2.5

Figura 19 Distribuo das distncias entre 10, 000 pontos ale-


atrios do cubo Id , d = 3, 10.

100 250

90

80 200

70

60 150

50

40 100

30

20 50

10

0 0
0 0.5 1 1.5 2 2.5 3 3.5 4 4.5 5 0 2 4 6 8 10 12 14

Figura 20 O mesmo, d = 100, 1000.

A formulao mais precisa usa a noo do tamanho ca-


racterstico de X em vez do dimetro. Sobre um espao de grande
dimenso, os valores da distncia d(x, y) tipicamente concentram
em torno da experana da distncia, ou do tamanho caracters-
tico de X,
charSize (X) = E (d(x, y)).

Veja as Figuras 19 e 20 pelo cubo Id .


42 Captulo 3. Maldio de dimensionalidade

Por exemplo, o tamanho caractristico da esfera , as-


sintoticamente, O(1):

charSize (Sn ) 2 quando n .

O fenmeno de concentrao de medida na forma mais


exata diz o que

Dimetro observvel  tamanho caracterstico.

O fenmeno de concentrao da medida o assunto de


estudo de uma disciplina matemtica relativamente nova: a an-
lise geomtrica assinttica. Esta introspeo na geometria dos
objectos de dimenso alta a mais importante, e tem muitas
aplicaes e conseqncias amplas em cincias matemticas.

O que o fenmeno significa no contexto concreto de


classificador k-NN? Eis uma reformulao heurstica equivalente
(embora no evidente) do fenmeno:

Tipicamente, num espao de grande dimenso, para


cada subconjunto A que contm pelo menos a
metade dos pontos, a maior parte dos pontos de
esto prximos ao A.

Formalizamos a noo de uma estrutura. Seja =


(, , ) um espao mtrico, munido de uma medida de proba-
bilidade . Consideremos 4 exemplos.

(1) Seja d N. O cubo de Hamming de dimenso d a


coleo de seqncias de d digitos 01 (palavras binrias de com-
primento d). Designamos-o {0, 1}d ou d . Assim, um elemento
43

tpico d da forma

= 1 2 d ,

ou i {0, 1} para todo i. A distncia de Hamming normalizada


entre duas n-palavras , d definida para
1
d(, ) = ]{i: i 6= i }.
d
Seja A um subconjuinto qualquer de d . O valor da medida
uniforme normalizada de A dada por
|A|
] (A) = .
2d

(2) A esfera euclideana unitria Sd admite duas mtricas


padro: a distncia euclideana induzida de `2 (d + 1),

deucl (x, y) = k x y k2 ,

e a distncia geodsica, em outros termos, o ngulo entre dois


vetores:
dgeo (x, y) = (x, y).

As duas distncias so equivalentes: qualquer que sejam x, y


Sd , temos

deucl (x, y) dgeo (x, y) deucl (x, y),
2
e no caso onde dgeo (x, y) /2, temos

deucl (x, y) dgeo (x, y) deucl (x, y). (3.1)
2 2

O grupo ortogonal

O(d) = {u Md (R): ut u = uut = 1}


44 Captulo 3. Maldio de dimensionalidade

age sobre a esfera pelas isometrias

Sd 3 x 7 ux Sd , u O(d).

Existe uma nica medida de probabilidade boreliana = d


sobre Sd invariante sobre isometrias, isto , tal que

d (A) = d (uA) para toda u O(d).

A medida chama-se a medida de Haar. Se d denota a me-


dida de Lebesgue no espao Rd , ento para cada sub-conjunto
boreleano A Sd temos

d+1 (A)
d (A) = ,
d+1 (Bd+1 )

onde A o cone sobre A:

A = {ta: t [0, 1], a A}

e Bd a bola fechada do raio um no espao euclideano `2 (d).

(3) Os espao euclideano Rd munido da medida gaussi-


ana d .

(4) O cubo [0, 1]d munido da medida uniforme.

Denotaremos

A = {x : a A (x, a) < }

a -vizinhana do sub-conjunto A de .

Definico 3.3. Seja (d , d , d ), d = 1, 2, 3, . . . uma famlia


de espaos mtricos munidos de uma medida de probabilidade
boreleana (espaos mtricos com medida). Esta famlia uma
45

famlia de Lvy se, para cada famlia Ad , d = 1, 2, . . ., de sub-


conjuntos boreleanos de d , tais que

lim inf d (Ad ) > 0,

e por cado  > 0, temos

d ((Ad ) ) 1.

As famlias naturais dos espaos mtricos com medida


so tipicamente as famlias de Lvy. Tais so os exemplos em
(1) (o resultado conhecido na teoria de informao como o
Blowing-Up Lemma) e (2) (Paul Lvy, 1922). Os espaos em (3)
e (4) no formam as famlias de Lvy, mas eles transformam-se
em famlias de Lvy aps uma renormalizao pelo fator inverso
ao tamanho caraterstico. O tamanho caratertico de (Rd , d )

e de [0, 1]d com a medida uniforme do ordem O( d), e se

a distncia nestes espaos multiplicada pelo fator 1/ d, as
famlias resultantes so as de Lvy.

Um instrumento conveniente para quantificar o fen-


meno da concentrao de medida a funo de concentrao.

Definico 3.4. Seja (, d, ) um espao mtrico com medida.


A funo de concentrao de , notada (), definida pelas
condies seguintes:
(
1
2, se  = 0,
() =  n 1

1 min ] (A ) : A , ] (A) 2 , se  > 0.

Exerccio 3.5. Mostrar que

(, ) 0 quando  .
46 Captulo 3. Maldio de dimensionalidade


contains
at least half of
all points
A

( ,)
bounds(X\A )
from above
A

Figura 21 A funo de concentrao (, ).

Teorema 3.6. Uma famlia (d , d , d ) uma famlia de Lvy


se e apenas se as funes de concentrao tendem a zero:

(d , ) 0 para cada  > 0.

Definico 3.7. Uma famlia de Lvy (d , dd , d ) chamada


uma famlia de Lvy normal se existem C1 , C2 > 0 tais que
2
(d , ) C1 eC2  d .

Teorema 3.8. Por a funo de concentrao do cubo de Ham-


ming d temos
2
d () 2e d/2
.

Aqui est a ligao com o dimetro observvel: sobre


uma estrutura de grande dimenso, toda funo Lipschitz cont-
nua quasi constante em toda parte exceto sobre um conjunto
da medida muito pequena.
47

Concentration function of Hamming cubes, n = 11, 101, 1001


0.5
n = 11
n = 101
n = 1001

0.4

0.3

0.2

0.1

0
0 0.1 0.2 0.3 0.4 0.5

Figura 22 As funos de concentrao dos cubos de Hamming


por d = 11, 101, 1001.

Concentration function versus Chernoffs bound, n = 101


1
Concentration function
Chernoff bound

0.8

0.6

0.4

0.2

0
0 0.05 0.1 0.15 0.2

Figura 23 Funo de concentrao do cubo de Hamming 101 e


a cota superior gaussiana de Chernoff para os valores
pequenos de 
48 Captulo 3. Maldio de dimensionalidade

Relembramos que um nmero real M = Mf dito um


valor mediano de uma funo boreliana f , sobre um espao com
medida de probabilidade (, ) se
1 1
{x : f (x) M } e {x : f (x) M } .
2 2
Um valor mediano M = Mf existe sempre, mas geralmente, no
nico.

Exerccio 3.9. Seja f uma funo Lipschitz contnua com a


constante de Lipschitz L 0 sobre um espao mtrico com me-
dida, (, , ). Provar que

{|f (x) M | > } 2 .
L
Mais geralmente, se f uniformemente contnua de tal modo
que
x, y X, d(x, y) < |f x f y| < ,

ento
{|f (x) M | > } 2X ().

Exerccio 3.10. Deduzir a lei dos grandes nmeros do teorema


3.8, aplicando o exerccio 3.9 funo real
d
1X
f () = i
d i=1

sobre o cubo de Hamming. ( por isso que o teorema 3.8 as


vezes chamado o lei geomtrica dos grandes nmeros.)

A funo da distncia d(, p) de um ponto p fixo qual-


quer Lipschitz contnua (com a constante 1), e em domnios
49

de dimenso alta uma tal funo concentra-se em torno do valor


mediano. Este efeito pronuncia-se j em dimenses mdias, tais
como d = 14 na Figura 24.
10000
Frequency

6000
2000
0

0.0 0.5 1.0 1.5 2.0

normalized distance to a pivot

Figura 24 Histograma das distncias a um ponto escolhido


aleatoriamente em um conjnto de dados X com n =
105 points, tirados de uma distribuio gaussiana
em R14 .

Em consequncia, a distncia mdia E(N N ) de um ponto


do domnio ao seu vizinho mais prximo na amostra aleatria
quase igual ao tamanho cataterstico do domnio (isso , a dis-
tncia mdia entre dois pontos do domnio), quando a dimenso
d vai para o infinito, desde que o tamanho da amostra, n, cresce
de maneira subexponencial em d (o que sempre o caso). Veja
50 Captulo 3. Maldio de dimensionalidade

Figura 25.
average distance to the nearest neighbour (normalized)

0.8
0.6
0.4

n=1,000
n=100,000
0.2
0.0

0 20 40 60 80 100

euclidean dimension d

Figura 25 A relao entre a distncia mdia para o vizinho


mais prximo e o tamanho caraterstico em um con-
junto de n pontos tirados aleatoriamente de uma
distribuio gaussiana em Rd .

Tambm, na Figura 24, as linhas verticais marcam a


distncia mdia normalizada 1 N N , onde N N a distncia
mdia do vizinho mais prximo.

Isso conhecido na cincia de dados como o paradoxo


de espao vazio. Este paradxo tem uma consequncia imedi-
ata para o classificador k-NN. Seja x um ponto qualquer.
Denotameros N N (x) a distncia de x para o seu vizinho mais
51

prximo na amostra aleatria, X. Na consequncia do paradoxo


de espao vazio, uma grande quantidade de pontos de X esto
quase a mesma distncia de x que o seu vizinho mais prximo.
Mais formalmente, seja c > 0, e dizemos, seguindo [2], que a
consulta de vizinho mais prximo de x c-instvel se a bola do
raio (1 + c)N N (x) centrada em x contm pelo menos metade
dos pontos de X. (Figura 26.)

r
r(1+) q

Figura 26 Instavilidade da busca do vizinho mais prximo.

Usando a concentrao da medida, no difcil de mons-


trar que, pelo c > 0 fixo, no limite d a maioria das buscas
sero c-instveis.

Nas dimenses baixas, o fenmeno est fraco (Figura 27,


a esquerda, o conjunto de dados Segment da UCI data repository
[27]), mas nas dimenses mdias, j pronunciado (Figura 27,
a direita, o subconjunto aleatrio da distribuio gaussiana em
R14 ). Aqui, k = 20 e c = 0, 5. A linha esquerda vertical corres-
ponde ao valor mdio do raio da bola que contm k vizinhos mais
prximos, k-NN , e a segunda linha corresponde a (1 + c)k-NN .
Para o conjunto Segment, a segunda bola contm em mdia 60
pontos. Para o gaussiano, o valor correspondente j de 1, 742
pontos.

O fenmeno da instabilidade significa uma perda b-


52 Captulo 3. Maldio de dimensionalidade

NN distribution function, UCI repository Segment dataset NN distribution, 100000 pts in gaussian d=14

1.0
0.8

k=20

0.8
k=20
c=0.5; k=1742
cumulative probability

cumulative probability
c=0.5; k=60
0.6

0.6
0.4

0.4
0.2

0.2
0.0

0.0
0 2 4 6 8 10 0 2 4 6 8

NN distance NN distance

Figura 27 A frao mdia dos pontos de dados nas bolas de


raio (1 + c)k-NN .

via da importncia do fato de ser o vizinho mais prximo. Por


exemplo, no caso de um erro quase inevitvel de recuperao
do vizinho mais prximo exato, o rtulo do vizinho substituido
ser mais ou menos aleatrio. O desempenho do classificador k-
NN (e de qualquer outro algoritmo baseado nos vizinhos mais
prximos) degrada especialmente em dimenses altas, mas tam-
bm em dimenses mdias, mesmo se no to notriamente. No
prximo captulo, vamos discutir algumas receitas contra essa
maldio da dimensionalidade.

Entre os livros tratando o fenmeno de concentrao de


medida, [17] o mais acessvel, [13] o mais abrangente e [10]
contm uma riqueza de idias.
53

4 Reduo de dimensionalidade

Seja um domnio, contendo uma amostra . Reduo


de dimensionalidade significa escolhendo uma funo f : W
de para um domnio W de dimenso mais baixa. A fim de
classificar um ponto de dados x , vamos aplicar um algo-
ritmo de classificao no espao W ao ponto f (x) e a amostra
f (), esperando que o desempenho do algoritmo em W seja mais
eficaz, e que a funo f conserve a estrutura geral e os padres
presentes no conjunto de dados X. Existem muitas mtodos da
reduo de dimensionalidade.

dominio de dimensao alta


1
+ + 0
+ +


+
f classificador

+ + + +
+
dominio de dimensao baixa

Figura 28 Reduo de dimenionalidade

4.1 PCA (Principal Component Analysis)

Este algoritmo padro o mais antigo e provavelmente


o mais comum na cincia de dados. Aqui, entre as coordenadas
54 Captulo 4. Reduo de dimensionalidade

(caratersticas) do espao = Rd , escolhemos as coordenadas


mais importantes do ponto de visto da geometria do conjunto
de dados. O algoritmo PCA foi implementado em R.

Exerccio 4.1. Estudar o algoritmo PCA [23, 3] e aplicar ao


conjunto de dados Phoneme, seguido pelo classificador k-NN
num espao de uma dimenso menor. Conseguiu melhorar a pre-
ciso?

4.2 Projees aleatrias (Lema de JohnsonLindenstrauss)

Este mtodo relativamente recente uma aplicao da


concentrao de medida.

Theorem 4.2 (Lema de JohnsonLindenstrauss [11]). Seja X


um sub-conjunto com n elementos num espao de Hilbert H, e
seja 0 <  1. Ento existe um operador linear T : H `2 (k),
onde
k = O(2 log n),

tal que

(1 )k x y k < k T (x) T (y) k < (1 + )k x y k

para todos x, y X.

Obviamente, sem perda de generalidade, podemos supor


que dim H = n. A dimensio do espao reduzido, `2 (k), loga-
rtmica em n. Por exemplo, se n 158, ento pode-se mostrar
que a dimenso k satisfaz
 
17 log n
k .
2
(Claro, os limites podem ser melhoradas).
4.3. Reduo de dimensionalidade usando injees borelianas 55

Temos uma consequncia particularmente interessante


do resultado. Se um espao de Hilbert, H, contm um sistema
ortonormal de n vetores, ento, claro, sua dimenso deve ser
pelo menos n. No entanto, chamamos um sistema de vetores de
norma 1 -quase ortonormal se o ngulo entre quaisquer dois
vetores distintos /2 . O resultado acima implica a exis-
tncia de sistemas quase ortonormais de vetores cujo tamanho
exponencial na dimenso do espao de Hilbert.

Como escolher o operador T ? Se dim H = n, ento T


dado por uma matriz do tamanho k n. Uma coisa interessante
que torna o lema de JohnsonLindenstrauss altamente aplic-
vel na prtica de computao, que os coefficientes da matriz
de T podem ser escolhidos aleatoriamente, como uma sequn-
cia dos reais independentes identicamente distribuidos, seguindo,
por exemplo, a distribuio gaussiana, ou mesmo a distribuio
de Bernoulli. As duas boas referncias so os livros [15] e [29].

Exerccio 4.3. Imprementar o algoritmo dos projees aleat-


rias em R e aplicar ao conjunto de dados Phoneme, combinando
com o classificador k-NN.

4.3 Reduo de dimensionalidade usando injees bore-


lianas

Conceitos bsicos de teoria descritiva dos conjuntos [12]


oferecem uma nova abordagem para a reduo de dimensionali-
dade no contexto da aprendizagem automtica estatstica, suge-
rido em [19] e aplicada com sucesso na competio CDMC2013
pela equipe consistente do ministrante e de trs alunos: Gal
Giordano, Hubert Duan, e Stan Hatko.
56 Captulo 4. Reduo de dimensionalidade

Geralmente assumimos que as aplicaes f que reali-


zam a reduo de dimensionalidade so contnuas, at mesmo
Lipschitz contnuas. Esta uma condio muito restritiva. No
entanto, examinando o modelo terico existente que estabelece
uma base para a aprendizagem estatstica, pode notar-se que
o teorema de Stone na verdade insensa estrutura euclidiana
(ou seja, estrutura mtrica ou mesmo topolgica) no domnio,
enquanto a estrutura boreliana permanece intacta. Isto permite,
atravs de um isomorfismo boreliano (o mesmo uma injeo bo-
reliana), reduzir os dados para um caso de baixa dimenso, at
mesmo unidimensional, aps o qual o algoritmo k-NN continua
a ser universalmente consistente.

Definico 4.4. A sigma-lgebra de subconjuntos de um con-


junto uma famlia (no vazia) A 2 com as propriedades:

1. Se A1 , A2 , . . . , An , . . . pertenam a A , ento
i=1 Ai A .

2. Se A A , ento \ A A .

Um conjunto munido de uma sigma-lgebra se chama


um espao mensurvel. Se um espao mtrico, denotaremos
BX a menor sigma-lgebra que contm todos as abertas de .
Esta sigma-lgebra BX a estrutura boreliana de , e os elemen-
tos de BX so os conjuntos borelianos. Se o espao mtrico
separvel e completo, sua estrutura boreliana dita estrutura bo-
reliana padro, e o espao mensurvel (, BX ) dito um espaco
boreliano padro. Neste caso, a estruture boreliana gerada por
todas as bolas abertas Br (x), x , r > 0.

Uma aplicao f : W entre dois espacos borelia-


nos dita isomorfismo boreliano se f bijetiva, e f e f 1 so
4.3. Reduo de dimensionalidade usando injees borelianas 57

borelianas. Isso significa que f estabelece uma bijeio entre a


estrutura boreliana B e BW .

Cada aplicao contnua boreliano, e cada homeomor-


fismo (isso , uma bijeio contnua, com o inverso contnuo)
um isomorfismo boreliano. Mas existem muito mais aplicaes
borelianas que aplicaes contnuas, e muito mais isomorfismos
bolerianos que homeomorfismos.

Por exemplo, bem conhecido e facilmente mostrado


que como espaos topolgicos, o intervalo [0, 1] e o quadrado
[0, 1]2 no so homeomorfos. Ainda mais, no h nenhum inje-
o contnua de [0, 1]2 para [0, 1]. Ao mesmo tempo, existe uma
injeo boreliana do quadrado no intervalo. Ela pode ser obtido
usando o entrelaamento dos digitos nas expanses binrias de
x e de y num par (x, y) [0, 1]2 (sujeito as precaues habituais
sobre as seqncias infinitas de uns):

[0, 1]2 3 (0.a1 a2 . . . , 0.b1 b2 . . .) 7 (0.a1 b1 a2 b2 . . .) [0, 1]. (4.1)

..........

....

Figura 29 Construindo um isomorfismo boreliano entre o qua-


drado e um intervalo.
58 Captulo 4. Reduo de dimensionalidade

Por uma representao geomtrica desta injeo, veja a


figura 29. A aplicao f acima no surjetiva, por exemplo o
ponto 0.10101010 . . . no na imagem de f . Mas ela pode ser
modificada a fim de obter um isomorfismo boreliano entre [0, 1]2
e [0, 1]. No lugar da base 2, pode ser uma base qualquer.

Esta construo pode ser generalizada para mostrar que


no h muita diversidade entre os espaos borelianos padro. Eis
um resultado clssico.

Teorema 4.5. Sejam e W dois espaos mtricos separveis


e completos, da cardinalidade c = 20 cadaum. (Por exemplo,
isso o caso se eles no contm os pontos isolados). Ento os
espaos borelianos correspondentes so isomorfos.

Este ser o caso da maioria dos domnios de interesse na


teoria. Por exemplo, o conjunto de Cantor, o intervalo unitrio, o
espao euclidiano Rd , o espao de Hilbert separvel de dimenso
infinita `2 , e na verdade todos espaos de Frchet separveis no
triviais so todos isomorfos entre eles como espaos borelianos.
Sua estrutura de Borel a mesma do espaco de Borel padro
com cardinalidade de contnuo.

Agora, seja (, B) um espao boreliano padro (um do-


mnio), e seja uma medida de probabilidade sobre {0, 1},
isso , uma aplicao

: B{0,1} [0, 1],

satisfando as propriedades (P1) e (P2) acima.

Se a projeio de {0, 1} pela primeira coorde-


nada,
(x, ) = x,
4.3. Reduo de dimensionalidade usando injees borelianas 59

ento a imagem direita da medida uma medida de probabi-


lidade, , sobre : se A um conjunto boreliano em ,

(A) = ( 1 (A)).

x {0,1}

x {1}
1


x {0}
0

Figura 30 : {0, 1}

A funo de regresso, , definida pelas condies: se


A , ento
Z
(A {1}) = (x) d(x),
A
Z
(A {0}) = (1 (x)) d(x).
A

Relembramos que o classificador de Bayes (um classi-


ficador cujo erro de classificao o mnimo possivel) dado
por (
0, se (x) < 12 ,
Tbayes (x) =
1, se (x) 12 .

(Veja Figura 31).


60 Captulo 4. Reduo de dimensionalidade

grafo do
classificador 1
Tbayes

1/2

Figura 31 Funo de regresso e o classificador de Bayes


Tbayes .

Seja W um outro espao mtrico, e seja f : W uma


injeo boreliana. Esta f pode ser prolongada at uma injeo
boreliana de {0, 1} em W {0, 1} pela formula bvia:

f (x, ) = (f (x), ),

onde {0, 1}. Vamos usar a mesma letra f pela prolongao.


Definiremos a imagem direita f da medida ao longo de f :
qual quer seja um boreliano B W {0, 1},

(f )(B) = (f 1 (B)).

uma medida de probabilidade borealiana sobre W {0, 1}.

Pode-se mostrar sem dificuldade que si

X1 , X2 , . . . , Xn , . . .

uma sequncia das variveis aleatrias independentes com va-


lores em {0, 1} segundo a lei , ento

f (X1 ), f (X2 ), . . . , f (Xn ), . . .


4.3. Reduo de dimensionalidade usando injees borelianas 61

uma sequncia das variveis aleatrias independentes com va-


lores em W {0, 1} seguindo a lei f ().

A medida f () sobre W {0, 1} possui sua prpria


funo de regresso, . No difcil de verificar que, com efeito,

= f.

Por consequinte, o classificador de Bayes (o melhor classificador



imaginvel) para , Tbayes , e o classificador de Bayes para W ,
W
Tbayes , satisfazem:

W
x , Tbayes (x) = Tbayes (f (x)).

Suponha agora que L um classificador universalmente


consistente qualquer no domnio W . Definiremos um novo clas-
sificador, Lf , como a composiso de L com a injeo boreliana
f:
Lfn ()(x) = Ln (f ())(f (x)).

(Como na Figura 28).

Quando n , os predies do classificador L(f ())


no ponto f (x), x aproximam-se das predies do classifica-
dor de Bayes em W no ponto f (x). Por conseguinte, as predies
do classificador composto, Lf (), aproximam-se das predies
do classificador de Bayes em no ponto x. Isso significa que Lf
universalmente consistente no domnio . O isomorfismo f
uma reduo de dimensionalidade que conserva a consistncia
universal dos algoritmos de aprendizagem supervisionada.

Obtemos o seguinte resultado, que oferece uma nova


perspectiva da reduo de dimensionalidade em teoria da apren-
dizagem automtica estatstica.
62 Captulo 4. Reduo de dimensionalidade

Theorem 4.6. Sejam e W dois domnios (espaos borelianos


padro), e seja f : W uma injeo boreliana. Seja L um
classificador universalmente consistente em W . Ento o classifi-
cador Lf , obtido pela reduo de dimensionalidade f de para
W , seguida da aplicao do classificador L, universalmente
consistente em tambm.

Em particular, h sempre uma reduo de Borel isomr-


fica do problema em Rd (ou mesmo num espao de dimenso
infinita) para o caso d = 1. As experincias at agora mostram
que os melhores resultados so obtidos quando a dimenso re-
duzida por um fator constante (por exemplo, entre 4 e 7), que
depende do conjunto de dados.

A reduo de dimensionalidade Borel isomrfica foi usada


com sucesso na competio CDMC2013, onde o erro de clas-
sificao pelo problema de deteo de intrusos numa rede foi
reduzido at 0.1 por cento.

Exerccio 4.7. Escrever o cdigo em R para reduo de dimen-


sionalidade usando as injees borelianas, e combinar-o com o
classificador k-NN para melhorar o erro de classificao no pro-
blema do reconhecimento de voz (o conjunto de dados Phoneme).
Tentar as bases diferentes de expanso dos nmeros.

Leitura sugerida

Boas fontes tericas para alunos de matemtica dispos-


tos para aprender o assunto so [1, 8, 16, 28, 30], combinados
com a programao prtica, por exemplo, aps as linhas de [26].
4.3. Reduo de dimensionalidade usando injees borelianas 63

Agradecimentos

Sou grato aos membros da equipe CDMC2013, particu-


larmente Stan Hatko avec quem trabalhavam sobre a deteo de
intrusos atraves da reduo Borel isomrfica, e a Professora Ma-
ria Inez Cardoso Gonalvez, por sua ajuda com meu Portugus
ruim.
65

Referncias

[1] Martin Anthony and Peter Bartlett, Neural network lear-


ning: theoretical foundations, Cambridge University Press,
Cambridge, 1999. xiv+389 pp. ISBN: 0-521-57353-X

[2] K. Beyer, J. Goldstein, R. Ramakrishnan, and U. Shaft,


When is nearest neighbor meaningful?, in: Proc. 7-th In-
tern. Conf. on Database Theory (ICDT-99), Jerusalem, pp.
217235, 1999.

[3] Ed Boone, PCA in R,


http://www.youtube.com/watch?v=Heh7Nv4qimU

[4] F. Crou and A. Guyader, Nearest neighbor classification in


infinite dimension, ESAIM Probab. Stat. 10 (2006), 340
355.

[5] M.J. Crawley, The R Book,


http://users.humboldt.edu/ygkim/CrawleyMJ_TheRBook.pdf

[6] DARPA Intrusion Detection Data Sets, MIT Lincoln Lab,


http://www.ll.mit.edu/mission/communications/cyber/
CSTcorpora/ideval/data/

[7] L. Devroye, On the almost everywhere convergence of non-


parametric regression function estimates, Ann. Statist. 9
(1981), 13101319.

[8] Luc Devroye, Lszl Gyrfi and Gbor Lugosi, A Probabi-


listic Theory of Pattern Recognition, Springer-Verlag, New
York, 1996. ISBN 0-387-94618-7.
66 Referncias

[9] FNN (Fast Nearest Neighbor Search Algo-


rithms and Applications) package, http://cran.r-
project.org/web/packages/FNN/FNN.pdf

[10] M. Gromov, Metric Structures for Riemannian and


Non-Riemannian Spaces, Progress in Mathematics 152,
Birkhauser Verlag, 1999.

[11] W.B. Johnson and J. Lindenstrauss, Extensions of Lipschitz


mappings into a Hilbert space, Contemp. Math. 26 (1984),
189206.

[12] A.S. Kechris, Classical Descriptive Set Theory, Springer-


Verlag, 1995.

[13] M. Ledoux, The concentration of measure phenomenon.


Math. Surveys and Monographs, 89, Amer. Math. Soc.,
2001.

[14] J.H. Maindonald, Using R for Data Analysis and Graphics.


Introduction, Code and Commentary, http://cran.r-
project.org/doc/contrib/usingR.pdf

[15] J. Matouek, On variants of the Johnson-Lindenstrauss


lemma, Random Structures Algorithms 33 (2008), 142156.

[16] Shahar Mendelson, A few notes on statistical learning the-


ory, In: Advanced Lectures in Machine Learning, (S. Men-
delson, A.J. Smola Eds), LNCS 2600, pp. 1-40, Springer
2003.

[17] V.D. Milman and G. Schechtman, Asymptotic theory of


finite-dimensional normed spaces (with an Appendix by M.
Gromov), Lecture Notes in Math., 1200, Springer, 1986.
Referncias 67

[18] W.J. Owen, The R guide, http://cran.r-


project.org/doc/contrib/Owen-TheRGuide.pdf

[19] V. Pestov, Is the k-NN classifier in high dimensions affected


by the curse of dimensionality? Computers & Mathematics
with Applications 65 (2013), 14271437.

[20] Phoneme dataset,


http://statweb.stanford.edu/tibs/ElemStatLearn/datasets/
phoneme.data

[21] D. Preiss, Gaussian measures and the density theorem,


Comment. Math. Univ. Carolin. 22 (1981), 181193.

[22] The R project for statistical computing,


http://www.r-project.org/

[23] L.I. Smith, A tutorial on Principal Component Analysis,


http://www.cs.otago.ac.nz/cosc453/student_tutorials/
principal_components.pdf

[24] J. Song, H. Takakura and Y. Kwon, A Generalized Fea-


ture Extraction Scheme to Detect 0-Day Attacks via IDS
Alerts, in: The 2008 Inter. Symposium on Applications and
the Internet (SAINT2008), IEEE CS Press, 5156, Turku,
FINLAND, 28 July - 1 Aug. 2008.

[25] C. Stone, Consistent nonparametric regression, Annals of


Statistics 5 (1977), 595645.

[26] Luis Torgo, Data Mining with R: Learning with Case Stu-
dies, Chapman & Hall/SRC, 2010.

[27] UCI Machine Learning Data Set Repository,


http://archive.ics.uci.edu/ml/
68 Referncias

[28] Vladimir N. Vapnik, Statistical learning theory, John Wiley


& Sons, Inc., New York, 1998.

[29] S.S. Vempala, The random projection method, DIMACS Se-


ries in Discrete Mathematics and Theoretical Computer Sci-
ence, 65. American Mathematical Society, Providence, RI,
2004.

[30] M. Vidyasagar, Learning and Generalization, with Applica-


tions to Neural Networks, 2nd Ed., Springer-Verlag, 2003.