Teoria Da Informacao

Teoria da informao
Rodrigo Pavo (rpavao@gmail.com) junho de 2011
A teoria da informao um ramo da matemtica que estuda quanticao da informao. Essa teoria teve seus pilares estabelecidos por Claude Shannon (1948) que formalizou conceitos com aplicaes na teoria da comunicao e estatstica. A teoria da informao foi desenvolvida originalmente para compresso de dados, para transmisso e armazenamento destes. Porm, foi planejada para aplicao ampla, e tm sido usada em muitas outras reas. A medida de entropia de Shannon aproximadamente igual da complexidade de Kolmogorov, que oferece a explicao computacional de que a complexidade de um objeto dada pelo tamanho do menor programa de computador capaz de descrev-lo. Por exemplo, o objeto quanto parece aleatrio, poderia ser descrito sucintamente por for
10111000110001111000,
11111111111111111111, que no i=1:20 print 1 en-
que parece aleatrio, no poderia ser descrito
por um programa to curto, pois precisa da descrio literal do objeto
10111000110001111000.
print
O presente texto foi elaborado com base no segundo captulo do livro Elements of Information Theory , que apresenta os conceitos fundamentais da teoria. Estes conceitos foram descritos nos moldes apresentados pelos autores do livro, acrescentando exemplos e simplicaes desenvolvidos pelo autor do presente texto ou publicados na fonte Wikipedia. Para facilitar a compreenso, os clculos descritos neste texto foram implementados em uma planilha do Excel, disponvel em http://www.ib.usp.br/rpavao/entropia.xls.
Entropia
O conceito de informao muito amplo para ser capturado por uma nica denio. No entanto, para qualquer distribuio de probabilidades, possvel denir uma quantidade denominada entropia que tem muitas propriedades que esto de acordo com a noo intuitiva do que uma medida de informao deveria ser. Entropia a medida de incerteza de uma varivel aleatria, dada pela equao
H=
pi log(1/pi ), em que pi indica a probabilidade de evento da
distribuio de probabilidades de uma varivel aleatria discreta. No presente
texto, usamos log base 2, e, assim, a entropia expressa em bits. A entropia do lance de uma moeda honesta
1 bit (pcara = pcoroa = 0.5; log(1/pcara ) = log(1/pcoroa ) = 1; H = pcara log(1/pcara ) + pcoroa log(1/pcoroa ) = 0.5 1 + 0.5 1 = 1).
Note que entropia uma funo da distribuio da varivel aleatria; no depende, portanto, dos valores assumidos por ela, refere-se apenas s suas probabilidades. Outra explicao possvel para o conceito de entropia da distribuio de probabilidades (H ) a de que esta uma mdia ponderada das entropias dos eventos dessa distribuio (hi ). A entropia do evento
i dada por hi = log(1/pi ).
No exemplo dos lances da moeda honesta, a entropia dos evento cara de 1 bit, assim como a entropia do evento coroa; a mdia ponderada (com probabilidade
0.5
para cada um dos eventos) tambm de A Figura 1 apresenta as relaes entre
1 bit. h, p h e H
em funo dos valores de
probabilidade de um evento binrio (em que a varivel aleatria inclui apenas os eventos 0 ou 1). O valor de entropia (H ) zero quando
p=0
ou
p = 1,
pois
nessa condio no h incerteza; por outro lado, a incerteza mxima quando
p = 0.5 (eventos equiprovveis), o que corresponde ao valor mximo da entropia.
Figura 1 Relaes entre
h, p h
em funo das probabilidades
um evento binrio. A entropia do evento (h) dada por do evento ponderada pela sua probabilidade (p
h)
p de log(1/p); a entropia dada por p log(1/p); a
entropia da distribuio de probabilidades (H ) dada pela soma das entropias dos eventos ponderada pelas suas probabilidades. Uma estratgia bastante intuitiva para entender o conceito de entropia atravs da aplicao da codicao tima de mensagens. Um determinado sistema codicador foi projetado para receber como entradas sries de eventos A, B, C e D e responder como sadas sries de so equiprovveis nas mensagens (p
0 ou 1. Se os eventos A, B, C e D = 0.25 cada), a codicao tima para cada evento deve conter 2 bits (11, 10, 01 e 00, respectivamente), conforme descrito pela frmula de entropia do evento (h). A entropia das mensagens, dada pela
frmula de entropia da distribuio de probabilidades (H ), tambm tem o valor de
bits, que representa o tamanho mdio por evento descrito. Se os eventos
A, B, C e D so apresentados com as probabilidades (1,
respectivamente, a codicao tima para os eventos deve conter
0.5, 0.25, 0.125 e 0.125, 1, 2, 3 e 3 bits
01, 001
000,
respectivamente) conforme descrito pela frmula de entropia
do evento (h).
A entropia das mensagens dada pela frmula de entropia da
distribuio de probabilidades (H ), tem o valor de tamanho mdio por evento descrito. tima de mensagens, a entropia
1.75
bits, que representa o
Note que nesse contexto de codicao
uma medida da quantidade de informao
requerida, na mdia, para descrever a varivel aleatria.
Notas sobre entropia

Alm do log base 2, que expressa entropia em bits, outras bases poderiam ser usadas, como 3, 4, 5, 6, 7, 10 ou e, e a entropia seria expressa em trits, quarts, quints, sexts, septs, dits ou nats, respectivamente. feita por A A troca de base pode ser
Hb (X) = (logb a) Ha (X). conveno 0 log0 = 0 usada x
na teoria da informao; essa conveno
facilmente justicada por continuidade, uma vez que quando idade zero no muda a entropia. Os valores de entropia (H e disso que
x log(x)
tende a zero
tende a zero (ver Figura 1). Assim, a adio de termos com probabil-
0 pi 1,
o que implica em
h) so sempre maiores ou iguais a zero. log(1/pi ) 0.
A prova
Entropia conjunta, entropia condicional e informao mtua

A teoria da informao tambm capaz de lidar com um par de variveis aleatrias. capaz de quanticar, por exemplo, a quantidade informao associada s variveis aleatrias conjuntamente (a entropia conjunta, aleatria conhecida (a entropia condicional, mtua,
H(X; Y )),
a quantidade de informao de uma varivel aleatria dado que outra varivel
H(X|Y )) e tambm a quantidade
de informao que uma varivel aleatria contm acerca da outra (informao
I(X; Y )).
As relaes entre essas medidas so expressas no diagrama
da Figura 2.
Figura 2 Relaes entre entropia e informao mtua.
"
1 H(X; Y ) = x y px;y log px;y . Essa denio no realmente nova, pois X; Y pode ser considerada uma varivel aleatria nica, com uma distribuio probabilstica de eventos xi e yi concatenados, na forma xi &yi . Dessa forma, a equao da entropia para uma varivel aleatria pode ser usada para quanticao da entropia conjunta, H(X; Y ) = H(X&Y ) = px&y 1/px&y . 1 A entropia condicional dada por H(X|Y ) = x y px;y log py|x . Uma estratgia simples de clculo H(X|Y ) = H(X; Y ) H(Y ), em que os valores H(X; Y ) e H(Y ) podem ser calculados pela equao da entropia para uma varivel aleatria. Note que H(X|Y ) geralmente difere de H(Y |X); no entanto, h a propriedade H(X) H(X|Y ) = H(Y ) H(Y |X), uma forma de obter a
A entropia conjunta dada por informao mtua entre as distribuies. A informao mtua dada por
I(X; Y ) = x y px;y log pxx;yy . Uma p estratgia simples de clculo I(X; Y ) = H(X) + H(Y ) H(X; Y ), em que os valores H(X), H(Y ) e H(X; Y ) podem ser calculados pela equao da entropia
para uma varivel aleatria. Uma implementao computacional para quanticao da entropia conjunta, entropia condicional e informao mtua, capaz de lidar com mais de duas variveis aleatrias, foi desenvolvidas para Matlab por Will Dwinnell; acesse as rotinas em http://www.mathworks.com/matlabcentral/leexchange/authors/85655.
Distncia
A distncia de KullbackLeibler, tambm chamada de entropia relativa, uma medida da distncia entre duas distribuies de probabilidade. A distncia de KullbackLeibler dades
D(p||q) =
pi log(pi /qi ) =
pi log(1/qi ) pi log(1/pi )
uma medida da inecincia dada por assumir que a distribuio de probabili-
sendo que a verdadeira distribuio
as probabilidades do evento de probabilidade
p. Nessa equao, pi e qi indicam i de uma varivel aleatria discreta nas distribuies
p e q.
A aplicao na codicao tima de mensagens, seguindo
a mesma estratgia apresentada previamente, tambm facilita o entendimento do conceito de distncia. Se o sistema codicador fosse planejado para tratar os eventos A, B, C e D nas mensagens, como se fossem equiprovveis (qi para cada evento teria
bits (11,
10, 01
scrito pela frmula de entropia do evento
= 0.25 cada), a codicao 00, respectivamente), conforme de(h(q)). A entropia esperada das mene
sagens (H(q)), dada pela frmula de entropia da distribuio de probabilidades
q,
tambm tem o valor de
bits, que representa o tamanho mdio esperado por
evento descrito. No entanto, a distribuio verdadeira dos eventos A, B, C e D de os eventos envolveria
pi = 0.5, 0.25, 0.125 e 0.125, respectivamente, e a codicao tima para h(pi ) = 1, 2, 3 e 3 bits (1, 01, 001 e 000, respectivamente); denindo, ento, que a entropia das mensagens verdadeira de H(p) = 1.75 bits. No entanto, a aplicao da codicao para distribuio q , com h(qi ) = 2 bits para cada evento para a distribuio p resulta em inecincia (i.e. gasto adicional de bits) para os eventos A, B, C e D de log(pi /qi ) = 1, 0, =1 e =1 bit,
respectivamente (note que inecincia de em
=1 bit representa economia de 1 bit).
As inecincias ponderadas pelas probabilidades verdadeiras dos eventos resulta
pi log(pi /qi ) = 0.5, 0,
q para distribuio p de D(p||q) = 0.25 bit. Nesse caso, a D(p||q) observada foi igual diferena entre H(p) e H(q), porm essa relao encontrada apenas em alguns
mdia por evento descrito pela codicao para distribuio verdadeira casos.
=0.125 e =0.125 bit, respectivamente. A inecincia
Outras relaes so encontradas com outras distribuies, como no exemplo
qi = 0.5, 0.125 (h(qi ) = 1, 2, 3 e 3 bits e H(q) = 1.75 bits) e distribuio verdadeira dada por pi = 0.125, 0.125, 0.25 e 0.5 (h(pi ) = 3, 3, 2 e 1 bits e H(p) = 1.75 bits). Nesse caso, a inecincia para os eventos seria de log(pi /qi ) = =2, =1, 1 e 2 bits, e as inecincias ponderadas pelas probabilidades verdadeiras seriam pi log(pi /qi ) = =0.25, =0.125, 0.25 e 1 bit, respectivamente. Assim, a inecincia mdia por evento descrito pela codicao para distribuio q para distribuio verdadeira p seria de D(p||q) = 0.875 bit.
em que os eventos A, B, C e D tm distribuio esperada dada por e
0.25, 0.125
Assim, se a verdadeira distribuio de uma varivel aleatria fosse conhecida, seria possvel construir um cdigo com descrio mdia de tamanho
H(p).
Se, no entanto, fosse usado um cdigo para uma distribuio
q,
seriam
necessrios
H(p) + D(p||q)
bits, na mdia, para descrever a varivel aleatria.
Essa quantidade de informao denominada entropia cruzada, que consiste do nmero mdio de bits para identicar um evento de uma distribuio verdadeira por
p usando um esquema de codicao baseado na distribuio q , dada H(p; q) = pi log(1/qi ) = H(p)+D(p||q). Note que a notao de entropia log(pi /qi ))
cruzada a mesma da entropia conjunta; os conceitos, entretanto, so distintos. A Figura 3 apresenta diferentes distribuies probabilsticas de trinta eventos, a inecincia ponderada associada a cada evento (pi e a soma destas, que consiste na distncia de KullbackLeibler (D(p||q)). Note que os
valores de inecincia ponderada maiores do que zero correspondem a eventos que ocorrem na distribuio verdadeira com maior probabilidade do que na distribuio esperada. J eventos com inecincia ponderada menor do que zero (i.e., eventos com codicao mais econmica do que a codicao tima) so eventos que ocorrem na distribuio verdadeira com menor probabilidade do que na distribuio esperada; por serem pouco frequentes na distribuio verdadeira, sua inecincia (negativa), quando ponderada pelo os valores de distncia nunca sejam negativos. a inecincia igual a zero.
pi
baixo tem importncia re-
duzida na denio do valor de distncia nal essa propriedade garante que Finalmente, os eventos com mesma probabilidade nas distribuies esperada e verdadeira esto associados
Figura 3 Distncias de Kullback-Leibler entre diferentes distribuies de probabilidade de trinta eventos discretos. As curvas ajustadas foram inseridas apenas para facilitar a visualizao das distribuies.
Notas sobre distncia

As convenes
0 log(0/q) = 0
p log(p/0) =
so usadas na teoria da
informao; essas convenes so justicadas por continuidade. Nos casos em que se deseja diferenciar entre as distncias que envolvem distribuies presentes na distribuio
D(p||q1) e D(p||q2)
q1
q2
que no apresentam alguns dos eventos
p,
uma possibilidade modicar sutilmente as dis-
tribuies, denindo uma probabilidade irrisria mnima para os eventos. Esse procedimento foi aplicado aos valores de probabilidade das distribuies apresen-
0 e 0.19, e os usados 0.01 e 0.14 (com a aplicao desse procedimento D(p||q1) = D(p||q2) = 0.70 bits e D(p||q3) = 1.83 bits; sem a aplicao, D(p||q1) = D(p||q2) = D(p||q3) = ). Os valores de D(p||q) so sempre maiores que zero (se as distribuies p e q so diferentes) ou iguais a zero (se as distribuies p e q so iguais).
tadas na Figura 3, cujos valores originais variavam entre para os clculos variavam entre Apesar do nome, a distncia de Kullback-Leibler no propriamente uma distncia entre as distribuies, uma vez que ela no simtrica e no satisfaz a desigualdade triangular, da geometria euclidiana. Essa caracterstica est representada na Figura 3, em que os valores das probabilidades so os mesmos
(porm referentes a eventos diferentes):
D(p||q2) = D(q2||q3) = 0.70 bits, e p e q3 no pode ser obtida pela soma da distncia p a q2 com a distncia q2 a q3 (0.7 + 0.7 = 1.83). Alm disso, em geral o valor de D(p||q) diferente do valor de D(q||p). D(p||q3) = 1.83
bits. Isto , a distncia entre
Referncias
[1] Cover TM, Thomas, JA, 1991. Elements of Information Theory. WileyInterscience, New York. [2] http://en.wikipedia.org/wiki/File: KL-Gauss-Example.png [3] http://pt.wikipedia.org/wiki/Complexidade_de_Kolmogorov#Objetivo_ da_complexidade_de_Kolmogorov

Teoria Da Informacao

Hochgeladen von

Dokumentinformationen

Copyright

Verfügbare Formate

Dieses Dokument teilen

Dokument teilen oder einbetten

Freigabeoptionen

Stufen Sie dieses Dokument als nützlich ein?

Sind diese Inhalte unangemessen?

Copyright:

Verfügbare Formate

Teoria Da Informacao

Hochgeladen von

Copyright:

Verfügbare Formate

Teoria da informao

Rodrigo Pavo (rpavao@gmail.com) junho de 2011

11111111111111111111, que no i=1:20 print 1 en-

que parece aleatrio, no poderia ser descrito

por um programa to curto, pois precisa da descrio literal do objeto

pi log(1/pi ), em que pi indica a probabilidade de evento da

distribuio de probabilidades de uma varivel aleatria discreta. No presente

i dada por hi = log(1/pi ).

para cada um dos eventos) tambm de A Figura 1 apresenta as relaes entre

em funo dos valores de

nessa condio no h incerteza; por outro lado, a incerteza mxima quando

p = 0.5 (eventos equiprovveis), o que corresponde ao valor mximo da entropia.

Figura 1  Relaes entre

em funo das probabilidades

p de log(1/p); a entropia dada por p log(1/p); a

frmula de entropia da distribuio de probabilidades (H ), tambm tem o valor de

bits, que representa o tamanho mdio por evento descrito. Se os eventos

A, B, C e D so apresentados com as probabilidades (1,

respectivamente, a codicao tima para os eventos deve conter

0.5, 0.25, 0.125 e 0.125, 1, 2, 3 e 3 bits

respectivamente) conforme descrito pela frmula de entropia

A entropia das mensagens dada pela frmula de entropia da

bits, que representa o

Note que nesse contexto de codicao

uma medida da quantidade de informao

requerida, na mdia, para descrever a varivel aleatria.

Notas sobre entropia

Hb (X) = (logb a) Ha (X). conveno 0 log0 = 0 usada x

na teoria da informao; essa conveno

h) so sempre maiores ou iguais a zero. log(1/pi ) 0.

Entropia conjunta, entropia condicional e informao mtua

a quantidade de informao de uma varivel aleatria dado que outra varivel

H(X|Y )) e tambm a quantidade

de informao que uma varivel aleatria contm acerca da outra (informao

As relaes entre essas medidas so expressas no diagrama

Figura 2  Relaes entre entropia e informao mtua.

uma medida da inecincia dada por assumir que a distribuio de probabili-

sendo que a verdadeira distribuio

as probabilidades do evento de probabilidade

p. Nessa equao, pi e qi indicam i de uma varivel aleatria discreta nas distribuies

A aplicao na codicao tima de mensagens, seguindo

scrito pela frmula de entropia do evento

sagens (H(q)), dada pela frmula de entropia da distribuio de probabilidades

tambm tem o valor de

bits, que representa o tamanho mdio esperado por

evento descrito. No entanto, a distribuio verdadeira dos eventos A, B, C e D de os eventos envolveria

respectivamente (note que inecincia de em

=1 bit representa economia de 1 bit).

As inecincias ponderadas pelas probabilidades verdadeiras dos eventos resulta

pi log(pi /qi ) = 0.5, 0,

=0.125 e =0.125 bit, respectivamente. A inecincia

Outras relaes so encontradas com outras distribuies, como no exemplo

Se, no entanto, fosse usado um cdigo para uma distribuio

bits, na mdia, para descrever a varivel aleatria.

baixo tem importncia re-

Notas sobre distncia

que no apresentam alguns dos eventos

uma possibilidade modicar sutilmente as dis-

(porm referentes a eventos diferentes):

Das könnte Ihnen auch gefallen

Figura 1 Relaes entre

respectivamente, a codicao tima para os eventos deve conter

Note que nesse contexto de codicao

Figura 2 Relaes entre entropia e informao mtua.

uma medida da inecincia dada por assumir que a distribuio de probabili-

A aplicao na codicao tima de mensagens, seguindo

respectivamente (note que inecincia de em

As inecincias ponderadas pelas probabilidades verdadeiras dos eventos resulta

=0.125 e =0.125 bit, respectivamente. A inecincia

uma possibilidade modicar sutilmente as dis-