Beruflich Dokumente
Kultur Dokumente
Teora de la Informacin
Este archivo forma parte de un curso completo sobre Seguridad Informtica y Criptografa. Se autoriza el uso,
reproduccin en computador y su impresin en papel, slo con fines docentes y/o personales, respetando los
crditos del autor. Queda prohibida su comercializacin, excepto la edicin en venta en el Departamento de
Publicaciones de la Escuela Universitaria de Informtica de la Universidad Politcnica de Madrid, Espaa.
Teora de la informacin
Definicin de informacin:
Es el conjunto de datos o mensajes inteligibles
creados con un lenguaje de representacin y que
debemos proteger ante las amenazas del entorno,
durante su transmisin o almacenamiento, usando
tcnicas criptogrficas entre otras herramientas.
La teora de la informacin mide la
Qu significa
cantidad de informacin que cantidad de
contiene un mensaje a travs del informacin y
nmero medio de bits necesario para codificador
codificar todos los posibles mensajes ptimo?
con un codificador ptimo.
Representacin de la informacin
http://es.wikipedia.org/wiki/Claude_E._Shannon
Incertidumbre e informacin
Ante varios mensajes posibles, en principio todos equiprobables, aquel
que tenga una menor probabilidad de aparicin ser el que contenga
una mayor cantidad de informacin.
En el ejemplo anterior:
Al ser ms extenso el nmero de calles y sus nmeros en una
ciudad que el nmero de ciudades en Espaa, y esto ltimo mayor
que los pases en Europa, la ltima respuesta tendr una mayor
incertidumbre.
Si suponemos todos los estados equiprobables, entonces la
cantidad de informacin de la respuesta tercera ser mayor que las
dems.
Las siguientes diapositivas resumen el estudio de Claude Shannon sobre la
entropa en su artculo A Mathematical Theory of Communication que
puede descargarlo en formato pdf desde esta direccin:
http://cm.bell-labs.com/cm/ms/what/shannonday/paper.html
ci = - log2 (pi ) 0 pi
0 1
Grado de indeterminacin
Grado de indeterminacin previo
ci =
Grado de indeterminacin posterior
En una bolsa hay dos papeles con crculos, dos con
cuadrados y dos con tringulos: negros o blancos.
Sacamos a ciegas tres papeles cualesquiera... Si hay equiprobabilidad
Sea sta ser la combinacin elegida... entonces p(xi) = 1/8
Combinacin 1 Combinacin 5
Combinacin 2 Combinacin 6
Combinacin 3 Combinacin 7
Combinacin 4 Combinacin 8
http://en.wikipedia.org/wiki/Information_entropy
Definicin de entropa
La entropa de un mensaje X, que se representa por H(X),
es el valor medio ponderado de la cantidad de informacin
de los diversos estados del mensaje.
Esto lo
k
H(X) = - p(xi) log2 p(xi) veremos ms
i=1 adelante...
Propiedades de la entropa
a) La entropa es no negativa y se anula si y slo si un estado de la
variable es igual a 1 y el resto 0. Esta demostracin es sencilla.
b) La entropa ser mxima, hay mayor incertidumbre del mensaje,
cuando exista una equiprobabilidad en todos los valores de la
variable X. La demostracin emprica es muy fcil; no obstante
la demostracin matemtica de este mximo no es directa. El
valor mximo de H(X) para una variable de n estados ser log2 n.
Si hay n estados equiprobables, entonces pi = 1/n.
Luego:
H(X) = - pi log2 pi = - n(1/n) log2 (1/n) = - (log2 1 - log2 n)
i
H(X)mx = log2 n
I 2 veces
A 3 veces I E A M
3 veces I E A
M 6 veces I E A
Creacin del rbol de
Cdigo ptimo: frecuencias observadas I E
http://articulos.conclase.net/compresion/huffman.html
Ratio r
Es el nmero de bits de informacin en cada carcter
para mensajes con una longitud igual a N caracteres.
Luego, segn la definicin de entropa, se tiene:
r = H(X)/N (bits/letra)
Si codificramos un mensaje letra a letra suponiendo
adems equiprobabilidad entre las letras, se obtiene la
denominada ratio absoluta del lenguaje, R:
R = H(X) castellano = 27 letras
Rcastellano = log2 n = log2 27 = 4,75 (bits/letra)
Ratio verdadera
- Como las letras que aparecen en un texto no tienen
igual probabilidad, su frecuencia de aparicin es
distinta, los lenguajes est muy estructurados, hay
bloques de dos palabras (digramas) caractersticos,
trigramas, poligramas, etc., la ratio baja mucho...
1,2 < r < 1,5
- A este valor se llega codificando los mensajes con
monogramas, digramas, trigramas, etc., segn el
estudio hecho por Shannon.
Qu significa esto?
Si un alfabeto consta de L elementos existirn 2RN
mensajes posibles de longitud N, la entropa mxima
ser H(X)mx = log2 L, y slo habr 2rN mensajes que
tengan sentido.
Muy importante: No significa que podamos codificar
todos los mensajes de 27 caracteres con 2 bits (esto
sera imposible ). Slo significa que la informacin
que contiene cada letra es tan slo de 1,5 bits.
Veamos un ejemplo
Jorge Rami Aguirre Madrid (Espaa) 2006
Captulo 6: Teora de la Informacin Pgina 208
http://es.wikipedia.org/wiki/Compresi%C3%B3n_de_datos
M = __H__B__N__V__Z__N__C__R__C__
kj / Ekj(Mi) = Ci
En el fondo esto viene a significar que para lograr un
secreto perfecto, el espacio de claves debe ser al
menos de igual tamao que el espacio de mensajes.
pM(C) = p(C)
para todo valor de M Veamos algunos ejemplos
M1 k1 C1
k3 k2
k2
M2 k3 C2
k1
k3 k1
M3 C3
k2
k1
p(M1) = 1/3 M1 C1 p(C1) = 3/9
k3 k2
k2
p(M2) = 1/3 M2 k3 C2 p(C2) = 2/9
k1
k3 k1
p(M3) = 1/3 M3 k2 C3 p(C3) = 2/9
p(C4) = 2/9
Algo ms C4
C4
La distancia de unicidad
Se entender por Distancia de Unicidad al bloque N de
texto cifrado o criptograma mnimo necesario para que se
pueda intentar con ciertas expectativas de xito un ataque
en bsqueda de la clave usada para cifrar.
Este valor se obtiene cuando la equivocacin de la clave
HC(K) se acerca a cero o tiende a anularse.
A medida que se tenga un criptograma ms largo, y por
tanto ms informacin, se supone que la tarea de ataque
del criptoanalista se va facilitando.
Se busca el tamao N de criptograma que permita esperar
que la solucin de K sea nica. Suponiendo un cifrador
aleatorio, llegamos al modelo de la diapositiva siguiente.
http://www.cs.ucla.edu/~jkong/research/security/shannon1949/node14.html
C3
2RN 2RN
Mensajes Criptogramas
Operaciones de
cifra usando una
clave C2
2RN - 2rN
Mensajes Sin Sentido
Veamos ahora los escenarios del modelo de cifra para slo dos claves k1 y k2.
M1
k1
C1 SV: Un criptograma est asociado
k2
slo a un texto en claro con sentido
M2 k1 C2 y cifrado con una nica clave ki.
k2
k2
M3 C3 SF: Cualquier otra solucin de
k1
k1
cifra distinta a la anterior.
k2
M4 C4
M5
k1
C5 SV: C3 = Ek1(M5) C4 = Ek1(M2)
k2
M6 k1 Soluciones: C6
C6 = Ek2(M1) C7 = Ek1(M3)
k2
Falsas SF C9 = Ek1(M6) C10 = Ek2(M6)
M7 C7
Verdaderas SV
M8 C8 SF: C2 = Ek1(M4) C2 = Ek2(M4)
SF C2: Condicin obvia C5 = Ek2(M2) C5 = Ek2(M5)
M9 C9
SF C5: Condicin dbil
SF C1: Condicin fuerte
C1 = Ek1(M1) C1 = Ek2(M3)
M10 C10
(A) Inicialmente hay que hacer un arduo trabajo para obtener algo
coherente. Nos encontraremos con muchas soluciones falsas.
(B) Cuando se tiene una cantidad adecuada de texto cifrado, la
cantidad de trabajo disminuye. Se descartan algunas soluciones.
(C) Cuando se anula la equivocacin de la clave, H(M/C) = 0,
disminuyen las soluciones falsas y la solucin tiende a ser nica.
TRANSPOSICIONES
La transposicin consiste bsicamente en una permutacin, es
decir, cambiar los caracteres de lugar segn una regla, una
funcin, etc. Por ejemplo el carcter primero se posiciona en
el lugar cuarto, el segundo en el lugar tercero, etc.
SUSTITUCIONES
La sustitucin consiste bsicamente modificar la informacin,
es decir, sustituir un carcter por otro de acuerdo a una regla,
una funcin, etc. Por ejemplo cambiar la letra A por la letra
M, la letra B por la letra X , etc.
Ambas tcnicas se usan en sistemas clsicos orientados a caracteres y
tambin en los modernos pero en este caso operando sobre bits.
Fin del captulo
Jorge Rami Aguirre Madrid (Espaa) 2006
Captulo 6: Teora de la Informacin Pgina 234
Cuestiones y ejercicios (1 de 2)
1. Al despertar ponemos la radio y escuchamos noticias que no nos
llaman la atencin. Por qu decimos que no haba informacin?
2. Justifique la definicin logartmica de cantidad de informacin, es
decir la razn de que ci = - log (pi).
3. Por qu usamos la base 2 en el logaritmo que define ci?
4. Cul es el nmero mnimo -e inteligente- de preguntas que hay que
hacer para pasar de la incertidumbre a la certeza en un sistema de n
estados equiprobables? Y si ahora no son equiprobables?
5. Por qu la entropa es no nula y se anula si y slo si uno de los
estados de la variable es igual a la unidad?
6. Codificamos en binario un sistema con 256 estados equiprobables.
Si no usamos un codificador ptimo, cuntos bits son necesarios?
Mediante un codificador ptimo, usaremos ms o menos bits?
Cuestiones y ejercicios (2 de 2)
7. Qu representa la expresin log2 [1/p(x)] en la entropa H(X)? Si
p(x1)=0,6; p(x2)=0,3; p(x3)=0,1 calcule log2 [1/p(x)]. Qu opina?
8. Definimos un alfabeto con 71 elementos (maysculas y minsculas,
minsculas acentuadas, dgitos, punto, coma). Si estos elementos
son equiprobables, cul es la ratio absoluta de este alfabeto?
9. La ratio verdadera es mayor o menor que la absoluta? Por qu?
10. Un alfabeto consta de 8 elementos equiprobables. Cuntos posibles
mensajes de tamao 4 existen? De stos, cuntos mensajes podran
tener sentido si esos 8 elementos representan al idioma castellano?
11. Cundo decimos que un sistema tiene secreto perfecto? En un
sistema real, es eso posible? Piense en algn ejemplo y comntelo.
12. Por qu se dice que hay que minimizar las soluciones falsas SF en
el modelo aleatorio para romper la clave? Es la clave k nica?