IPTV CODECs

12 IPTV, Codecs de Video y Mediciones de Calidad
12.1 Servicios de TV por Subscripcin

Desde fines de los aos 90, las empresas de telecomunicaciones han desarrollado diferentes productos para
ingresar en el mercado de la TV paga, bajo el concepto de servicios Triple Play (telefona, datos, video). El
mercado de la TV paga es dominado por los operadores de TV por cable, tambien capaces de proveer Triple
Play, operadores de TV satelital y operadores de telecomunicaciones con servicios IPTV (en pases donde tal
servicio est permitido). El total de subscriptores a los diferentes servicios de TV paga, el cual ha superado los
800 millones de subscriptores en el 2013, lo que incluye servicios bsicos de TV, servicios Premium y Pay-perView, pero no contabiliza las subscripciones a servicios VoD CoD (Video Content on Demand).
De ese total, el 65% corresponde a subscriptores de servicios de TV por cable, el 25% a servicios de TV
satelital y un 10% a servicios de IPTV, siendo estos ltimos brindados por ms de 150 operadores IPTV en
todo el mundo. El total de los subscriptores a servicios de IPTV supera los 77 millones en la actualidad, e
incluye todos los servicios multicast de la TV satelital y por cable ms servicios unicast tipo CoD.
En mercados donde la TV por cable est protegida de la competencia de los operadores de
telecomunicaciones, que no reciben licencias para servicios de IPTV, estos pueden realizar alianzas con los
operadores de TV satelital para ofrecer un hbrido Triple Play con un costo menor para el usuario que en el
caso de que adquiera accesos de telefona ms datos a un operador y servicios de TV satelital a otro.
La mayor parte del crecimiento de servicios de TV paga, en cualquier variante, ocurre fuera de los mercados de
USA-Canad y de Europa Occidental, ya que en ellos la demanda es muy baja por ser mercados maduros. El
crecimiento en los usuarios de TV satelital es mayor en pases con problemas de infraestructura para redes
terrestres, por razones de costos, como es el caso de India, Rusia y pases del Sudeste Asitico y de frica.
Por diferentes razones, las subscripciones a redes de TV por cable tienen una base anual de crecimiento baja,
cercana al 5% anual, en comparacin con el 12% anual para abonados de TV satelital el 32% anual para
subscriptores a redes de IPTV.
El nmero de subscriptores de servicios de IPTV se estimaba en 28 millones para el ao 2009, con la mayor
parte de los abonados residentes en Europa y Asia y un mercado con ingresos globales de casi 12 millardos de
U$S. Debido al mayor ARPU del servicio IPTV en Europa y USA-Canad, estas regiones proveen un mayor
ingreso. El crecimiento anual de subscriptores de IPTV continu superando al de otras redes, llegando a casi
54 millones de abonados en el ao 2011. Con 77 millones de abonados a IPTV, este segmento del mercado
tiene ingresos globales superiores a 28 millardos de U$S.
China, Francia y USA son los pases con mayor porcentaje de subscriptores de servicios IPTV, con casi el 45%
del total. En orden de importancia, les siguen Corea del Sur, Japn y Alemania con ms del 11% del total de
los abonados a IPTV. El resto se reparte entre otros pases de Europa, Canad y el Sudeste Asitico.
En USA existen unos 85 millones de subscriptores a servicios de TV paga, lo cual marca una penetracin del
servicio en casi el 77% de los hogares. Casi el 50% corresponde a abonados a TV por cable, el 40% a
servicios de TV satelital, un 5% corresponde a subscriptores de IPTV (tipo AT&T u-Verse) y otro 5% al servicio
FiOS de Verizon, que es un hbrido entre TV por cable y telefona TDM, bajo accesos FTTH.
Debe hacerse una distincin entre los dos grandes operadores de telecomunicaciones con servicios de TV
paga, ya que AT&T utiliza tecnologas de IPTV en el servicio u-Verse, mientras el servicio FiOS de Verizon se
12. IPTV, Codecs de Video y Mediciones de Calidad
761
basa en tecnologas nicas de transporte de voz y video sobre redes con accesos FTTH. Tanto la voz como las
seales de TV y datos son transportadas utilizando diferentes longitudes de onda pticas sobre la misma FO.
La voz es digitalizada a 64 Kbps, como en telefona TDM, y las seales de video moduladas en 64-QAM en el
headend son digitalizadas, multiplexadas en modo TDM sobre una longitud de onda ptica y entregadas al STB
luego de pasar por el CPE tipo ONT, que realiza una conversin ptico-elctrica, por lo que FiOS no utiliza
paquetizacin de streaming media y reserva accesos IP solo para datos de Internet y control interactivo.
Cada sistema tecnolgico para la entrega de contenido pago tiene ventajas y desventajas, en las que deben
contemplarse aspectos como Calidad Integral del Servicio, Confiabilidad del Servicio e Interactividad Disponible.
Por ejemplo, la TV satelital operando en la Banda Ku es muy vulnerable a la lluvia en latitudes alejadas del
Ecuador, ya que esta crea artefactos claramente visibles directamente el corte del servicio. Adems, la TV
satelital carece de interactividad en tiempo real y del ancho de banda adicional necesario para proveer
servicios unicast, como es el caso de Video on Demand en tiempo real.
En el caso de la TV por cable, la red de acceso coaxil opera con ancho de banda compartido y no tiene
redundancia, por lo que una falla en un conversor electro-ptico HFC afecta a decenas de usuarios. Las redes
de TV por cable pueden estar basadas en tecnologas IPTV en el Headend y en el ncleo de red, pero pasan a
un modo de canalizacin en RF de seales con modulacin QAM en el punto de transicin a las redes de
acceso multipunto basadas en cables coaxiles.
En el caso de las redes IPTV, la topologa estrella de la red de acceso permite un servicio con mayor
confiabilidad y, segn las tecnologas de acceso utilizadas, pueden tener gran confiabilidad y proveer altas
velocidades en el caso de accesos basados en tecnologas FTTH.
Una tendencia emergente, que compite con las diferentes ofertas de servicios de TV paga, es el servicio OTT
(Over-the-Top), que utiliza redes CDN (Content Delivery Network) para alimentar servers de streaming
regionales, bajo servicios pagos, y que utilizan redes Triple Play redes de ISP sin cargo por utilizar la Internet
como red IP de transporte de contenido de video.
A diferencia de un operador IPTV, que requiere importantes inversiones en el Headend, en la red de transporte
y los servers de streaming y EPG distribuidos en los bordes de la red, ms los STB y PVR NVR para los
usuarios, los servicios de video OTT son provistos por los propios dueos del contenido por startups como
Netflix con inversiones mucho menores, reemplazando el Headend por servers de redes CDN y los STB por
clientes de software que pueden instalarse en una amplia variedad de terminales, para decodificar y presentar
los flujos de video que son transportados, en diferentes instancias temporales, sobre la Internet. La primer
etapa es el transporte del contenido desde las fuentes originales los intermediarios hacia los servers de las
redes CDN abiertas (como la red soporte de YouTube). La segunda etapa es el streaming de video desde los
servers CDN hacia los clientes embebidos en diferentes clases de terminales de usuario.
Otra diferencia fundamental entre servicios IPTV y OTT que los ltimos, por medio de la Internet, pueden tener
una presencia global con facilidad, si bien existen adecuaciones regionales del servicio en los servers CDN.
Uno de los operadores OTT ms relevantes, Netflix, clama tener casi 38 millones de abonados en 40 pases.
12.1.1 Servicios de Video OTT

El modelo de servicio OTT (Over the Top) es una variante del modelo lineal de IPTV basada en un Headend y
redes IP privadas, en el cual se integran y distribuyen los programas de TV adquiridos desde entradas
satelitales, terrestres y de TV por cable. En el modelo OTT, los proveedores de contenido envan sus seales a
redes CDN que operan en la Internet, las cuales realizan un cach de los flujos de video, para su distribucin
sobre mltiples servers de streaming distribuidos, sin que exista un operador multiservicio involucrado en el
control y la distribucin del contenido.
La ventaja para los proveedores de contenido es la expansin de sus capacidades de ofertas de canales a un
costo menor que con enlaces dedicados, y con la ventaja de superar el bajo QoS de la Internet utilizando HTTP
y TCP como protocolos de distribucin confiable de video. La calidad del video y audio suministrado es
equiparable a la provista por redes IPTV propietarias.
En los servicios de video OTT, como se trata al principio de este captulo, el usuario gana acceso a una gran
cantidad de canales y contenido interactivo, una prestacin que se potencia cada vez ms con la aparicin de
televisores y home theaters directamente conectables a video por Internet, distribuidos con protocolos de
762
streaming adaptativo. Los menores costos de esta modalidad basada en CDN presenta desafos a la expansin
de la IPTV tradicional, ya que los sistemas OTT ponen nfasis en proveer una elevada QoE, a la cual el usuario
final es muy sensitivo. No obstante, diferentes analistas interpretan que OTT es un complemento para IPTV y
no una amenaza, ya que permite ofrecer servicios multipantalla en el hogar experiencias de TV ubicua, sobre
enlaces inalmbricos.
El proveedor de contenido OTT no es responsable del control del flujo multimedia, la configuracin de las
terminales, aspectos referidos a la PI del contenido la redistribucin del mismo, lo cual marca grandes
diferencias con los servicios como IPTV, televisin paga VoD. Un ejemplo de OTT es el contenido entregado
va Internet, por terceras partes como el proveedor Netflix en Argentina. El ISP solo es responsable del
transporte de los paquetes IP de flujo multimedia, el cual puede ser visualizado en cualquier dispositivo con una
conexin a Internet, como los Smart TV, desktops, notebooks, tabletas, smartphones, STB y consolas de juego.
Un operador de una red IPTV con accesos OTT puede verse forzado a potenciar sus redes de transporte por la
gran demanda de ancho de banda que implica sostener flujos de video OTT en sus redes. Algunas posiciones
sobre el servicio OTT es que obra en contra de los intereses de las redes IPTV, debido a la mayor flexibilidad
del servicio y la gran disponibilidad de contenido, lo cual puede llevar a que un subscriptor de IPTV cancele su
cuenta y reemplace IPTV por servicios OTT.
No obstante los diferentes desafos que presenta OTT para el negocio de IPTV, particularmente debido a la
ubicuidad del acceso al servicio OTT desde un terminal cualquiera en el hogar un terminal mvil, la ventaja
de las redes IPTV de transportar y presentar contenido de alta resolucin y contenido sonoro en pantallas de
TV de gran tamao, manteniendo elevados QoS y QoE, no tiene competencia del servicio OTT, que est
orientado a un mercado donde el usuario compromete calidad en aras de ubicuidad y cantidad de contenido.
12.1.2 Conceptos Bsicos de IPTV

El trmino IPTV (Internet Protocol Television) se aplica a sistemas instalados por operadores de redes fijas de
telecomunicaciones, que tienen la capacidad de proveer seales de Televisin Digital (codecs MPEG/H.264)
utilizando una infraestructura de red IP/MPLS privada, con capacidad de provisin de QoS extremo-extremo
entre el Proveedor de Servicio y el Subscriptor, tal que la Calidad de la Experiencia (QoE) del usuario sea igual
mejor que con servicios SDTV y HDTV prestados por Operadores de Cable, TV Digital Terrestre Satelital.
Las tecnologas de IPTV estn disponibles para el uso por parte de las empresas de telecomunicaciones desde
hace casi una dcada, an antes de los standares para NGN e IMS, y han sido desarrolladas para que las
empresas de telecomunicaciones puedan competir, en reas donde se ha desregulado la prestacin del
servicio de televisin, con los operadores de TV por cable y satelital, aumentando el ARPU de accesos fijos.
Las diferencias principales con los servicios provistos por los operadores de TV por cable y satelital son:
Las seales de TV fluyen como flujos unicast multicast, con los bloques de salida de codecs
normalizados propietarios encapsulados en paquetes RTP/UDP/IP, los que se transportan por redes
IP/MPLS y se entregan al destinatario sobre enlaces Ethernet, los cuales se establecen sobre
conexiones finales xDSL FTTH a un gateway residencial empresarial. Desde el mismo, cada flujo
subscripto es enviado a un STB (Set Top Box), que puede no tener un grabador PVR, y que
interacta con un control remoto, como en la TV Digital.
A diferencia del transporte de seales por canalizacin FDM del ancho de banda, el STB no posee un
sintonizador de canales, ya que cada flujo de video es transmitido en forma serie y solo existe una
seal por vez entre el Server de Video y el usuario, para economa del ancho de banda ocupado en la
red IP/MPLS. Siendo crtico el tiempo de zapping entre canales contiguos, existe una variedad de
algoritmos y mecanismos para minimizar el tiempo de respuesta del Server de Video a comandos
generados en el Control Remoto del STB IPTV.
Esta restriccin permite que el par de abonado pueda sostener, simultneamente, sesiones de
telefona VoIP, acceso a Internet e IPTV, proveyendo servicios Triple Play sobre la infraestructura de
red de acceso con xDSL, utilizando un ancho de banda variable entre 6 y 25 Mbps. Si la conexin final
se basa en FTTH (Fiber to the Home), la restriccin de velocidad es mnima, pues es posible proveer
telefona VoIP, accesos a Internet de 10 a 100 Mbps (standart) y mltiples flujos simultneos de
televisin SDTV y HDTV, segn el diseo de la red de acceso.
763
IPTV se diferencia de los servicios de televisin y de video on demand disponibles sobre la Internet, debido a
que el operador de telecomunicaciones integra todos los subsistemas de IPTV dentro de su propia red. IPTV
permite una QoE equivalente a la brindada por la TV Digital por cable satelital, debido al control del QoS de
los flujos de video, que ocupan entre 3 y 15 Mbps para SDTV y HDTV sobre pantallas de TV. El control
completo del proceso de servicio de video integra la facturacin, que puede unificarse con VoIP e Internet, bajo
un servicio Triple Play. Con tecnologas IPTV avanzadas, un operador integral de redes fijas y mviles puede
extender sus prestaciones Triple Play a redes mviles, utilizando codecs y protocolos de transporte adecuables
al terminal de presentacin, ampliando la base de terminales a los smartphones y tablets PC bajo 3G/LTE.
IPTV tiene una definicin formal de la ITU-T (FG IPTV): "IPTV es un servicio multimedia que comprende
televisin/video/audio/texto/grficos/datos, que son entregados sobre una red IP privada (managed), para
proveer el nivel de QoS y QoE requeridos, ms seguridad, interactividad y confiabilidad".
Las tecnologas del headend (centro de cabecera) de IPTV son comparables a las utilizadas en redes de cable,
pues en cualquier caso se requieren subsistemas para captura, almacenamiento y distribucin de contenido, la
gestin de la gua electrnica de programas, insercin de publicidad, ecualizacin de mltiples seales en cada
flujo de video, etc. Existen diferencias en el encapsulado final MPEG-TS, modulacin 64QAM y canalizacin RF
en la ltima milla de las redes HFC de cable, versus el encapsulado RTP/UDP/IP y el transporte MPLS sobre
Ethernet en las redes de telecomunicaciones.
Aunque la tecnologa IPTV no tiene una penetracin importante a nivel global, tiene la capacidad de ser
integrada en ofertas Triple Play y tiene xito en pases con infraestructura de redes de cable poco desarrollada,
tal como en Francia, Italia, Espaa, Rusia, China y en otros pases donde la oferta de TV satelital es poco
satisfactoria. La TV satelital tiene baja capacidad interactiva para CoD (Content on Demand).
El xito de IPTV est asociado a la capacidad del operador de proveer servicios innovadores, adems de
mltiples fuentes de contenido, en particular bajo la modalidad CoD VoD y aprovechando el alto grado de
interactividad usuario-proveedor de servicio. Tal estrategia posibilita que el usuario utilice prestaciones que
residen completamente dentro de la red del operador de telecomunicaciones, aumentando el ARPU por
servicios de datos, entretenimiento y otros, que actualmente es mnimo por la capacidad actual de la Internet
de satisfacer las necesidades de los subscriptores a las redes de telecomunicaciones, a las que utilizan solo
como un gateway de muy bajo costo hacia las aplicaciones favoritas en la WEB.
Considerando servicios IPTV provistos con un STB con PVR integrado, se asume la disponibilidad de las
mismas funciones existentes en servicios por cable y satlite, como ser controles Pause, Rewind, FR, FF, Store,
etc. As, los diferentes servicios en IPTV pueden ser:
TV Digital SD y HD, en modo multicast. Esta modalidad incluye canales bsicos y premium, tal como
en los servicios de redes de cable y TV satelital. La disponibilidad de un PVR embebido en el STB
permite la prestacin "time-shifting", tal que un usuario reproduzca un programa grabado que se ha
difundido en horarios inconvenientes para ste.
Content on Demand (CoD): Opera en modo unicast, por usuario, y abarca una variedad de programas
y contenido como pelculas, series, y cualquier contenido indexable en la gua electrnica en pantalla.
Subscripciones a programas multicast Pay-per-View, con horario fijo, y a contenido Near VoD (Video on
Demand), el cual se basa en mltiples flujos del mismo programa, retrasados cada 15' (ejemplo). Es
posible agregar prestaciones como la conmutacin automtica al canal programado.
Servicio de movilidad de la sesin a diferentes pantallas, bajo el control de un CPE local: En sistemas
IPTV avanzados, permite redireccionar la visualizacin hacia otras clases de terminales como una PC,
consola de juegos tableta mediante una conexin inalmbrica local y aplicaciones embebidas en
estas terminales, bajo control del STB que contiene el PVR. Tal prestacin requiere control y
autenticacin por parte del proveedor de IPTV, con una aplicacin que corre en un CPE local, que
puede ser un STB en rol master acoplado a un Home Gateway IP.
En IPTV basada en IMS NGN, en sistemas propietarios avanzados, pueden incorporarse
prestaciones adicionales servicios de informacin basados en la WEB, Caller ID en pantalla para
llamadas VoIP entrantes, la conexin con servicios IM/PM, para dilogos interactivos con grupos de
conocidos del usuario, residentes en la misma red. La conectividad entre usuarios puede potenciarse
con juegos multiusuario online y otras facilidades, como visualizacin compartida de informacin
multimedia y nuevos servicios distintivos de esta tecnologa.
764
Las arquitecturas y standares IMS y NGN, desarrolladas en la ltima dcada, no tienen an el impacto
esperado por la reticencia de los operadores de telecomunicaciones a realizar migraciones masivas de sus
redes TDM hacia IP, comenzando con servicios bsicos PES/PSS para sustitucin de telefona TDM por VoIP.
Como esta aplicacin es la base del despliegue de tecnologas IMS y NGN, no existe hoy una base importante
para aplicaciones como en el caso de IPTV, pues no se han materializado migraciones integrales a NGN/IMS.
Con la existencia de mltiples tecnologas no-IMS/NGN para IPTV, se mantiene el concepto de redes
solapadas para voz, datos y video, postergndose proyectos masivos para redes convergentes, excepto en el
acceso FTTX xDSL. Un argumento es el exceso de complejidad en la cantidad e interaccin de las entidades
funcionales (FE) de las nuevas arquitecturas, lo que ha dificultado la fabricacin e integracin de subsistemas y
con ello la implementacin por parte de los operadores. Otro argumento de peso sobre IMS y NGN, basadas en
estratos de Transporte, Control y Aplicaciones, es la ausencia de aplicaciones distintivas que fidelicen al
usuario mediante servicios enteramente residentes en la red. La adopcin masiva de aplicaciones para redes
sociales, video por Internet y otros servicios, relega las costosas arquitecturas NGN e IMS a un rol de acceso
de los subscriptores hacia la Internet sin un ARPU razonable, como ocurrira con ofertas de servicios propios.
Las redes IPTV en operacin en diferentes pases permiten aumentar sustancialmente el ARPU por acceso fijo
y, a la vez, madurar los conceptos de convergencia de redes, aplicaciones y servicios, en particular cual ser
la naturaleza del terminal favorito del usuario, tema crtico en un proceso de desarrollo evolutivo a nivel global.
Todas las arquitectura tienen funciones de autenticacin de usuarios y terminales, encriptado del contenido,
proteccin anticopia (bajo DRM Digital Rights Management), billing y facilidades soportadas por el
middleware, que coordina el funcionamiento interactivo de subsistemas de procesamiento distribuido en la red
IPTV (servers de aplicaciones, storage y transcoding en el Headend, proxy servers distribuidos, los STB y el
headend de la red IPTV, routers programables en QoS y multicasting, etc.).
12.2 Arquitectura de una red Triple Play con IPTV.

12.2.1 Arquitectura Bsica
La Figura 12.1 representa una red con servicios Triple Play (voz, datos, video) basada en esquemas
propietarios y el transporte sobre redes IP/MPLS. Las tecnologas redes propietarias IPTV han estado
disponibles, y madurado desde el ao 2003. En la ltima dcada se han alcanzado consensos, en foros y
consorcios industriales, sobre aspectos crticos como el control del contenido de los estudios de cine y TV,
utilizando tecnologas validadas por los mismos para la gestin de los derechos de reproduccin del material.
En el diagrama de la Figura 12.1 se diferencian los siguientes subsistemas:
Headend para IPTV: Similar a la cabecera de un operador de cable, pero orientada al transporte interno de
datos entre sus componentes mediante el uso de LAN Ethernet 1GbE y 10GbE, donde corresponda. El
Headend recibe seales MPEG-2 y MPEG-4 desde sus antenas satelitales, conexiones con redes de cable y
desde antenas para TV Digital terrestre, adems de seales de un canal local del operador (opcional) y de
diferentes medias soporte de video (tapes, DVD, discos portables, memorias Flash, etc.) en las que se
almacenan programas de difusin libre bajo proteccin de la Propiedad Intelectual, lo que es manejado por el
server de DRM (Digital Rights Management) al momento de su difusin desde los servers CoD.
El Headend contiene todos los subsistemas necesarios para transcodificar las seales de entrada a los codecs
utilizados en los STB, as como para crear el flujo de seales de TV en vivo intercalando programacin online
de diferentes fuentes programas almacenados en el server de Video Storage. Dispone de sistemas para
intercalar pautas publicitarias locales en el flujo de cada canal de TV en vivo y de un portal para el acceso WEB
a todos los programas de los canales administrados, mediante el uso de una Gua Electrnica de Programas
(EPG) y un portal para el acceso de contenidos del Server CoD. En el Headend existen las aplicaciones de
Registro y Autenticacin de STB y de Subscriptores, la aplicacin de Billing que puede integrarse con la de
telefona VoIP y el sistema de gestin global de red (NMS/OSS), que incluye el Provisionamiento de los CPE y
STB de usuarios. Las salidas multicast (TV en vivo) y unicast (material bajo CoD) se realiza desde Streaming
Servers separados.
Backbone IP/MPLS: Esta red recibe diferentes conexiones del Headend y de los servicios de VoIP y acceso a
Internet. Es de muy alta capacidad y baja latencia, y susceptible de control de QoS extremo-extremo. El
backbone interconecta las aplicaciones centrales con las redes de agregacin, tambien basadas en IP/MPLS.
765
Redes de Agregacin IP/MPLS: Estas redes interconectan las Redes de Acceso y sus usuarios con los
servicios IPTV, telefona VoIP y acceso a Internet. Tambien pueden operar bajo esquemas de QoS controlado,
para extender la Calidad de Servicio hasta el borde de la red.
En el ejemplo de la Figura 12.1, se han incorporado Servers CoD en modo Cach, que capturan los programas
ms populares difundidos por el Server CoD del Headend. Tambien existen Servers Cach para los canales de
TV SD y HD difundidos por el Headend, desde los cuales pueden multiplicarse flujos de un canal de IPTV que
tiene gran audiencia, sin congestionar el backbone con flujos repetidos. Con igual criterio, existe una aplicacin
Proxy de la Gua Electrnica, para minimizar el tiempo de navegacin por la misma. El uso de los diferentes
Servers Proxy en las redes de agregacin est basado en criterios de diseo del operador de la red Triple Play.
Redes de Acceso para Pares de Cobre y FTTH: En el ejemplo de la Figura 12.1, se muestra el uso concurrente
de ambas clases de accesos en la misma red Triple Play, si bien la operacin sobre cada concentrador difiere.
En el caso de Redes de Acceso de Cobre, se utilizan aqu modems del tipo ADSL 2+ y/o VDSL, con capacidad
de hasta 25 Mbps en el downlink del par de abonado. El IP DSLAM concentra el trfico en el uplink de los
accesos y distribuye el trfico en el downlink, hacia los CPE de los Subscriptores y, debido a que su rol es
crtico para el QoS y la latencia de los paquetes IP, debe estar integrado a la gestin de QoS extremo-extremo.
Los diferentes IP DSLAM, para accesos por par de cobre, y los diferentes PON Muxes (Pasive Optical Network)
para accesos FTTH desde CPE pticos manejan trfico heterogeneo y concurrente, siendo los flujos VoIP e
IPTV (video ms audio) del tipo streaming sincrnico, por lo que deben ser priorizados. El trfico de datos
puede operar con QoS del tipo Best Effort, similar al de Internet.
Figura 12.1: Esquema simplificado de una red Triple Play propietaria, con accesos xDSL y FTTH.
Cables POTS: Los cables POTS de la Figura 12.1 representan el Plantel Exterior del edificio tcnico del
operador Triple Play, donde residen los IP DSLAM que integran el trfico IPTV y de Internet, como mnimo. Por
sencillez del diagrama, se asume que no se utilizan MGW para el acceso de telfonos POTS en el edificio
tcnico, lo cual hara necesario el uso de splitters en el Repartidor General, los cuales integran pasivamente las
seales analgicas del telfono POTS del Subscriptor con la seal del modelo xDSL. Tal modalidad requiere el
uso de un segundo splitter en las premisas del abonado, para separar ambas seales.
766
En este ejemplo, el CPE integra el modem xDSL, un micro AGW con codecs VoIP y conectores RJ-11 para los
telfonos POTS, ms un nmero de conectores RJ-45 donde se conectan el STB IPTV y diversas terminales
del tipo PC. El CPE puede incluir un AP WiFi, para conexiones inalmbricas de datos de PC STB, y las
funciones de router IPv4 y NAT.
Cables GPON: En este ejemplo se utilizan accesos FTTH mediante tecnologas GPON pasivas, que conectan
un OLT (Optical Line Terminal) con hasta 32 ONT (Optical Network Terminal), mediante el splitting pasivo de
cada FO del par con el que opera el OLT. La red multipunto entre el OLT y los ONT es enteramente pasiva, y
puede cubrir un radio de 20 Km sin regeneracin. El downlink OLT -> ONT es compartido por los subscriptores
mediante multiplexacin estadstica del trfico de bajada, en tanto que una solucin para el uplink ONT -> OLT
puede ser la multiplexacin por un mecanismo tipo TDMA, entre otros posibles.
El uso de tecnologas GPON (Gigabit PON) para FTTH es activamente utilizado en todo el mundo para
accesos de Internet y servicios Triple Play. Como es posible graduar la asignacin de velocidades por
subscriptor, y GPON puede tener velocidades N x 1 Gbps, existe una amplia oferta de velocidades en
diferentes mercados, como ser (DL/UL, en Mbps): 10/5, 40/20, 100/10, 100/50, 200/20, 360/36, 300/300,
llegando hasta 1 Gbps para aplicaciones comerciales. Una variante de GPON es GEPON, en la cual Ethernet
se transmite directamente en el medio ptico de transmisin. Una ventaja de disponer de altas velocidades por
usuario es que pueden establecerse simultneamente varios flujos de IPTV correspondientes a canales
contiguos, con lo cual la experiencia de zapping es similar a la de redes de cable, que dispone de todos los
canales simultneamente a la entrada del sintonizador.
STB (NTB) y RC: Las tecnologas utilizadas para el Set Top Box (STB) y el Control Remoto asociado varan
segn el operador y el fabricante utilizado. El trmino NTB (Net Top Box) est siendo utilizado para referirse a
las unidades instaladas debajo de las pantallas planas, y que tienen entradas para IP. La conexin del STB al
ONT se realiza con cables tipo Cat 5 Cat 6, que pueden soportar hasta 1 Gbps a 90 metros. El Control
Remoto interacta con el STB, y este con el Headend y los Proxys, para permitir que el usuario navegue por el
men de la Gua Electrnica como en cualquier instalacin de TV por cable satelital.
El RC tiene numerosas funciones de control de presentacin, tpicamente disponibles en STB con un PVR
(Personal Video Recorder) incorporado. El stream de video/audio a ser presentado se almacena en modo
buffer en el disco rgido del STB, lo que permite prestaciones como PAUSA, que detiene la presentacin sin
prdida de informacin. Adems de funciones FF, FR, Skip, Display by Frame (Forward, Backward), es posible
almacenar el contenido visualizado programar una grabacin en un horario diferido (Time-shifted TV), entre
otras prestaciones. Las operaciones con el contenido registrado como Propiedad Intelectual son controladas
por el Server DRM en el Headend, lo cual puede incluir la autorizacin para grabar, la validacin de que el
contenido est siendo presentado a un usuario autenticado y en un terminal autenticado, entre otros controles.
Todas las operaciones entre los numerosos STB de una red y el Headend, para la navegacin por el portal
WEB, seleccin de contenido, etc., son controladas por el middleware, que equivale a un sistema operativo
distribuido para IPTV, el cual tiene componentes (mdulos) en cada elemento interactivo del camino HeadendSTB-RC. Entre otras facilidades del STB se citan la existencia de diferentes codecs de video y audio (MPEG-2,
MPEG-4, H.263, etc.) as como diferentes salidas de audio para su empleo en sistemas externos al terminal de
TV (Surround, Dolby Digital, AC-3, etc.).
Debe considerarse que el acceso del abonado presenta un cuello de botella en la mayora de las redes con un
ancho de banda inferior a 15 Mbps en el downlink, tomando en cuenta que un flujo MPEG-4 utiliza entre 8 y 10
Mbps para HDTV y entre 2 y 3 Mbps para SDTV (calidad DVD). Asumiendo que un abonado Triple Play puede
consumir 0.2 Mbps para telefona VoIP y 6 Mbps para el downlink del acceso a Internet, podra recibir en forma
simultnea un flujo HDTV y dos flujos SDTV, el acceso debera proveer al menos 22.5 Mbps en el downlink y 8
a 10 Mbps en el uplink. Tal velocidad de acceso solo puede ser provista con redes de acceso modernas que
utilizan modems ADSL 2+ VDSL que tienen instalaciones FTTH.
12.2.2 Protocolos en Arquitectura IPTV no-NGN

La Figura 12.2 representa el stack de protocolos y aplicaciones disponible para las operaciones de una red
IPTV solapada (no-NGN) y enfoca los procesos en redes IPTV solapadas de un operador de
telecomunicaciones bsico (telco). Adems muestra las capacidades disponibles para un operador de cable
que utiliza tecnologas IPTV en su red, accesos de subscriptores de redes mviles y extensiones del acceso
fsico de usuarios de las redes fijas (telcos) en modo inalmbrico.
767
La capa de Servicios Ofrecidos contiene prestaciones para el usuario final, as como para el operador de la red.
La gestin de las aplicaciones de usuario opera en un modo cliente-servidor, con funciones distribuidas entre el
Headend IPTV, los routers y elementos de las redes de acceso y el STB en las premisas del usuario. El control
de las numerosas sesiones interactivas entre los usuarios y el Headend se basa en un Middleware, el cual
opera como un sistema operativo distribuido de alto nivel para IPTV, adecuando los servicios a las acciones de
los usuarios, sean stas de tipo indagatorio, comandos del usuario para activacin de presentaciones,
validacin de las solicitudes de usuarios, autenticacin de usuarios y terminales, soporte de billing, soporte de
perfiles personalizados por el usuario, soporte de acciones de usuario diferidas (PVR), gestin del QoS
extremo a extremo para el servicio de streaming solicitado (SD, HD, browsing) y otras prestaciones.
Figura 12.2: Stack de Protocolos y Tecnologas de Acceso en una Arquitectura Privada de IPTV.
Las aplicaciones que proveen la oferta de servicios controlan el hardware y software de subsistemas para DTV
streaming (transcoding, servers multicast, funciones multicast distribuidas en la red de transporte, zapping, etc.),
al igual que el hardware y software para el servicio CoD, el servicio de gua electrnica y las funciones del
portal WEB. Tambien interactan con funciones de control CA/DRM para CoD y programas premium en DTV.
La conectividad extremo-extremo se basa en IP sobre MPLS (en el ncleo de red), con diferentes niveles L2
segn las tecnologas de las redes de acceso, siendo Ethernet es el protocolo tpico del Nivel de Enlace.
El sistema de gestin del Headend, representado en parte por el NMS/OSS, controla la provisin de flujos
secuenciales homogneos, que son el resultado de intercalar programas de diferentes fuentes con variaciones
en su codificacin de video/audio/datos ms la insercin de canales y tandas publicitarias locales.
La Figura 12.2 muestra una variedad de protocolos soporte a funciones interactivas de control del usuario y del
sistema global de IPTV, as como funciones para streaming de seales de DTV y de video CoD.
Se indican aplicaciones de IPTV sobre redes fsicas almbricas (xDSL, PON) y en redes de cable a travs del
uso de cablemodems DOCSIS, siendo ms probable el uso de IPTV por cable hasta el nodo HFC, luego del
cual es convertida a un flujo digital sobre un modulador 64-QAM, con salida es canalizada en RF. Para ampliar
el horizonte de uso de IPTV en redes inalmbricas, se incluye el transporte final con redes de acceso WiMAX
de alta velocidad, la distribucin de seales de IPTV en el hogar mediante WiFi (por ejemplo para clientes IPTV
residentes en PC, Notebooks y Tablets) y la prestacin de servicios IPTV sobre redes 3G/LTE.
Este documento se enfoca en la prestacin del servicio de IPTV sobre redes fijas, con accesos xDSL y FTTx.
En el caso de protocolos soporte de streaming, la Figura 12.2 muestra diferentes modalidades para encapsular
video en UDP/IP. Se citan las diferentes variantes de streaming desde los servers del Headend:
Transporte por encapsulado de bloques de Audio, Video y Datos directamente sobre UDP. En este
caso, como en el resto, se crean tres flujos diferenciados y sincronizados en el tiempo sobre diferentes
768
Ports UDP, para su demultiplexin. El flujo de datos del programa puede contener los subttulos,
seleccionados en un idioma en particular, al igual que el flujo de audio del programa.
Transporte de bloques de Audio, Video y Datos sobre el protocolo MPEG-2 TS (Transport Stream),
utilizado con cualquier clase de codec de video. Este protocolo, utilizado en la digitalizacin de la TV a
nivel mundial desde mediados de los aos '90, fue concebido para utilizar redes ATM, por lo que el
tamao del bloque es equivalente a la carga de 4 celdas ATM contiguas (192 bytes).
Transporte de Audio, Video y Datos encapsulados en tramas MPEG-2 TS que forman la carga del
protocolo RTP (Real Time Protocol). RTP siempre es utilizado en conjunto con RTCP.
Transporte de informacin SI/PSI, solo bajo MPEG-2 TS, para la gestin de la EPG y la identificacin
del segmento de programa actualmente bajo streaming.
El mecanismo de transporte MPEG-2 TS, ampliamente probado, se complementa con el flujo de datos SI
(Service Information) y PSI (Program Specific Information) en los headers de tramas TS. Los campos SI/PSI
contienen informacin clave para identificar y delimitar un flujo de video dado. La informacin de SI/PSI
proviene de las fuentes originales del contenido, que ingresa al Headend por recepcin satelital terrestre de
seales DTV en formato MPEG-2 TS, por captura de seales de operadores de cable bajo acuerdos por
generacin de contenido local. La informacin de las tablas SI/PSI puede ser editada en el Headend, y es
esencial para la gestin de la Gua Electrnica de Programas, pues contiene los delimitadores entre programas
diferentes, como el marcado del fin de de una pelcula una seccin, el inicio fin de la pauta publicitaria, etc.
El control del flujo de informacin de video CoD video DTB se basa en la interactividad STB-Server, la cual es
soportada por el Middleware de IPTV. La informacin interactiva se transporta mediante el protocolo RTSP,
sobre TCP UDP. En el caso de DTC streaming, la informacin para conexin navegacin por los flujos
multicast fluye mediante IGMP, prestacin que reside en los diferentes routers IP de la red IPTV.
El middleware de las redes IPTV soporta y simplifica la interaccin de complejas aplicaciones distribuidas, sea
en WEB servers, video servers, servers de autenticacin, de billing, EPG servers, etc. Se integra, como una
capa intermedia, entre la capa de servicios y las capas de transporte en la red y de protocolos soporte de la
capa de aplicaciones, utilizando XML, SOAP, servicios WEB y arquitecturas orientadas al servicio. Permite que
aplicaciones que corren bajo diferentes sistemas operativos puedan interactuar, por lo cual el middleware es un
equivalente a un sistema operativo distribuido en la red IPTV, que emplea mdulos residentes en cada sistema
para crear un nivel de abstraccin. En este sentido, los mdulos son equivalentes a los drivers de un OS.
Las sesiones interactivas HTML utilizan HTTP HTTPS, segn el nivel de seguridad requerido, y pueden ser
complementadas con SOAP (Simple Object Access Protocol), para sesiones WEB. Los protocolos restantes de
la Figura 12.2 soportan prestaciones de sincronismo temporal (RTCP) y la asignacin de direcciones IP luego
de los procesos de autenticacin y verificacin de perfiles de abonado.
Los conceptos de QoE (Quality of Experience), tal como es percibida por el usuario, y de QoS, que afectan al
operador e impactan en la QoE, estn vinculados con el stack de protocolos de la Figura N. El parmetro QoS
es afectado por todos los protocolos desde el nivel UDP/TCP hasta el Nivel Fsico, mientras que QoE est
fuertemente vinculado con protocolos y servicios desde el nivel de RTP hasta el nivel de aplicaciones.
Como el QoE est fuertemente influenciado por la percepcin sensorial visual y auditiva, as como los aspectos
estticos de la visualizacin, en la prctica se comprueba que tiene mayor valor perceptual que el QoS. As,
una presentacin con un codec de video de calidad y resolucin media que est correctamente editada y es
acompaada por un flujo de audio de alta calidad, ms subttulos de buen diseo y correctamente creados y
presentados puede tener igual QoE que la misma presentacin con un codec de mayor calidad y resolucin
(ancho de banda de video). Esto hace que QoE sea el parmetro por excelencia para definir los parmetros de
la presentacin audiovisual. El QoE, como medida integral del servicio IPTV, se extiende a la velocidad de
zapping, la amplitud de la informacin EPG, la facilidad para la navegacin por el Portal WEB, para la seleccin
de programas por demanda y otros aspectos de la funcionalidad del control remoto.
A continuacin se describen los protocolos de la Figura 12.2 entre la capa de servicios y TCP/UDP/IP.
MPEG-2 TS MPEG-TS es un formato normalizado para transmitir datos de audio, video y datos PSIP
(Program and System Information Protocol) en redes de cable, terrestres y satelitales, y es de uso
generalizado en la TV Digital DVB y ATSC. El protocolo TS describe un contenedor para encapsular
flujos PES (Packetized Elementary Stream), y posee atributos para la correccin de errores y el
769
sincronismo de flujos. Est descripto en el standart MPEG-2 Parte 1, junto con la variante MPEG-2 PS
(Program Stream), que es utilizada para el almacenamiento de los mismos datos en servers, DVD, etc.
IGMP (v2 superior) se utiliza para la conexin a un flujo multicast (canal DTV) para cambiar de un
flujo a otro, mediante el control remoto del STB. IGMP intercambia informacin de estado de los routers
con funciones multicast IP y la pertenencia de los usuarios del servicio multicast, que es actualizada
constantemente. El protocolo IGMP es una extensin del protocolo IP, para servicios multicast
RTP (Real-time Transport Protocol) ha sido desarrollado por la IETF para transporte extremo-extremo
de media sincrnica sobre redes IP, y ha tenido gran aceptacin y un amplio marco de aplicaciones
desde su adopcin por la ITU-T como para el transporte de VoIP y video en redes H.323, desde 1996.
RTCP (RTP Control Protocol) es utilizado en forma simultnea con RTP, para monitorear el QoS, llevar
estadsticas de transmisin a los subsistemas involucrados en la transmisin y recepcin y dar soporte
al sincronismo de flujos mltiples. Tpicamente, RTP utiliza un port par de UDP y RTCP utiliza el
siguiente port con numeracin superior a la de RTP.
RTSP (Real Time Streaming Protocol) opera como un protocolo de control de red en aplicaciones de
entretenimiento y de sistemas de informacin basados en servers de video en modo cliente-servidor,
sobre los cuales provee diversas prestaciones de control de los flujos sincrnicos. RTSP permite el
control de la sesin multimedia con comandos del tipo VCR, como Play, Pausa, FF, FR, Stop, etc.
RTSP no se involucra en la transmisin de los flujos, pero opera en conjunto con RTP y RTCP en el
inicio, la presentacin y la terminacin del flujo de video. Como RTSP es independiente de RTP/RTCP,
puede ser utilizado con otros protocolos de streaming media, tanto pblicos como propietarios.
SOAP (Simple Object Access Protocol) es un protocolo basado en XML utilizado para intercambiar
informacin estructurada durante la implementacin de servicios WEB. SOAP utiliza protocolos clientes
como HTTP SMTP para el transporte de sus datos en redes IP, aunque HTTP es la seleccin tpica.
SOAP utilizar HTTPS, para sesiones que requieren seguridad mediante encriptado de los datos.
NTP (Network Time Protocol) es utilizado para sincronizar los relojes de todos los sistemas
informticos interconectados a una red IP, superando los problemas de latencias variables. NTP supera
las diferentes latencias de una red IP mediante el algoritmo de Marzullo, con sincronismos de 1 mseg
sobre redes IP privadas, y del orden de las decenas de milisegundos sobre la Internet.
NTP utiliza una red jerrquica de fuentes distribuidas de sincronismo, con cada nivel denominado
Stratum, siendo el Stratum 0 el nodo raz. El sincronismo se basa en la referencia UTC (Coordinated
Universal Time), fuente primaria de referencia temporal para todo el mundo, en reeemplazo de la
referencia GMT (Greenwich Mean Time). Las zonas de tiempo deben ser computadas por separado.
Un Stratum NTP utiliza timestamps de 64 bits, con 32 bits para segundos y 32 bits para fracciones de
segundo, suficiente para llegar a casi 136 aos antes de volver a cero. La parte fraccional puede
resolver, en teora, hasta 233 picosegundos.
SNTP (Simple Network Time Protocol) es una implementacin ms simple de NTP, y se emplea en
redes IP con aplicaciones que no requieren una gran precisin en el sincronismo temporal, aun cuando
utiliza el mismo protocolo y timestamp.
DHCP (Dynamic Host Configuration Protocol) es un protocolo utilizado para configurar dispositivos que
estn conectados a una red IP, tal que puedan comunicarse mediante el protocolo IP. DHCP opera en
un modo cliente-servidor, donde el cliente DHCP solicita informacin de configuracin, como ser una
direccin IP, una ruta por default, una ms direcciones de servers DNS, duracin de la asignacin de
la direccin IP, que debe ser renovada por el cliente, y otros parmetros de configuracin del nivel de
red. En una LAN pequea, el server DCHP est contenido en el router conectado a la Internet. En IPTV
el server DCHP configura los parmetros de red de los STB.
770
12.2.3 IPTV en Redes NGN e IMS

Antes y durante el desarrollo de arquitecturas para IPTV en redes NGN e IMS existieron numerosas soluciones
propietarias, con redes solapadas que utilizan accesos de banda ancha, cuyas prestaciones y subsistemas
fueron asimiladas y expandidas en las soluciones NGN/IMS, en particular los servicios del middleware, las
prestaciones sobre el terminal de usuario y la introduccin de varias facilidades convergentes como ser los
servicios IM/PM, la mensajera en grupos cerrados y avisos on-screen.
Las soluciones ETSI como ITU-T, basadas en NGN/IMS, han probado ser complejas de implementar por el uso
de numerosas Funciones (ETSI) Entidades Funcionales (ITU-T), las que luego deben ser incorporadas como
mdulos de software en los servers y otros elementos de las arquitecturas. En la actualidad, solo Ericsson y
Huawei han provisto sistemas integrales de IPTV compatibles con IMS, aunque su adopcin es limitada.
Es posible acomodar la mayora de las prestaciones de los subsistemas del ejemplo de red IPTV propietaria de
la Figura 12.3 en los diferentes estratos y reas funcionales de los siguientes modelos de alto nivel de las
arquitecturas ETSI e ITU-T, aunque en algunos casos el mapeado entre estos y las funciones no es posible,
como en el caso de algunos subsistemas del Headend IPTV del ejemplo, el middleware y protocolos de control.
Figura 12.3: Arquitectura Funcional NGN IPTV de Alto Nivel (ETSI TISPAN).
A fines del ao 2005, ETSI TISPAN inici el desarrollo de dos standares para IPTV: un subsistema dedicado
que integraba soluciones de IPTV existentes con la arquitectura NGN TISPAN y una solucin IPTV basada en
IMS, para aprovechar prestaciones ya normalizadas, como la autenticacin de usuario y terminal de red, la
gestin del perfil de usuario, la tasacin de servicios y otras facilidades de la solucin NGN TISPAN. El
esquema basado en IMS permite integrar los servicios de IPTV con otras prestaciones como mensajera,
gestin de presencia (IM/PM) y otras funciones como la presentacin de Caller ID en la pantalla de TV.
La ITU-T comenz a desarrollar una arquitectura IPTV luego de finalizar NGN Release 1, estableciendo el
IPTV-FG, con el objetivo de desarrollar y promover un estndar IPTV global, integrando los trabajos de
diferentes WG. El IPTV-FG describi las prestaciones bsicas de IPTV sobre tres arquitecturas NGN IPTV
posibles: una arquitectura que integra soluciones no-NGN ya existentes, una arquitectura basada en NGN
exclusivamente y una arquitectura IPTV basada en NGN y sus componentes IMS. La influencia de ETSI, como
miembro del IPTV-FG de la ITU-T, puede apreciarse en la similitud de las propuestas.
A continuacin se describe, resumida, la arquitectura funcional NGN IPTV de ETSI TISPAN, equivalente a la de
NGN ITU-T. La misma se constituye con seis bloques funcionales, representados en la Figura 12.3. Estos son:
Funciones de Aplicacin: Incluyen IPTV y otras funciones de Aplicacin NGN, como la emulacin
PES/PSS. Las aplicaciones IPTV incluyen funciones orientadas al cliente (provisin del servicio y
seleccin y autenticacin de servicios IPTV) y funciones orientadas al operador (preparacin de
contenido, administracin de media, control sobre subsistema IPTV en la red NGN, control de licencias
va DRM y gestin de abonados). Las aplicaciones NGN permiten el acceso de los usuarios a servicios
multimedia enriquecidos dispersos en mltiples subsistemas NGN, como ser el intercambio de
mensajes entre terminales fijos y mviles. En este nivel existen facilidades centralizadas para la gestin
771
en NGN de interfaces hacia mltiples sistemas de gestin de contenido, billing e interacciones con
otros servicios, como ser aquellos basados en IMS.
Funciones de Control del Servicio y de Entrega de Media: Administran las interacciones con otros
componentes NGN para control de admisin, coleccin de la tasacin de servicios y de informacin del
QoS. Este nivel es el encargado de la operacin de los servicios IPTV, controlando la entrega de media,
su seleccin y la gestin de cada sesin IPTV.
Funciones de Transporte: Este nivel incluye funciones de control de transporte que proveen polticas de
trfico y QoS, reserva de recursos, provisin de direcciones IP, autenticacin de usuarios y terminales
a nivel de red y configuracin de las redes de acceso. Tambien incluye las funciones de procesamiento
del transporte que controlan los flujos IP y la transmisin de los datos multimedia.
Funciones de Usuario Final: Proveen la conexin del usuario a la red NGN, as como el control de los
servicios. Contienen las funciones necesarias para el procesamiento de la informacin multimedia,
como ser la gestin de multimedia en los formatos soportados localmente, y la decodificacin y la
presentacin al usuario del flujo multimedia segn las propiedades del terminal. la ITU-T incluye aqu
funciones de PVR (Personal Video Recorder) incorporadas en el STB en una funcin de red. Otras
funciones para servicios de IPTV personalizados son: PBS (Personal Broadcasting Service), para
permitir la difusin de contenido personal de un usuario; TA (Targeted Advertising), para promociones
de bienes y servicios segn el perfil del usuario y PM (Presence Management), para hacer visible la
presencia online de un usuario a otros dentro de su grupo cerrado de conocidos, integrando funciones
de mensajera. Se remarca la similitud de estas prestaciones con otras existentes en aplicaciones de la
Internet, desarrolladas con posterioridad en forma simultnea a estas propuestas.
Funciones de Management: Incluyen funciones requeridas para cumplir con servicios IPTV al usuario
final, asegurando la provisin del servicio y tasacin adecuada de los servicios IPTV entregados.
Funciones de Proveedor de Contenido: Incluye las funciones provistas por la entidad que es duea del
contenido que est habilitada para licenciar vender el contenido. Estas funciones son la fuente real
del contenido, de la metadata asociada y de los derechos de uso del mismo.
Una arquitectura de IPTV basada en IMS opera con funciones de control del servicioy funciones separadas de
control de media y de entrega de media, como muestra la Figura 12.4. El Ncleo IMS interacta con el
Equipamiento de Usuario (UE) a travs de la interfaz Gm para todas las acciones de gestin de la sesin de
usuario, y el Ncleo IMS se interconecta con el server de Funcionalidades de Control de Servicios IPTV a
travs de la interfaz ISC (IMS Service Control), para validar los servicios a prestar al UE.
Figura 12.4: Arquitectura Funcional de IMS IPTV.

El UE se interconecta con la Funcin de Control de Servicio directamente, a travs de la interfaz Ut, para todo
lo concerniente a la configuracin de los perfiles de servicio. Tambien utiliza la interfaz Xa para conectarse con
772
la funcin SSF para la seleccin de funcionalidades del servicio IPTV, y SSF utiliza la funcin SDF para la
descripcin de las funcionalidades del servicio para ese UE en particular.
Las funciones que proveen el control de media y la entrega del flujo de video (streaming) residen en un grupo
separado, que contiene funciones de control del almacenamiento, distribucin y streaming de IPTV. Las
funciones MCF (Media Control Function) pueden controlar las funciones MDF (Media Delivery Function) a
travs del punto de referencia Xp, para permitir la construccin de una infraestructura de distribucin de media
que sea escalable y distribuida en toda la red IPTV. El contenido de los servers de video puede ser provisto por
fuentes externas, que se importan mediante interfaces externas a MDF, directamente desde Headend IPTV.
Las Funciones de Control de Media (MCF) y de Control de Entrega de Media (MDF) tienen a cargo crear una
arquitectura flexible y jerrquica de distribucin de media en un entorno distribuido.
Las principales tareas de las funciones MCF son:
Mapear la identificacin y localizacin del contenido sobre la red de MDF y seleccionar los MDF.
Administrar el almacenamiento del contenido, la propagacin del contenido a redes de distribucin y
controlar la entrega a funciones MDF y al equipamiento de usuario (UE).
Interactuar con el UE para proveer funciones tipo PVR mediante comandos RTSP, controlar el propio
PVR y las indicaciones de almacenamiento para el servicio time-shift TV, sobre programas en vivo.
Recolectar informacin estadstica sobre la utilizacin de los servicios IPTV.
Las funciones MDF son responsables de la entrega de media al equipamiento de usuario, pudiendo ser la
media video, audio y datos. Las MDF tienen las tareas clave de:
Almacenamiento de media, como ser programas bajo CoD, ms la informacin del servicio (EPG).
Manejo del flujo de media a cada UE, gestin de la proteccin de contenido (encriptado, DRM), proveer
servicios de transcodificacin de media a diferentes formatos segn preferencias de usuario la
capacidad del terminal en trminos de resolucin de TV.
Prestaciones Tpicas de Servers para IPTV

Se presentan algunos ejemplos actuales de las prestaciones de servers para IPTV streaming. El hardware se
compone de mdulos del tipo blade, con la capacidad de manejar hasta 16 flujos independientes de IPTV sobre
un conector RJ-45, en una interfaz Fast Ethernet de 100 Mbps. Esta configuracin permite un crecimiento
flexible de las capacidades de streaming del server, que puede asimilar hasta 8 mdulos (128 flujos IPTV), con
resoluciones SD y HD. Los servicios son controlables a travs de una interfaz WEB, y la capacidad interna de
almacenamiento es variable para soportar NVR (Network Video Recorders), eliminando la necesidad de PVR.
Esta clase de servers se utiliza en al streaming de canales de TV, aunque puede brindar prestaciones CoD.
Algunas de las facilidades que proveen los servers para IPTV streaming son:
Video Streaming MPEG-2, MPEG-4 y H.264, para SD y HD.
Soporte a la redistribucin de streaming entre diferentes servers en el borde de la red IPTV.
Soporte a Servicios Multicast.
Gestin remota sobre interfaces WEB.
Soporte para grabaciones Time-Shift TV, basadas en la red IPTV.
Soporte al streaming de Flash Player.
Soporte al streaming sobre UDP y sobre TCP.
Encriptado de Streams para programas Premium y Autenticacin de Usuarios.
Soporte para proveer 100+ canales OTT (Over the Top) y FTA (Free to Air), por RF y por la Internet.
Soporte para NPR (Network Personal Recorders), junto con la gestin del usuario.
La modularidad de las prestaciones permite el diseo econmico de servicios de hospitalidad, en diferentes

empresas e instituciones (salas de espera, etc.), as como para redes corporativas operando en modo CDN
773
(Content Delivery Network), que pueden escalar hasta redes pblicas con cientos de miles de usuarios y con
esquemas de multicasting en el borde de las redes de acceso.
12.3 Evolucin de Codecs de Video ITU-T e ISO

12.3.1 Codecs ITU-T H.26X e ISO MPEG-n
La Figura 12.5 presenta codecs de video normalizados como standares internacionales por la ITU y la ISO,
ambos rganos dependientes de la ONU. Se muestra el primer codec digital (ITU-T H.120), presentado en
1984, hasta el codec en desarrollo HEVC (High Efficiency Video Coding), sucesor de MPEG-4 Parte 10/H.264.
Las Recomendaciones ITU-T H.26x son tratadas por el VCEG (Video Coding Experts Group) para aplicaciones
en telecomunicaciones, mientras que los standares ISO son desarrollados por el MPEG (Motion Picture Experts
Group), y son de mayor complejidad, con aplicaciones en reas como televisin, entretenimiento, industria, etc.
Ambos organismos trabajan cooperativamente en aplicaciones que requieren interoperabilidad y las normas se
difunden con la conjuncin de ambos nombres, como ser H.264/MPEG-4 Parte 10 (AVC). H.264 es una norma
integral ITU-T, mientras que MPEG-4 es un standart ISO/IEC con 27 Partes y dos codecs de video: Parte 2, el
codec original de MPEG-4 orientado a multimedia, y Parte 10 (H.264/AVC), que evoluciona de MPEG-2.
Las reas punteadas de cada norma representan mejoras en las versiones originales. Las normas ISO son
publicadas por la IEC (International Electrotechnical Commission) como ISO/IEC.
Figura 12.5: Standares Internacionales de Codificacin de Video.
12.3.2 ITU-T H.120: Codecs para Videoconferencia con Transmisin Digital Primaria
Introducido en 1984, es el primer standart para videoconferencias digitales sobre enlaces punto a punto E1
(2,048 Mbps) y T1 (1,544 Mbps) con video PAL NTSC bajo formato color CCIR 624 YUV y audio G.711. La
seal PAL de luminancia Y es muestreada, alternando lneas, a 5 Mhz con 8 bits. Se generan imgenes B/N de
256 x 286 pixels visibles (campos entrelazados de 143 lneas) y video Y, sin comprimir, de 14.6 Mbps.
El color se submuestrea 5:1 respecto de luminancia, a 1 Mhz y 8 bits, generando un flujo adicional de 5.9 Mbps
que se codifica en forma separada. La seal PAL se reduce de 43.9 Mbps (color 4:2:0) a 20.6 Mbps por accin
del submuestreo. La compresin final es aproximadamente 20:1, con calidad de video regular. El standart
define tres codecs diferentes en sus tres partes. Codec Parte 1: PAL sobre tramas E1; Codec Parte 2: NTSC
sobre T1 (interoperable con P1 si utiliza tramas E1) y Codec Parte 3: NTSC sobre tramas T1.
774
Utiliza cinco clases de compresin: 1) codificacin DPCM de reas con movimiento por prediccin espacial; 2)
submuestreo horizontal de lneas pares en reas con movimiento; 3) omisin de campos e interpolacin entre
campos contiguos (solo se transmiten reas con movimiento); 4) codificacin de movimiento intercampos de
bloques 16H x 8V (sobre reas de 30 x 14 pels), y 5) codificacin del fondo de imagen. Se usa cuantificacin
escalar y codificacin entrpica RLC y VLC. Las mejoras por movimiento fueron introducidas en 1988. Tuvo
bajo impacto por su temprana introduccin y complejidad de montaje, aunque precede por aos a H.261.
12.3.3 ITU-T H.261: Codec de Video para Servicios Audiovisuales a N x 64 Kbps

H.261 es un standart de codificacin de video introducido en 1988 por la ITU-T, para satisfacer necesidades de
servicios de videoconferencia en redes ISDN y redes E1/T1 fraccionales. Por este motivo, fue diseado con
escalabilidad de 64 Kbps (un canal B) por el grupo ITU-T Specialist Group on Coding for Visual Telephony.
H.261 cubre las velocidades entre 40 Kbps y 2 Mbps, y fue diseado para operar en regiones con standares de
TV NTSC y PAL. As, H.261 utiliza imgenes basadas en el formato CIF (Common Intermediate Format, NTSC
525 lneas, 30 Hz), interoperable con el formato SIF (Source Intermediate Format, PAL 625 lneas, 25 Hz).
La entrada es una seal de video progresivo YCrCb 4:2:0 a 29,97 tramas/seg y las imgenes de salida son de
formato CIF (352x288) y QCIF (176x144), en pixels de luminancia Y, muestreadas a 8 bits comprimidas a un
ritmo superior a 7,5 tramas/seg. En 1993 se agreg el modo congelado de imgenes 4CIF de 704x576 pixels.
Tabla 12.6: Velocidades en los Formatos QCIF y CIF a 30 y 7,5 Tramas/seg, en Video H.261.
H.261 incorpora imgenes en 4 capas: Imagen, Grupo de Bloques (GOB), Macrobloque y Bloque. El codec es
un hbrido pre-JPEG que introduce el concepto de tramas I (Intratrama) y tramas P (Predictivas). Sobre ellas
opera con redundancia temporal utilizando prediccin intertramas DPCM, redundancia espacial utilizando
transformadas DCT, cuantificacin escalar y codificacin entrpica de residuos con RLC zig-zag y VLC (H.120).
Dado el submuestreo color 4:2:0, cada MB consiste de 6 bloques: 4 bloques 8x8 de luminancia y dos bloques
de crominancia 8x8 para Cr y Cb. La deteccin de movimientos es realizada sobre MB 16x16 de luminancia Y
en reas de 30x30 pixels, y luego se aplica a Cr y Cb. El retardo algortmico es de 4 tramas (120 mseg) y el
decodificador incorpora el concepto de Buffer HRD (Hypothetical Reference Decoder).
La Tabla 12.6 presenta valores de algunos parmetros de un equipo H.261, ya obsoleto, de un fabricante lder.
Se aprecia que el nivel de compresin promedia 50:1 y que la velocidad de salida se depende la cantidad de
tramas por segundo. Desde 15 fps, el movimiento es casi natural y 7.5 fps es el lmite inferior de velocidad.
El flujo de bits del codificador H-261 contiene un cdigo FEC BHC (511, 493), para deteccin y correccin de
errores, cuya decodificacin es opcional. Se utiliza el concepto de gramtica y sintaxis para determinar el flujo
estructurado de video H.261.
La gran mayora de los conceptos de H.261 son la base de los codecs MPEG-1, MPEG-2 y MPEG-4 Parte 10 y
sus contrapartes ITU-T H.262 (MPEG-2) y H.264 (MPEG-4 AVC).
Fabricantes lderes extendieron sus productos a formatos CIF y SIF complementarios, velocidades p x 56 Kbps
(tpico uso de 112 Kbps para video ISDN-USA) y rangos de velocidades CIF entre 128 y 768 Kbps (ITU-T) para
videoconferencias de calidad media entre 11 y 30 fps. El audio es codificado con G.723.1 a 6,4 Kbps, otros
codecs ITU-T codecs propietarios, en sistemas cerrados.
El impacto de H.261 en la industria fue muy importante, pues coincidi con la evolucin de la infraestructura de
telecomunicaciones hacia ISDN, SDH, ATM y Frame Relay y los avances en microelectrnica y tecnologas de
terminales ISDN, ad-hoc y diversos perifricos de la industria de las PC.
775
El standart H.263 desplaz parte de la base instalada de H.261, hasta la aparicin de servicios sobre IP.
La Figura 12.7 es un diagrama en bloques simplificado del codificador H.261 contiene un lazo ABS (Analysis
by Synthesis) para minimizar los errores predictivos en la codificacin por movimiento, mediante el mdulo
IDCTQ. Las tramas I se codifican en modo interno. El bloque de control de codificacin selecciona el modo I
P y controla la velocidad binaria de salida, ajustando los parmetros de codificacin. El parmetro que define el
ritmo de salida de tramas (10 30 fps) tiene un impacto directo y lineal sobre la velocidad del flujo H.261.
Figura 12.7: Codificador Hbrido H.261 (DCT/DPCM).
12.3.4 ITU-T H.262 (MPEG-2 Parte 2, ISO 13818-2)

MPEG-2 es una arquitectura integral para codificar, transmitir y almacenar audio, video y datos de informacin
audiovisual de categora teledifusin (TV broadcasting). Se compone de 11 Partes, con la la Parte 2 tratando la
codificacin de video. Debido a la necesidad de crear normas convergentes, la ITU-T colabor con la ISO en la
definicin del standart de codificacin de video y la compatibilizacin con sus Recomendaciones serie H.2xx.
La ISO comenz el desarrollo de MPEG-2 casi simultneamente con MPEG-1. El proyecto fue aprobado en
Noviembre de 1994, editado en 1995 y publicado en forma conjunta con la ITU-T en 1996. El standart de video
es mantenido en forma conjunta por ambas organizaciones, as como con ITU-T H.264/Video AVC MPEG-4.
MPEG-2 Parte 2 es publicado por la IEC, como standart internacional, con texto idntico a la Rec. ITU-T H.262,
perfecciona MPEG-1 Video y define Perfiles y Niveles de utilizacin que cubren los requerimientos para la
digitalizacin de la TV (SD) y soporta HD. Es clave el soporte de video entrelazado PAL/NTSC/SECAM.
Adems perfecciona algunos algoritmos y sintaxis de decodificacin de MPEG-1.
La gran difusin de MPEG-2 se debe al despliegue, con su introduccin, para digitalizar enlaces satelitales y la
transmisin de TV en Europa y en el resto del mundo. MPEG-2 es el ncleo alrededor del cual se han
desarrollado los tres sistemas integrales de TV digital SD y HD: DVB, ATSC e ISDB.
Hacia el ao 2000, MPEG-2 PS es adoptado como standart para la operacin de los sistemas DVD (Digital
Video Disc), lo cual extiende su popularidad. MPEG-2 Video ser tratado en detalle ms adelante, y los codecs
Desde el ao 2007 el standart H.262/MPEG-2 Parte 2 no recibe nuevas correcciones y/o ampliaciones, y las
actualizaciones se enfocan sobre MPEG-4.
MPEG-1 y MPEG-4 Parte 10 sern presentados con respecto a las diferencias sobre H.263/MPEG-2.
Las normas MPEG Video se basan en la descripcin sintctica y semntica del flujo estructurado de video,
organizado en capas que encapsulan componentes codificados, pero no definen ningn algoritmo en particular.
Esto da lugar a la existencia de codecs MPEG con calidades y rangos variados, segn fabricantes y costos.
776
El codec H.262 provee un esquema de codificacin con un amplio rango de aplicaciones, velocidades binarias,
resolucin de imagen y calidades. Su algoritmo bsico de codificacin es un hbrido de prediccin compensada
de movimiento y DCT, con imgenes a ser codificadas entrelazadas progresivas. Se define un nmero
limitado de subconjuntos de Perfiles (funcionalidades) y Niveles (parmetros) para facilitar su uso prctico.
Desde el ao 2006, productos de la siguiente generacin H.264 AVC/MPEG-4 Parte 10 reemplazan
aplicaciones de MPEG-2 en las reas de HDTV y TV en terminales mviles, en forma modular sobre la
infraestructura establecida de MPEG-2, tal como estaba planificado en el mapa de trabajo de MPEG.
12.3.5 ITU-T H.263: Codec de Video a Baja Velocidad. Video 3gp en Redes Mviles
La Rec. ITU-T H.263 fue introducida en 1995, con versiones 1998 (H.263+) y 2000 (H.263++). El standart ha
recibido actualizaciones el ao 2005. Hacia la versin H.263++ se incorporan numerosos enriquecimientos
basados en H.261, MPEG-1, MPEG-2 y otros standares. H.263 es decodificado por un codec MPEG-4 AVC.
H.263 ampla el espectro de uso de H.261 hacia la red telefnica fija (H.324), mvil e IP (videoconferencias y
streaming en H.323 y SIP bajo RTSP), y ha tenido mltiples aplicaciones en los principales sitios de difusin de
video de la Internet y en numerosos programas del tipo media players para PCs.
En redes mviles es utilizado para streaming y almacenamiento con el formato contenedor 3gp. Adems, es
una opcin requerida en la arquitectura IMS de 3GPP (IP Multimedia Subsystems) y en otras aplicaciones
como MMS (Multimedia Messaging Service), PSS (Packet-switched Streaming Service).
H.263 permite su utilizacin en sesiones multiusuario y tiene numerosas mejoras opcionales respecto de H.261,
cuyos modos pueden ser negociados punto a punto con un protocolo de sesin como H.245. Un codec H.263,
en su versin bsica, consume tantos MIPS como un codec H.261.
H.263 contiene muchas similitudes con H.261, as como notables diferencias:
Codifica debajo de 64 Kbps en aplicaciones sobre la PSTN, con la opcin FEC (Anexo H, 1998)
Incorpora el formato sub-QCIF (128 x 96) para baja velocidad, adems de formatos QCIF (176x144),
CIF, 4CIF (704x576) y 16CIF (1408x1152).
Aumenta la precisin a 0,5 pixels en la compensacin de movimiento, lo que permite que descarte el
filtro pasabajos espacial en el loop de H.261, compensando con interpolacin bilineal de 1/2 pixel.
Ambos codecs utilizan una estructura jerrquica de elementos de video, pero H.263 reduce el uso de
macrobloques a una nica lnea de MB por imagen, versus las 3 lneas de MB en H.261.
H.263 utiliza un conjunto ampliado de tablas VLC, optimizado para cada clase de codificacin.
Los vectores de movimiento se codifican en forma diferencial, como en H.261, pero se ampla la fuente
de predicciones a MB en la fila de MB previa, adems del MB previo de H.261.
Restringe el paso de cuantificacin en un GOB a dos pasos contiguos, con tablas VLC ms eficientes.
En el caso de MB no codificados (skipped), utiliza un bit de marcado y no la direccin del MB (MBA).
H.263 introduce el concepto Perfiles y Niveles, segn los MODOS (Anexo X, 1998, 2000).
H.263 introduce 18 modos opcionales de enriquecimiento de codificacin, negociables bajo H.245,
algunos de los cuales son:
o
o
o
o
o
o
MODO Syntax-based Arithmetic Coding (Anexo E, 1995): Reemplaza la codificacin VLC.

MODO Deblocking Filter (Anexo J, 1998): Se utiliza un filtro de bordes en bloques 8x8.
MODO Improved PB-frames (Anexo M, 1998): Mejora bloque B utilizando dos MV (uno nulo)
MODO Temporal, SNR, and Spatial Scalability (Anexo O, 1998): Similar a MPEG-2.
MODO Independent Segment Decoding (Anexo R, 1998). Reconstruccin aislada de imagen.
MODO Modified Quantization (Anexo T, 1998): Mejora el control de codificacin segn bitrate.
777
La Tabla 12.8 presenta los parmetros segn los Niveles de operacin H.263 definidos en el Anexo X (Abril
2001). Los Niveles encuadran las diferentes resoluciones y velocidades posibles en H.261 y permiten definir y
fabricar sistemas y aplicaciones interoperables.
Tabla 12.8: Niveles de Operacin en H.263.

Los niveles 50, 60 y 70 soportan formatos normalizados y propietarios, hasta los valores lmites definidos. La
Tabla 12.9 muestra los Perfiles de operacin normalizados en H.263, segn las aplicaciones de H.263.
Tabla 12.9: Descripciones de Perfiles H.263 y Aplicaciones (Ao 2001).

Un parmetro definido en H.263 es el Pixel Aspect Ratio (PAR). El problema del PAR aparece porque en la
Rec. ITU-R BT.601 se define que la resolucin horizontal de seales de definicin standart es de 720 pixels,
generados al digitalizar la seal de luminancia a 13.5 Mhz, mientras que la industria informtica estableci
como standart de-facto el muestreo de luminancia en PAL (576i) a 14.75 Mhz y en NTSC (480i) a 12.273 Mhz.
As, para programas editados en estaciones de trabajo, el PAR para seales 576i es de 59/54, mientras que
para seales 480i es de 10/11, promediando 10% de distorsin. H.263 define los PAR de la Tabla 12.10.
Tabla 12.10: Relaciones de Aspecto en en Pixels de Formatos Propietarios H.263.

Es deseable que se opere con pixels cuadrados (PAR 1:1), como en programas HDTV en pantallas 16:9. Otros
valores PAR generan prdida de resolucin, horizontal vertical y distorsiones visibles. PAR no tiene relacin
con el parmetro DAR (Display Aspect Ratio) de 4:3 16:9.
778
En video progresivo a muy bajas velocidades, la calidad de imagen de H.263 duplica la de MPEG-2.
12.4 Standares ISO/IEC MPEG

Los standares ISO/IEC MPEG son desarrollados por el grupo MPEG (Motion Picture Experts Group) de la ISO
y son publicados por la organizacin IEC. MPEG opera en forma coordinada con la ITU-T en sus desarrollos.
Contienen diferentes Partes, que cubren aspectos integrales de procedimientos para codificacin, transmisin,
almacenamiento, testeo, homologacin, proteccin de la PI, etc., de la informacin de video y audio utilizada en
sistemas multimedia, pelculas y programas de uso masivo y para televisin, etc., para difusin por transmisin
en tiempo real, en tiempo diferido en almacenamiento en soportes digitales.
Las normalizaciones utilizan Perfiles para definir las reas de aplicacin de los standares y Niveles para definir
las resoluciones y velocidades binarias mximas de cada Perfil.
Los standares MPEG son revisados para correcciones agregado de nuevas prestaciones, mecanismos de
codificacin, etc. Los standares para codificacin de video ms relevantes a la fecha son los codecs MPEG-1,
MPEG-2 (H.262), MPEG-4 Parte 2 y MPEG-4 Parte 10/H.264 AVC.
12.4.1 Aplicaciones de MPEG-2 Parte 2 y MPEG-4 Parte 2 y Parte 10

El standart ISO/IEC 13818 (1995), conocido como MPEG-2, ampla los objetivos de MPEG-1 para codecs de
informacin audiovisual, y su almacenamiento, difusin en redes simplex y duplex y distribucin sobre medios
fsicos. El aporte fundamental de MPEG-2 es sobre es la digitalizacin de TV analgica (PAL, NTSC, SECAM),
as como el manejo de programas de TV digital con definicin standart (SDTV) y alta definicin (HDTV).
La codificacin del video MPEG-2 (ISO/IEC 13818 Parte 2) es idntica a la Rec. ITU-T H.262. MPEG-2 ampla
MPEG-1 para su utilizacin masiva en redes de TV digital, por cable y por microondas terrestres y satelitales,
sistemas de entretenimiento Home Theater (DVD, 5.1) y video en redes de comunicaciones fijas y mviles.
El desarrollo, iniciado por el Motion Pictures Expert Group de la ISO, continu en conjunto con el Video Coding
Experts Group (VCEG) de la ITU-T. Se basa en el aporte de ms de 50 fabricantes, operadores, centros de
estudio y creadores de contenido y en normas previas como MPEG-1 y H.261.
MPEG-2 fue adoptada como ncleo de la TV Digital a mediados de los aos 90 en las normas:
DVB (Digital Video Broadcasting, 1994, Europa): Consorcio DVB. Primer emisin en 1998, en UK.
ATSC (Advanced Television Systems Committee, 1995, EEUU): Consorcio Grand Alliance.
ISDB (Integrated Services Digital Broadcasting, 1996, Japn): Consorcio ARIB.
La publicacin del standart conjunto ISO/IEC 14496-10 / ITU.T H.264 AVC, en el ao 2004, gener una rpida
adopcin para HDTV en las tres arquitecturas, pues reduce al 50% la velocidad binaria utilizada por MPEG-2.
Las tres normas compiten por el mercado mundial de SDTV y HDTV, con ms de 1.400 millones de receptores
de TV analgicos que requieren STB (Set Top Box), subsistemas de TV con receptores integrados.
MPEG-2 fue inicialmente utilizada por los operadores para digitalizar la distribucin de TV entre centros, sobre
miles de enlaces satelitales hacia el ao 2000. MPEG-2 est diseado para su compatibilidad con los sistemas
analgicos de TV color utilizados en todo el mundo. Los tres sistemas principales son:
NTSC (Nacional Televisin System Comit): 1953, adoptada por 60 pases y protectorados.
SECAM (squentiel couleur mmoire): 1961, adoptada por, 62 pases y protectorados.
PAL (Phase Alternating Line): 1963, adoptada por 120 pases y protectorados.
Actualmente, el mercado de aplicacin de los standares MPEG comprende, entre otros casos:
TV digital (DTV) hacia el hogar, por teledifusin terrestre, satelital por cable.
Distribucin de seales satelitales entre centros de prestadores de servicios.
779
Almacenamiento y distribucin de contenido en soporte ptico (DVD, Blue Ray, VCD, etc.)
Aplicaciones multimedia en microinformtica (PC, Notebooks, smartphones, etc.)
Sistemas interactivos de entretenimiento para el hogar (Home Theater), incluyendo PVR.
Comunicaciones interpersonales fijas y mviles (videoconferencia, mail multimedia, etc.).
Cine electrnico (EC).
Audio digital, terrestre y satelital (radio).

Sistemas de Vigilancia Remota con cmaras IP y codecs MPEG-2 y MPEG-4.
Los sistemas MPEG cubren mltiples diferencias y exigencias de los sistemas de contenido de TV, como:
1) Digitalizacin de tres grandes standares analgicos de TV entrelazada: NTSC, SECAM y PAL, para la
TV digital pblica con definicin Standart (SDTV) Alta Definicin (HFTV) bajo ATSC, DVB e ISDB.
2) Contenido audiovisual con tramas entrelazados progresivas, como ser: pelculas de cine, pelculas
adaptadas a NTSC PAL, contenido para DVD y otros soportes, terminales LL H.261 H.262, etc.
3) Interoperabilidad del contenido creado para terminales con relaciones de pantalla 4:3, 16:9 y otras.
4) Normalizacin de interconexiones fsicas, lgicas y mecnicas de diferentes subsistemas (cmaras,
conversores, multiplexores, procesadores de efectos y de imagen, bases de tiempo, archivos, etc.).
5) Mecanismos para anular la percepcin de transiciones de un formato de contenido audiovisual a otro,
como la transicin de una pelcula a propaganda un programa con mltiples fuentes audiovisuales.
La TV digital pblica facilita que gran parte de estos problemas se resuelvan en un estudio, en tiempo diferido,
en el centro de difusin en tiempo real, aunque algunos problemas deben solucionarse en el receptor.
En el caso de videoconferencia, dual multiusuario, los mecanismos de adaptacin deben estar distribuidos
entre todos los terminales involucrados, y MPEG-2 debe utilizarse con la menor latencia posible.
La Figura 12.12 muestra las resoluciones adoptadas en DVB y ATSC, con algunas frecuencias verticales
redondeadas a los enteros ms prximos (23,976, 29,97 59,94), y cubre programas LD, SD HD. El rea
MPEG-2 MP@ML est especialmente encuadrado por su importancia actual en la TV digital pblica.
Figura 12.12: Resolucin de Pantallas en Normas DVB y ATSC.

Quedan fuera de la Figura 12.12 algunas aplicaciones en LDTV y SDTV diferentes de ATSC y DVB, como ser
sistemas multimedia como PCs, cmaras, terminales variados, contenido en discos pticos y en otros soportes.
780
Algunas velocidades y resoluciones MPEG-2 utilizadas en la prctica son:
1.5 Mbps: Pelculas con calidad VHS, y resolucin 352 x 280i.
3.5 Mbps: Noticias y entretenimiento con calidad NTSC. Resolucin 352 x 480i.
3.5 10 Mbps: Calidad DVD Satlite, con bitrate variable (VBR). Resolucin 720 x 480i/p.
4.6 Mbps: Deportes en vivo con calidad NTSC. Resolucin 352 x 480i.
12 - 20 Mbps: HDTV con resolucin 1280 x 720p.

15 - 20 Mbps: Calidad HDTV Blu-Ray con resolucin 1920 x 1080i.
12.5 MPEG-1 (ISO/IEC 11172): Codificacin para Almacenamiento en Medios Digitales.

En 1993, la ISO introduce MPEG-1, luego de 5 aos de desarrollo de 14 propuestas diferentes de codecs por
parte de fabricantes y centros de investigacin y desarrollo. MPEG-1 provee alta calidad de video y audio para
almacenamiento y/o transmisin de hasta 1.5 Mbps, con resolucin equivalente a NTSC 480i progresivo.
La seleccin de 1.5 Mbps se relaciona con la transmisin en jerarquas primarias T1/E1 y las tecnologas para
lectura y presentacin de informacin en media ptica para Compact Discs y CD-ROM (1x CD bitrate) vigentes.
El codec de video adoptado en MPEG-1 (ISO 11172 Parte 2) est fuertemente influenciado por el codec ITU-T
H.261, siendo quey ambos definieron la evolucin hacia codecs de Video MPEG-2 y Video MPEG-4 Parte 10.
MPEG-1 no est planteado para la TV digital SD y HD, pero fue utilizado por mltiples operadores para el
transporte digital terrestre y satelital hasta la aparicin de MPEG-2. Es popular para la distribucin de pelculas
en formato Video CD, predecesor del DVD, decodificable en PCs y lectores CD-ROM y por reproductores DVD.
Propone tres codecs de audio estreo, siendo el popular formato MP3 la implementacin masiva de MPEG-1
Audio-Capa III. MPEG-1 ser presentado en forma comparativa contra MPEG-2, ms adelante.
12.6 MPEG-2 (ISO/IEC 13818)

El standart ISO/IEC 13818 (MPEG-2) se detalla, estructuradamente, en once partes complementarias:
Parte 1. Sistemas: Describe mecanismos para almacenar transmitir la informacin de video, audio y
datos encapsulada en paquetes PES (Packetised Elementary Stream), con un flujo PES por media. El
formato TS (Transport Stream) se aplica a la transmisin de PES MPEG-2, mientras que el formato PS
(Program Stream) se aplica en el almacenamiento de PES MPEG-2. Los PES contienen programas de
TV LD, SD y HD, videoconferencias, etc. La Parte 1 (TS) est normalizada bajo la Rec. ITU-T H.222.0.
Figura 12.13: Multiplexacin de Flujos de Audio y Video en MPEG-2.

Los flujos PES encapsulan en paquetes de longitud variable la informacin de flujos bsicos con el
nombre de ES (Elementary Stream) y son transmitidos con tramas TS almacenados con tramas PS.
781
La Parte 1 describe, adems, multiplexiones para mltiples programas concurrentes, sincronismo y

otros aspectos esenciales de los sistemas de transmisin de almacenamiento.
Figura 12.14: Decodificacin de Flujos de Audio, Video y Datos en el STB.

La Figura 12.13 presenta los dos esquemas de utilizacin de MPEG-2, para el transporte para el
almacenamiento de informacin audiovisual y sus datos de control. El flujo PS se utiliza en DVD y otros
soportes DSM (Digital Storage Media), para almacenar contenido.
La Figura 12.14 muestra un subsistema bsico definido en la Parte 1. Constituye la porcin del STB
para TV SD que demultiplexa las tramas TS de un programa de TV (Program ID = X), y entrega cada
flujo PES a un subsistema diferente para su tratamiento, decodificacin y presentacin.
La Parte 1 trata el transporte de mltiples programas sobre tramas TS (MPTS), buffering, sincronismo,
etc. Los flujos ES (Elementary Streams) se extraen de los paquetes PES, los cuales se fragmentan en
tramas TS, con 188 bytes (204 bytes para usos satelitales) para su transporte en redes ATM IP.
Parte 2. Video: Describe en detalle la codificacin estructurada de imgenes, las clases de tramas de
salida, los algoritmos bsicos de su generacin, su secuencia descomposicin en partes elementales
hasta el nivel de bloques de 8x8 pixels por trama, diferentes perfiles y niveles de utilizacin, operacin
del decodificador, tests, mecanismos de conciliacin de errores, etc. Se corresponde con ITU-T H.262,
y es compatible hacia atrs con Video MPEG-1.
Parte 3. Audio: Perfecciona los codecs de audio de MPEG-1 (ISO/IEC 11172 Parte 3) y cubre mltiples
multicanales hasta 5.1 (Surround AC-3, Dolby Digital). Agrega frecuencias de muestreo ms bajas, que
reducen al 50% los valores de MPEG-1 (144 Kbps max). Es compatible hacia atrs con MPEG-1.
Parte 4. Test de Conformidad: Define los tests para homologacin de cada Parte de MPEG-2.
Parte 5. Simulacin de Software: Provee, en lenguaje C, el software de simulacin de un codificador y
un decodificador para las Partes correspondientes a Sistema, Video, Audio, AAC e IPMP.
Parte 6. Extensiones para Digital Storage Media Command and Control (DSM-CC)
Parte 7. Advanced Audio Coding (ACC, 1997): Sistema de codificacin de audio multinivel, con varios
perfiles de complejidad, adoptado por MPEG-4, con mayor eficiencia y calidad, que soporta hasta 48
canales simultneos, con muestreos desde 8 hasta 96 Khz y un amplio rango de velocidades binarias.
Se basa solo en MCDT de hasta 1024 puntos, con mayor fidelidad de codificacin.
Parte 9: Extensin para interfaces de tiempo real en decodificadores. Aplicable en iTV como VoD.
Parte 10: Tests de Conformidad para DSM-CC.
Parte 11: Administracin de la Propiedad Intelectual (IPMP), en la forma de Acceso Condicional (CA),
Protege el contenido de flujos MPEG-2, como IPMPX, en MPEG-4. Se basa en clientes embebidos en
los STB MPEG-2, que reciben validaciones desde el centro emisor para decodificar el video.
12.6.1 Seal de Video de Entrada

MPEG-2 normaliza la codificacin de video bajo el espacio de color de la seal de video compuesto YCrCb (
YCrCb), segn la Rec. ITU-R BT.601, redefinida para TV digital a partir de un espacio de colores RGB.
782
YCrCb es un standart en TV digital e interfaces de sistemas de fotografa digital, donde Y define la seal de
luminancia y Cr y Cb diferencias de color respecto del rojo y el azul, respectivamente.
Si el contenido de video utiliza otros espacios de color como RGB, YUV (PAL CCIR 656), YIQ (NTSC), YDrDb
(SECAM), YPrPb (interfaz analgica), etc., es necesario su preproceso y conversin a YCrCb.
Para TV de consumo con 8 bits por componente, BT.601 define el rango de Y entre 16 y 235 (negro a blanco),
con un margen para undershoot y overshoot. Cr y Cb tienen un rango entre 16 y 240, con el cero igual a 128.
Con RGB corregido en gamma (R, G, B) para Y (8 bits) se utiliza la ecuacin:
Y = 0,301 R + 0,586 G + 0,113 B

Si, por ejemplo, se toma como fuente de video para MPEG-2 el standart utilizado en PC, los valores RGB
tpicamente operan entre 0 y 255, sin capacidades de absorber transitorios (headroom y footroom), y se debe
utilizar una ecuacin diferente para equilibrar el espacio de colores en YCrCb:
YPC = 0,257 R + 0,504 G + 0,098 B+ 16

El espacio de colores RGB puede predecirse si se eligen paletas normalizadas si se adopta un perfil ICC
(International Color Consortium). La adopcin de esta convencin (en proceso de normalizacin por la ISO)
permite sistemas de color interoperables, como con el sistema CMYK para impresiones.
Los receptores LCD y OLD para TV digital no requieren correcin gamma como los TRC y tienen otro manejo
del color. En HDTV, la Rec. ITU-R BT.709, define nuevas ecuaciones de luminancia y crominancia, como:
Y = 0,2126 R + 0,7152 G + 0,0722 B

En la actualidad, la generacin de contenido en estudios de filmacin se realiza con cmaras profesionales que
tienen un sensor CCD por cada color RGB y pueden manejar prcticamente todas las resoluciones de TV. La
Figura 12.15 esquematiza una cmara actual, que entrega video YCrCb para SDTV y HDTV MPEG-2/4.
Cada CCD recibe el componente de color de la imagen segn filtros pticos de entrada y codifican la seal R,
G B con 12 bits. Esto permite generar las seales de video compuesto Y, Cr y Cb con 10 bits sin errores.
Figura 12.15: Generacin de Seales Base de Video SD y HD en una Cmara Profesional.

Esta clase de cmaras genera video YCrCb en todas las resoluciones y frecuencias verticales. La salida del
video compuesto se realiza sobre una interfaz SMPTE 292M, que cubre hasta el muestreo de color 4:2:2, lo
que genera una salida serie con tramas de 10 bits de 1.485 Mbps a 50 Hz y de 1.483,5 Mbps a 59.94 Hz.
SDTV utiliza la Rec. ITU-R BT.601 (1982), que define el muestreo de video en 720 muestras de luminancia y
360 muestras de crominancia, en un esquema de codificacin denominado YUV 4:2:2, para TV analgica. Es
necesario un muestreo de las seales a 13,5 Mhz a 10 bits para obtener el rango dinmico adecuado en SDTV.
783
HDTV utiliza la Rec. ITU-R BT.709 Parte 2 (1990), que define el muestreo vertical de luminancia en 1080i
1080p muestras (entrelazado progresivo), sobre sistemas con 24, 25, 30, 50 y 60 tramas/seg. Contempla las
velocidades definidas al dividir las frecuencias previas por 1.001, que genera valores como 29,97, etc.
Figura 12.16: Secuencias de Submuestreo 4:2:0 y 4:2:2.

El video RGB a 12 bits (36 bits/pxel) se convierte en video compuesto YCrCb a 10 bits por componente dentro
de la cmara, luego del submuestreo de color, la correcin en gamma y la conversin espacial del color, y es
entregado como video YCrCb 4:2:2, YCrCb 4:2:0 u otras variantes que MPEG-2 no utiliza.
La expresin 4:2:0 similar para indicar el muestreo de color se puede generalizar como k:i:j, donde:
k: Muestras horizontales de luminancia en el anlisis de dos lneas contiguas. Usualmente P = 4.
i: Muestras horizontales de crominancia en la primer lnea del rea bajo anlisis.
j: Muestras horizontales de crominancia en la segunda lnea del rea bajo anlisis.
En MPEG-2 4:2:0, por cada 4 muestras de luminancia en la primer y segunda lnea, se submuestrea Cr en la
primera lnea y se submuestrea Cb en la segunda lnea. La crominancia CrCb ser compartida en las 2 lneas.
La Figura 12.16 representa la secuencia de submuestreo en 8 pixels RGB consecutivos en 2 lneas de video.
En MPEG-2 4:2:2 se muestra crominancia Cr y Cb en cada lnea, en columnas alternadas, y MPEG-2 4:4:4
equivale a una conversin RGB sin prdidas pues cada pxel tiene su valor YCrCb.
Figura 12.17: Preparacin de Macrobloques MPEG-2 con Video YCrCb 4:2:0.

El preprocesamiento utilizan macrobloque RGB 16x16, con 16 pixels contiguos en 16 lineas contiguas, y el
submuestreo de crominancia genera macrobloques Cr y Cb de 16x8, 16x4 y 8x4 para MPEG-2 y otras normas.
784
La Figura 12.17 resume la estructura YCrCb 4:2:0, numeradas segn MPEG-1 y MPEG-2. La imagen RGB es
procesada en tajadas (slices) de 16 lneas desde la parte superior hacia la inferior, y luego en 16 columnas
RGB contiguas, de izquierda a derecha, sin solapamientos. Se crean diferentes macrobloques segn la clase
de MPEG a generar. Los bloques 8x8 contiguos son fundamentales para la transformacin DCT.
12.6.2 Niveles y Perfiles Normalizados

Para cubrir el alcance internacional y las mltiples reas de aplicacin de MPEG-2, tanto para video progresivo
como entrelazado, la ISO defini una matriz de Perfiles, para aplicaciones, y de Niveles, para los terminales.
Para cubrir el alcance internacional y las mltiples reas de aplicacin del standart ISO/IEC 13818 en DTV, la
ISO define 7 Perfiles de aplicacin y 4 Niveles de resolucin del video MPEG-2. La Figura 12.18 presenta
valores mximos de resolucin de pantallas, muestreo de crominancia 4:M:N, velocidades binaria de salida y
frecuencia de imgenes. Generan tres clases de tramas codificadas: I (Intracodificadas), P (Predictivas) y B
(Bidireccionales), excepto que esta ltima no es utilizada en el Perfil Simple. Es compatible con MPEG-1.
Figura 12.18: Matriz de Niveles y Perfiles Normalizados en MPEG-2.

En la tabla, MP@ML define la codificacin MPEG-2 utilizada como norma para la TV digital standart (SDTV),
MP@HL y MP@H-14 se utilizan para HDTV, como ATSC mientras que MP@LL es aplicable a terminales
mviles y/o aplicaciones que demandan baja velocidad binaria. La mxima resolucin MPEG-2, HP@HL y
muestreo de crominancia 4:2:2, es utilizada para produccin de contenido en estudios de grabacin.
12.6.3 Proceso General de Codificacin

Las imgenes previas a la codificacin pueden ser progresivas (p) entrelazadas (i). Ocurren entre 24 y 60
veces por segundo, y se especifican como 24p, 30i, 50i 60p. Cada imagen es codificada como una trama I
(Intracodificada), una trama P (Predictiva) una trama B (Bidireccionalmente predictiva).
El codificador MPEG genera una secuencia definida de salida, una sucesin de GOP (Group of Pictures), en la
que cada GOP agrupa tpicamente 15 imgenes codificadas, descripta como IBBPBBPBBPBBPBB.
La codificacin de video MPEG est definida en forma jerrquica y estructurada, desde la secuencia hasta el
bloque, el menor elemento de informacin con 8x8 pixels en MPEG-1/2 de 4x4 pixels en MPEG-4. MPEG
785
realiza la compresin a nivel de bloques y macrobloques (conjunto de bloques), por lo que MPEG se encuadra
en la categora de codificadores en bloque. En particular, se basa en la transformacin DCT de bloques y la
codificacin de vectores de movimiento de macrobloques en cada imagen.
Se utilizan seis niveles: bloques, macrobloques, tajadas, imgenes, GOP y secuencia. El flujo de bits en el nivel
de secuencia se denomina Video Elementary Stream (Video ES), con organizacin jerrquica, y contiene los
parmetros necesarios para instruir al decodificador sobre las codificaciones implementadas.
La codificacin se realiza a nivel espacial, tipo JPEG para eliminar la redundancia espacial en una trama, y a
nivel temporal, para eliminar la redundancia en mltiples tramas utilizando referencias, vectores de movimiento
de la referencia y error predictivo, Se utilizan tcnicas predictivas directas (tramas I), hacia atrs (tramas P) y
en ambos sentidos del tiempo (tramas B).
El flujo de bits de video MPEG encapsula los elementos codificados en los dos niveles ms bajos dentro de los
cuatro niveles restantes, utilizando una descripcin sintctica y semntica de la estructura de datos y los
procesos involucrados en el flujo de video. La Figura 12.19 describe la codificacin estructurada de MPEG-2.
Varias tablas pueden cambiar en tiempo real, y son comunicadas al decodificador. Los encabezamientos de
cada clase y nivel de informacin permite la decodificacin, segn la sintaxis y la semntica del standart.
MPEG-2 utiliza 8, 9 10 bits por pixel de cada componente de luminancia Y, mientras que MPEG-1 utiliza
solamente 8 bits. Esta diferencia permite codificar con menor error de cuantificacin, el cual es visible.
Figura 12.19: Codificacin Estructurada del Video MPEG-2.

Para lograr niveles de compresin 33:1 respecto de la seal YCrCb de referencia (125:1 respecto de RGB), se
explota la redundancia de informacin intra e inter imgen, la percepcin reducida del color por el espectador y
las diferencias de movimiento de los macrobloques entre tramas adyacentes, entre otros mecanismos.
Si la codificacin es predictiva hacia el pasado y el futuro (se utilizan tramas B), se debe almacenar un nmero
variable de tramas campos de video pasados y futuros antes de iniciar la codificacin decodificacin.
Si el retardo debe ser mnimo, en sesiones interactivas de TV en videoconferencias, no se utiliza prediccin a
futuro se restringe la prediccin de movimiento a solo una referencia en el pasado y el futuro, para un retardo
total de unas 6 tramas campos (en el orden de 200 mseg). Esto impacta en la calidad de la imagen y requiere
ms ancho de banda de transmisin, pues no se optimizan las predicciones.
786
La Tabla 12.20 resume los elementos de video MPEG-2 para TV Digital 4:2:0 y los niveles de compresin.
Tabla 12.20: Estructura de Datos MPEG-2 para TV Digital 4:2:0.

Si la aplicacin es de tipo broadcasting (1-Way), pueden utilizarse referencias ms lejanas en ambos sentidos
del tiempo para imgenes de mejor calidad, aunque se requiere almacenar ms tramas antes de codificar, lo
que crea retardos mayores. MPEG-4 mejora el desempeo de MPEG-2 con algoritmos de codificacin ms
avanzados y mayor granularidad. MPEG-1 es rstico para ser utilizado en TV digital.
Un ejemplo de los pasos generales para codificar una seal SDTV, con imgenes 704Hx480V@30p, es:
1. Se define la estructura del GOP, que comienza con una trama I, y sobre la utilizacin de tramas B.
2. Se transforma la seal RGB (si es la entrada) en la seal YCrCb 4:2:0 (tpico de SDTV).
3. Cada trama se segmenta en 44 tajadas (slices) de 16 lneas sin solapamiento y cada tajada en 30 MB
16x16, con un total de 1.320 MB YCrCb por trama (macrobloques). Dado el muestreo de color 4:2:0
cada trama se compone de 1.320 MB de luminancia Y, y 2x330 bloques de crominancia Cr y Cb.
4. Las tramas I se codifican en modo JPEG, con transformacin DCT 8x8, cuantificacin y compresin.
5. Las tramas P (Predictivas) se comprimen prediciendo el movimiento de un MB 16x16 Y sobre un rea
delimitada en la trama de referencia I P previa. El resultado se codifica como vector de movimiento
(dX, dY) ms un error diferencial Y 16x16. Los bloques Cr y Cb asociados utilizan el mismo vector (dX,
dY) y el error diferencial para cada componente, que se codifica como en tramas I. Si la prediccin falla
el macrobloque compuesto (YCrCb) se codifica en forma aislada como en las tramas I.
6. Las tramas B (Bidireccionales) se comprimen con el mismo criterio aplicado en las tramas P, con la
diferencia de que se codifica el movimiento hacia una referencia pasada y otra futura, generndose dos
vectores de movimiento y dos errores diferenciales YCrCb. Si solo se utilizan tramas futuras, se
codifica un vector de movimiento y el error de prediccin. Si el algoritmo falla, se procede como en P.
7. La informacin generada por la compresin descripta es encapsulada en bloques ordenados, nivel por
nivel, segn su posicin cartesiana en la descomposicin de MB, junto con descriptores sintcticos y
semnticos en cada cabecera. Los mismos detallan la informacin que el decodificador necesita. Esto
genera un flujo de bits de video codificado.
8. El flujo de bits de video MPEG-2 al nivel de Secuencia se denomina Video Elementary Stream (ES), y
es acarreado con paquetes PES (Packetised Elementary Stream) al decodificador al dispositivo de
almacenamiento. Los PES contienen informacin adicional de identificacin, control y sincronismo.
Los PES pueden ser transmitidos sobre redes ATM, IP, etc., con tramas TS (Transport Stream) descriptas en
MPEG-2 Parte 1. Para el almacenamiento en servers de video, DVD, etc., los PES utilizan bloques PS
(Program Stream), con mayor longitud, mejor performance, y sin deteccin y correccin de errores como TS.
El decodificador se inicializa con valores standart y se reprograma segn los parmetros comunicados en el
flujo de video MPEG-2 entrante. La siguiente figura esquematiza el flujo estructurado de datos de video, los
cuales se transportan en el campo de datos de los paquetes PES, no mostrados aqu.
787
La Figura 12.21 esquematiza la conformacin de la estructura jerrquica de datos de video MPEG. Cada
estructura posee un cdigo de identificacin al inicio del encabezado y, en cada nivel, el encabezado contiene
los parmetros necesarios para instruir al decodificador sobre cmo interpretar los datos del nivel.
Los macrobloques y las tajadas estn identificadas secuencialmente desde la posicin (0, 0) en el extremo
superior izquierdo. Se envan los parmetros de la secuencia IPB, los flags sobre matrices propietarias de
cuantificacin, los coeficientes de las matrices (si se utilizan), las resoluciones y velocidades, etc.
El flujo de bits en el nivel de Secuencia conforma el Video Elementary Stream, que es transportado en los PES.
Figura 12.21: Estructura Jerrquica del Stream de Video MPEG-2, segn la Codificacin por Capas.
La estructura de datos de la figura superior se genera continuamente en el codificador y forma el Video ES. Su
transmisin implica repetir cada nivel, tantas veces como se necesite hasta agotar los datos de la imagen.
12.6.4 Flujo Estructurado de Datos de Video

La transmisin serial de la estructura jerrquica de datos de video MPEG-2 es compatible con video MPEG-1, y
se describe en la Figura 12.22, que comienza con el encabezamiento de la secuencia, siguiendo con el GOP al
que pertenece la imagen y luego agregando el encabezamiento del campo de la imagen. A continuacin se
agregan los datos de la imagen, estructurados en los niveles tajada, macrobloque y bloque.
El proceso se repite con todas las imgenes del GOP, luego de lo cual se transmite un el siguiente GOP, hasta
agotar la secuencia del programa en particular. Una vez terminada la secuencia, se inicia otra secuencia y el
proceso contina sin lmites temporales, hasta finalizar la transmisin cambiar el programa de video.
Los encabezados de cada nivel prevn la longitud flexible del campo de datos para acomodar variaciones
estadsticas en la eficiencia de la compresin de las diferentes clases de tramas I, P B.
Se observa que es posible reprogramar al decodificador en cada secuencia, para acomodar un nuevo formato,
con diferente resolucin y e imgenes por segundo. Cada formato asociado a una secuencia puede tener un
origen y codificacin MPEG diferente, para lo cual es posible cargar matrices de cuantificacin propietarias.
788
El flujo de video MPEG-2 (Video Elementary Stream) se transmite a decodificadores se enva a dispositivos
de almacenamiento utilizando paquetes denominados PES (Packetised Elementary Stream), que encapsulan el
Video ES, y contienen un encabezamiento flexible con datos de control sobre el video MPEG-2.
Figura 12.22: Estructura del Video Elementary Stream (ES).

Existen tres clases de PES: video, audio y datos, y sus campos de datos tienen longitud variable, debido a la
naturaleza aleatoria de la eficiencia en las compresiones de macrobloques.
Figura 12.23: Estructura del Paquete Video PES (Packetized Elementary Stream).
La Figura 12.23 presenta la estructura del Video PES. El campo de datos contiene el Video ES descripto.
789
El encabezado del paquete Video PES puede ser mnimo, con un encabezado que identifica la clase de media
y la longitud del PES, puede tener campos extendidos para el control completo de la decodificacin, con
datos sobre sincronismo en tiempo real para presentacin del video, comandos tipo control remoto para el
decodificador, mecanismos de control de la PI, Copyright, etc. Otro tanto ocurre con los flujos de Audio y Datos.
El decodificador se inicializa con valores standart y se reprograma segn los parmetros comunicados en los
flujos de video PES y ES entrantes.
La informacin estructurada de audio, video y datos se encapsula en el paquete PES descripto en la Figura
12.23, cuya versin bsica solo transporta esta informacin con longitud variable y un header de 56 bits.
Opcionalmente, transporta datos mltiples, como el sincronismo de cada flujo de media en el decodificador con
muestras del RTC de 32 bits del codificador, para tiempos de decodificacin y de presentacin de informacin
en el receptor. Indica tambien si se utiliza VBR CBR, y transporta datos de proteccin de la PI del contenido
de video mediante Acceso Condicional (AC) y encriptado. Se agrega CRC-16 para deteccin de errores.
La Figura 12.24 muestra el pasaje de informacin RGB de TV SD (Standard Definition) a MPEG-2, en
diferentes flujos de media, y su encapsulado en tramas TS de 188 bytes para su transporte en redes terrestres.
Se observa que las tramas TS estn distribuidas aleatoriamente en el tiempo, lo que facilita la multiplexacin
estadstica de mltiples programas MPEG por canal fsico de transmisin. Esta propiedad ha sido muy til en la
digitalizacin de transmisiones terrestres satelitales, previamente canalizadas en FDM con 6 Mhz por canal.
Un modem 256-QAM puede proveer hasta 25 Mbps por canal de 6 Mhz, lo que permite acomodar 5 flujos de
SDTV MP@ML implementar submultiplexacin FDM para acomodar ms de un modem por canal analgico.
Estas propiedades son utilizadas en la DTV por cable, terrestre y satelital para diferentes normas MPEG.
La difusin masiva de la DTV ha permitido desarrollar circuitos electrnicos SoC, con modem y decodificador
integrado para su utilizacin en STB de muy bajo costo.
Figura 12.24: Compresin del Audio, Video y Datos en el Flujo MPEG-2.

Un aspecto fundamental para la operacin de MPEG es que el receptor opere con un buffer de tramas que, en
el caso de broadcasting, puede almacenar entre 500 mseg y 1 segundo de datos MPEG. Para usos interactivos,
como videoconferencia, la premisa del buffer de recepcin de gran tamao no es vlida y debe operarse con
otro esquema que reduzca el retardo algortmico por debajo de los 100 milisegundos.
790
12.6.5 Secuencias GOP y Tramas I, P y B

La codificacin en base a tramas I, P y B se inicia en el codec ITU-T H.261 para videoconferencias, en 1988, el
cual obra como base conceptual para los codecs de video de MPEG-1, MPEG-2 y MPEG-4 AVC.
La estructura GOP contiene la secuencia de tramas I, P y B, que es definible, y denomina esta secuencia con
los parmetros N (nmero de tramas) y M (espaciado de tramas P). As, una secuencia GOP de 15 tramas,
denominada IBBPBBPBBPBBPBB se identifica como GOP 15,3, tpicamente utilizada en video entrelazado
NTSC de 29,97 Hz. Para sistemas PAL con 25 Hz, es tpica un GOP 12,3.
El concepto de codificacin IPB se aplica en video progresivo y entrelazado, con pequeos ajustes de clculo.
Para el caso de video progresivo, las tramas I, P y B se generan con algoritmos que se resumen como sigue:
Tramas I (Intracodificadas): Cada bloque 8x8 es codificado intrnsecamente, en forma similar a JPEG,
con una excepcin para el coeficiente DC de la transformada DCT. Para los dems coeficientes DCT
(AC), se aplica cuantificacin y compresin RLE y VLC, explorando el bloque en patrones zig-zag. En
el coeficiente DC (0, 0) se aplica codificacin diferencial con el precedente. Las tramas I resincronizan
el decodificador y sirven como referencia para P y B. Esta compresin elimina redundancia espacial.
Tramas P (Predictivas): Cada MB 16x16 es codificado como un MB I (modo JPEG) macrobloque P.
Las tramas P y B explotan la redundancia temporal en las imgenes. Cada macrobloque P se define
con una codificacin predictiva hacia la trama de referencia anterior, de tipo I P. La clave es:
1. Identificar el MB de la referencia previa ms similar al MB actual, bajo codificacin, dentro de
un rea acotada de bsqueda en la referencia, con pasos de 1 pixel en X e Y.
2. Codificar la posicin (X, Y) absoluta del MB de referencia ptimo de la trama previa, con una
precisin de hasta 1/2 pel (pixel).
3. Codificar como vector de movimiento (dX, dY) el desplazamiento relativo del MB actual.
4. Codificar como error, con DCT-RLE-VLC, la diferencia del MB actual con el MB ptimo previo.
5. Si no se encuentra un MB previo ptimo, codificar el MB actual como un macrobloque I.
El clculo del movimiento consume la mayor parte del tiempo de procesamiento, y existen mltiples
algoritmos de cmputo. El standart MPEG no especifica ningn procedimiento de bsqueda.
Tramas B (Bidireccionales): Se generan con codificacin predictiva bidireccional entre las tramas de
referencia previa y futura ms prximas a la trama B bajo anlisis. La codificacin de la trama B es
similar a la empleada en tramas P, con la diferencia de pueden existir referencias hacia el pasado y/o
el futuro, lo que requiere hasta dos vectores de movimiento. Para el procesamiento del error de
prediccin, si un macrobloque utiliza ambas referencias simultneamente, se deben promediar los
dos macrobloques de error 16x16. Las tramas B nunca pueden utilizarse como referencia.
La Figura 12.25 muestra la secuencia GOP 15,3 y refleja las tramas de referencia utilizadas para codificar las
tramas P y B. Nunca puede utilizarse una trama B como referencia.
Figura 12.25: Estructura de un GOP (Group of Pictures) 15,3.

MPEG depende del nivel de compresin aplicado a las tramas I, modelable segn la cuantificacin aplicada.
791
Las tramas P se generan inicialmente desde las tramas I, y las tramas B desde una referencia I P. Segn la
calidad del video, y la resolucin de la imagen en pixels H y V, se obtiene un amplio rango de velocidades.
Si la calidad de la trama I, medida con tcnicas como PSNR, y generada con mecanismos similares a JPEG es
baja, no puede esperarse que la calidad de las tramas P y B sean mejores, debido a su dependencia de I.
Un indicador de la calidad del video es la cantidad de artefactos (artifacts), nombre que reciben las anomalas
en informacin grfica. Se tienen las siguientes referencias de JPEG, aplicables a tramas I:
Q=100: Muy alta calidad y artefactos insignificantes. La compresin aplicada es 3:1.

Q=50: Alta calidad y artefactos muy poco perceptibles. La compresin aplicada vara entre 9:1 y 12:1.
Este nivel es el aconsejado en TV Digital.
Q=25. Calidad media y artefactos visibles, con prdida de resolucin de bordes. La compresin vara
entre 18:1 y 23:1.
Q=10. Baja calidad y muchos artefactos. Macrobloques visibles y compresin entre 40:1 y 50:1.
Q=1. Calidad muy baja. Con compresin 140:1, existe una prdida extrema de color y detalles y solo
pueden discernirse grandes objetos de la imagen, con esfuerzo.
Existen mediciones estadsticas que indican un cociente promedio de compresin relativa 1:2:5, para tramas
I:P:B respectivamente. La Figura 12.26 representa la velocidad instantnea del video MPEG-2 SDTV PAL a 25
fps (544 x 576 pixels), y compresin entre 8 y 12 para tramas I, con un promedio de 3,15 Mbps para Q=50. La
velocidad promedio sube a 10,7 Mbps con Q=100 (no justificable en SDTV) y baja a 1,3 Mbps con Q=25, que
sera un equivalente a NTSC (excepto por los artefactos).
Figura 12.26: Oscilograma de la seal MPEG-2 de un Programa de SDTV (576x544 @ 25 fps).

El trfico MPEG-2 VBR es de mnima latencia (4 tramas), y es irregular, con muchos picos de velocidades
sobre el promedio de 3,15 Mbps. La compresin VBR (Variable Bit Rate) es la ms natural para codificar video.
MPEG-2 y 4 permiten utilizar CBR VBR. VBR genera video con mejor calidad perceptual, y CBR simplifica el
diseo de redes ATM, FR e IP, aunque tiene baja calidad en escenas complejas cambios rpidos de escena.
VBR tiene menor latencia que CBR, pues requiere el algoritmo requiere almacenar menos tramas y tiene muy
buenas cualidades para multiplexar estadsticamente mltiples programas. Con 10 ms programas por canal
de transmisin, el trfico total es similar al trfico de CBR, sin prdida de calidad.
Debido a la compresin optimizada I, P y B, el trfico VBR tiene una velocidad promedio menor que CBR, ya
que se mejora la compresin de tramas P y tramas B. No obstante, CBR es ms utilizado en transmisin.
12.6.6 Codificacin Espacial (Intra Trama)

En MPEG-1/2/4 se aprovecha la redundancia espacial de informacin dentro de una imagen para comprimir la
misma en un valor promedio 10:1, obteniendo alta calidad y artefactos (singularidades) imperceptibles.
792
El proceso es similar a JPEG, con algunas diferencias como umbrales de cuantificacin en luminancia y color,
bits por pixel, uso de macrobloques 16x16 y bloques 4x4 (MPEG-4), tablas para codificacin VLC, etc.
En MPEG-2, con video 4:2:0, cada macrobloque 16x16 de la imagen se descompone en 6 bloques 8x8 (4 para
Y, 1 para Cr y 1 para Cb). Cada uno de los 6 bloques 8x8, numerados entre 0 y 5, son comprimidos utilizando:
1) Resta de 128 a cada uno de los 64 coeficientes de las matrices Y, Cr y Cb.
2) Transformacin DCT 8x8, generando 64 coeficientes DCT.
3) Cuantificacin y redondeo de los coeficientes utilizando matrices Q Y y QC, con 64 clculos. El proceso
genera prdida de informacin, por lo cual MPEG es un codificador con prdidas (lossy). Las matrices
pueden ser cambiadas dinmicamente en el codificador, y se informan al decodificador a travs del
flujo ES. Los procesos en 1 y 2 se simplifica denominndolos DCTQ.
4) Codificacin diferencial del coeficiente DTCQ (0,0).
5) Codificacin RLC (Run Length Coding) sobre la matriz DCTQ, utilizando el mismo patrn en zig-zag de
JPEG en MPEG-1/2 un patrn alternativo, en MPEG-2. Es una codificacin entrpica sin prdidas.
6) Codificacin VLC (Variable Length Coding) Huffmann de los pares RLE generados, mediante tablas
con frecuencia de patrones que son diferentes en MPEG-1 y en MPEG-2. Tambien es entrpica.
La transformada DCT bidimensional de un bloque 8x8 genera un bloque transformado, con coeficientes que
expresan la intensidad de la frecuencia del cambio cada k unidades de pxel (k entre 0 y 7).
La expresin de la DCT para un bloque 8x8 f(h,v) es:
F(0,0) es el promedio ponderado de la suma de todos los pixels del bloque 8x8, y se denomina coeficiente DC,
para remarcar la inexistencia de componentes frecuenciales. El resto de los coeficientes se relacionan con
cambios espaciales y se denominan de tipo AC, por analoga con Alternating Current.
La Figura 12.27 muestra el proceso DCTQ de un bloque Cr codificado a 8 bits/pel (caso MPEG-1). Se resta 128
de cada coeficiente Cr para obtener valores con signo, y se aplica la transformada DCT.
Figura 12.27: Proceso DCTQ de un Bloque Cr, codificado a 8bits/pel (MPEG-1).
793
Luego se cuantifican los coeficientes DCT con una matriz de cuantificacin Q C. Cada coeficiente (h,v) de la
transformada DCT es dividido por el coeficiente (h,v) de la matriz QC y luego redondeado hacia arriba. Los
nuevos coeficientes DCTQ deben codificarse utilizando RLE y VLC. Se observa que los cuantificadores son
cada vez ms grandes a medida que aumenta la frecuencia.
Se aprecia que la cuantificacin genera un gran nmero de coeficientes nulos, clave de la compresin MPEG
en video. Algoritmos como RLC y VLC disminuyen ms la representacin de los 64 coeficientes DCT.
La matriz QC utilizada en MPEG-1 fue generada para JPEG con procesos estadsticas sobre un gran nmero
de imgenes, para hallar los coeficientes ptimos. El mismo caso se aplica a Q Y (luminancia), aunque tiene una
composicin muy diferente. En principio, Q Y y QC MPEG-1 se aplican a MPEG-2, con resolucin de 10 bits/pel.
Cada creador de contenido bajo MPEG-2, un fabricante, puede definir nuevas matrices de cuantificacin.
Cuando las mismas se utilizan, se comunican al decodificador por medio del flujo estructurado de video MPEG.
Los cuantificadores de las matrices QY y QC se definen segn promedios de sensibilidad perceptual de la visin
humana a cambios en el brillo y el color de las imgenes. La decodificacin genera imgenes con errores por la
cuantificacin de los coeficientes DCT. Esto se traduce en sutiles diferencias de brillo y color entre la imagen
reproducida y el original, que pasan desapercibidos al espectador promedio si se utilizan matrices para niveles
de compresin bajos (Calidad Q del 50% asociada a un Factor de Compresin entre 8 y 12).
Figura 12.28: Empleo de los Algoritmos RLC y VLC para mayor Compresin.
La codificacin entrpica RLC (Run-Level Coding) codifica cada coeficiente como un par (run, level), tal que run
es el nmero de ceros previos y level es el valor no nulo. Para explotar la gran cantidad de ceros en la matriz
DCTQ, esta se explora con un patrn en zig-zag, como en la parte izquierda de la Figura 12.28.
As, el bloque de datos se reduce a una secuencia de pares (run, level) menor que 64. Por ejemplo:
La informacin sobre 51 coeficientes finales nulos ocurre al final de la exploracin, y se descarta en VLC. El
patrn de exploracin en zig-zag mostrado se utiliza en JPEG y MPEG-1/2. MPEG-2 tiene una opcin extra.
La codificacin Huffmann VLC (Variable Lenght Coding) codifica cada par (run, level) con un cdigo de longitud
variable, segn la frecuencia de ocurrencia de los pares, en una compresin entrpica sin prdidas. Las tablas
VLC de MPEG-2 se disearon con promedios estadsticos de mltiples de imgenes, y mejoran MPEG-1.
MPEG-2 utiliza 15 tablas VLC: 9 para encabezados de paquetes y 6 para elementos de imgenes. Las ltimas
estn optimizadas para diferentes casos, como ser intra intercodificacin, luminancia, color, etc.
794
El coeficiente DC (0,0) es codificado segn la diferencia con el coeficiente del bloque anterior.
En MPEG-2 se aplican diferentes matrices de cuantificacin segn el muestreo de color. Para video 4:2:0 se
utilizan dos matrices, una para cuantificacin intrabloque (dentro de la misma imagen) y otra para cuantificacin
no-intrabloque (diferentes imgenes), como muestra la Figura 12.29. Se utilizan las mismas matrices para
luminancia y crominancia.
Para video 4:2:2 4:4:4 se utilizan cuatro matrices diferentes: dos matrices para cuantificar MB de luminancia
(intra e interbloques) y otras dos para cuantificar MB de crominancia (intra e inter bloques).
Figura 12.29: Matrices de Cuantificacin para Tramas I (Intrabloque) y Tramas P y B.

Inicialmente, el decodificador utiliza dos matrices de base, como en el siguiente caso de video 4:2:0. Cada
matriz puede ser definida dinmicamente y se enva al decodificador, sealizada en el flujo de video ES.
La diferencia reside en que las matrices Q intra-cuantificacin no poseen una zona muerta alrededor de (0, 0),
mientras que las matrices Q inter-cuantificacin si la poseen. La zona muerta es un rea en el cual se utilizan
grandes pasos en el cuantificador para generar muchos ceros, como un filtro pasabajos bidimensional.
El coeficiente DC (0,0) en los intrabloques se cuantifica con pasos ms pequeos a medida que aumenta el
nmero de bits que representa la muestra (8 a 10 bits). En la matriz para inter-cuantificacin no se implementa.
12.6.7 Codificacin Temporal (Inter Trama)

En MPEG-2. la codificacin temporal se basa en procesar la posicin del MB Y (luminancia), que se analiza en
la trama actual sobre una trama previa utilizada como referencia, para el caso de tramas P en su posicin
previa y futura en tramas de referencia contiguas, para el caso de tramas B.
Para el caso analizado de una seal SDTV 544x576 con GOP 15,3, la codificacin temporal aporta casi el 90%
de la compresin MPEG-2, con las tramas B contribuyendo alrededor del 60%, las tramas P hasta un 30% y las
tramas I un 10 a un 15% del total. La compresin 30:1 de la seal analizada, con 3.4 Mbps en MPEG-2 se debe
casi exclusivamente a la prediccin de movimiento.
En forma muy simplificada, el anlisis de movimiento y la posterior codificacin en MPEG-2 consiste en:
1) Definir una trama de referencia (I P) pasada, futura ambas.
2) Definir un rea de bsqueda en cada trama de referencia, con lados mltiplos de 1 pixel, sobre el que
se implementar la bsqueda del MB 16x16 de luminancia analizado en la trama actual.
3) Encontrar un macrobloque de referencia pasado, futuro ambos, lo ms parecido posible al MB Y bajo
anlisis en la trama actual. Los MB se referencian en coordenadas absolutas dentro de la imagen.
4) Calcular un vector de movimiento diferencial (dX,dY) medido en pixels hacia atrs, en tramas P, y
hasta dos vectores en tramas B: un vector diferencial hacia atrs y otro hacia adelante.
5) Generar un MB de error diferencial entre el actual y el encontrado en la bsqueda pasada futura. Si
se han definido dos vectores de movimiento, se promedian los dos MB de error diferencial generados.
Realizar los pasos 5) y 6) para los macrobloques 16x16 de luminancia, y aplicar luego los resultados a
los bloques 16x8 de crominancia asociados.
795
6) Aplicar la codificacin VLC de cada vector de movimiento y la codificacin DCTQ de cada error, tanto
para luminancia como para crominancia. Se utilizan cuantificadores diferentes al caso intra imgen.
7) Si no se ha logrado encontrar un MB de referencia con un error razonable dentro del rea de bsqueda
codificar el bloque actual en modo intrabloque (como en tramas I).
MPEG-4 aumenta la granularidad de la bsqueda con bloques 8x8 y 4x4, adems de 16x16.
El vector de movimiento contiene informacin sobre la magnitud y el sentido del desplazamiento, con precisin
de hasta 1/2 pixel ( pel). La bsqueda del MB de referencia se basa en obtener el menor valor de la suma de
las diferencias de cada componente del MB actual con un MB arbitrario en la trama de referencia, dentro de un
rea limitado. Un mtodo tpico es computar el valor SAD (Sum of Absolute Differences) entre los elementos de
cada macrobloque 16x16, con un valor SAD mximo permitido.
Debido a que el cmputo del movimiento del MB consume la mayor parte del tiempo de la codificacin MPEG,
cada fabricante de codecs utiliza diferentes algoritmos y reas de bsqueda, lo que define codecs MPEG de
mayor menor calidad, ya que el error de prediccin es generalmente visible como un artefacto en la imagen.
El proceso puede fallar por exceso del valor lmite SAD, como ocurre con un cambio rpido de escena. En este
caso el macrobloque se codifica en modo intrabloque (modo JPEG). La codificacin genera errores visibles que
pueden compensarse parcialmente en MPEG-2, utilizando una de dos tcnicas, con precisin de 1/2 pxel.
En el caso de MPEG-4, los errores pueden ser menos visibles ya que son proporcionales al rea del bloque
codificado, que puede ser de 16x6, 8x8 4x4, con precisin de 1/2 1/4 de pixel. Adicionalmente, MPEG-4
puede utilizar varias tramas de referencia previas futuras, incorporar prediccin espacial y directa, una mejor
correccin de errores de movimiento e incorpora un filtro predictivo en el lazo ABS para prevenir artefactos.
Figura 12.30: Cmputo de Diferencias por Movimiento sobre un Macrobloque de Referencia.

MPEG-2 no define algoritmos para computar el vector de movimiento. Algunos de uso generalizado son:
Bsqueda secuencial: Se testea cada diferencia posible, en una ventana de bsqueda. Muy lento.
Bsqueda en diamante: Basada en estadsticas sobre un gran conjunto de imgenes. Se busca sobre
9 locaciones alrededor del macrobloque bajo estudio, con forma de diamante, y se repite con centro en
el mejor resultado. En cada paso, se achica la ventana de bsqueda.
796
Bsqueda jerrquica: Se basa en refinar la bsqueda en tres pasos, desde bloques 4x4 generados por
submuestreo a 1/4 de los MB 16x16, pasando luego a bloques 8x8 generados por submuestreo a 1/2
de los MB 16x16 y, ya aproximado el resultado, utilizar los MB 16x16 de luminancia.
Bsqueda predictiva: Se utilizan vectores de movimiento ya codificados en macrobloques contiguos y
se predice la direccin de bsqueda del macrobloque actual. La primera bsqueda es no predictiva.
La Figura 12.30 muestra el caso de un MB con origen (a,b) en la trama de referencia que se desplaz hacia
abajo y a la derecha al origen (u,v) en la trama actual y, adems, rot 5 grados. Como el clculo utiliza los MB
horizontales de las tajadas de 16 lneas, la rotacin involucra dos tajadas diferentes, y no puede ser detectada.
En el ejemplo, no obstante, la premisa es que la diferencia es mnima y ambos MB obtendrn el menor SAD. El
MB de error residuo registrar las diferencias entre ambas reas rectangulares. El vector de movimiento
(dx,dy) se codifica diferencialmente con VLC, y el MB de Error se codifica por DCTQ.
En las tramas P, cada macrobloque se codifica con un vector de movimiento (MV) y un MB de error. Si el error
es grande, se codifica como macrobloque I.
En las tramas B, cada macrobloque puede codificarse como un macrobloque P, un MV y un MB de error hacia
una referencia futura, dos MV y MB de error (hacia atrs y hacia adelante) un MB I, si el error es elevado.
Para optimizar errores de prediccin visibles, MPEG-2 define dos modos adicionales de codificacin:
Modo compensacin de movimiento con MB 16x8: Se utilizan dos vectores de movimiento por MB en el
caso de tramas P y cuatro vectores de movimiento en tramas B. Solo es aplicable a codificacin por
campos entrelazados. Cada vector de movimiento codifica un bloque 16x8 que resulta de dividir el MB
en dos partes de 16x8, superior e inferior. Este modo es ptimo en escenas con movimientos rpidos.
Modo Dual Prime: se aplica solamente en tramas P cuando no hay tramas B entre las referencias hacia
atrs y adelante y se basa en utilizar un vector de movimiento (MV) y un pequeo vector de movimiento
diferencial (dMV). Para imgenes entrelazadas, se utilizan dos conjuntos de vectores, uno para el
campo par y otro para el campo impar de imagen previa utilizada como referencia. Para imgenes
progresivas, existen dos campos de referencia (superior e inferior) y dos campos a codificar en la trama
actual, lo que resulta en cuatro conjuntos de vectores de movimiento (MV, dMV). Los vectores son
promediados para suavizar la prediccin. Este modo requiere secuencias GOP tipo IPPPPPPPP
La Figura 12.31 muestra la codificacin por movimiento aplicada sobre dos tramas consecutivas. Se observa
que los vectores de movimiento tienen direcciones y magnitudes diferentes, as como el efecto del ruido ptico.
Figura 12.31: Resta de dos Tramas consecutivas, mostrando los Vectores de Movimiento.
Segn se trate de video progresivo (una imagen en una trama) entrelazado (una imagen dividida en dos
imgenes entrelazadas en dos campos consecutivos) la codificacin por movimiento puede hacerse como:
1. Prediccin de tramas, para imgenes en tramas actuales P B, utilizando macrobloques Y 16x16,
utilizando una ms tramas previas decodificadas en el formato YCrCb original.
2. Prediccin de campos para imgenes en campos actuales P B: se utilizan MB Y 16x16. En este
modo, una trama se forma con dos campos consecutivos y las predicciones pueden ser:
o
Prediccin del primer campo actual desde el primer y/o segundo campo de la referencia,
aunque puede extenderse a campos ms lejanos, segn lo indica el standart MPEG-2.
797
Prediccin del segundo campo actual desde el primer campo actual desde el primer y/o
segundo campo de la referencia. Es vlido aqu tambien la extensin a campos ms lejanos.
3. Prediccin de campos para imgenes en tramas actuales P B: se utilizan MB Y 16x8, producto de

descomponer la trama en dos campos entrelazados: T (top) y B (bottom). Se utilizan dos vectores de
movimiento para tramas P y dos cuatro vectores de movimiento para tramas B, segn se utilicen
referencias futuras (obligatorio) y pasadas (opcional).
El video entrelazado solo utiliza prediccin de campos, y el video progresivo puede utilizar ambas. El modo
predictivo seleccionado se codifica y se enva al decodificador en un encabezado del flujo ES.
La Figura 12.32 esquematiza los modos de anlisis para video progresivo y entrelazado. El anlisis se realiza
siempre sobre MB de luminancia, por su mayor resolucin y, una vez calculados los vectores de movimiento,
se reutiliza el clculo para codificar crominancia Cr y Cb.
El codificador elige el mtodo ptimo para cada caso. Para cambios de escenas lentos es mejor el modo trama
(si es posible), mientras que si el programa tiene muchos cambios rpidos es conveniente el modo campo, ya
que genera el doble de imgenes por segundo. Si el material de video es para distribucin en DVD de uso
diferido, es posible preprocesar el programa para instruir al codificador, aunque el standart no trata este tema.
Figura 12.32: Modos de Anlisis del Sensado de Movimiento en Macrobloques.
12.6.8 Estructura de un Codec MPEG-2 para Video

La Figura 12.33 es un esquema esquema conceptual de un codificador de video MPEG-2, con operacin
predictiva y el loop de error con un decodificador embebido, similar al mtodo ABS (Analysis by Synthesis).
Parte de la flexibilidad de MPEG-2 es que permite la reprogramacin de parmetros del decodificador, como
ser matrices de cuantificacin, algoritmos, etc., por comandos y datos enviados desde el codificador.
Los requerimientos de MIPS para codificar MPEG-2 son dependientes de los algoritmos y la complejidad de la
implementacin de la norma en los DSP, y son elevados. La complejidad de MPEG-4 se estima 4 veces mayor.
Como ejemplo, a fines de los aos 90, la codificacin de video NTSC en SDTV 60i requera unos 4.000 MIPS
(4 BOPS), y un decodificador de video MPEG-2 requera hasta 500 MIPS (0.5 BOPS), lo cual era casi 5 veces
la capacidad del DSP para video ms avanzado del momento.
798
Una dcada despus, se obtienen codecs multinorma en un nico chip mediante la integracin de arquitecturas
especializadas para audio y video.
Figura 12.33: Estructura Simplificada de un Codificador MPEG-2.

Por ejemplo, una solucin existente utiliza 29 BOPS para la estimacin de movimiento, 16 BOPS para la
codificacin del resto de los algoritmos de video y 300 MIPS para audio y control, en una arquitectura monochip
que embebe cuatro procesadores especializados, con un total de 45.3 BOPS.
El lazo de realimentacin es empleado en las tramas P y B, pues las tramas I se codifican en forma directa, sin
algoritmos para minimizar el SAD en las comparaciones de macrobloques al codificar por movimiento.
La Figura 12.34 ampla los conceptos de los procesos para las diferentes tramas y sus resultados. En la misma,
DCTQ agrupa el cuantificador con el bloque DCT.
Figura 12.34: Procesos Generales de Codificacin segn Tramas I, P B.

La Figura 12.35 es un diagrama estructural del decodificador que, premeditadamente, est concebido para ser
mucho ms simple y econmico que el codificador. Un decodificador MPEG-2 es de uso masivo en STB y
receptores DTV, y debe ser compatible con codificadores implementados por un gran nmero de fabricantes.
799
Diferentes soluciones, con mayor menor performance y alcance de normas, se utilizan masivamente y a bajo
costo en telfonos celulares, videocmaras, reproductores de DVD, STB, cmaras IP, SDTV, HDTV, etc. El
crecimiento de la performance en 12 aos ha sido superior a 50:1. Esto se registra en no menos de una docena
de fabricantes originales de codecs con calidad estudio, y ms de 40 fabricantes de codecs para uso masivo.
Figura 12.35: Estructura Simplificada de un Decodificador MPEG-2.
Buffer de Video y Orden de Codificacin

Los procesos del codec MPEG-2 deben estar sincronizados extremo-extremo en todos los niveles de video, por
el almacenamiento de tramas en los buffers de transmisin y recepcin. Se debe contemplar:
1) Orden de codificacin de tramas del GOP, si se utilizan tramas B.
2) Operacin del Video Buffer VBV.
Al utilizar tramas B en un GOP se requiere un reordenamiento previo, pues las referencias I P deben estar
disponibles antes de codificar tramas B. El orden normal (modo display) se modifica, como en la Figura 12.36.
El buffer VBV (Video Buffer Verify) existe en el decodificador y, en forma simulada, en el codificador. En este
ltimo permite controlar, para una condicin prefijada de la red, el funcionamiento del decodificador y prevenir
situaciones de underflow (vaciado del buffer) u overflow (llenado del buffer), ya que ambas condiciones causan
prdida de sincronismo e informacin en el decodificador.
Figura 12.36: Modificacin del Orden Normal de Display durante la Codificacin.

La condicin de red prefijada es asumir un flujo de bits (CBR) y un retardo de transmisin constantes. El buffer
del codificador es la imagen especular del VBV, como lo muestra la Figura 12.37.
800
Figura 12.37: Comportamiento Espejado de Buffers en el Codificador-Decodificador de Video en MPEG-2.

En el decodificador se emula la base de tiempo del codificador mediante la recepcin de una muestra del clock
PCR. El flujo de informacin de video MPEG-2 contiene relojes de 32 bits, referenciados al PCR, con los
tiempos de decodificacin (DTS) y presentacin (PTS) de cada trama. Con este mecanismo, ambas partes se
encuentran sincronizadas en forma diferencial, ya que existe un retardo de propagacin aleatorio.
El VBV se sincroniza con cada GOP y comienza a llenarse con una trama I. A a medida que la informacin del
GOP se utiliza, se va descartando del VBV. La decodificacin de la primera trama I causa un retardo vbv_delay
(I), a partir del cual se contabilizan los tiempos DTS y PTS de cada trama en particular. El p
Figura 12.38: Tamao del Buffer VBV y Retardos en el Decodificador de Video MPEG-2.
El efecto de la operacin global del VBV y los retardos en decodificacin se aprecian en la Figura 12.38, para
una secuencia GOP IBBPBBPBBPBBP. Se observa que, dentro del buffer, las tramas son acomodadas en la
secuencia de codificacin, como se vi anteriormente. Existe un retardo adicional de media trama si la
secuencia se presenta como video entrelazado.
12.6.9 Escalabilidad MPEG-2

Un codec de video escalable soporta ms de una categora de codificacin en su arquitectura, construida como
capas: una capa bsica y una capa enriquecida. Cada capa puede afectar la resolucin espacial, la calidad de
la codificacin, la velocidad de transmisin. Pueden combinarse dos clases de escalabilidad en un codec que
utiliza tres capas, una capa base y dos capas enriquecidas.
801
MPEG-2 soporta cuatro modos de escalabilidad:
Particin de Datos: En este modo se utilizan dos canales de comunicaciones separados para los
datos de la codificacin, tal que los datos crticos de la capa bsica utilicen un canal con proteccin
frente a errores (encabezamientos, vectores de movimiento, coeficientes DCT iniciales, etc.) y los
datos enriquecidos utilicen un segundo canal (resto de coeficientes DCT, etc.).
Escalabilidad SNR: En este modo, utilizando la misma fuente de video, se generan dos capas de
video con diferentes calidades, pero manteniendo la resolucin espacial y temporal. La capa bsica
transmite la calidad bsica por un canal y la capa enriquecida transmite datos adicionales para
mejorar la calidad en un segundo canal. Dependiendo del decodificador y de las condiciones del
canal de comunicaciones se utiliza la capa base ambas. Algunas aplicaciones son:
o
Dos calidades simultneas de TV para SD HD (Ej.: Q=50 y Q=80), segn el decodificador.
Dos modos de color simultneos: Color 4:2:0 en capa bsica y color 4:2:2 en capa enriquecida.
Decodificacin adaptativa de cada modo segn la tasa de errores del canal de comunicaciones
Escalabilidad Espacial: Se generan dos flujos de video, un flujo bsico con menor resolucin y otro
flujo de video para la capa enriquecida, con mayor resolucin. Este modo de escalabilidad es el ms
complejo pues redefine el codec en cada capa. Algunas aplicaciones son:
o
Resolucin SD en capa base y HD en capa enriquecida.
Resolucin SD entrelazado 50i en capa base y SD progresivo 60p en capa enriquecida.
Resolucin SD 30p en capa base y SD 60i en capa enriquecida, para compatibilidad MPEG-1.
Capa base H-14 30p con 720 x 576 y capa enriquecida H-14 60p con 1440 x 1152.
Video para terminales mviles CIF 25p (352 x 288) en capa base y 4CIF 50i (704 x 480) en
capa enriquecida (Netbook, iPAD, etc).
Escalabilidad Temporal: Este modo contempla hasta tres capas, base, enriquecida y superior. Se
generan tres flujos de video (bsico, enriquecido y superior) con nmero creciente de imgenes por
segundo. Este modo tiene un fuerte impacto en la velocidad binaria de video. Algunas aplicaciones
posibles son:
o
Capa base 30p, enriquecida 30p y superior 60p para migracin a HDTV.
Capa base 60i, enriquecida 60i y superior 60p para migracin a HDTV.
12.7 MPEG-4 (ISO/IEC 14496)

MPEG-4 es el standart ISO/IEC 14496, y fue introducido en 1999 con los objetivos iniciales de operar desde
muy bajas velocidades y codificar informacin multimedia como objetos de video, audio y datos. La base de la
compresin es el mecanismo de transformadas DCT, como en MPEG-1 y MPEG-2.
La idea central de MPEG-4 es la codificacin individual de cada objeto y la comunicacin de estos datos en la
medida en que se necesite, lo que genera un alto nivel de compresin, pero requiere codecs ms complejos.
La norma original (1999) solo contena 4 Partes, con la codificacin por objetos visuales (Parte 2) y objetos de
audio (Parte 3). La Parte 1: Sistemas, introduce la representacin codificada de escenas audiovisuales (BIFS y
Descripcin de Objetos), y la gestin, transporte y sincronismo de informacin audiovisual, con MPEG-2 TS
para transportar flujos MPEG-4, en su versin inicial. MPEG-4 define una capa de abstraccin de las redes.
El flujo de video MPEG-4 Parte 2 y su sintaxis particular, es compatible en el Perfil ASP con H.263, por lo que
algunos fabricantes proclaman que codifican bajo MPEG-4. Inicialmente, MPEG-4 no despert gran inters por
su complejidad, resultados prcticos limitados y numerosos temas pendientes de definicin, como lo prueba su
ampliacin a 27 Partes en los ltimos 10 aos.
Sobre 21 Perfiles de video en la Parte 2 definidos hasta el momento (11 inicialmente), los ms utilizados son
los ms sencillos (SP y ASP), para codificar video natural.
802
La orientacin a la codificacin de objetos de video, afn con la media sinttica, no era eficiente para codificar
programas de TV, basados en tramas y campos.
La necesidad de mejorar MPEG-2 para HDTV llev a que en el ao 2003 se presentara otro codec de video
(Parte 10: Advanced Video Coding), idntico a ITU-T H.264.
H.264/AVC se basa en la filosofa de MPEG-2, flexibilizada y potenciada, como ser MB de 8x8 y 4x4 pixels
para referencia e intracodificacin, mltiples vectores de movimiento por MB, referencias a MB mltiples,
nuevas tcnicas de codificacin entrpica VLC, alta escalabilidad, resistencia a prdida de datos, etc.
MPEG-4 define, entonces, dos codecs de video diferentes:
ISO 14496-2: Codec original, orientado a objetos, para multimedia, internet y dispositivos mviles.
ISO 14496-10: Codec AVC, orientado a tramas, para TV Pblica Digital, IPTV, VoD, etc.
El costo computacional de MPEG-4 P2 puede ser diez veces superior al de MPEG-2, y MPEG-4 P10 puede
requerir de 2 a 3 veces ms potencia de un DSP que MPEG-2.
12.7.1 MPEG-4 Parte 2: Codificacin de Objetos Visuales

MPEG-4 P2 introduce tcnicas de compresin orientada a Objetos Visuales y Fondos de Escenas y comprende
manipulacin, reemplazo e interactividad sobre los objetos de las escenas con independencia mutua, utilizando
lenguaje VRML (Virtual Reality Modelling Languaje) y otros. Parte de las prestaciones se deben al creciente rol
de las animaciones por computadora para diseo multimedia, efectos especiales y edicin de video.
MPEG-4 P2 provee mecanismos de codificacin para numerosas funcionalidades como: Video natural, grficos
2D y 3D, interactividad con el contenido, animacin de caras y cuerpos, procesamiento de texturas sintticas y
codificacin geomtrica y lenguaje de modelado (scripting). Ver Tabla 12.39.
Tabla 12.39: Caractersticas de los Perfiles de Video MPEG-4 Parte 2.

Los mecanismos utilizan tcnicas y herramientas para cubrir un amplio rango de resoluciones y de velocidades
binarias, hasta 64 Megapixels por imagen (8192 x 8192). En la bsqueda de normalizar la interoperabilidad de
los productos en la compleja industria de diseo multimedial, con aplicaciones para video, juegos, Internet,
diseo industrial, efectos especiales, etc., sobre PC, TV y dispositivos mviles, el standart MPEG-4 Visual (P2)
ampla frecuentemente Perfiles y Niveles hasta el estadio actual, con decenas de combinaciones posibles.
Las combinaciones entre Perfiles, definidos por las Herramientas, y Niveles segn la resolucin velocidad
mxima disponibles para cada Perfil son muy numerosas e interdependientes para su tratamiento aqu. El
standart se ampla frecuentemente, en particular para nuevas prestaciones de los Perfiles SP y ASP.
803
Las resoluciones de MPEG-4 P2 varan desde sub-QCIF hasta 2048x2048 pixels, con velocidades mximas de
1,8 Gbps en aplicaciones de estudio (YCrCb 4:4:4, 60p), y mnimas debajo de 56 Kbps en terminales mviles.
La Tabla 12.40 presenta 27 Herramientas disponibles en MPEG-4 P2, cuyo uso define un Perfil dado. Como la
aplicacin de cada una depende del uso de otras, existe una matriz 27x27 con permisos de uso de cada una.
Tabla 12.40: Herramientas Disponibles en MPEG-4 Parte 2 para un Perfil Dado.

En la prctica, los Perfiles SP y ASP son los ms utilizados por su sencillez y performance. Estn orientados a
la codificacin de Tramas como un nico Objeto, aunque podran utilizar hasta cuatro Objetos por trama.
Tabla 12.41: Herramientas Disponibles para Cuatro Perfiles Relevantes de MPEG-4 Parte 2.
804
El Perfil 1 (SP) es el ms sencillo y popular. Es un codificador en bloques (16x16 y 8x8) con deteccin y
codificacin de movimiento y resolucin de pixel. Es muy utilizado en aplicaciones que requieren baja
velocidad (10 Kbps), latencia y resolucin como ser videoconferencia, videotelefona, seguridad y aplicaciones
sobre celulares y otros dispositivos inalmbricos. Fue adoptado por 3GPP e ISMA para difusin de video en
tiempo real. Por ser muy popular ha recibido varias actualizaciones, permitiendo ahora codificacin de video a
12 Mbps y resolucin de 1280 x 720 pixels, al igual que ASP.
El Perfil 2 (ASP, Advaced Simple Profile) opera entre 56 Kbps y 12 Mbps. Tiene prestaciones similares a los
codecs ITU-T H.263 y MPEG-2, y soporta tramas B, compensacin de movimiento de pixel, video
entrelazado, y compensacin global de movimiento. Fue adoptado por ISMA para difusin de video en banda
ancha. ASP es utilizado en aplicaciones exigentes, como ser: IPTV, VoD, seguridad, DVD y para difusin
broadcast, multicast y unicast en redes de cable, Internet y dispositivos mviles.
La Tabla 12.41 muestra las Herramientas utilizables dentro de cuatro Perfiles relevantes de MPEG-4 P2. Cada
fabricante decide cual Herramienta utiliza, ms all del conjunto crtico de las 5 primeras Herramientas. Un
codec que verifica un Perfil X puede no utilizar una Herramienta permitida, pero debe ser interoperable con
otro codec que s utiliza esta Herramienta, lo que puede generar incompatibilidades.
Perfil
Simple (SP)
Avanzado
Simple (ASP)
Nivel
Sesin
Visual
Tpica
Pixels por
Pantalla
tpicos
Resolucin @ FPS
Mxima (tpico)
Tamao
Buffer
Mximo
Decoder Rate
Mximo
(Mblk/s)
Mxima
Longitud de
Paquetes de
Video (bits)
Max. bitrate
(Kbps)
L0
QCIF
176x144
QCIF @ 15fps
160 kbit
1.485
2.048
64
L0b
QCIF
176x144
QCIF @ 15fps
320 kbit
1.485
2.048
128
L1
QCIF
176x144
QCIF @ 15fps
160 kbit
1.485
2.048
64
L2
CIF
352x288
CIF @ 15fps
640 kbit
5.940
4.096
128
L3
CIF
352x288
CIF @ 30fps
640 kbit
11.880
8.192
384
L0
QCIF
176x144
QCIF @ 30fps
160 kbit
2.970
2.048
128
L1
QCIF
176x144
QCIF @ 30fps
160 kbit
2.970
2.048
128
L2
CIF
352x288
CIF @ 15fps
640 kbit
5.940
4.096
384
L3
CIF
352x288
CIF @ 30fps
640 kbit
11.880
4.096
768
L3b
CIF
352x288
CIF @ 30fps
1040 kbit
11.880
4.096
1.500
L4
PAL60
704x288
704x288 @ 30fps
1280 kbit
23.760
8.192
3.000
L5
PAL60
720x576
720x576 @ 30fps
1792 kbit
48.600
16.384
8.000
Nota: Los Niveles se ampliaron en el 2006 y el 2009, para SDTV 720x576 (PAL25) a 8 Mbps y HDTV 1280x720 a 12 Mbps.
Tabla 12.42: Niveles caractersticos de los Perfiles SP y ASP de la Rev.2 de MPEG-4 Visual.
La Tabla 12.42 presenta Niveles caractersticos de los Perfiles SP y ASP de la Rev.2 de MPEG-4 Visual.
Un ejemplo es el encapsulado de video H.263 con la Herramienta Short Header, permitida en SP y ASP, que
utiliza descriptores MPEG-4 P2 para acarrear video no generado por un codec MPEG-4 P2. As, dos codecs
pueden ser definidos por los fabricantes como MPEG-4 ASP, pero no ser interoperables en modo H.263.
En la tabla presentada, y aplicable a cualquier otro Perfil, las combinaciones de resolucin y velocidad de
tramas que verifiquen los valores mximos bitrate y decoder_rate son vlidas. Un ejemplo es 720x576@25 fps,
(PAL25) luego incorporada como Nivel 5 (L5). Otra variante es 704x480@30 fps (NTSC).
Existen 28 Partes de MPEG-4, desarrolladas desde 1999 hasta el ao 2010.
12.7.2 Estructuras, Objetos y Streams de MPEG-4 P2

Cada objeto visual definido en una escena bajo MPEG-4 P2 es codificado por separado, con los cambios
temporales que registre, y transmitido individualmente en un Video ES (Elementary Stream). Segn el Perfil, se
puede codificar un nmero variable de objetos de video, con formas rectangulares arbitrarias. La complejidad
de la codificacin aumenta con el nmero de Herramientas utilizadas y este, a su vez, aumenta con el Perfil.
Por ejemplo, el Video MPEG-2 puede ser interpretado bajo MPEG-4 P2 como un nico objeto de video, de
forma rectangular (trama campo), con un nico objeto de audio asociado.
805
El flujo de informacin MPEG-4 P2 se basa en dos niveles de descriptores de elementos visuales, que registran
lo que es sintcticamente descripto, comprimido y comunicado al decodificador:
Descriptores de Escena (SD): El mayor nivel de descripcin. El Formato Binario para Escenas (BIFS)
describe el arreglo espacial y temporal de los Objetos en la Escena.
Descriptores de Objetos (OD): Contenidos en el SD. Definen la relacin entre los Elementary Streams
(ES) de cada Objeto mediante ndices y punteros, lo que permite acceder a los Objetos.
Los elementos SD y OD son transmitidos en flujos ES separados, y contienen punteros a los flujos ES de los
Objetos Audiovisuales (AVO ES). Esta segmentacin basada en punteros permite la edicin completa de una
escena reemplazando el ES del objeto bajo codificacin, lo que es til para diversos efectos especiales.
Para sincronizar el decodificador, se transmiten Descriptores de Escena completos (Full SD) peridicamente,
aunque si ocurre un cambio de escena, se transmite un SD Update en cualquier instante.
El flujo de MPEG-4 P2 es estructurado y est agrupado como ES concurrentes y estructurados (escenas,
objetos, visual streams, audio streams, data streams). Los SD mapean (con punteros) a los OD (Object
Descriptors) en el Flujo OD y los OD mapean a los Objetos Audiovisuales en sus Elementary Streams (ES).
Como MPEG-4 P2 est orientado a Objetos para cualquier clase de media: video, imgenes, audio, texto,
datos binarios y animaciones, cada media requiere un descriptor de objeto y un Elementary Stream asociado.
As, la informacin de contenido del objeto en cuestin y de datos como propiedad intelectual IPMP, son
objetos y tienen asociados descriptores y ES, algunos de los cuales son auxiliares.
Los descriptores de ES tienen subdescriptores para identificar aspectos como:
Configuracin del decodificador (tipo de stream, encabezamiento, etc.)

Capacidad de negociacin de QoS para transmisin, como ser bitrate mximo, BER del canal, etc.
Configuraciones de la Capa de Sincronismo, informacin de los clocks de codificacin, etc.
Metadata, autor del contenido, fecha, lenguajes, palabras clave, descripciones, etc.
Referencias de clock timestamps para verificaciones IPMP, etc.
La Figura 12.43 representa el Modelo de Capas de MPEG-4, para codificacin y decodificacin:
Figura 12.43: Modelo de Capas en la Codificacin y Decodificacin de MPEG-4 P2.
806
Capa de Compresin: Opera con diferentes objetos visuales y escenas, audio y datos bidireccionales.
Esta capa genera y recibe los Streams Elementales (ES) de cada Objeto Audiovisual y de Datos.
Capa de Sincronismo: Sincroniza el flujo y presentacin de diferentes Streams Elementales, binarios.
Capa de Entrega: Adapta el flujo de datos bidireccional a diferentes tipos de redes con dos subcapas:
o
Capa DMIF: (Delivery Multimedia Integration Framework). Multiplexa los Streams Elementales
(ES) de Objetos, segn propiedades lgicas y temporales, en canales FlexMux.
Capa TransMux: No definida en MPEG-4 P2. Adapta los Canales FlexMux a las interfaces con
Sistemas de Archivos, redes IP, ATM, accesos PSTN, canales MPEG-2 TS (Transmisin) y PS
(Storage) y otras clases de redes de distribucin.
La capa de Sincronismo agrega informacin del Clock del codificador MPEG-4, en unidades de 1 milisegundo
de resolucin, para los tiempos de decodificacin (DTS) y presentacin (PTS) de la informacin de los objetos.
La Figura 12.44 muestra la naturaleza estructurada del flujo de MPEG-4 Visual, similar a MPEG-2. Los datos
de los Objetos fluyen en Elementary Streams (ES), acorde con el modelo de capas superior. En MPEG-4 las
Tajadas pueden ser arbitrarias en el Plano VOP, as como los MB pueden no ser regulares.
Video Object 1
(Rectangular Shape)
Video Object Sequence

Video Object 2
(Rectangular Shape)
Estructura de Bit Stream VISUAL de MPEG-4 Parte 2

Video Object Sequence
Video Object 1
Video Object k
Video Object n
GOV
VO End
Code
B-VOP
B-VOP
Capa VO (Video
Objects)
VO Header
GOV
GOV
Capa GOV (Group of

Video Object Planes)
GOV Header
I-VOP
P-VOP
Capa VOP (Video

Objec Planes)
VOP Header
Slice
Slice
Capa Slices
Slice Header
Capa Macrobloques
Macroblock
Header
Macroblock
Block(0)
Block(1)
GOV
Slice
Macroblock
Block(2)
Slice
Macroblock
Block(5)
Figura 12.44: Composicin de Capas en el Flujo de Video MPEG-4 P2.

El flujo de datos MPEG-4 que finalmente se cursa por las redes contiene mltiples canales de informacin de
video, audio, datos y sincronismo y es una estructura de alta complejidad orientada al bit.
En ambos lados se utilizan diferentes esquemas de buffering para sincronizar los tiempos requeridos para la
decodificacin y para suavizar los efectos de congestin (jitter) en algunas redes como IP.
La complejidad de los codecs MPEG-4 es premeditadamente asimtrica, como es usual. La mayor complejidad
reside en el codificador MPEG-4, y esto se traduce en una relacin cercana a 10:1 en MIPS de los DSP.
807
Cuanto ms complejo es el Perfil y/ mayor es el ritmo de tramas, se requieren buffers de mayor tamao, que
se traduce en mayores latencias en la decodificacin de Perfiles ms complejos. Este parmetro delimita las
aplicaciones unidireccionales y bidireccionales en tiempo real.
Archivos Contenedores MPEG-4

Cada media de MPEG-4 P2 (video, audio, datos) fluye por separado como flujos sincronizados entre s. Cada
flujo es procesado y presentado por un decodificador especfico para cada media en el lado Cliente.
El conjunto de decodificadores para MPEG-4 P2 puede integrarse en una aplicacin como ser un Media Player,
que puede tener interoperabilidad con otros formatos adems de MPEG-4.
Estos clientes pueden operar con flujos MPEG-4 en tiempo real, como es el caso de seales de TV con
archivos MPEG-4 que fluyen en modo streaming, y que pueden iniciar la presentacin al recibir la inicializacin
y un primer bloque de datos.
Algunos ejemplos de Media Players que se ejecutan como programas son: VideoLan (Open Source), Quicktime
de Apple, WM9 de Microsoft, etc. Generalmente, los desarrolladores de Media Players tambien proveen de
aplicaciones para navegadores HTML bajo la forma de un plug-in ActiveX un applet Java.
Como lo indica el Modelo de Capas, la estructura multimedia de MPEG-4 puede ser almacenada en archivos
(Contenedores), para su presentacin off-line y distribucin de contenido en medias fsicas como DVD, etc.
MPEG-4 Parte 1 y Parte 14 especifica estructuras de Contenedor (archivo .mp4), que integra las diferentes
medias audiovisuales y de datos y que adems puede ser transmitido como stream.
Existen numerosos players comerciales y Open Source que, con mayor menor xito, cubren las diferentes
combinaciones de MPEG-4 y sus codecs. Debido a la intercompatibilidad que los players presentan, soportan
otros formatos adems de los standares ISO definidos en MPEG-4 Parte 14 (.mp4).
Algunos ejemplos de codecs utilizados en streams .mp4 son:
Videostreams: MPEG-4 Parte 2, MPEG-4 Parte 10 (H.264/MPEG-4 AVC), MPEG-2, y MPEG-1.

Audiostreams: MPEG-4 Part 3, AAC (MPEG-2 Parte 7), MP3 (MPEG-1 Audio Layer 3), MP2 (MPEG-1
Audio Layer 2), MPEG-1 Audio Layer 1, CELP (voz), TwinVQ, SAOL (MIDI) y otros.
Datastreams: MPEG-4 Timed Text (3GPP Timed Text).
En la prctica, existen numerosas variantes de la extensin mp4 que un Media Player puede decodificar
generalmente sin problemas. Algunas de estas variantes son:
o
.mp4 Extensin oficial del archivo MPEG-4
.m4v Archivos .mp4 utilizados por Apple para video+audio. Puede renombrarse como .mp4.
.m4a Archivos .mp4 utilizados por Apple para audio solamente. Puede renombrarse como .mp4.
.m4p - Archivos .mp4 utilizados por Apple para iTunes. Utiliza herramientas de proteccin DRM.
.m4e Archivos .sdp que Envivio utiliza para streaming, renombrados para resemblar MPEG-4.
.m4v, .mp4v, .cmp, .divx, .xvid, .264 tpicamente contienen streams de video MPEG-4.
.3gp, .3g2 Utilizado en celulares, pueden contener contenido no definido en .mp4 (H.263, AMR)
La influencia de Apple en .mp4 es grande, pues Quicktime ha sido la base del formato de archivo original.
MPEG-4 Visual en Redes IP
En el mercado actual, es usual encontrar dos implementaciones de MPEG-4 Parte 2:
MPEG-4 Simple Profile (SP): Utiliza pocas Herramientas, con CIF@15 FPS (L3) hasta 384 Kbps.
MPEG-4 Advanced Simple Profile (ASP): Extiende SP hasta 4CIF (L5) y 8 Mbps (PAL@30 FPS).
808
Una tercera implementacin no es MPEG-4, ya que utiliza los headers del stream MPEG-4 P2 para acomodar
flujos H.263, de tpico uso en videoconferencias, utilizando la Herramienta SH y el Perfil SP.
MPEG-4 ASP es utilizado para difundir contenido de video en la WEB, y se complementa con diferentes codecs
de audio y datos. En particular, se utiliza ASP L4 y L5, que codifica video calidad PAL/NTSC. Tpicamente, se
utiliza RTP (Real Time Protocol) sobre UDP/IP y RTSP/RTCP para control. MPEG-4 se enva sobre flujos RTP
independientes de audio y video, con exigencias de fragmentacin y encapsulado.
La aplicacin de RTP-Video sigue de cerca a la estructura bitstream de MPEG-4 mostrada en el punto previo,
con reglas estrictas sobre como encapsular y cuales prohibiciones existen. El conjunto RTP/RTSP/RTCP se
anuncia generalmente como cumplimentando con ISMA (Internet Streaming Media Alliance), una organizacin
dedicada a promover el uso de RTP/RTSP y un subconjunto de MPEG-4.
El codec MPEG-4 P2 (Visual) puede configurarse en dos modos de streaming:
Constant Bit Rate (CBR): til para redes con ancho de banda limitado. La velocidad pico instantnea
vara muy poco sobre el promedio. CBR genera imgenes borrosas con movimientos rpidos
cambios de escena, pues la informacin no puede ser transferida y se pierden datos.
Variable Bit Rate (VBR): Este modo tiene un alto cociente de velocidades pico/promedio. VBR se ve
afectado, en redes sin QoS, por el ancho de banda que consuman otras aplicaciones en el acceso el
backbone IP, pero genera mejores imgenes con movimientos rpidos en video.
El conjunto RTP/RTSP/RTCP es la seleccin natural de numerosos fabricantes para streaming sobre redes IP.
El transporte de los flujos de video y audio sobre RTP debe verificar un conjunto de reglas de encapsulamiento.
Es necesario analizar sintcticamente (parsing) en forma continua el flujo MPEG-4 para decidir que campos
pueden incluirse en un paquete RTP y como se fragmenta el flujo MPEG-4 en sucesivos paquetes RTP.
Los sistemas y redes con MPEG-4 y RTP deben cumplir estrictas especificaciones de QoS para poder operar
sin prdidas de informacin de sincronismo. En la estructura de un paquete RTP se hacen visibles los clocks
de 32 bits involucrados.
Existen diferentes posibilidades de encapsulamiento de MPEG-4 en RTP sobre redes IP. Este encapsulamiento
no es arbitrario y, al ser necesaria la fragmentacin de elementos MPEG-4, se debe hacer siguiendo reglas
claras de particin y secuenciamiento. La inclusin de campos parciales de MPEG-4 en RTP debe realizarse
considerando las necesidades del decodificador en el lado Cliente.
Asimismo, el transporte por UDP para mnima latencia implica el riesgo de prdidas de paquetes RTP lo que
condiciona ms an las metodologas de encapsulamiento de MPEG-4.
12.7.3 MPEG-4 Parte 10 (ITU-T H.264 AVC): Codec Avanzado de Video

H.264 nace por la necesidad de crear un codec para video rectangular entrelazado a un 50% de la velocidad de
MPEG-2, con nuevos algoritmos de codificacin respecto de 1998, que cubriese la evolucin de SDTV y HDTV.
MPEG-2 utiliza modems 256-QAM operando a 25-30 Mbps sobre canales analgicos FDM para TV (6 Mhz),
para proveer hasta 5 canales SDTV, 2 canales HDTV combinaciones, en redes de cable, microondas y
satlite. En redes digitales, el diseo se orient al transporte en redes ATM, con retardo constante y alto QoS.
MPEG-4 fue desarrollado entre 1994 y 1998 para codificar informacin audiovisual multimedia con la tcnica de
objetos para todas las clases de informacin natural y sinttica. Provee una capa de abstraccin de redes, sean
estas ATM, IP inalmbricas, cubriendo servicios de bajo QoS y ancho de banda limitado.
MPEG-4 Visual agreg mltiples funcionalidades y prestaciones a MPEG-2, pero no mejor significativamente
la compresin MPEG-2 para SDTV y HDTV, lo que motiv a especificar un nuevo codec para video rectangular.
El grupo ITU-T VCEG (Video Coding Expert Group, 1997), comenz la iniciativa H.26L para un codec de video
que superase las prestaciones de los existentes para entonces. El primer test se realiz en 1999 y, en el ao
809
2001, con la incorporacin de la ISO, se cre el grupo JVT (Joint Venture Team) entre MPEG y VCEG con el
objetivo de un codec unificado como MPEG-4 Parte 10 / H.264 AVC, que recibi la aprobacin final en el 2003.
Desde su aprobacin final, en el 2004, muchos fabricantes de primer nivel de codificadores y decodificadores
saltearon MPEG-4 Visual (Parte 2) y desarrollaron productos directamente para H.264 AVC. Los objetivos ms
relevantes en el desarrollo y actualizacin del standart MPEG-4 P10/H.264 AVC han sido:
Pefiles y Niveles para soportar las evoluciones en aplicaciones, formatos y velocidades.
Mejoras en prediccin temporal y codificacin de movimiento.
Mejoras en algoritmos para codificacin entrpica VLC.
Mejoras en procedimientos de cuantificacin.
Mejoras en prediccin espacial y transformadas DCT
Resistencia a prdida de datos.

Otras mejoras.
La Tabla 12.45 presenta una comparacin de prestaciones de los codecs mencionados:
Tabla 12.45: Comparacin de Prestaciones entre MPEG-2, MPEG-4 P2 y MPEG-4 P10/H.264.

Perfiles y Niveles
Desde tres Perfiles en el 2003, H.264 incorpor catorce Perfiles ms, para cubrir aplicaciones de alta calidad y
resolucin como HD (variantes High), video de alta calidad para cmaras profesionales (variantes Intra),
compresin de video multifuente (Multiview y Stereo) y video para aplicaciones mviles (variantes Baseline).
Los 17 Perfiles definidos hasta el momento en H.264 se adecan a diversas reas de aplicacin, segn la
evolucin del mercado, y requerimientos de adaptabilidad y calidad de imgenes. Son utilizados para
broadcasting e interactividad en redes de TV, redes mviles y redes IP con alta calidad de video para
ediciones y transcodificaciones en estudios de grabacin.
El Perfil Main, originalmente concebido para broadcasting de SDTV, ha sido desplazado en la prctica por el
Perfil High, que cubre SDTV y HDTV en arquitecturas como DVB y otras.
Los perfiles Intra se utilizan en mbitos profesionales, permiten una edicin directa trama por trama, no
propagan los errores en un GOP y aprovecha compresin en paralelo multi-CPU, pues cada trama I es
codificada con independencia de las dems. Puede requerir 5 veces el ancho de banda de un Perfil High.
810
La Tabla 12.46 presenta los 16 Niveles asociables a los Perfiles de H.264 hasta el ao 2011.
El Perfil High est desplazando al Perfil Main para aplicaciones SDTV y HDTV, por los creadores de contenido,
fabricantes de equipos y operadores de redes. Tiene la misma complejidad de implementacin y ms eficiencia
por la opcin de utilizacin de intrablocks 8x8 4x4, a lo que se agrega mejor calidad de imagen por el control
independiente de los cuantificadores Cr y Cb.
La opcin bsica para SDTV es High@L3.0, mientras que para HDTV las opciones varan entre Level 3.1 y
Level 4.2, dependiendo de la resolucin y la calidad de la imagen. Para terminales mviles, las opciones varan
entre los Perfiles Baseline y Constrained Baseline, y los niveles entre L1.0 y L2.0.
En las aplicaciones de estudio de TV y mbitos profesionales de creacin de contenido, se utilizan perfiles ms
avanzados como Hi10P, Hi422P Hi444PP y niveles L4.0 y superiores. La mayor resolucin y calidad obtenida
permite la transcodificacin a Perfiles y Niveles inferiores, con control de la calidad del submuestreo.
Para edicin avanzada sobre el contenido, la utilizacin de los perfiles previos es ms compleja y de menor
calidad, por las dificultades para sincronizar y editar tramas B y tramas P. Para estas aplicaciones se
desarrollaron los perfiles Intra, que solo utilizan tramas I, con un control absoluto de edicin trama por trama.
Si el contexto utiliza una red LAN 1GbE, no es una restriccin el alto requerimiento de ancho de banda de los
Perfiles Intra. En aplicaciones de DTV de muy alta calidad y resolucin, como lo seran las variantes Digital
Cinema 2K y 4K, con video progresivo de 30 TPS a 60 TPS, la eleccin vara entre los niveles L5.0 y L5.1.
Tabla 12.46: 16 Niveles Asociables a los Perfiles H.264 hasta el Ao 2011.

Numerosas reas de aplicacin de H.264 estn contempladas en la tabla de Niveles, como ser la distribucin
de contenido en formatos Video CD (VCD), China Video Disc (CVD), DVD, Blue-Ray y 5.0 MP (Megapixels), el
cual es popular en las nuevas cmaras digitales.
En H.264 el buffer virtual de imgenes VBV es reemplazado por el buffer virtual DPB (Decoded Picture Buffer)
que, con funciones similares, almacena las tramas utilizadas como referencias previas futuras.
811
La latencia de H.264 es funcin de la cantidad de tramas campos almacenados hasta que el decodificador
inicia el proceso de presentacin de imgenes, y vara desde 4T TR (100-120 mseg) hasta KMaxTTR, donde KMax
es el nmero de tramas que el decodificador almacena segn el Perfil, el Nivel y, en ltima instancia, el criterio
de diseo del codec para presentar video de calidad.
KMax puede llegar a 32 tramas, lo que implica ms de 1 seg. de latencia. El tamao del DPB se relaciona con
los parmetros mencionados y puede llegar a varios Mbits.
Estructura del Codificador de Video H.264

La Figura 12.47 presenta los bloques estructurales del codificador H.264, asumiendo que los procesos de
fragmentacin de imagen son realizados previamente. Las salidas principales son: datos de control,
coeficientes DCT cuantificados y datos de movimiento, los cuales son codificados entrpicamente y procesados
con las reglas sintcticas de H.264 para generar el flujo de datos de video estructurado con encabezamientos.
Figura 12.47: Estructura Bsica del Codificador H.264.
Mejoras en Prediccin Temporal y Codificacin de Movimiento

MPEG-2 est limitado a la codificacin de movimiento de MB 16x16 en una trama de referencia previa (P, B) y
una trama de referencia futura (B), tal que los pixels del MB deben estar completamente dentro de la trama.
H.264 soporta la prediccin de movimientos VBSMC (Variable Block Size Motion Compensation) de MB Y con
tamaos 16x8, 8x16, 8x8, 8x4, 4x8 y 4x4, aumentando la precisin de la codificacin. Varias combinaciones
pueden ser reagrupadas en un nico macrobloque de luminancia.
Figura 12.48: Precisin del Vector de Movimiento (1/4 de Pixel, con Filtro Lineal Predictivo de 6 Etapas.
812
Los bloques de crominancia son de mayor tamao. La Figura 12.48 presenta las combinaciones de cada
particin, que puede tener ms de un vector de movimiento asociado, con un mximo de 32 MV en el caso de
un macrobloque B construido con 16 particiones 4x4.
H.264 permite prediccin de vectores de movimiento solo con el el residuo error de prediccin en los casos
de elevada correlacin temporal entre la referencia y el bloque a codificar. Tambien es posible utilizar la opcin
Bsqueda de Movimiento Irrestricta, con la cual las tramas de referencia pueden estar fuera de la imagen y
los datos faltantes pueden ser predecidos espacialmente. La opcin es desactivable.
Se puede codificar con macrobloques I en tramas B, lo que no es permitido en MPEG-2 MPEG-4 Visual.
La precisin de pixel de luminancia se obtiene con una prediccin lineal de 6 coeficientes (1, -5, 20, 20, -5, 1)
sobre muestras distanciadas 1 pixel. La precisin de pixel de luminancia se genera con promedios sobre las
muestras distanciadas 1 pixel y pixel. En seales de video YCrCb 4:2:0 esto se traduce en una precisin de
1/8 pixel de crominancia.
Se permiten mltiples tramas de referencia, en cualquier combinacin de tramas previas y futuras, con mayor
resolucin temporal y compresin que MPEG-2. Esta facilidad se aplica a los vectores de movimiento para
particiones 8x8 mayores. Pueden utilizarse hasta 16 tramas previas de referencia (32 campos) y se permiten
utilizar tramas B decodificadas como referencia, lo que no estaba permitido en MPEG-2. La Figura 12.49
representa esta facilidad y el desacople entre el Orden de Display y el Orden de Codificacin de MPEG-2.
Estas facilidades son muy tiles para obtener elevada compresin en programas con rpidos alternados de
dos escenas que se suceden rpidamente, entre otras aplicaciones.
Figura 12.49: Nuevos Tipos de Referencias y Dependencias en MPEG-4 Parte 10/H.264.

Se utiliza prediccin ponderada sobre una muestra codificada en movimiento, aumentando la precisin dada
por mltiples referencias y por las distancia fraccionales de 1 pixel. La prediccin ponderada se genera al
multiplicar cada valor de una regin por un factor de escala ms el agregado de un desplazamiento.
Esta prestacin es excelente para la prediccin ponderada en tramas B sobre contextos de desvanecimientos
(fade-in, fade-out, inter-scene fading) para escenas con movimiento acelerado, cuando existen varias tramas
B entre tramas de referencia I P. La ponderacin puede utilizarse tambien para tramas P, en forma explcita.
Mejoras en Prediccin Espacial y Transformadas DCT

Como el algoritmo de compresin intra-trama opera sobre los MB en forma secuencial, los resultados previos
pueden emplearse para predecir resultados futuros, lo que requiere solo la transmisin del residuo error.
H.264 opera con prediccin en el dominio espacial del bloque (en sus bordes) antes de calcular la transformada
DCT del bloque en cuestin. Para ello utiliza referencias de los bloques Y contiguos de 16x16, 8x8 4x4 pixels.
813
Este algoritmo no es utilizado en MPEG-2 MPEG-4 Visual, y es similar a la prediccin de los coeficientes DC.
El tamao de los bloques depende de la uniformidad de la imagen, dando lugar a predicciones gruesas y finas.
Las bsquedas predictivas espaciales previas a la transformacin DCT permiten utilizar patrones de bsqueda
ptimos para encontrar los bloques con mayor correlacin. Para la codificacin de luminancia existen nueve
patrones de bsqueda para macrobloques 16x16 y cuatro patrones de bsqueda direccional para bloques 4x4.
Para la codificacin de crominancia, existen cuatro patrones de bsqueda sobre macrobloques 8x8.
Para los Perfiles bsicos, los residuos de la transformada DCT se codifican en bloques de 4x4, para minimizar
errores. Los Perfiles High y superiores permiten la transformacin adaptativa DCT de bloques de 8x8 y 4x4,
segn criterios optimizantes de codificacin.
La transformada DCT de bloques 8x8 4x4 utiliza un algoritmo de nmeros enteros, sin multiplicaciones. Por
ello no es necesario redondear los resultados binarios, lo que genera errores visibles. La transformada DCT
inversa es exacta y reversible sin prdidas, a diferencia de MPEG-2 y MPEG-4 P2.
En el caso de bloques 4x4, permite la ubicacin precisa de los errores residuos, minimizando el efecto de
ringing en los bordes comn en otros codecs. En forma adaptativa, el codificador identifica reas con elevada
correlacin espacial y utiliza DCT sin prdidas sobre bloques 8x8, aumentando la compresin respecto de 4x4.
En regiones sin grandes variaciones, se aplica una transformada Hadamard secundaria sobre los coeficientes
DC de crominancia y, en un caso especial, sobre los coeficientes DC de luminancia, para mayor compresin.
La codificacin sin prdidas es equivalente a una codificacin PCM de los macrobloques, por lo que las reas
codificadas contienen una representacin exacta de la imagen original. Un modo enriquecido adicional permite
que se utilice codificacin sin prdidas utilizando menos bits que el modo PCM.
La apariencia reticulada de una imagen incorrectamente codificada (ruido en los bordes de los bloques) puede
agravarse si se utiliza una resolucin mayor, como ser 4x4. H.264 introduce un filtro dinmico de bordes dentro
del lazo de error de prediccin, lo cual no existe en MPEG-2 en MPEG-4 P2.
El filtro dinmico de bordes (Deblocking filter) en el loop de prediccin del decodificador, que elimina el ruido
espacial en los bordes de los bloques, tiene una eficiencia que es dependiente del modo de prediccin y la
relacin entre bloques contiguos. El filtro minimiza el ruido visual de artefactos que existe en otros codificadores
en bloque, aumenta la relacin SNR y mejora la calidad subjetiva y objetiva de imgenes codificadas a un SNR
dado, frente a MPEG-2. Su efecto es superior al de filtros de posproceso, fuera del loop, y no diluye suaviza
la resolucin de la imagen decodificada.
A nivel de tajadas, el filtrado puede ajustarse a las caractersticas de la secuencia de video. En los bordes, el
filtrado es dependiente de la clase de codificacin, del movimiento y residuos codificados y, a nivel de muestra,
el cuantificador decide si el filtro es utilizado no, dependiendo de si los valores de las muestras decodificadas
estn por encima por debajo de umbrales establecidos por una fraccin del paso de cuantificacin.
El filtrado se realiza inmediatamente despues de la decodificacin del macrobloque con el siguiente orden: en
primer lugar se filtran las transiciones verticales entre columnas de los bloques 4x4 u 8x8, y luego se filtran las
transiciones horizontales. Un filtrado adicional entre bordes de bloques es implementado posteriormente.
Mejoras en Algoritmos para Codificacin Entrpica

Los coeficientes DCT conforman la informacin ms abundante del flujo de video H.264 y, consecuentemente,
utilizan la mayor parte del ancho de banda disponible. Por este motivo, se han optimizado los algoritmos de
codificacin entrpica (sin prdidas) de tipo VLC.
Segn el contexto a codificar, se utilizan tres alternativas a la codificacin VLC MPEG-2, y son CAVLC (Context
Adaptive VLC) y CABAC (Context Adaptive Binary Arithmetic Coding). El algoritmo Exp-Golomb es una tcnica
VLC estructurada que se aplica a todos los smbolos restantes, y no se utiliza en coeficientes DCT.
CAVLC utiliza mltiples tablas con cdigos de longitud variable. Como en MPEG-2, las tablas de H.264 se
basan en estadsticas realizadas sobre una gran cantidad de informacin. El proceso de investigacin realizado
define premisas sobre el contexto para decidir cul es la mejor tabla para la informacin a codificar. El contexto
814
se construye segn los coeficientes DCT, analizados de atrs hacia adelante. Este algoritmo mejora la
seleccin de la tabla VLC (7 en total), debido al aumento de la precisin de la codificacin directa.
Los datos que se contemplan son: el nmero de coeficientes no nulos, sus signos y niveles, el nmero total de
ceros antes del ltimo coeficiente no nulo y el valor run en el par (run, level) de la codificacin RLC directa de
cada coeficiente no nulo. Esto ltimo permite conocer la longitud apropiada de VLC a utilizar en la reversa.
La codificacin CABAC es ms compleja y ms eficiente que CAVLC, al conocer las probabilidades relativas de
los coeficientes a codificar (smbolos) en contexto actual definidos. Est restringida a la codificacin aritmtica
binaria, utilizando solo tablas look-up y desplazamientos, sin multiplicaciones. La base de las tablas CABAC se
actualiza adaptativamente con trabajos estadsticos realizados en el proceso de codificacin.
CABAC opera con el siguiente criterio:
1) Seleccin de contexto: Elige un modelo condicionado en observaciones previas.
2) Binarizacin: Mapea cada smbolo no binario de la sintaxis H.264 con una secuencia binaria, por
ejemplo utilizando una codificacin de rbol n-aria como (1, 01, 001, 0001, 00001, etc.).
3) Estimacin de probabilidad: Utiliza el modelo de contexto para estimar la probabilidad del smbolo.
El contexto est influenciado por los valores de smbolos bidimensionalmente contiguos en DCT.
4) Codificacin binaria aritmtica: Codifica el smbolo segn la estimacin y luego actualiza la
estimacin de probabilidad del paso 3).
Resistencia a Errores
H.264 utiliza diferentes mecanismos para disminuir el impacto por la prdida parcial total de informacin de
tramas, especialmente en los perfiles Baseline y Extended. Estos son:
1) Ordenamiento Flexible de Macrobloques (FMO): Permite una distribucin de los bits asociados a MB
contiguos sean dispersados a lo largo del flujo de video, para evitar que la prdida de un paquete de
datos impacte en un rea significativa, y apela a la posibilidad de que la informacin de macrobloques
contiguos est disponible en el decodificador para predecir los datos del macrobloque faltante.
2) Orden Arbitrario de Tajadas (ASO): Cada imagen es dividida en una ms tajadas que, en H.264, son
muy importantes porque proveen un segmento espacial bsico independiente de los contiguos. As,
errores en una tajada no se propagan a tajadas vecinas. En H.264, la tipificacin I-P-B puede aplicarse
a tramas, tajadas macrobloques, y es posible utilizar tajadas redundantes. La facilidad ASO elimina la
imposicin de codificar los macrobloques secuencialmente y posibilita que el codificador estime el
ordenamiento ptimo para obtener el menor retardo (latencia) de codificacin posible.
3) Particionamiento de Datos: Permite que la informacin ms relevante, como ser encabezamientos, sea
separada y transmitida con mayor prioridad que otras clases, como ser coeficientes DCT de tramas B
en base al procedimiento UEP (Unequal Error Protection) y otros tipos de mejoras.
4) Tramas de Referencia Mltiples: Su utilizacin mejora la prediccin de movimiento y compensa en
forma parcial los movimientos en una trama P que est siendo decodificada, si una de sus tramas de
referencia est corrompida por errores directamente no existe.
5) Tajadas Redundantes (RS): Es una facilidad que permite el envo de una segunda representacin del
rea codificada, tpicamente con menor resolucin, tal que pueda utilizarse en el caso de que los datos
del rea original estn corrompidos se hayan perdido en procesos intermedios.
6) Numeracin de Tramas: Esta facilidad permite crear subsecuencias bajo escalabilidad temporal, con el
agregado de imgenes adicionales intercaladas en el flujo normal y permite la deteccin y conciliacin
de prdidas de imgenes completas, originadas en congestiones de red canales con errores.
El flujo de datos de video H.264, encabezamientos y datos de imagen, se encapsula como paquetes PES en
los Elementary Streams (ES). MPEG-4 System define una capa de abstraccin de redes (NAL) que aisla el
codec de las complejidades de utilizar cualquier clase de transporte como IP, ATM, MPEG-2 TS PS, etc.
H.264 estructura los datos de configuracin en dos niveles de conjuntos de parmetros: secuencia (SPS) e
imagen (IPS), permitiendo concentrar informacin que afecta a ms de una tajada en el flujo de datos su envo
en forma separada. SPS e IPS tienen datos sobre resoluciones, algoritmos, mapeado de macrobloques, etc.
815
Tramas y Tajadas Conmutadas de tipo I y P

Las tramas I sirven para reiniciar un proceso de decodificacin para el acceso aleatorio a una imagen en una
secuencia de video, ya que son intracodificadas, sin referencias.
El acceso aleatorio tambien puede lograrse con tramas P, pero requieren referencias externas. Las mismas
propiedades se trasladan a las tajadas I y P.
El acceso aleatorio es requerido en la edicin de video y en la exploracin del programa con un control remoto,
bajo diferentes funciones: retroceso (R, FR), avance (F, FF), pausa (PA), etc. En estos procesos, se cambian
permanentemente las referencias del decodificador, as como la velocidad del flujo de video.
Para aumentar la eficiencia del decodificador en estos procesos, H.264 utiliza dos nuevos tipos de referencias
conmutables: SI (Switching I Picture) y SP (Switching P Picture). El concepto se basa en la decodificacin de
idntica de tramas utilizando diferentes tramas, ninguna, como referencias antes de la decodificacin.
Como las tajadas son codificadas independientemente, dentro de la imagen, el concepto de conmutacin de
referencias tambien puede aplicarse a tajadas I P.
Mejoras en procedimientos de cuantificacin.
La cuantificacin de los coeficientes de las transformadas DCT en H.264 tiene las siguientes mejoras:
Control del paso de cuantificacin en forma logartmica, lo que provee una gestin ms simple para el
control de la velocidad del flujo de video y una escala ms sencilla para cuantificacin inversa.
Paso ms pequeos para la cuantificacin de coeficientes de crominancia (segn H.263 Anexo T) y
rango extendido de pasos de cuantificacin y seleccin libre del tamao del paso a nivel de MB.
Las matrices de cuantificacin pueden ser propietarias y su seleccin una funcin de la optimizacin
basada en calidad perceptual. Las matrices para Cr y Cb pueden seleccionarse independientemente.
La aritmtica binaria de la reconstruccin de la cuantificacin es minimizada a: una multiplicacin, una
adicin y un desplazamiento.
Mejoras en codificacin de video entrelazado

En codificacin por campos, se ha mejorado la codificacin de video entrelazado para tramas de imgenes en
modo campo, permitiendo el uso de MB 16x16 en forma adaptativa a tramas campos (MBAFF). En MPEG-2,
solo pueden utilizarse MB 16x8 al descomponer la trama en campos secuenciados.
En codificacin de imgenes por tramas, el Tipo 1 codifica la trama completa como una imagen independiente,
mientras que el Tipo 2 codifica la imagen como pares de MB en la misma columna y dos lneas consecutivas, lo
que produce 2 MB 16x16.
Utilizando el algoritmo PAFF (Picture Adaptive Frame-Field coding), se elige entre codificar dos campos como
una trama como campos individuales.
Prestaciones Adicionales
H.264 contiene varias prestaciones adicionales que perfeccionan las capacidades de MPEG-2, dependiendo
del Perfil utilizado, como ser:
Soporte desde monocromo hasta full-RGB (4:0:0 hasta 4:4:4), con mltiples interfaces.
Precisin de muestras desde 8 hasta 14 bits por pixel.
En modo RGB, codificacin individual de cada plano de color como tres flujos de video en paralelo.
Utilizacin de imgenes auxiliares para propsitos como composicin alfa.
Numeracin de orden de imgenes, que desacopla la decodificacin de las imgenes de los datos de
sincronismo DTS y PTS, que pueden ser procesados por separado sin afectar la imagen decodificada.
816
12.8 La Visin Humana

12.8.1 Resolucin Visual en Pantallas 2D
Desde la invencin del cinematgrafo y su aceptacin masiva como un nuevo entretenimiento audiovisual, ha
existido consenso en representar solo una porcin de la percepcin 3D y el amplio campo visual binocular de la
visin humana (180 H x 135 V) en una pantalla 2D de diversos tamaos y resoluciones. Tal convencin, que
se basa en parte en el mecanismo de visin primaria de alta resolucin, y visin perifrica de baja resolucin,
disminuye la enorme cantidad de informacin requerida para la captacin realista del mundo que nos rodea,
aunque demanda 2.1 Mpixels por cuadro (6.3 MB en color RGB-24) para las escenas de video HDTV.
Las nuevas cmaras, pantallas y codecs digitales de video hacen posible capturar informacin suficiente para
la satisfaccin sensorial del ser humano, almacenar la misma y posibilitar su reproduccin desde un soporte de
media local utilizando redes de comunicaciones. Tal experiencia de visualizacin es crecientemente realista y
se basa un siglo de evolucin tecnolgica, de las teoras de la visin humana y ciencias complementarias.
Las limitaciones de la realidad en visualizaciones sobre pantallas 2D se compensa con diferentes recursos de
la mente humana, como ser la abstraccin del contexto, efectos pticos, etc. La informacin audiovisual actual
crea un flujo audiovisual 2D que representa un mundo tridimensional, lo que es aceptado por el ser humano si
existen satisfacciones sensoriales que potencien la abstraccin. La tecnologa evoluciona a la par del proceso
de aceptacin de nuevas experiencias audiovisuales, lo que desarrolla nuevos mercados de consumo masivo
para pantallas fijas y mviles, cmaras, soporte de media, conectividad, servicios audiovisuales, etc.
No existen standares sobre las dimensiones correctas de una pantalla plana 2D que provea una satisfaccin
mensurable en el usuario y, hasta pocos aos atrs, los standares en el tamao de los TRC dependan de sus
costos y de limitaciones de los procesos de fabricacin. Las nuevas tecnologas para pantallas planas permiten
una amplia dispersin de formatos, resoluciones y calidad de los terminales audiovisuales, a costos razonables,
y la introduccin masiva de nuevos servicios como DTV, HDTV, 3DTV, nuevas teoras para el entretenimiento
audiovisual, diferentes clases de terminales mviles, y la ubicuidad de los accesos remotos.
El xito el fracaso de diferentes propuestas audiovisuales siempre depende de la aceptacin pblica, en
trminos de los beneficios que recibe con el servicio contra el esfuerzo por superar deficiencias en el
movimiento, en el color, la resolucin grfica y otros factores de bajo realismo.
La evolucin en tecnologas digitales para cmaras, terminales, soporte de media, redes y codecs de video y
de audio permiten representaciones cada vez ms realistas del mundo 3D en una pantalla 2D. Esto, junto con
nuevos desarrollos en TV 3D y el creciente aprovechamiento de fenmenos pticos y neurovisuales plantea un
desafo para medir el QoS y el QoE de servicios audiovisuales como IPTV, videoconferencias, etc.
La presentacin de informacin visual en una pantalla se basa en explotar efectos psicovisuales, neurovisuales
y cognitivos de la visin, que codifican informacin visual de alta calidad para hacer posible su transmisin en
redes su almacenamiento en soportes de media, con niveles de compresin 50:1 100:1. Un decodificador
MPEG-2 en un DVD descomprime la seal de video con resolucin 720x480 pixels a 5.5 Mbps pico, grabada
desde una fuente de video RGB- 24 bits a 248 Mbps, obtenidos en la salida de cmaras de estudio.
Una seal HDTV de 1920x1080 pixels, decodificada en MPEG-4 desde un flujo de 24 Mbps, se origina en una
seal de 1.5 Gbps a la salida de una cmara HD de estudio en RGB-24 bits, que dispone de mltiples formatos
y resoluciones. Una nueva tendencia es el video QFHD 4K, con resoluciones utilizadas en salas de cine, a
casi 8 MPixels por cuadro (Ej.: 3840x2160), comprimido desde una seal de origen RGB-24 bits de 5 Gbps.
Los codecs de video son esenciales para procesar y comprimir informacin visual digital y operar con niveles
de calidad de hasta RGB-64 bits, para masters de video en aplicaciones civiles, industriales y militares.
Las relaciones entre tamaos de pantalla y resoluciones, junto con el cdec a utilizar, depende de cul ser el
contexto de uso de la representacin audiovisual. La exigencia del contexto es funcin de la aplicacin, sea en
cine TV, y de la ubicacin del observador respecto de la pantalla para una experiencia visual satisfactoria sin
que, como mnimo, el observador perciba el efecto de los pixels en los bordes de objetos estacionarios.
El nivel deseado de captacin sensorial de la escena es otro factor para el tamao de la pantalla a utilizar y la
ubicacin promedio del espectador. El ser humano tiene un amplio campo visual, casi de 180 x 130, pero solo
discrimina en detalle objetos visuales de la escena a los que mira cuando su mente enfoca el objeto.
817
Lo que se ve es una reconstruccin de objetos y escenas en base a la informacin provista por los ojos, luego
de que diferentes filtros y efectos pticos procesan las imgenes segn la luz recibida por los ojos. As, el
cerebro procesa datos del mundo visual ajustados, si es posible, en el rango de diferentes parmetros de la
visin como luminosidad, color, resolucin espacial, campo visual, etc. La informacin visual tiene al menos dos
niveles: un nivel primario de alta resolucin y un nivel secundario perifrico de media y baja resolucin.
Si la pantalla inunda una porcin importante del campo visual, el resto de la escena que no se mira se percibe
en baja resolucin con la visin perifrica, a menos que un movimiento la decisin de mirar algo sobre estas
reas de la escena, dispare el cambio de la visin primaria hacia un nuevo objeto.
La resolucin y el tamao de una pantalla grfica depende del realismo que se quiera imprimir a las imgenes
secuenciales del flujo de video recibido, de las dimensiones del terminal de video, la distancia del observador
respecto de la pantalla, la aplicacin del servicio para entretenimiento productividad y, en un nuevo concepto,
de las capacidades de transportabilidad del terminal y de la ubicuidad de su conectividad en redes.
La maduracin en las tcnicas de fabricacin de pantallas planas permite un despliegue masivo en el mercado
de consumo, para cualquier uso: TV, monitor de PC, display de mvil, etc. Las pantalla en terminales mviles
han pasado de resoluciones de 4KPixels una dcada atrs a casi 0.8 MPixels, en pantallas originalmente de 2
hasta 10.1 12" actuales (Tablets), y capacidad de color hasta standares actuales de 24 bits (TrueColor)
30/36/48/64 RGB bits (Deep Color). En igual perodo, las pantallas para terminales de PC y aparatos de TV han
pasado por una transformacin similar, siendo hoy comn equipos de TV para HDTV y UHTV con pantallas
desde 11 hasta 80, y monitores de PC de 18 a 24 con resolucin 1920 x 1080 pixels.
Se ha probado que la agudeza visual promedio para reconocer el menor tamao de una letra es de 1 de arco
(0.017 grados 291 rads), equivalente a resolver dos lneas separadas 1.6 mm. Los tests de Snellen
expresan la visin normal como 20/20 6/6, siendo el denominador (en pies metros) la distancia a la que el
individuo testeado resuelve con xito lo que el promedio de la gente hace a 20 6 mts. Un individuo con
problemas de visin y agudeza visual 20/70 discrimina a 20 lo que la mayora discrimina a 70. Aplicado a la
resolucin sobre pantallas planas, implica que los seres humanosdiscriminan 60 pixels/grado sexagesimal.
Con mltiples combinaciones del tamao de una pantalla, su resolucin en pixels, la posicin del observador y
la velocidad de informacin binaria de video, la experiencia en valores de resolucin ptica perceptual dice que,
en promedio, existe un nmero reducido de contextos de visualizacin. Los mecanismos de percepcin visual
son complejos, con numerosos parmetros fsicos, efectos pticos, enmascaramientos visuales y procesos de
la visin neuronal que an no son interpretados, as que la agudeza visual es un parmetro ms a considerar.
Algunos ejemplos de visualizacin promedio se presentan a continuacin:
Para mirar un programa de TV en una pantalla plana de 40 la gente se ubica, en promedio, a 3 metros
2
de distancia, empleando hasta 17 de su campo horizontal de visin. El rea visible de 88,6 x 49,8 cm
y la resolucin de 1920 x 1080 pixels (HDTV) define pixels cuadrados con lados de 0,46 mm. A 3 mts.,
el ojo promedio discierne cambios de bordes mayores a 0.89 mm (2 pixels), por lo un observador no
puede ver un pixel individual. Para discriminar un pixel en HDTV (ruido ptico), el observador debera
ubicarse a menos de 1.5 mts de la pantalla, empleando ms de 33 horizontales del campo de visin, y
debera concentrarse en su percepcin, una experiencia visual poco placentera. Si desea observar el
programa a esta distancia, debera mover sus ojos con frecuencia para seguir objetos en movimiento.
2
El video de 25 a 30 imgenes/seg, cada una de 2.1 MPixels, se resuelve con 470 pixels/cm .
Para actividades sobre una PC con pantalla plana de 17 y resolucin de 1280 x 1024 pixels en un rea
visible de 37 x 22 cm, la mayora se ubica a una distancia de 50 cm para una visualizacin confortable,
relacionada con el uso ergonmico del teclado y el mouse. La pantalla cubre 40 del campo horizontal
de visin, til para realizar trabajos. En la pantalla de 17, el tamao horizontal promedio de un pixel es
de 0.26 mm, igual a la mnima separacin percibible por el ojo. A la resolucin indicada, una letra que
utiliza Arial 8 requiere un cuadro de 9 x 9 pixels. Al emplear la pantalla para visualizar un video de alta
resolucin, el ojo humano recibe un flujo continuo de imgenes de 1.3 MPixels a 25 a 30 cuadros/seg,
2
presentadas en una pantalla con una densidad de 1.610 pixels/cm .
Para actividades sobre un terminal mvil, como un Smartphone avanzado con una pantalla de 4 y una
resolucin de 1136 x 640 pixels en un rea visible de 9 x 5 cm, el ser humano opera a una distancia de
30 a 40 cm, y la pantalla ocupa entre 7 y 10 del campo horizontal de visin. El tamao horizontal del
pixel fsico es de 0.08 mm, inferior a la menor separacin visible entre dos puntos a 30 cm, que est en
el orden de los 0.13 mm. A mxima resolucin, existe un flujo de video de 30 cuadros/seg, con cada
2
cuadro de 0.73 MPixels, resuelto en la pantalla utilizando una densidad de 16.156 pixels/cm .
818
Otros factores a considerar son el contraste del objeto visualizado contra el resto de la escena, la resolucin de
la escena en pixels, brillo y color, el sincronismo luminancia-crominancia en los objetos mviles, nitidez en los
bordes de objetos fijos y mviles a velocidad media elevada (ej.: deportes), etc. La agudeza visual afecta al
observador si este es perturbado por bordes serrucho en los objetos, ruido ptico de pixels macrobloques
codificados, diversas degradaciones en la codificacin, que genera artefactos visibles u objetos borrosos.
Resumiendo las diferentes clases de factores que impactan fuertemente en la percepcin visual directa, puede
resumirse que deben satisfacerse aspectos como: ngulos de visin de la escena, resolucin y detalles de los
objetos de la escena, balance de color, paletas utilizadas, contraste blanco sobre negro, y sensibilidad y rango
dinmico de los parmetros de cmaras y pantallas bidimensionales 2D. En nuevas tecnologas 3D se debe
contemplar la profundidad de campo y la visin estereoscpica.
12.8.2 Aspectos de la Visin Humana

Funcionamiento del Ojo Humano
El globo ocular de un adulto tiene un dimetro promedio de 22 mm, con una dispersin del 10%. El campo de
visin horizontal es de casi 180 y el campo de visin vertical promedia +60 / -75 con referencia a la nariz, lo
que es aprovechado en diferentes formatos de pantallas de cine y TV planas. La Figura 12.51 representa el
corte vertical de un ojo humano adulto y sus partes funcionales, aprecindose que no es una esfera perfecta,
debido a que las dos partes unidas, la crnea y la esclertica, deforman el globo ocular.
Figura 12.51: Anatoma Simplificada del Ojo Humano Adulto.

La luz ingresa por la crnea, protegida por una delgada capa de lgrimas. Esta es una membrana transparente
que ayuda a enfocar la luz del objeto iluminado, y est separada de las secciones de enfoque mediante una
segunda capa lquida y transparente humor acuoso, que mantiene una presin constante dentro del ojo.
La luz que ingresa por el humor acuoso pasa a travs de la pupila, como se observa en la grfica superior. La
pupila es fundamental para determinar la cantidad de luz que ingresa al ojo y est rodeada del iris, la parte del
ojo que caracteriza su color. La pupila opera como un diafragma de una cmara fotogrfica, para as regular la
cantidad de luz que ingresa a la retina. La pupila se dilata para aumentar la cantidad de luz ingresada, cuando
se trata de mbitos oscuros, se achica para disminuir la luz ingresada, como ser en mbitos muy iluminados.
Detrs del conjunto pupila-iris se encuentra el lente cristalino, empleado para enfocar los objetos iluminados
en el fondo de la retina. El cristalino est acomodado en su lugar por ligamentos msculos ciliares, utilizados
para que deformen el cristalino tal que se ajuste la visin cercana de objetos, segn distancia y tamao.
El cristalino enfoca la luz sobre el fondo del globo ocular, en la fovea que se ubica en la retina, pasando por un
medio acuoso de textura gelatinosa, denominado humor vtreo.
819
La retina es la primer capa que encapsula este fluido, y contiene diferentes fotoreceptores que transforman la
luz en impulsos electroqumicos sobre el nervio ptico, que progresan por el sistema nervioso central y llegan a
la corteza visual primaria del cerebro, que procesa la visin en integra la percepcin binocular.
La retina es un tejido con numerosos fotoreceptores y terminaciones nerviosas que recubre el globo ocular por
dentro y recibe la proyeccin de la escena captada. Tiene un entorno complejo, con mltiples partes como la
2
esclertica, la coroides, los vasos sanguneos y subcapas de la propia retina. La fvea, un rea de 0.8 mm es
el rea focal y se ubica en la mcula, un rea de 5 mm de dimetro que procesa la visin de detalle de objetos,
2
y tiene una alta densidad de fotoreceptores sensibles al color, con casi 90.000 conos/mm .
En el cuadro de visin de un ser humano un vertebrado, existe un punto ciego en el rea donde se concentra
la recoleccin de fibras de la retina para formar el nervio ptico, que carece de fotoreceptores. El rea afectada
en la retina equivale a un ngulo esfrico que forma un rea de 7.5 x 5.5 desde el punto focal del cristalino.
Los fotoreceptores son terminaciones nerviosas de dos clases, conos y bastones, sensibles al color y al brillo,
que transforman la luz en impulsos electroqumicos en las fibras del nervio ptico, hasta que la informacin
codificada llega a las reas del cerebro que procesan la informacin visual. Existen decenas de millones de
fotoreceptores asociados con terminales nerviosos combinados en el nervio ptico, que sale de la retina hacia
la corteza visual del cerebro por el punto ciego, que no provee visin. Los fotoreceptores tienen fotopigmentos,
compuestos de dos molculas, los cuales se dividen en dos al recibir un estmulo de luz en la longitud de onda
apropiada, sea roja, verde azul. Esta accin dispara seales a la capa de clulas neuronales bipolares que es
subyacente, las que a su vez alimentan a las clulas ganglionares, ubicadas en la parte interior de la retina.
Existen diferentes clases de clulas ganglionares, que varan en tamao, conexiones nerviosas y sensibilidad
sensorial. Es caracterstico que las neuronas ganglionares tengan un largo axn que llega a la corteza visual,
pues forman el nervio ptico, el quiasma y la va ptica, llevando datos al tlamo, hipotlamo y mesoencfalo.
Los dos tipos de fotoreceptores dispersos en la retina son:
Bastones: contienen un pigmento llamado rodopsina y se localizan en la periferia de la retina, fuera de

la fvea. Perciben la luminosidad y el movimiento y aportan la mayor parte de la visin escotpica, que
genera una visin monocromtica y tiene baja sensibilidad al componente azul de la luz.
Conos: se localizan mayoritariamente en la fovea y permiten diferenciar los colores. Proveen el modo
fotpico de la visin y, fisiolgicamente, representan el inicio de la percepcin del color. Existen tres
clases de conos segn su sensibilidad al color, equivalente a longitudes de onda especficas:
o
o
o
Conos Rojos: Tienen fotopigmentos ms sensibles a la radiacin roja, cercana a 570 nm.
Conos Verdes: Tienen fotopigmentos ms sensibles a la radiacin verde, cerca de 535 nm.
Conos Azules: Sus fotopigmentos son ms sensibles a la radiacin azul, cerca de 445 nm.
La transduccin electroqumica de la luz a seales neuronales es un proceso que pasa de los fotoreceptores a
las clulas bipolares, y de estas a las clulas ganglionares, que conjugan informacin de varios fotoreceptores.
Existen dos tipos de clulas ganglionares: rojo/verde y azul/verde, y producen impulsos a diferente ritmo segn
el estmulo del color, lo que se utiliza para decodificar el color en el cerebro.
Una misma clula ganglionar rojo/verde puede recibir estmulos de ambas clases de fotoreceptores simultnea
alternadamente, y el rea visual del cerebro discierne el color, segn cambios de frecuencia de los impulsos.
La Figura 12.52 presenta la eficacia del ojo humano para transformar la radiacin lumnica en lumens, segn la
visin escotpica (bastones) y la visin fotpica (conos), ajustadas a la radiacin diurna y nocturna. Se aprecia
la contribucin relativa de los tres tipos de conos a la visin fotpica. El lumen mide el flujo luminoso de una
fuente de luz, y es una magnitud fsica mensurable basada en la candela, que define la energa visible.
La sensibilidad de la visin escotpica y fotpica difiere segn horas diurnas nocturnas. Se ha verificado que
en el ser humano, la sensibilidad espectral pico diurna ocurre a una longitud de onda de 555 nm (color verdoso)
y en horas nocturnas el pico ocurre a 507 nm (color verde-azulado).
La sensibilidad del ojo humano es mayor para colores por debajo de 500 nm (verde oscuro, azul, violeta, etc.),
y se generan ms lmenes/watt de radiacin ptica en la visin escotpica que en la zona de la visin fotpica.
820
El ojo humano puede tipificar hasta 10 millones de colores diferentes, en base a informacin combinada de las
salidas de los tres tipos de conos. La retina tiene cerca de 6 a 7 millones de conos, con la mayora ubicada en
la mcula, de 5 mm de dimetro, donde se resuelve la visin de detalle. El centro ptico de la visin es la fvea
que tiene 0.3 mm de dimetro. La fovea est dentro de la mcula y solo contiene conos. Su centro es llamado
foveola, y se alinea con el eje visual del ojo humano, que es el enfoque real del ojo sobre la zona de la retina.
El eje ptico, calculado segn la geometra del ojo, apunta a una zona por debajo de la fovea.
Los bastones no son sensibles al color, pero proveen informacin sobre la luminosidad del objetivo, existiendo
ms de 120 millones de bastones distribuidos en la retina.
La informacin combinada generada en los bastones y conos define el brillo y el color de un objeto, cuando la
misma es procesada por el rea de la visin primaria en la corteza cerebral, la cual recibe fibras de diferentes
partes de la retina. La mcula, el rea de la retina con la mejor resolucin, se representa en la parte posterior
de la corteza cerebral y las partes perifricas de la retina se representan en el rea anterior de la corteza.
Figura 12.52: Sensibilidad de la Visin Escotpica (bastones) y la Visin Fotpica (conos).

La capa exterior del ojo, de color blanco es la esclertica, que protege las delicadas estructuras que forman el
ojo humano. Es una capa dura y fibrosa que se hace transparente cuando se conecta a la crnea en el frente y
es la barrera final a la luz que ingresa al ojo humano. La consistencia de esta membrana es clave en la forma
esfrica del globo ocular, que esencialmente est lleno de fludos. La esclertica permite la terminacin de los
tendones de diferentes msculos empleados para la visin volitiva espontnea, como los msculos ciliares.
Los msculos ciliares modifican la curvatura del cristalino y su potencia ptica. Al enfocar un objeto prximo los
msculos ciliares se contraen y el grosor del cristalino aumenta formando una imagen en la retina, al acortar la
distancia focal. Con objetos distantes, los msculos ciliares se relajan, lo que adelgaza el cristalino.
Los seres humanos generalmente adaptan el foco sobre objetos en forma conciente para la visin primaria. La
la visin perifrica rodea al objeto enfocado con baja resolucin en color y forma para los humanos, a diferencia
de otros animales. No obstante es til para detectar movimientos con independencia del tamao de los objetos,
lo cual se debe a las propiedades de los bastones de la retina. Debido a la compleja relacin entre los procesos
cognitivos, fisiolgicos y neuronales, la visin secundaria todava no ha podido ser estudiada en detalle.
Codificacin RGB de la Informacin Visual sobre Pantallas

La mayor sensibilidad a la luminosidad del objeto que a sus colores se ha utilizado para desarrollos en el cine y
la TV, en blanco y negro y en color. En la TV, el desarrollo de los conceptos luminancia y crominancia, permiti
821
compatibilizar la transmisin de seales de TV en blanco y negro y color en el mismo ancho de banda, al poder
enviar informacin de crominancia ortogonal en fase a la informacin de luminancia.
El modelo de color RGB se basa en adicionar substraer, en cada pixel equivalente, porciones de colores
primarios (verde, rojo y azul), lo que genera todo el espectro de colores visibles por el ser humano. El modelo
RGB es empleado en medios audiovisuales, sin normalizar la longitud de onda de los componentes R, G B.
Pequeas variaciones, segn el modelo RGB utilizado, crean una paleta de colores diferente. Esto es
dependiente de los materiales y tecnologas utilizados en la fabricacin de pantallas y monitores, pues difieren
segn el fabricante y la calidad del equipo. Estas diferencias se hacen visibles en tiendas donde se proyecta la
misma imagen sobre diferentes equipos puestos en un mismo saln de ventas.
Con el modelo RGB normalizado de 8 bits por componente (RGB-24 bits), utilizado en informtica, cualquier
persona puede acceder a la paleta de colores de 24 bits utilizada en un programa para dibujos vectoriales, que
est tpicamente disponible en cualquiera de los sistemas operativos comerciales. El mecanismo aditivo en la
generacin de color se revela cuando el usuario puede ingresar un valor entre 0 y 255 para cada componente,
el cual est fijado solo para esa lnea de monitores y puede variar, en forma poco muy visible, en otros , en
forma muy evidente, en proyectores LCD. Algunos ejemplos para estas aplicaciones son:
Combinando valores iguales de R, G y B, entre 0 y 255, se generan todos los tonos grises entre el
blanco (255) y el negro (0).
Anulando el azul (B), las combinaciones R y G saturadas a 255 generan el amarillo (color secundario).
Una proporcin inferior de R y G genera colores amarillo-grisceos hasta el negro. Al sumar pizcas de
azul, pero manteniendo saturados R y G se generan todos los tonos del amarillo hasta el blanco.
Anulando el verde (G), los valores R y B saturados a 255 generan el magenta (color secundario). Una
proporcin inferior de R y G genera colores violceos, hasta el negro. Al sumar pizcas de verde, pero
manteniendo saturados R y B se generan todos los tonos del magenta, del rosado hasta el blanco.
Una situacin similar ocurre al anular el rojo (R) y saturar G y B, lo que crea el color secundario cyan.
Como lo indica la Figura 12.52, el ojo humano tiene diferentes sensibilidades para cada tipo de color primario.
Estos valores de sensibilidad han sido normalizados para la transmisin electrnica de TV por el modelo RGB,
y estn tratados en la Rec. ITU-R BT.601, utilizada originalmente para TV analgica y redefinida para DTV.
La Rec. ITU-R BT.601 define un espacio de color normalizado de la seal de video compuesto YCrCb, y es un
standart en DTV e interfaces para fotografa digital. La seal de luminancia es definida por Y, mientras que Cr y
Cb representan diferencias de color respecto del rojo y el azul, respectivamente.
Aunque existen otros espacios de color normalizados para TV, como YUV (PAL CCIR 656), YIQ (NTSC),
YDrDb (SECAM), YPrPb (interfaz analgica), los mismos se adapta a YCrCb para compatibilidad internacional.
Para la TV de consumo masivo, con 8 bits por componente RGB, la Rec. ITU-R BT.601 define el rango de Y
entre 16 y 235 (negro a blanco), dejando mrgenes para excesos superiores e inferiores a los lmites. Cr y Cb
tienen un rango entre 16 y 240, y adoptan el valor cero para 128.
Con la paleta RGB corregida en gamma, que genera variables R, G, B e Y, la ecuacin de luminancia revela
como es la sensibilidad normalizada del ojo humano a cada color primario segn el factor de ponderacin:
Y = 0,301 R + 0,586 G + 0,113 B

La ecuacin expresa que la sensibilidad del ojo es mayor en el rango ultravioleta y disminuye hacia el infrarrojo
y que la luminosidad general de una imagen es derivada de una suma lineal ponderada de componentes RGB.
Caractersticas de la Visin Humana
La crnea refracta los rayos luminosos, y el cristalino (lentes) se acomoda para la visin correcta, proyectando
objetos ubicados a diferentes distancias sobre la retina, enfocando el centro de la imagen sobre la fvea, que
2
provee la mayor resolucin visual por la alta concentracin de fotoreceptores en esta rea de 39 mm . La
7
luminosidad percibible por el ojo humano tiene un amplio rango dinmico de 10 :1 (140 dB) y es controlable
mediante la pupila y procesos qumicos en componentes del globo ocular. Esta sensibilidad es similar a la de
una cmara, ajustando debidamente la velocidad ISO de obturacin, la apertura y el tiempo de exposicin.
822
Para un objeto a distancias menores de 25 cm, el foco se aleja de la retina y es necesario una acomodacin
ajuste del cristalino para aumentar su potencia ptica utilizando los msculos ciliares. El resultado de tal accin
es un cristalino ms espeso, con mayor poder de aumento, tal que se reposicione el punto focal en la retina. En
la figura superior se muestra el efecto del modelo de lente nica, que invierte la imagen en la retina. Este efecto
se compensa en el cerebro, donde vuelve a invertirse.
Un video Blu-Ray proyectado en pantalla de TV plana de 50, observada a 3 metros de distancia, es resuelto
utilizando 24 pixels/cm. Por lo tanto, durante la visualizacin normal del programa, un ser humano no percibe
los pixels que forman la escena. Si el programa es correctamente codificado y decodificado, sin interferencias
ni degradaciones introducidas por el codec partes intermedias, la experiencia visual debera ser satisfactoria
respecto de la resolucin espacial de imgenes. Quedan otros factores a satisfacer en la percepcin visual.
El ngulo de visin binocular del ser humano abarca 180 horizontales y 130 verticales, en promedio mximo,
pero el campo de visin ms importante cubre de 40 a 60 en cualquier dimensin, y abarca lo que realmente
vemos y procesamos cognitivamente. En una cmara, el ngulo de visin se determina por la distancia focal f
2
y el tamao del sensor CCD que tiene, por ejemplo, 5 MPixels de 1,7 m en una superficie de 15 mm . A una
mayor distancia focal f, es menor es el ngulo de visin enfocado, como al utilizar un teleobjetivo.
Una comparacin con el ojo humano es rudimentaria, pues con a distancia focal de 2.2 cm, recibe una imagen
2
proyectada en una superficie esfrica sin resolucin uniforme pues la fovea, de 40 mm y con la mayor parte
de los conos responsables de la visin de detalle, es equiparable a un sensor CCD de ms de 52 MPixels. Al
considerar un campo de visin mnimo de 120 x 100 solo al mover los ojos, la resolucin crece a 173 MPixels,
sin tomar en cuenta la visin perifrica de baja resolucin que aporta el resto de la retina. Debe considerarse
que la mente visualiza contornos, texturas, contraste, luminancia, crominancia, etc., y no pixels.
El contraste entre la luminancia y/o crominancia de un objeto respecto de los dems elementos de una escena
hace posible su percepcin con detalles, an con grandes cambios en luminosidad. Este parmetro tiene gran
impacto en la percepcin visual, y mide la diferencia de los componentes entre el objeto visualizado y el resto.
El rango dinmico mximo del contraste en el ojo humano es de casi 10.000, y es funcin de la luminancia y
crominancia promedio de la visualizacin. Por otro lado, el rango dinmico del ojo depende del brillo y el
contraste del objeto, como puede apreciarse en la visin nocturna.
7
El rango dinmico de luminancia que el ser humano puede captar es de unos 140 dB 10 :1. El ojo opera bajo
dos modos de visin, diurno (fotpico, color) y nocturno (escotpico, monocromo), cada uno con distinto rango
dinmico. El mayor rango dinmico de luminancia existe en la visin nocturna, con baja luminosidad, y tiene
menor resolucin por basarse en bastones fotoreceptores. Por ello, el ser humano no es capaz de percibir los
colores en condiciones de baja luminosidad, pero dispone de mucha ms sensibilidad a la radiacin lumnica.
La sensibilidad del ojo humano representa su capacidad de ver, a la luz del da, objetos veloces dbiles en
movimiento y tiene una equivalencia ISO que puede ser tan baja como 1/1 s. En condiciones de baja
luminosidad, el ojo humano puede tener una sensibilidad equivalente a ISO 1/500 s 1/1000 s, segn las
experiencias de fotoastrnomos, aunque puede requerirse un tiempo de acomodacin mayor a 30 minutos.
La medicin fotomtrica de la luminosidad promedio de un objeto se expresa en lumens, y el ojo humano tiene
un amplio rango dinmico de sensibilidad, que se ubica entre 120 y 140 dB. Un flujo luminoso, en lumens,
tiene una sensibilidad para el ojo humano que es variable segn la longitud de onda visible, mientras que el
flujo radiante se mide en watts y expresa la potencia total emitida de la radiacin lumnica, con independencia
de si esta es percibible por el ojo humano.
La relacin entre el lumen y la candela, para la luz visible, es 1 lumen = 1 candela/esteroradin. Dado que una
esfera contiene un ngulo slido total de 4 esteroradianes, una fuente de luz que irradia una candela en forma
uniforme sobre una superficie esfrica tiene un flujo luminoso total de 12.57 lumens.
Una candela (cd) es la intensidad luminosa de una fuente de radiacin monocromtica a 540 Terahertz, que
tiene una longitud de onda de 555 nanometros (verde) con una intensidad de radiacin de 1/683 watts por
esteroradin y una intensidad visible de 1 lumen. El lumen (lm) es una unidad fotomtrica que mide luz visible.
La funcin de luminosidad describe la sensibilidad del ojo humano a fuentes de luz en diferentes longitudes de
onda y es no lineal, por lo que no existe una relacin aritmtica entre watts de radiacin lumnica y lumens. La
relacin debe obtenerse a travs de las curvas de sensibilidad para la visin fotpica escotpica, donde se
aprecia que las radiaciones ultravioletas infrarrojas no tiene peso en la luminosidad percibida.
823
Para utilizar el valor de luminosidad en lumens en la prctica, se requiere integrar el producto de la intensidad
de la radiacin por la sensibilidad del ojo humano a cada longitud de onda, lo que genera un valor ponderado
de la intensidad y la luminosidad percibida desde la fuente, independiente de los colores de la fuente de luz.
El rango de percepcin de luminancia del ojo humano, medida en cd/m2, es muy amplio y puede llegar a un
10
extremo de 10 :1 (200 dB) para un ojo humano joven y sano. Algunos valores de luminancia percibidos son:
-5
-3
-3
-1
Visin nocturna escotpica, sin luna, en el campo y con cielo despejado: Entre 10 y 10 cd/m .
2
Visin nocturna escotpica, con luna llena, en el campo y con cielo despejado: Entre 10 y 10 cd/m .
-1
Visin mespica (entre escotpica y fotpica), al inicio del amanecer: Entre 10 y 10 cd/m .
3
Visin fotpica, en una oficina un shopping: Entre 10 y 10 cd/m2.

3
Visin fotpica a la luz del sol, en exteriores, sin nubes: Entre 10 y 10 cd/m2.
12.8.3 Propiedades de la Visin Humana

Enmascaramientos de la Percepcin Visual Humana
Diversas reas de la percepcin visual estn limitadas en su discriminacin perceptual por efectos y fenmenos
fisiolgicos y psicovisuales, lo que es aprovechable para codificar la informacin binaria utilizada de la escena
con menos bits, reduciendo el ancho de banda del flujo de video captado por una cmara.
El enmascaramiento es un efecto psicovisual que ha sido estudiado por ms de un siglo, y se basa en que
ciertas propiedades pticas de objetos de la escena, en un video, hacen que no se perciban algunas clases
de ruidos de codificacin derivados de algoritmos para mayor compresin. Algunos fenmenos conocidos son:
Enmascaramiento de Bordes: Las respuestas neurales y perceptuales a los bordes espaciotemporales

son las ms intensas, en comparacin con otras clases de estmulos visuales, especialmente en reas
con un alto contraste en los bordes. Tal clase de estmulos visuales de bordes en alto contraste, como
con un rectngulo, activa la percepcin falsa de llenado del interior del mismo, aunque esto no exista.
El fenmeno de enmascaramiento ocurre a nivel espacial y temporal y hace posible que errores cerca
de bordes de alto contraste sean difciles de percibir.
Enmascaramiento de Luminancia: Este efecto distorsivo puede cambiar la resolucin de bordes de una
imagen y modificar su brillo modificando la luminancia de fondo para enmascarar defectos visibles. El
umbral de visibilidad aumenta si lo hace la luminancia de fondo.
Enmascaramiento de Contraste: Este efecto es utilizado en fotografa por dcadas y tiene una amplia
base de estudios en visualizaciones sobre TRC, empleando patrones de lneas senoidales variables,
para medir diferentes umbrales de enmascaramiento. El efecto se basa en el hecho de que un objeto
con alto contraste hace menos visibles los detalles de otro objeto cercano, con menor contraste.
Enmascaramiento de Texturas: Este efecto ptico es debido a que los errores de codificacin en reas
de objetos con texturas complejas son difciles de percibir, por lo que pueden codificarse con resolucin
ms baja que otras reas de la escena.
El Movimiento Aparente en la Percepcin del Movimiento

La informacin visual es provista por los ojos, individualmente y luego en conjunto para la visin binocular. La
informacin vestibular es provista por el sistema vestibular, que residen en el odo interno al lado de la cclea,
e informa sobre orientacin espacial, grado del equilibrio y origen de fuentes sonoras. La informacin
prioceptiva es provista por el propio cerebro, e informa sobre el posicionamiento relativo de partes contiguas
del cuerpo y el esfuerzo realizado para efectuar movimientos.
El Movimiento Aparente es un rea de estudios, experimentacin y desarrollos vital para interpretar como el ser
humano percibe el movimiento. Una parte del estudio original de Max defini movimientos Beta, cuya mnima
expresin consiste en dos estmulos visuales intermitentes, espacialmente fijos y separados, cuya actividad
induce a percibir movimiento entre las posiciones de los mismos, siempre que estos estmulos sean idnticos
en forma y no existan otros estmulos visuales en el camino percibido.
824
Otra parte del estudio original defini el movimiento Chi, luego redefinido como fenmeno Chi, el cual consiste
en la percepcin de movimiento continuo debido a la observacin de una rpida sucesin de objetos separados
cada uno de los cuales tiene un cambio gradual y racional con el previo. Este fenmeno, junto con la teora de
la persistencia de la visin, es la base de los modelos empleados para producir Movimiento Aparente en el cine
y la TV. Para que sea posible percibir movimientos naturales, existe un umbral en la frecuencia de cambio de
estmulos, definido para el cine en un mnimo de 24 estmulos secuenciados y diferentes por segundo.
El cerebro debe realizar una integracin selectiva de las seales de movimiento en la retina de acuerdo con el
objeto observado. Es un proceso neural de muy alta complejidad, que involucra asimilar todas las relaciones de
informacin espacial del objeto per-se, y luego del objeto respecto de la escena observada.
En estudios historicos se empleaban los conceptos luego definidos como fenmeno Chi, mediante la sucesin
de dibujos equivalentes a instantneas parciales obtenidas de cualquier tipo de movimiento de objetos sobre
una escena de fondo esttica. El invento del cinematgrafo (Lumiere) es precedido por el desarrollo del
kinetoscopio (staff de Edison), que utilizaba films continuos con fotografas secuenciadas.
Diferentes trabajos previos inspiraron a los hermanos Lumiere para la invencin del cinematgrafo, presentado
en sociedad a fines de 1895 con la primera pelcula proyectada en una pantalla, en un teatro de Pars. Debido
a la importancia del invento y las patentes involucradas ha existido una amplia polmica sobre el crdito de los
desarrollos, an no resuelta, entre Estados Unidos, Inglaterra y Francia.
Los estudios originales de Max, en 1912, se complementan con estudios realizados por el psiclogo alemn
Hugo Mnsterberg, quien fue uno de los pioneros en el campo de la psicologa aplicada y public una amplia
variedad de libros sobre psicologa clnica. En particular, en base a estudios sobre la persistencia de la visin,
public en 1916 (ao de su fallecimiento) el libro "The Photoplay. A psychological study, considerado como
una obra fundacional sobre la teora del cine moderno.
La persistencia de la visin es un fenmeno en el cual la percepcin humana de un estmulo visual temporario
persiste ms all de la desaparicin fsica del estmulo externo. Aunque actualmente es un tema discutido, el
origen de la teora tiene casi un siglo y es utilizada para explicar fenmenos pticos como la incapacidad de ver
cuadros negros intercalados en una pelcula a un ritmo superior a 24 tramas por segundo. La persistencia de la
visin del estmulo no se relaciona directamente con la percepcin del movimiento, y tal teora es refutada por
diferentes investigadores que indican que si existe la persistencia, se percibiran imgenes mltiples al mirar
una pelcula (motion picture) con las imgenes ms viejas desvanecindose en una fusin con las nuevas.
Otros Mecanismos en la Percepcin del Movimiento

El movimiento Beta y el fenmeno Chi configuran la percepcin de movimiento de Primer Orden, la base para
explicar diversas clases de Movimiento Aparente, especialmente la percepcin sobre pelculas y la televisin.
La percepcin del movimiento de Segundo Orden es ms compleja, pues el contorno en movimiento se define
por su textura, su contraste con la escena de fondo y otras propiedades que no implican cambios en estmulos
fsicos en la retina, como ser cambios en luminancia en movimientos de la energa espectral (color). Existe
evidencia que el procesamiento de los movimientos de Primer y Segundo Orden se efecta utilizando caminos
neurales diferentes hacia el cerebro, y se sabe que el movimiento de Segundo Orden produce una respuesta
ms dbil al Efecto Posterior al Movimiento (MAE), a menos que los estmulos se alternen en forma artificial.
Por dcadas se han estudiado otros mecanismos efectos pticos a travs de los que el ser humano detecta
movimientos, reales por efectos pticos, los cuales se resumen a continuacin:
Movimiento retinal: Ocurre si un objeto se mueve fsicamente en la retina, con los ojos en reposo. Esto
se denomina Efecto Cintico de Profundidad (KDE), y ha sido estudiado por dcadas con experimentos
psicofsicos y neurobiolgicos. Se cree que este efecto se procesa directamente en las primeras etapas
corticales sin implicar grandes esfuerzos de procesamiento por parte del cerebro. Al visualizar objetos
en una pantalla de TV, la deteccin de movimiento retinal es preponderante si el espectador se ubica a
una distancia tpica de la misma, como en los ejemplos presentados al inicio.
Movimiento Inducido: Es la ilusin ptica generada por el movimiento de un objeto, que deriva en la
percepcin del movimiento de otro objeto. Un caso tpico es la visin nocturna de la luna con nubes en
movimiento, dando la impresin de que se mueve luna. El caso opuesto a este fenmeno es cuando
825
una persona mira a su alrededor en un cuarto sin percibir que se mueven los objetos, aun cuando la
posicin de los mismo cambia fsicamente en la retina.
Efecto Posterior al Movimiento (MAE): Ilusin ptica por la que un estmulo estacionario secundario es
percibido como moviendose en la direccin opuesta al estmulo primario, que si est en movimiento. Se
activa luego de observar un estmulo en movimiento, ya sea brevemente durante minutos, con ojos
estacionarios y luego se cambia la visin hacia el estmulo secundario, estacionario, pero percibido tal
como si se moviera. Se cree que el efecto resulta de la adaptacin al movimiento por parte de neuronas
sensibles a la direccin del movimiento. Se repite en la adaptacin a diferentes caras y un ejemplo
prctico es la ilusin de la cascada, que ocurre cuando un individuo mira una cascada por un tiempo y
luego mira un peasco a un costado de esta. El individuo percibe que el peasco se eleva.
Movimiento Biolgico: Es un ejemplo de la capacidad del sistema visual de recuperar informacin de un
objeto a partir de estmulos visuales dispersos, y se prueba asimilando la actividad de un ser vestido de
negro sobre un fondo negro, delineado con una docena de puntos luminosos brillantes. El concepto,
se utiliza en dibujos animados para asimilar el movimiento humano y, recientemente, para crear bases
de datos visuales CAD con movimientos de vertebrados, para pelculas animadas. Estudios psicofsicos
y neurofisiolgicos evidencian que existe un substrato neural a cargo de integrar informacin selectiva
del movimiento, ya que ningn punto luminoso tiene la informacin suficiente como para identificar el
objeto animado ni su actividad. Para ello, el movimiento de la imagen en la retina provee la informacin
perceptual de que el objeto se mueve. (Johansson 1973, McDaniel 1982, Blake 1993, Murdoch 1994).
Entre las teoras aceptadas sobre la percepcin del movimiento est la Teora de la Descarga Corolaria, la cual
se basa en un modelo con retroalimentacin neuronal entre funciones motoras y sensoriales de la visin, y
expresa que la percepcin del movimiento se basa en la interaccin de tres seales entre el cerebro y el ojo:
Una entrada denominada seal de movimiento de la imagen (SMI), la cual aparece cuando una imagen
estimula los fotoreceptores a medida que pasa por la retina. Esta entrada sensorial se enva al cerebro,
previo paso por un comparador diferencial entre la magnitud de la seal SMI y la respuesta motriz MS.
Una salida del cerebro hacia los msculos oculares, denominada seal motriz (SM). La misma es la
seal de actuacin de estos los msculos, utilizada para el seguimiento ocular del objeto.
Una seal neuronal de retroalimentacin, denominada seal de descarga corolaria (SDC). La misma es
una copia de la seal MS y es utilizada por el comparador, una estructura nerviosa en la va de entrada
sensorial que crea la seal (SDC-SMI), a lazo cerrado, la cual contiene informacin de movimiento.
La percepcin del movimiento resulta del procesamiento de la seal diferencial (SDC-SMI), entre la seal de
descarga corolaria (SDC) y la seal del movimiento de la imagen (SMI). Diferentes combinaciones medibles de
las seales SDC y SMI, indican la existencia y el grado del movimiento percibido en el cerebro.
Como en otros aspectos de la visin, la entrada de informacin visual no siempre es suficiente para discriminar
la naturaleza real de los estmulos visuales, como ser la velocidad en el mundo real. Una visin monocular es
una percepcin 2D de un mundo 3D, y las pistas de la visin 2D no son suficientes para reconstruir en la mente
el movimiento real presente en la escena 3D, que requiere de informacin binocular para la percepcin de la
dimensin restante. As, sera posible que diferentes escenas 3D presenten la misma informacin 2D. En forma
opuesta, a grandes distancias, la percepcin del movimiento 3D no tiene valor por no existir profundidad de
campo en la entrada binocular.
12.9 Calidad de Imagen y Video

12.9.1 Introduccin
El mayor problema en la evaluacin de la calidad de imgenes y de videos es desarrollar mediciones objetivas
basadas en procesos que califiquen la visualizacin tal como lo hara un observador humano, quien realiza un
procedimiento subjetivo para las comparaciones. El ndice subjetivo MOS (Mean Opinion Score), utilizado en la
evaluacin de la calidad del audio y de codecs de telefona, que arroja los resultados correctos, tiene diferentes
inconvenientes para su implementacin prctica frecuente, al ser lento, complejo y costoso de implementar.
826
La obtencin de procedimientos objetivos para evaluar imgenes y video, con resultados equiparables al MOS
visual, ha probado ser extraordinariamente difcil debido a la complejidad de los procesos de la visin humana,
pero es necesaria para disponer de instrumentos que permitan comparaciones sistemticas, rpidas y a bajo
costo para aplicaciones en laboratorios y la industria en general. Los desarrollos de tcnicas objetivas se han
ido enriqueciendo en las ltimas tres dcadas con el creciente poder de los procesadores y el software, pues
los algoritmos que son utilizados requieren una elevada cantidad de poder computacional, asociada a diversos
subsistemas que utilizan hardware especfico para estas mediciones.
Si bien tcnicas objetivas basadas en cmputos estadsticos sencillos como PSNR (Peak Signal to Noise Ratio)
y MSE (Mean Squared Error) fueron ampliamente utilizadas en las ltimas tres dcadas, en teoras y prctica,
son cmputos que comparan dos conjuntos diferentes de datos, que no integran influencias del impacto en la
percepcin visual, como lo hara un sistema objetivo de medicin basado en el sistema visual humano (SVH).
Hasta hoy, ningn sistema objetivo basado en el SVH ha tenido un xito completo, tal que su complejidad y
costos provean diferencias ntidas con la simple medicin del PSNR. El grupo VQEG (Video Quality Experts
Group), que asesora a la ITU en la publicacin de standares sobre medicin de calidad visual, analiza desde
1997 diferentes modelos propuestos, subjetivos y objetivos estadsticos basados en el SVH.
Los contextos de medicin de la calidad de imgenes y video, se basan en tres clases de mediciones:
Full Reference (FR): Se utiliza una referencia con calidad master (casi perfecta) y se compara con la
imagen de una foto, trama de video secuencia de video con toda la resolucin codificada. Los tests
revelan diferencias en la fidelidad de la reproduccin y, de ser posible, en la calidad perceptual.
Reduced Reference (RR): A diferencia de los tests FR, que pueden requerir mucho procesamiento, se
emplea una seccin de la referencia y se compara con su equivalente en la seal bajo test.
No Reference (NR): Este enfoque es el ms complejo, pues no existen referencias, y el sistema que se
emplea en la medicin debe incluir numerosos factores de la evaluacin perceptual del SVH. El anlisis
con sistemas NR deben incorporar propiedades visuales del ojo, de la visin primaria y secundaria y de
diferentes procesos de la cognicin, como la interpretacin visual, la memoria visual, etc. La dificultad
de los sistemas objetivos NR se suma al hecho de que mltiples aspectos del funcionamiento del SVH
an no son completamente entendidos, lo que dificulta desarrollar e implementar algoritmos asociados.
En los sistemas NR ms simples, el enfoque es bsico y mide la ocurrencia y severidad de artefactos
de video, producidos en la codificacin-decodificacin en la transmisin de la seal.
12.9.2 Artefactos en la Compresin de Video Tipo MPEG

Como todo codificador con prdida de informacin, los codecs MPEG generan continuamente artefactos, reas
de reproduccin con degradaciones y/o ruido. Dependiendo de la calidad del codec y del nivel de compresin
utilizado, la cantidad, frecuencia y tamao visual de los artefactos es controlable, haciendo que los mismos no
sean percibidos por el observador. Nuevos codecs como MPEG-4/H.264 AVC han mejorado el impacto de los
problemas de los previos codecs MPEG y Serie H.
Los aspectos ms relevantes que hacen que el nivel de calidad de un codec vara durante la reproduccin son
la velocidad binaria de la seal codificada, el QoS de la red de transmisin, codificacin a velocidad constante
(CBR) variable (VBR), el nmero de tramas I por segundo y el prefiltrado y postfiltrado de la seal.
Algunos de los artefactos ms comunes se originan al utilizar niveles de compresin demasiado altos por el
empleo de codecs de calidad discutible. Un sistema bien diseado, con equipos y redes de buena calidad, que
permiten un aceptable compromiso entre compresin y velocidad no presenta artefactos percibibles.
En el caso de codecs de video basados en la Transformada Discreta del Coseno (DCT) con compensacin del
movimiento, seguido de la cuantificacin con umbral variable de los coeficientes (codecs con prdidas), existen
artefactos originados en el esquema de compresin y descompresin, sumado a efectos de transmisin, como:
La necesidad de codificar una trama con menos bits de los requeridos obliga al codificador a descartar
informacin de color, brillo, codificar un bloque con menor resolucin que en los los circundantes, al
descarte de informacin en el buffer del decodificador por sobrecarga. Esto produce artefactos visibles
dentro de una escena, adems de escenas con pobre resolucin. Si el codificador y el decodificador
827
son de buena calidad, el proceso es adaptativo y se restaura una mejor calidad tiempo despus, si la
velocidad binaria disponible aumenta. Esto es ms factible en codecs operando en modo VBR.
La percepcin de los bordes de los macrobloques (blockiness) se debe a los contornos de los mismos
con baja resolucin, y es un artefacto que aparece cuando al restringir el ancho de banda binaria, ya
que el codificador debe utilizar pocos niveles en el cuantificador, al resolver la escena a codificar. Esto
lleva al empleo de paletas de color de baja resolucin, que impiden visualizar variaciones continuas en
la informacin visual de brillo y color de una escena. El fenmeno tambin se origina por una pobre
estimacin del movimiento, y es muy visible cuando las escenas se disuelven y desvanecen.
El ruido de mosquito aparece en los bordes de los objetos, en fondos de escenas complejas y en las
superficies con texturas de alta resolucin, pues la informacin espacial bidimensional es abundante y,
es sacrificada para cumplir con requerimientos de ancho de banda binario. Esto se basa en el descarte
de componentes de alta frecuencia en la transformada bidimensional DCT. A niveles de compresin
elevados, el codificador se satura con los detalles y codifica con descartes aleatorios de la informacin
de alta frecuencia espacial de los macrobloques del objeto. Visualmente, se traduce en artefactos
similares a diminutos insectos sobre las superficies de texturas complejas.
El efecto de ventana empaada (blurring) se origina con ruido artefactos visibles estacionarios, en
tanto que los objetos de la escena se mueven.
El efecto de ruido ondulado se origina cuando la cmara realiza un paneo sobre una multitud, como en
el caso de enfocar las gradas en un estadio de futbol durante un partido. Esto se origina al cuantificar
en baja resolucin los componentes de alta frecuencia espacial de un macrobloque.
Al utilizar la prediccin de movimiento en codecs MPEG, los artefactos de compresin tienden a durar
varias tramas y moverse con el flujo ptico de la imagen, generando un efecto particular difuso, que se
mueve junto con los objetos en la escena.
El efecto causado por prdidas de bloques de informacin secuenciamiento errneo de bloques que
son causados por degradaciones en redes de transmisin con QoS inadecuado por informacin que
reside en un soporte de media local y que est parcialmente degradada corrupta, y es descartada. Si
un error ocurre en la transmisin de una trama I (compresin similar a JPEG), el error se arrastra en las
siguientes tramas, hasta recibir una nueva trama de referencia I.
Otros defectos en MPEG-1 y 2, superados en nuevos codecs, son: ringing, bordes falsos, efecto escalera en
lneas moviendose a baja velocidad, superposicin aliasing, sangrado de color y diferencias en crominancia.
12.9.3 Evaluacin Subjetiva de la Calidad del Video

La evaluacin subjetiva de la calidad del video, basada en el MOS, obedece a las mismas razones que en el
rea del audio. Permite obtener ndices de satisfaccin basados en la experiencia perceptual humana, en base
a promediar las opiniones de una audiencia cuidadosamente seleccionada. Los resultados individuales pueden
promediarse y procesarse con diversas tcnicas estadsticas para garantizar la integridad del MOS final.
Ms complejo que el sistema auditivo humano, el sistema visual es muy demandante en trminos de calidad de
lo que percibe, particularmente si las visualizaciones corresponden a un servicio de entretenimiento. La calidad
de la experiencia global (QoE) est, en la prctica, acompaada de informacin de audio, por lo que el usuario
recibe una experiencia audiovisual. En tal sentido, la evaluacin subjetiva del video sin audio es un tecnicismo
para determinar la calidad de codificadores y decodificadores, siempre que las escenas a calificar tengan una
duracin acotada a unas decenas de segundos, lo que contrasta fuertemente con las evaluaciones objetivas,
que pueden aplicarse a todo el contenido de una filmacin, registrando cada una de las deficiencias medibles.
Aun as, no existe todava ninguna tcnica objetiva que pueda reemplazar la opinin promedio de los usuarios,
por lo que el MOS subjetivo de video tiene un importante valor para el desarrollo de mejores sistemas.
Un aspecto a contemplar, aun cuando la audiencia se componga de expertos, es la seleccin del material a
visualizar con diferentes artefactos, tal que se cubran todas las imperfecciones del codec bajo anlisis, y la red.
Estos y otros aspectos hacen que los tests de calidad subjetiva sean difciles de implementar y, ms an, de
reproducir a voluntad de los diseadores de un nuevo sistema de codificacin de video, ya que son costosos y
828
lentos y requieren una cuidadosa seleccin de escenas con las degradaciones que los desarrolladores desean
mejorar en el codificador y/o el decodificador.
Por lo anterior, existen mltiples formas de presentar secuencias de video para el anlisis de la audiencia, tal
que contemplen aspectos de la codificacin del video y de la red de transmisin utilizada. Algunas de ellas han
sido normalizadas en la Recomendacin BT.500 de la ITU-R, como ser:
DSIS (Double Stimulus Impairment Scale). En este mtodo se presenta un video de referencia, lo que
es informado a la audiencia. A continuacin se presenta el mismo contenido con degradaciones. Los
espectadores deben informar sobre su percepcin de la calidad en una escala de 1 a 5.
DSCQS (Double Stimulus Continuous Quality Scale type I and type II). En el tipo I, ambos videos se
visualizan en una pantalla, y se repiten un cierto nmero de veces. El observador alterna cada video a
voluntad mediante un pulsador, pero no sabe cul es la referencia. En el tipo II, de uso ms frecuente,
ambos videos se muestran simultneamente en dos pantallas un cierto nmero de veces, sin que el
observador conozca cual es la referencia. Luego del test, reportan su experiencia con la escala 1 a 5.
SCACJ (Stimulus Comparison Adjectival Categorical Judgement). En este mtodo, las dos secuencias
se muestran simultneamente. Luego de la reproduccin, el experto debe dar su opinin, mediante una
escala entre -3 y ms 3, sobre la calidad del video en la pantalla de su izquierda respecto del otro. El
valor de -3 expresa que la calidad del video de la izquierda es mucho peor que el otro, y +3 lo opuesto.
El valor 0 es para expresar que la calidad de ambos videos es la misma.
Otras tcnicas han sido desarrolladas para el anlisis subjetivo de la calidad de videos online, como:
SAMVIQ (Subjective Assessment Method for Video Quality evaluation). Esta tcnica ha sido creada por
la EBU (European Broadcasting Union) para el anlisis de videos online, pero puede ser utilizada para
definir calidad en receptores de TV, y ha sido propuesta a la ITU-R para su normalizacin. Durante el
test, el experto puede visualizar cualquier secuencia del conjunto bajo test, as como el video de
referencia. Durante el test, asigna puntajes a cada secuencia, en una escala entre 0 y 100, siendo 100
el valor para calidad ptima.
MSUCQE (MSU Continuous Quality Evaluation). Esta tcnica ha sido desarrollada por el laboratorio de
media y grficos de la Universidad Estatal de Mosc (MSU), e implementa la idea de la evaluacin
continua. El experto visualiza dos secuencias simultneamente en su terminal de computadora y, si el
observador piensa que una secuencia es peor que la otra, debe presionar la flecha izquierda derecha
del teclado, segn corresponda. Una marca roja sobre la ventana con la secuencia no aprobada.
12.9.4 Evaluacin Objetiva de la Calidad del Video

La evaluacin de la calidad del video utilizando mediciones objetivas, con informtica y algoritmos, se justifica
con las mismas razones que en la medicin de la calidad del audio. En ambos casos se busca aproximar los
resultados de la cuantificacin de errores y degradaciones cuando analiza un programa de video a resultados
obtenidos en la evaluacin subjetiva, pero sin el costo y complejidades de preparar un grupo audiencia que
cubra representativamente las dispersiones alrededor de un observador promedio, para la determinacin de un
valor integral MOS (Mean Opinion Score). Para mediciones objetivas, el sistema de medicin puede contar con
la totalidad de una seal de video de referencia (FR Full Reference), con una parte de la seal original (RR
Reduced Reference), basarse en mecanismos que no utilizan seales de referencia (NR No Reference).
La evaluacin de calidad objetiva es imprescindible para determinar la calidad de los decodificadores de video
y otros equipos, como los terminales, que son masivamente utilizados producidos por mltiples fabricantes. En
cambio, la seal de video de referencia es generalmente producida en un estudio, con calidad master y con alta
definicin, sobre la cual luego se generan seales para broadcast, multicast, etc., con compresin variable. En
las mediciones objetivas se emplean masters sin compresin decodificados, para clculos estadsticos. Las
tcnicas para la evaluacin objetiva de la calidad de video e imgenes se dividen en modelos basados en la
visin humana y en modelos basados en procesamiento estadstico de datos.
Las mediciones objetivas con sistemas basados en el modelo de la visin humana incorporan sensibilidades y
limitaciones de la visin humana para determinar la calidad de una imagen, respecto de la calidad perceptual.
Los sistemas FR basados en algoritmos para procesamiento estadstico de las seales incorporan premisas de
829
alto nivel sobre cmo es utilizado el ojo humano para medir la calidad, y se dividen en dos grandes categoras:
enfoque estructural y enfoque basado en la Teora de la Informacin.
Medicin PNSR (Peak Signal to Noise Ratio)
La medicin de calidad de video segn el factor PSNR es la tcnica ms utilizada en las dos ltimas dcadas,
para medir la calidad de una imagen reconstruida por codecs con prdidas (MPEG, JPEG), y est incluida en la
Rec. ITU-T J.144 (2008). Se emplean los datos de la seal original y de la seal a testear, reconstruida luego
de su decodificacin, y se analizan las desviaciones promedio en ambas imgenes (MSE error lineal) contra
el mximo valor que un pixel puede adoptar. Las mediciones solo son comparables cuando se emplea el
mismo contexto y el mismo tipo de cdec, por lo que su valor es limitado. Cuanto mayor es el valor de PSNR,
ms aumenta la probabilidad de que la decodificacin se haya implementado con buena calidad.
Las siguientes frmulas expresan la composicin del MSE, para dos vectores N-dimensionales e , como en
el caso anterior y el valor de PSNR para luminancia en una imagen que utiliza M bits por pixel. El MSE calcula
el error cuadrtico medio acumulado en cada pixel reproducido, ubicado en la coordenada (j, k) de la imagen.
MAX representa el valor mximo de un pixel, en este caso monocromo y de M bits, para imgenes sin codificar.
Para imgenes en color RGB con 3M bits/pixel, el MSE computa todos los pixels R, G y B y se divide por 3. En
imgenes y videos con prdida, valores tpicos de PSNR se encuentran entre los 30 y los 50dB.
Enfoque estructural
Se basa en que la principal funcin de los ojos humanos es extraer informacin estructural del campo de visin
y que el sistema visual humano (SVH) est esencialmente adaptado a esta finalidad, por lo que una medicin
de la distorsin estructural de la imagen original es una buena aproximacin a la distorsin percibida, ya que la
prdida de la calidad visual se origina en prdidas de informacin estructural de una escena del video.
El algoritmo SSIM (Structural Similarity), ndice Wang-Bovik, se basa en que la informacin estructural de una
escena se define por aspectos de una imagen independientes de su luminancia y contraste, y se aprovecha tal
independencia para dividir la evaluacin de la calidad en tres componentes: luminancia, contraste y estructura.
Se utilizan dos vectores N-dimensionales, e , que contienen pixels de la estructura de referencia y de la
estructura a comparar , solo con la informacin de luminancia de la escena. El ndice de calidad SSIM (, )
se define con la siguiente expresin:
Anulando las constantes C1, C2 y C3 y con valores unitarios de , y , el primer trmino mide el coeficiente de
correlacin lineal entre los vectores e , en un rango (-1, 1), y compara la luminancia. El segundo trmino de
la ecuacin tiene un rango entre (0, 1), mide la cercana de los valores medios de e y mide el contraste. El
tercer trmino, con un rango vlido de (0, 1), mide la similitud de las varianzas de e , y el mejor valor 1 solo
se obtiene solo si ambas varianzas son iguales. Este trmino mide la estructura.
Los tres trminos son mediciones comparativas entre reas similares de la referencia y la imagen a evaluar ,
utilizando los pixels en posiciones equivalentes en cada vector y su modelado de las escenas analizadas.
830
Las constantes C1, C2 y C3 tienen valores pequeos y evitan grandes cambios si los denominadores son
cercanos a cero, y los valores de , y son constantes positivas que ajustan las contribuciones de cada
trmino, cuando se obtienen diferentes mediciones del ndice Wang-Bovik. Las siguientes frmulas definen
cada elemento:
Las mediciones se realizan utilizando un mecanismo de ventana bidimensional de 8 x 8 pixels, deslizable. A lo

largo de toda una parte de la imagen, se genera un mapa de calidad y el ndice general de calidad representa
el promedio de valores del mapa de calidad generado.
Para disminuir el costo computacional, se utiliza en secciones de imgenes y no en toda la escena, ya que un
vector puede tener millones de pixels. Un valor de -1 indica una enorme disparidad entre imgenes, y el valor
de +1 indica una coincidencia total entre ambas.
Comparado con el ndice MSE (Mean Square Error), que solo mide promedios ponderados de diferencias entre
pixels afines, existen grandes diferencias con el ndice SSIM, pues el mismo tiene una alta correlacin con la
calidad medida en forma subjetiva. Aun cuando dos imgenes tengan ndices MSE idnticos, pueden tener una
enorme diferencia en calidad percibida, lo que no ocurre con SSIM. Por ejemplo, una imagen de 512x512 pixels
que utiliza 8 bits/pixels, cuya copia a testear est contaminada con ruido gaussiano puede tener un MSE = 225
y un SSIM = 0.3891. La misma imagen, pero con una vista borrosa, tiene igual MSE pero un SSIM = 0.3461. Si
se contamina con ruido impulsivo, el MSE sigue siendo 225, pero el SSIM = 0.6494.
12.9.5 ITU-T y la Normalizacin de la Evaluacin Objetiva de la Calidad de Video Multimedia

La ITU-T y la ITU-R crearon el grupo de estudio VQEG (Video Quality Experts Group) en 1997, el cual integra
los esfuerzos de diferentes Grupos de Estudio ITU (SG). Las primeras publicaciones fueron la Rec. ITU-T J.140
(Evaluacin Subjetiva de la Calidad de Video Digital en Redes de Cable, 1998) y la Rec. ITU-T J.144 (Medicin
Objetiva de la Calidad Perceptual de Video Digital en Redes de Cable, 2001). En el ao 2004 public el tutorial
Objective Perceptual Assesment of Video Quality: Full Reference Television.
La Serie J (Redes de Cable y Transmisin de Televisin, Programas de Sonido y otras Seales Multimedia) de
la ITU-T comprende cientos de standares, muchos con equivalencias en otras Series ITU-T, ITU-R e ISO, como
las Recs. P.9XX en la Serie P (Mtodos para Evaluaciones Objetivas y Subjetivas de Calidad), y.
En la ltima dcada, diferentes fabricantes y laboratorios especializados en codecs e instrumentos de estudio
para informacin multimedia como audio, video e imgenes, desarrollaron sistemas de medicin objetiva ms
complejos que los basados en el procesamiento estadstico, incluyendo diversos modelos del SVH.
Algunos de los sistemas desarrollados por fabricantes de codecs, equipamiento laboratorios en este perodo
han sido: Visual Signal to Noise Ratio, Digital Video Quality (DVQ), Moving Pictures Quality Metrics (MPQM),
Continuous Video Quality Evaluation (CVQE), Perceptual Evaluation of Video Quality (PEVQ) y varias otras
Durante el perodo 2007-2008, por el avance en nuevas tcnicas basadas en modelos del SVH, VQEG condujo
evaluaciones de varios sistemas submitidos para la Fase de Test Multimedia, cuyo resultado fue publicado en
Agosto 2008, como las Recs. ITU-T J.246 (PR) e ITU-T J.247 (FR), sobre Mediciones Objetivas de la Calidad
Multimedia Perceptual de Video.
831
En el ao 2011, la ITU-T public las Recomendaciones J.341 (FR, pantalla completa) y J.342 (PR) para las
mediciones de calidad en sistemas HDTV. La Rec. ITU-T J.247 describe mtodos de evaluacin objetiva de
calidad que estiman la calidad del video que es visualizado por usuarios a partir de la calidad de los pixels de
informacin, en base a comparaciones entre los pixels de una seal de referencia y el video degradado bajo
observacin. Se introducen mecanismos de la percepcin visual humana para obtener ndices de calidad ms
realistas que un anlisis estadstico de datos.
La Rec. ITU-T J.247 propone cinco sistemas diferentes para evaluar la calidad de video FR, desarrollados por
NTT, OPTICOM (PEVQ), Psytechniques, Yonsei ms el mtodo clsico PSNR, para diferentes contextos de
aplicacin en redes y servicios de telecomunicaciones como NGN, IPTV, videoconferencias y TV mvil. La
ITU-T sugiere el empleo de la Rec. J.247 para evaluar la calidad de cinco codecs y sus flujos de video de hasta
4 Mbps en redes de telecomunicaciones: MPEG-4 Parte 2 y Parte 10, H.264/AVC, WM9 y Real Video, y su
visualizacin en terminales mviles y monitores con resoluciones QCIF, CIF y VGA y hasta 30 tramas/seg. La
Rec. J.247 es aplicable en codecs adicionales como: DivX, H.261, H.263, MPEG-1, MPEG-2 y otros.
Procesos Generales en la Evaluacin Objetiva de la Calidad de Video
La Figura 12.53 representa un diagrama en bloques genrico para el anlisis comparativo de la calidad de
video entre una referencia y la seal bajo test que incluye, si es utilizada, informacin sobre movimientos de los
objetos en la secuencia de tramas de video.
Figura 12.53: Medicin de Calidad Objetiva en Sistemas basados en el SVH.

Cuando la entrada es una seal de video, en lugar de una imgen un cuadro de video congelado, el bloque
de Descomposicin Frecuencial procesa el flujo de video para obtener diferentes canales que representan
objetos con sus componentes de frecuencia espacial y temporal. Esta informacin es requerida para emular el
enmascaramiento perceptual por contraste, que ocurre en neuronas especializadas para procesar diferentes
frecuencias espaciales y temporales en la corteza visual del ser humano. Cuando un objeto tiene bordes muy
ntidos y una estructura con alto contraste respecto de otro objeto prximo, el procesamiento visual tiende a
enmascarar (ignorar) el objeto menos ntido, como se ha mencionado. Por ello, es importante contemplar este
efecto al medir la calidad perceptual de un video mediante un sistema basado en el SVH.
La descomposicin frecuencial opera con la transformada bidimensional de Fourier (DCT), para descomponer
la seal entrante en bandas de frecuencias espaciales, hasta llegar a los componentes con frecuencia visual
por encima de la cual no son percibibles pues el SVH los percibe como un nico componente. Este proceso, en
terminales analgicos como los TV con tubos TRC, es visible al excitar al tubo con una seal de luminancia
rectangular horizontal de cierta altura y frecuencia creciente linealmente de izquierda a derecha. Lo que se
percibe es una alternancia de franjas blancas y negras hacia la derecha, a medida que aumenta la frecuencia
espacial y disminuye la agudeza visual para discriminar dos bandas negras contiguas.
En el caso de secuencias de video, se cree que la selectividad espacial y frecuencial del sistema visual
humano (SVH) se emplea para descomponer la imagen en diferentes canales de frecuencias espaciales. En el
caso de video, se cree que en las primeras etapas de la corteza visual del cerebro existen dos clases de
mecanismos temporales, uno de tipo pasabajos, para procesar seales con cambios lentos en la informacin
espacial y temporal como ser el fondo de un escenario sencillo en un teatro y/o movimientos lentos en el fondo
de escena y otro de tipo pasaaltos, para procesar seales con mayor cantidad de detalles como ser los actores,
la escenografa y movimientos rpidos. As, un sistema para evaluar la calidad de video basado en el SVH,
debe descomponer las secuencias de video en diferentes frecuencias temporales y frecuencias espaciales.
832
La percepcin del brillo no es una funcin lineal de la luminancia del trasfondo, pero si lo es la visibilidad de
patrones de brillo. Esto es la base del efecto de enmascaramiento de luminancia, y se entiende al decir que las
regiones ms luminosas de una imagen pueden tolerar ms ruido ptico como la distorsin, etc., antes de que
sean perceptualmente reconocidas como un defecto. La respuesta en frecuencia del SVH puede ser descripta
mediante la funcin CSF (Contrast Sensitivity Function), y equivale a un filtro pasabanda para frecuencias en
Terahertz. La baja sensibilidad del SVH a las frecuencias espaciales altas se utiliza para descartar informacin
espacial en codecs de video con prdidas (MPEG) y debe ser incorporada al bloque de anlisis perceptual.
La salida, luego de procesar las seales de referencia y bajo test, depende de los algoritmos utilizados para
componer el resultado. El mismo puede ser un nmero escalar equivalente al MOS, una matriz bidimensional
con el mapeado de los diferentes errores espaciales y otros indicadores de calidad. En particular, cuando se
entreguen resultados que ponderan el procesamiento de una secuencia de video, el modelo de anlisis debe
incorporar indicadores sobre la calidad de percepcin del movimiento de objetos, que pueden ser varios.
Perceptual Evaluation of Video Quality (PEVQ)

La tcnica PEVQ, desarrollada por OPTICOM, forma parte del conjunto de tcnicas de evaluacin de calidad
perceptual normalizadas en la Rec. ITU-T J.247 (2008), para comparaciones FR (pantalla completa). Como el
resto de las tcnicas de J.247, es un sistema de medicin extremo-extremo que integra la fuente del video, la
red de telecomunicaciones y el receptor. Estima un ndice MOS (Mean Opinion Score) de 5 puntos, similar al
utilizado en mediciones subjetivas que requieren de una audiencia, el cual mide el impacto perceptual de las
distorsiones del codificador, la red de transmisin (RF, IP, etc.) y el decodificador en el terminal de usuario.
PEVQ compara los pixels, luego de sincronizar espacial y temporalmente las dos seales, con ponderaciones
basadas en aspectos perceptuales del SVH. Adems del ndice estimado MOS, PEVQ detecta deficiencias en
la seal de video y las cuantifica paramtricamente, entregando diversos KPI (Key Performance Indicators).
Luego de sincronizar ambas seales, el sistema PEVQ calcula la diferencia perceptual entre ambas y procesa
solamente aquellas que no son enmascarables por algn mecanismo del SVH. La velocidad del movimiento de
los objetos en las escenas son parametrizadas para su empleo en la percepcin visual, ya que el SVH detecta
los detalles con mayor agudeza en escenas con objetos en movimiento lento, trama tras trama, respecto de las
escenas en las que el movimiento de los objetos es muy rpido, lo cual es un hecho en la percepcin del SVH.
Una vez recolectados los indicadores generados en la segunda etapa, durante el tiempo de duracin del video,
el siguiente bloque clasifica todos los KPI calculados y detecta ciertas clases de distorsiones. Los resultados se
procesan en la etapa final para generar un MOS equivalente a una comparacin subjetiva, ms un conjunto de
indicadores que integran los efectos de las redes de transmisin (QoS en redes IP) y degradaciones causadas
por los procesos de codificacin y decodificacin, lo que permite profundizar en los orgenes de los problemas.
12.10 Conclusiones
La codificacin digital de la media video representa un camino evolucionario, alcanzados los lmites naturales
para grabacin y reproduccin de seales de video en formatos analgicos. Esto cubre desde seales
elementales para pequeos terminales multimedia hasta seales de ultra alta definicin en pelculas de cine.
Los avances en la digitalizacin de seales de TV, con la adopcin masiva del standart MPEG-2 para la TV por
cable, terrestre y satelital, posibilit aumentar cinco a seis veces el aprovechamiento del ancho de banda
utilizado por una seal PAL NTSC (6 Mhz), reemplazadas por canales MPEG-2 con calidad DVD.
La TV codificada bajo MPEG-2 se aplic en la distribucin de las seales sobre enlaces satelitales, a mediados
de los aos '90, y luego en redes de TV digital por cable, con criptografa y seguridad de acceso, con
arquitecturas integrales como DVB (Europa) y otras. A la par de la rpida adopcin de la TV Digital, la
introduccin de diferentes tecnologas de pantallas planas confiables y econmicas para receptores de TV
permiti abandonar los receptores basados en la tecnologa de TRC (Tubos de Rayos Catdicos), que haba
alcanzado lmites fsicos y tecnolgicos con las pantallas de 29" de TV color (con pesos de ms de 60 Kg.).
Una vez iniciada la adopcin masiva de terminales planas, las tecnologas evolucionaron rapidamente hacia
mayores dimensiones, de hasta 80" actualmente, debiendo adecuarse la resolucin de la seal de video a las
superficies de presentacin, en una interdependencia con standares SDTV, HDTV, 4KTV y futuros.
833

IPTV CODECs

Hochgeladen von

Dokumentinformationen

Originaltitel

Copyright

Verfügbare Formate

Dieses Dokument teilen

Dokument teilen oder einbetten

Freigabeoptionen

Stufen Sie dieses Dokument als nützlich ein?

Sind diese Inhalte unangemessen?

Copyright:

Verfügbare Formate

IPTV CODECs

Hochgeladen von

Copyright:

Verfügbare Formate

12 IPTV, Codecs de Video y Mediciones de Calidad

12.1 Servicios de TV por Subscripcin

12. IPTV, Codecs de Video y Mediciones de Calidad

12.1.1 Servicios de Video OTT

12. IPTV, Codecs de Video y Mediciones de Calidad

12.1.2 Conceptos Bsicos de IPTV

12. IPTV, Codecs de Video y Mediciones de Calidad

12. IPTV, Codecs de Video y Mediciones de Calidad

12.2 Arquitectura de una red Triple Play con IPTV.

12. IPTV, Codecs de Video y Mediciones de Calidad

12. IPTV, Codecs de Video y Mediciones de Calidad

12.2.2 Protocolos en Arquitectura IPTV no-NGN

12. IPTV, Codecs de Video y Mediciones de Calidad

12. IPTV, Codecs de Video y Mediciones de Calidad

12. IPTV, Codecs de Video y Mediciones de Calidad

12. IPTV, Codecs de Video y Mediciones de Calidad

12.2.3 IPTV en Redes NGN e IMS

12. IPTV, Codecs de Video y Mediciones de Calidad

Figura 12.4: Arquitectura Funcional de IMS IPTV.

12. IPTV, Codecs de Video y Mediciones de Calidad

Prestaciones Tpicas de Servers para IPTV

Video Streaming MPEG-2, MPEG-4 y H.264, para SD y HD.

Soporte a la redistribucin de streaming entre diferentes servers en el borde de la red IPTV.

Soporte a Servicios Multicast.

Gestin remota sobre interfaces WEB.

Soporte para grabaciones Time-Shift TV, basadas en la red IPTV.

Soporte al streaming de Flash Player.

Soporte al streaming sobre UDP y sobre TCP.

Encriptado de Streams para programas Premium y Autenticacin de Usuarios.

La modularidad de las prestaciones permite el diseo econmico de servicios de hospitalidad, en diferentes

12. IPTV, Codecs de Video y Mediciones de Calidad

12.3 Evolucin de Codecs de Video ITU-T e ISO

Figura 12.5: Standares Internacionales de Codificacin de Video.

12. IPTV, Codecs de Video y Mediciones de Calidad

12.3.3 ITU-T H.261: Codec de Video para Servicios Audiovisuales a N x 64 Kbps

12. IPTV, Codecs de Video y Mediciones de Calidad

Figura 12.7: Codificador Hbrido H.261 (DCT/DPCM).

12.3.4 ITU-T H.262 (MPEG-2 Parte 2, ISO 13818-2)

12. IPTV, Codecs de Video y Mediciones de Calidad

MODO Syntax-based Arithmetic Coding (Anexo E, 1995): Reemplaza la codificacin VLC.

12. IPTV, Codecs de Video y Mediciones de Calidad

Tabla 12.8: Niveles de Operacin en H.263.

Tabla 12.9: Descripciones de Perfiles H.263 y Aplicaciones (Ao 2001).

Tabla 12.10: Relaciones de Aspecto en en Pixels de Formatos Propietarios H.263.

12. IPTV, Codecs de Video y Mediciones de Calidad

12.4 Standares ISO/IEC MPEG

12.4.1 Aplicaciones de MPEG-2 Parte 2 y MPEG-4 Parte 2 y Parte 10

12. IPTV, Codecs de Video y Mediciones de Calidad

Aplicaciones multimedia en microinformtica (PC, Notebooks, smartphones, etc.)

Sistemas interactivos de entretenimiento para el hogar (Home Theater), incluyendo PVR.

Comunicaciones interpersonales fijas y mviles (videoconferencia, mail multimedia, etc.).

Cine electrnico (EC).

Audio digital, terrestre y satelital (radio).

Figura 12.12: Resolucin de Pantallas en Normas DVB y ATSC.

12. IPTV, Codecs de Video y Mediciones de Calidad

Algunas velocidades y resoluciones MPEG-2 utilizadas en la prctica son:

1.5 Mbps: Pelculas con calidad VHS, y resolucin 352 x 280i.

12 - 20 Mbps: HDTV con resolucin 1280 x 720p.

12.5 MPEG-1 (ISO/IEC 11172): Codificacin para Almacenamiento en Medios Digitales.

12.6 MPEG-2 (ISO/IEC 13818)

Figura 12.13: Multiplexacin de Flujos de Audio y Video en MPEG-2.

12. IPTV, Codecs de Video y Mediciones de Calidad

La Parte 1 describe, adems, multiplexiones para mltiples programas concurrentes, sincronismo y